Edit model card

Model Card for Model ID

This model is a fine-tuned version of XLM-R Large. It is trained to classify common disinformation narratives, a task that is important to automated fact-checking. It was trained in a weakly-supervised fashion using GPT-4o. The datasets are German, however, the underlying model is multilingual. It was not tested how the model performs in other languages. For testing a sample of fact-checks from German fact-checking organizations was inspected and if the checked claim supported one of the narratives, the social media posts with the original text were extracted.

Model Details

Disinformation often follows a set of common narratives, such as "All immigrants are criminals". Fact-checkers from different German organizations provided a list of narratives that they commonly encounter. The trained model is able to recognize if a given text supports one of these narratives.

Bias, Risks, and Limitations

[More Information Needed]

How to Get Started with the Model

Use the code below to get started with the model.

from transformers import pipeline

texts = [
     'Wer Klimaschutz sagt muss Bäume pflanzen und nicht für Windräder ganze Wälder roden!',
   'Deutschland produziert nur 0,000028 Prozent des weltweiten Kohlendioxids (CO₂) in der Luft.',
   'Liebe IMBFLINGE habt ihr euch schon die FRAGE gestellt wieso ihr KEIN BLUT mehr spenden dürft ???',
   'Für diejenigen die meinen das die aktuellen Temperaturen etwas ungewöhnliches wären. Das war vor 44 Jahren !',
   'Nach Angaben der Bundesanstalt für Arbeit sind 52,8 Prozent der Bürgergeldempfänger deutsche Staatsangehörige.',
   'Windräder zerstören die Landschaft und den Wald. Der Wald nimmt mehr Co2 auf , als ein Windrad einsparen soll.',
   'A law should be made immediately that tenants cannot be kicked out of their apartments for taking in migrants.',
   'nicht zu Lasten der Umwelt... seit wann kümmern die Grünen wieder die Umwelt? Roden ganze Wälder für Windräder.',
   'Der Stimmzettel ist ungültig, weil die obere Ecke abgeschnitten ist und die Urne sei nicht ausreichend versiegelt.',
   'Zwei der wichtigsten Maßnahmen zum Infektionsschutz sind: Abstand halten und Maske tragen. Deren Wirksamkeit ist mehrfach bewiesen worden.',
   'Stimmzettel, die gelocht oder deren Ecken beschädigt sind, sind ungültig. Ausweise werden ungültig gemacht, indem man die Ecken abschneidet. ',
   'Amerikanisches Rotes Kreuz: Geimpfte Menschen können kein Blut spenden, weil der Impfstoff ihre natürlichen Antikörper vollständig zerstört...',
   'Es gibt keinen wissenschaftlichen Nachweis dafür, dass Mobilfunkstrahlung unterhalb der geltenden Grenzwerte Menschen gesundheitlich schädigt. ',
   '5G beziehungsweise Mobilfunkstrahlung generell schadet der Gesundheit oder ist noch nicht genügend erforscht, um solchen Schaden auszuschließen.',
   'Baerbock sprach sich nicht für die Abschaffung von Bargeld aus, sondern für ein Verbot von Bargeldkäufen in großem Maßstab - etwa von Immobilien.',
   'Um das Land vor der globalen Erwärmung zu retten, hat Schottland gerade 14 Millionen Bäume abgeholzt, um Platz für 21 Windkraftanlagen zu schaffen. ',
   'Ségolène Royal hat gesagt, Wolodymyr Selenskyj ist ein Lügner und die „Geschichten“ über die Entbindungsstation in Mariupol und Butscha sind „falsch“. ',
   'Übrigens, abgesehen vom falsch gefalteten Wahlschein ist auch die Wahlurne nicht richtig zu... Damit müsste die Urne entleert und als ungültig erklärt werden...']

checkpoint = "Sami92/XLM-R-Large-Disinfo-Narrative-Classifier"
tokenizer_kwargs = {'padding':True,'truncation':True,'max_length':512}
narrative_classification = pipeline("text-classification", model = checkpoint, tokenizer =checkpoint, **tokenizer_kwargs, device="cuda")
narrative_classification(texts)

Training Details

Training Data

The training dataset is a combination of two other datasets. First, a synthetically generated dataset for the given disinformation narratives. Second, a weakly-annotated dataset. For the weak annotation Telegram posts were used. The data was taken from Telegram. More specifically a sample from about 200 channels that have been subject to a fact-check from either Correctiv, dpa, Faktenfuchs or AFP. GPT-4o was prompted to identify which of the narratives is supported by the post if it supports any at all. The exact prompt can be found here.

Training Hyperparameters

  • Epochs: 10
  • Batch size: 16
  • learning_rate: 2e-5
  • weight_decay: 0.01
  • fp16: True

Evaluation

Testing Data

The test data consists of texts from social media posts that were linked in articles from German fact-checking organizations. In other words, the texts are claims that have been fact-checked. They were selected if they supported one of the disinformation narratives. Due to the aim of selecting naturally occurring claims, the dataset is imbalanced and not all classes are included.

Results

Category Precision Recall F1-Score Support
5G verursacht Krankheiten für Menschen und Tiere. 1.00 0.83 0.91 6
Ausländer sind krimineller als Deutsche, werden geringer bestraft und begehen mehr Straftaten, und das wird uns verheimlicht. 1.00 0.67 0.80 3
Ausländer und Migranten bekommen mehr Leistungen oder Wohnungen vom Staat als Deutsche. 1.00 1.00 1.00 9
Bargeld soll abgeschafft werden. 0.67 1.00 0.80 2
Das Wetter war früher überhaupt nicht anders und Naturphänomene wie Vulkanausbrüche sind schuld am Klimawandel. 1.00 1.00 1.00 7
Der Anteil des Menschen an den Treibhausgasen ist nur gering und die Wahrheit über den Klimawandel wird verheimlicht. 1.00 1.00 1.00 7
Der WHO-Pandemievertrag hebt die Souveränität von Staaten auf und führt zu einer WHO-Diktatur. 1.00 1.00 1.00 1
Der Westen hat ein Friedensabkommen zwischen Russland und der Ukraine verhindert. 0.00 0.00 0.00 0
Deutschland wird von Faschisten regiert. 1.00 1.00 1.00 1
Die Covid-19-Impfung ist nicht ausreichend erforscht und verursacht Nebenwirkungen. 0.91 0.83 0.87 12
Die Regierung will gezielt Migranten ins Land holen und schickt Geld ins Ausland während unsere Leute leiden. 0.67 1.00 0.80 2
Die Stimmzettel, Urnen und Briefwahl sind manipuliert und Wahlhelfer lassen Stimmen verschwinden. 1.00 1.00 1.00 16
Die Wahrheit über die Corona-Maßnahmen, Todesopfer und Covid-Impfung wird verheimlicht. 0.75 1.00 0.86 3
E-Mobilität ist schlechter für die Umwelt als Verbrenner Autos. 1.00 1.00 1.00 2
Gewisse Lebensmittel, Leitungswasser oder Gentechnik sind gesundheitsschädlich und machen unfruchtbar. 1.00 1.00 1.00 10
Hilfsgüter an die Ukraine werden in Wahrheit weggeworfen oder zerstört. 1.00 1.00 1.00 3
Keins der Narrative trifft zu. 0.00 0.00 0.00 0
Selensky ist korrupt und drogenabhängig und die Ukraine wird von Nazis regiert. 1.00 0.33 0.50 3
Windräder töten hunderttausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet. 1.00 1.00 1.00 9
Accuracy 0.94 96
Macro avg 0.84 0.82 0.82 96
Weighted avg 0.97 0.94 0.94 96
Downloads last month
215
Safetensors
Model size
560M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.