File size: 49,915 Bytes
75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 506bc27 75a1f07 3b2704e 75a1f07 0899c42 75a1f07 0899c42 75a1f07 0899c42 75a1f07 0899c42 75a1f07 426f593 75a1f07 426f593 75a1f07 426f593 75a1f07 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 |
---
base_model: intfloat/multilingual-e5-large-instruct
license: cc-by-4.0
language:
- de
library_name: sentence-transformers
metrics:
- cosine_accuracy
- cosine_accuracy_threshold
- cosine_f1
- cosine_f1_threshold
- cosine_precision
- cosine_recall
- cosine_ap
- dot_accuracy
- dot_accuracy_threshold
- dot_f1
- dot_f1_threshold
- dot_precision
- dot_recall
- dot_ap
- manhattan_accuracy
- manhattan_accuracy_threshold
- manhattan_f1
- manhattan_f1_threshold
- manhattan_precision
- manhattan_recall
- manhattan_ap
- euclidean_accuracy
- euclidean_accuracy_threshold
- euclidean_f1
- euclidean_f1_threshold
- euclidean_precision
- euclidean_recall
- euclidean_ap
- max_accuracy
- max_accuracy_threshold
- max_f1
- max_f1_threshold
- max_precision
- max_recall
- max_ap
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:51106
- loss:AnglELoss
widget:
- source_sentence: >-
Instruct: Retrieve semantically similar text.
Query: Medwedew über die Entsendung von NATO-Truppen in die Ukraine: „Die
Entsendung von NATO-Truppen auf das Territorium der Ukraine wird den
direkten Eintritt dieser Länder in den Krieg bedeuten, worauf wir (Russland)
mit (...) reagieren müssen. Es wird eine Weltkatastrophe werden.“
sentences:
- >-
Dipl.-Pol. Udo Walendy (1927-2022) spricht klare Worte über die
machtpolitischen Hintergründe der gegen Deutschland gerichteten
Greuelpropaganda und Geschichtsfälschung... Anmerkung: In dem konkreten Fall
verbreitete Kohl (alias Henoch Kohn) die Mär vom Zigeuner-Massenmord.
Während Walendy noch ungestraft nachfragen konnte, woher denn die
angeblichen Opferzahlen stammten, hat man ja bspw. Ursula Haverbeck direkt
vor Gericht gezerrt... Der Unterschied war bloß: Es waren ein paar
Jahrzehnte dazwischen. Die Geschichtslügen wurden ja zwischenzeitlich
strafrechtlich abgesichert und quasi manifestiert. (§130) Beachtenswert ist
natürlich der Umstand, daß vermeintlich "deutsche" Politiker von Brandt bis
Scholz diese (Sieger-Propaganda-) Lügen gebetsmühlenartig wiederholen...
EIGENE Politiker?!... MITNICHTEN!
- >-
Der Pharmamafia !!! Um Umsatz und Gewinne für die Zunkunft nicht nur zu
sichern, sondern exorbitant zu steigern, gilt es alle gesunden Kinder
weltweit, direkt nach der Geburt krank zu spritzen. ‼ HIER WIR IMPFEN NICHT
! Dokumentarfilm ‼ Denn Impfen wirkt, nur halt anders als behauptet. Ganz
wichtig ist dabei ist es nach Möglichkeit die Spritzen zur allgemeinen
Pflicht zu erklären, denn nur so können die verhindern, daß dieses
abschäuliche Treiben, wegen einer ungeimpften Kontrollgruppe,
augenscheinlich ist. <URL> <URL>
- >-
UPDATE Nach Angaben des Militärministeriums werden Einheiten des südlichen
Militärbezirks, der Luftstreitkräfte und der Marine an den Übungen
teilnehmen. Der Zweck der Übungen wird als Reaktion auf Provokationen und
Bedrohungen durch westliche Länder bezeichnet. Das bedeutet, dass der
südliche Militärbezirk, der ziemlich direkt an der Spezialoperation
beteiligt ist, umfassende Übungen zum Einsatz taktischer Atomwaffen als
Reaktion auf bestimmte Pläne westlicher Länder durchführen wird. Damit sind
natürlich die kürzlich geäußerten Überlegungen zur Entsendung von
NATO-Truppen in die Ukraine gemeint. Diese Aussage ist eine ernstzunehmende
Steigerung sowohl dessen, was offiziell rhetorisch akzeptabel ist, als auch
dessen, was bei den Übungen demonstriert wird. Ebenso wie das, was während
dieser Übungen praktiziert wird. Quelle: 136 BRIGADE Abonniere: Übersicht
Ukraine ©Ansichten der Kanalbetreiber
- source_sentence: >-
Instruct: Retrieve semantically similar text.
Query: Die 1,5h Rede (statt 15min) von Muammar Al Gaddafi bei der
vollbesetzten Generalversammlung der UNO 23.09.2009 - Deutsch Diese
hochbrisante Rede war Gaddafis Todesurteil. 01:18:00 - 01:20:11 interessant!
Gaddafis gelöschte Reden <URL> t.me/swd_hardcore
sentences:
- >-
"Lasst uns die aufgeflogenen frechen Mörder ans Licht reißen und deren
Schandtaten ins Bewusstsein der Völker einhämmern. So lange, bis entweder
die Justiz sie ahndet – und zwar bis zur obersten Etage – oder bis sich
Millionen ehrwürdige Volksgenossen versammeln, um Tribunale auszurufen, die
dann legal, in echt abrechnen mit diesen Schwerstverbrechern." Laden Sie
diese Videos auf Ihre Social-Media-Kanäle wie TikTok, Facebook, YouTube, VK,
Odysee, Telegram ... Video in voller Länge: <URL> - Folge uns auf Telegram!
- >-
Профессор Соловей заявил, что Джо Байден умер и был заменен двойником,
контролируемым руководством Секретной службы США. На это указывает ряд
внешних признаков. Тело настоящего президента США помещено в холодильник
бункера под Белым домом до президентских выборов.
- >-
Foreign Minister Sergey Lavrov and Foreign Minister of Tajikistan Sirojiddin
Muhriddin hold talks on the sidelines of the Third Antalya Diplomacy Forum
Antalya, March 2, 2024
- source_sentence: >-
Instruct: Retrieve semantically similar text.
Query: Und so ist es auch heute noch! Im großen wie im kleinen. Das was man
selber macht, wird der Gegenseite angelastet und zugeschrieben. Danke an die
wunderbare Seele für diese ans Licht bringenden Worte
sentences:
- >-
Die NATO sind Faschisten In Belgrad findet am 25. Jahrestag des Beginns der
Bombardierung Jugoslawiens eine Aktion statt, deren Teilnehmer ein Ende der
Zusammenarbeit mit dem Nordatlantischen Bündnis fordern. Während des
Marsches skandieren sie: „Die NATO sind Faschisten.“ Russländer & Friends
- >-
Übersterblichkeit in Deutschland. Eine der schlimmsten Konsequenzen der
Verbrechen der letzten Jahre. Wer angesichts solcher Katastrophen – ohne
dass überhaupt irgendeine juristische Aufarbeitung stattgefunden hat – von
„Versöhnung“ mit den Täterkreisen spricht, der sollte besser nie mehr
öffentlich das Wort ergreifen. Diese Täterkreise sind bis heute dafür
verantwortlich, dass die Existenz von Kritikern der Verbrechen der letzten
Jahre bis auf den heutigen Tag zerstört wird. Der Bevölkerung wird der
Zugang zum Recht verweigert, womit diese Täterkreise geschützt werden. Aber
jetzt soll mit diesen Täterkreisen wegen einem Datenleak die „Versöhnung“
gesucht werden? Was wir von solchen Äußerungen halten, mit denen alle Opfer
förmlich für dumm verkauft werden sollen, das kann kaum noch sachlich
formuliert werden.
- >-
Von ganzem Herzen ein riesen großes Dankeschön. Lasst uns weiterhin
gemeinsam Aufklären und die Menschen über Hintergründe informieren. Das geht
aber nur mit euch und eurer Hilfe, Zuversicht und Schöpferkraft. Wahrheit
macht frei und Freiheit macht wahr <URL> Denk selbst und informiere Dich
- source_sentence: >-
Instruct: Retrieve semantically similar text.
Query: Es ist und bleibt eine unfassbare BARBAREI! Aber wo sind auf einmal
all die Tierliebhaber? Traut sich wieder keiner dazu was zu sagen? Oder ist
es in diesem Fall akzeptabel? Ist das Blut der geschächteten Tiere „bunt“
und „weltoffen“ genug? Es widert mich so dermaßen an. Ich gedenke all der
unschuldigen Wesen, die brutal gefoltert und abgeschlachtet werden. So etwas
kann und darf niemals zu einer zivilisierten Gesellschaft gehören und dürfte
nirgendwo auf der Welt akzeptiert werden! Tim K.
sentences:
- >-
EU-Botschafter ignorieren geschlossene eine Gesprächseinladung von Lawrow
Hier den Artikel lesen Das russische Außenministerium hat die Botschafter
der EU-Staaten zu einem Gespräch mit Außenminister Lawrow eingeladen, aber
die EU-Botschafter haben ihre Teilnahme geschlossen abgesagt. Russland
spricht davon, das werde "schreckliche Konsequenzen" haben. • Thomas Röper
- >-
"Schließlich können wir auch gerade jetzt bei den Demonstrationen
feststellen, dass auch Demokratien manchmal Merkmale des Totalitarismus
haben können.“ Das ist mal ein interessanter Artikel <URL> Hier findest Du
wie gewohnt alle Themen rund um die grosse Agenda, m auf dem Laufenden zu
bleiben: <URL> Und hier findest du alles zum Thema geistige und körperliche
Gesundheit, und um spirituelles Wachstum: <URL> Und ganz neu: !!!! Für
unsere französischsprachigen Freunde findet Ihr hier unseren französischen
Gesundheitskanal. Pour nos amis francophones, rendez-vous sur notre chaîne
santé française ici <URL>
- >-
Dem ist nichts hinzuzufügen, außer, dass man den Hannibal für seine
Verbrechen bestraft hat. Und die anderen zwangsfinanziert werden. Merkste
was? Wahrheit macht frei und Freiheit macht wahr <URL> Denk selbst und
informiere Dich
- source_sentence: >-
Instruct: Retrieve semantically similar text.
Query: Die Pentagon-Mitarbeiter wechseln zum Überstundenmodus Internetnutzer
stellten fest, dass es in der Gegend, in der sich die Abteilung befindet,
einen starken Anstieg der Bestellungen für Pizzalieferungen gab und
gleichzeitig die örtlichen Bars leer waren. Zuletzt geschah dies im April,
kurz vor und nach dem iranischen Angriff auf Israel. Dann bemerkte The Sun
die hohe Auslastung der Pizzerien von Papa Johns mit Bestellungen vom
Pentagon. Unsere Website <URL> Unser Kanal auf Englisch <URL>
sentences:
- >-
Das hatte ich auch schon mal geschrieben. Ich war zuerst so wütend, dass
Russland ausgeschlossen wurde. Aber nach der ekelhaften Eröffnung war ich
dankbar dafür. Dieses kotztheater, was da abgeht, ist diesem stolzen Land
nicht zumutbar und nicht würdig
- >-
Heute sind offensichtlich ältere Flugzeuge am Himmel die entweder Turbinen
Probleme haben oder schon elektrisch Fliegen... Die ganzen Lügen sind sooo
offensichtlich das es schon weh tut sie bewusst zu ignorieren bzw nicht zu
erkennen... Ihr wollt die Wahrheit <URL>
- >-
Erinnern Sie sich an meinen Beitrag von vorhin über die massiven
Cyberausfälle. Verbinden Sie das alles mit dem, was wir seit „Shot Heard
Round the World“ am Samstag gesagt haben. BQQM BQQM BQQM BQQM 1776 1776
BRICS
model-index:
- name: SentenceTransformer based on intfloat/multilingual-e5-large-instruct
results:
- task:
type: binary-classification
name: Binary Classification
dataset:
name: FineTuned 8
type: FineTuned_8
metrics:
- type: cosine_accuracy
value: 0.9758104058839553
name: Cosine Accuracy
- type: cosine_accuracy_threshold
value: 0.9067002534866333
name: Cosine Accuracy Threshold
- type: cosine_f1
value: 0.48869752421959095
name: Cosine F1
- type: cosine_f1_threshold
value: 0.9034577012062073
name: Cosine F1 Threshold
- type: cosine_precision
value: 0.6735905044510386
name: Cosine Precision
- type: cosine_recall
value: 0.38344594594594594
name: Cosine Recall
- type: cosine_ap
value: 0.5012063718756087
name: Cosine Ap
- type: dot_accuracy
value: 0.9758104058839553
name: Dot Accuracy
- type: dot_accuracy_threshold
value: 0.9067002534866333
name: Dot Accuracy Threshold
- type: dot_f1
value: 0.48869752421959095
name: Dot F1
- type: dot_f1_threshold
value: 0.903457760810852
name: Dot F1 Threshold
- type: dot_precision
value: 0.6735905044510386
name: Dot Precision
- type: dot_recall
value: 0.38344594594594594
name: Dot Recall
- type: dot_ap
value: 0.501205944378431
name: Dot Ap
- type: manhattan_accuracy
value: 0.9749931898665214
name: Manhattan Accuracy
- type: manhattan_accuracy_threshold
value: 11.01162338256836
name: Manhattan Accuracy Threshold
- type: manhattan_f1
value: 0.4920802534318901
name: Manhattan F1
- type: manhattan_f1_threshold
value: 11.218721389770508
name: Manhattan F1 Threshold
- type: manhattan_precision
value: 0.6563380281690141
name: Manhattan Precision
- type: manhattan_recall
value: 0.3935810810810811
name: Manhattan Recall
- type: manhattan_ap
value: 0.49364856616931857
name: Manhattan Ap
- type: euclidean_accuracy
value: 0.9758104058839553
name: Euclidean Accuracy
- type: euclidean_accuracy_threshold
value: 0.4319716691970825
name: Euclidean Accuracy Threshold
- type: euclidean_f1
value: 0.48869752421959095
name: Euclidean F1
- type: euclidean_f1_threshold
value: 0.439413845539093
name: Euclidean F1 Threshold
- type: euclidean_precision
value: 0.6735905044510386
name: Euclidean Precision
- type: euclidean_recall
value: 0.38344594594594594
name: Euclidean Recall
- type: euclidean_ap
value: 0.5012064992979081
name: Euclidean Ap
- type: max_accuracy
value: 0.9758104058839553
name: Max Accuracy
- type: max_accuracy_threshold
value: 11.01162338256836
name: Max Accuracy Threshold
- type: max_f1
value: 0.4920802534318901
name: Max F1
- type: max_f1_threshold
value: 11.218721389770508
name: Max F1 Threshold
- type: max_precision
value: 0.6735905044510386
name: Max Precision
- type: max_recall
value: 0.3935810810810811
name: Max Recall
- type: max_ap
value: 0.5012064992979081
name: Max Ap
---
# SentenceTransformer based on intfloat/multilingual-e5-large-instruct
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large-instruct](https://huggingface.co./intfloat/multilingual-e5-large-instruct). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for claim matching. Claim matching is the task of finding semantically identical texts for a given query-text. It finds application in the context of automated fact-checking for which it is important to identify copies of the same (misinformation) claim or previously checked claims.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [intfloat/multilingual-e5-large-instruct](https://huggingface.co./intfloat/multilingual-e5-large-instruct) <!-- at revision baa7be480a7de1539afce709c8f13f833a510e0a -->
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 1024 tokens
- **Similarity Function:** Cosine Similarity
<!-- - **Training Dataset:** Unknown -->
<!-- - **Language:** Unknown -->
<!-- - **License:** Unknown -->
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co./models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
def embed_query(texts:list, model):
return model.encode(sentences=texts,
prompt="Instruct: Retrieve semantically similar text.\nQuery: ",
batch_size=32,
show_progress_bar=True,
normalize_embeddings=False,
convert_to_numpy=True,
device="cuda")
def embed_documents(texts:list, model):
return model.encode(sentences=texts,
batch_size=1024,
show_progress_bar=True,
normalize_embeddings=False,
convert_to_numpy=True,
device="cuda")
# Download from the 🤗 Hub
model = SentenceTransformer("Sami92/multiling-e5-large-instruct-claim-matching")
# Run inference
queries = ['Die Pentagon-Mitarbeiter wechseln zum Überstundenmodus Internetnutzer stellten fest, dass es in der Gegend, in der sich die Abteilung befindet, einen starken Anstieg der Bestellungen für Pizzalieferungen gab und gleichzeitig die örtlichen Bars leer waren. Zuletzt geschah dies im April, kurz vor und nach dem iranischen Angriff auf Israel. Dann bemerkte The Sun die hohe Auslastung der Pizzerien von Papa Johns mit Bestellungen vom Pentagon. Unsere Website <URL> Unser Kanal auf Englisch <URL>',]
documents = [
'Erinnern Sie sich an meinen Beitrag von vorhin über die massiven Cyberausfälle. Verbinden Sie das alles mit dem, was wir seit „Shot Heard Round the World“ am Samstag gesagt haben. BQQM BQQM BQQM BQQM 1776 1776 BRICS',
'Heute sind offensichtlich ältere Flugzeuge am Himmel die entweder Turbinen Probleme haben oder schon elektrisch Fliegen... Die ganzen Lügen sind sooo offensichtlich das es schon weh tut sie bewusst zu ignorieren bzw nicht zu erkennen... Ihr wollt die Wahrheit <URL>',
]
query_embeddings = embed_documents(texts=queries, model=model)
doc_embeddings = embed_query(texts=documents, model=model)
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, doc_embeddings)
```
<!--
### Direct Usage (Transformers)
<details><summary>Click to see the direct usage in Transformers</summary>
</details>
-->
<!--
### Downstream Usage (Sentence Transformers)
You can finetune this model on your own dataset.
<details><summary>Click to expand</summary>
</details>
-->
<!--
### Out-of-Scope Use
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->
## Evaluation
### Metrics
#### Binary Classification
* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
| Metric | Value |
|:-----------------------------|:-----------|
| cosine_accuracy | 0.9758 |
| cosine_accuracy_threshold | 0.9067 |
| cosine_f1 | 0.4887 |
| cosine_f1_threshold | 0.9035 |
| cosine_precision | 0.6736 |
| cosine_recall | 0.3834 |
| cosine_ap | 0.5012 |
| dot_accuracy | 0.9758 |
| dot_accuracy_threshold | 0.9067 |
| dot_f1 | 0.4887 |
| dot_f1_threshold | 0.9035 |
| dot_precision | 0.6736 |
| dot_recall | 0.3834 |
| dot_ap | 0.5012 |
| manhattan_accuracy | 0.975 |
| manhattan_accuracy_threshold | 11.0116 |
| manhattan_f1 | 0.4921 |
| manhattan_f1_threshold | 11.2187 |
| manhattan_precision | 0.6563 |
| manhattan_recall | 0.3936 |
| manhattan_ap | 0.4936 |
| euclidean_accuracy | 0.9758 |
| euclidean_accuracy_threshold | 0.432 |
| euclidean_f1 | 0.4887 |
| euclidean_f1_threshold | 0.4394 |
| euclidean_precision | 0.6736 |
| euclidean_recall | 0.3834 |
| euclidean_ap | 0.5012 |
| max_accuracy | 0.9758 |
| max_accuracy_threshold | 11.0116 |
| max_f1 | 0.4921 |
| max_f1_threshold | 11.2187 |
| max_precision | 0.6736 |
| max_recall | 0.3936 |
| **max_ap** | **0.5012** |
The following figure depicts f1, recall, and precision on the test data for different thresholds.
![](./threshold_scores.jpg)
The following figure depicts how well matches and mismatches in the test data are separated by the model. For results with a minimum of false positives, a threshold higher than 0.91 is recommended. For the optimal F1 score, the right treshold is 0.9050.
![](./similarity_histogram.jpg)
<!--
## Bias, Risks and Limitations
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->
<!--
### Recommendations
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->
## Training Details
### Training Dataset
The model was trained on a weakly annotated dataset. The data was taken from Telegram. More specifically from a set of about 200 channels that have been subject to a fact-check from either Correctiv, dpa, Faktenfuchs or AFP.
Weak annotation was performed using GPT-4o. The model was prompted to find semantically identical posts using this [prompt](https://huggingface.co./Sami92/multiling-e5-large-instruct-claim-matching/blob/main/prompt.txt). For non-matches the cosine similarity was reduced by 1.2 for training and for matches it was frozen to 0.98.
#### Unnamed Dataset
* Size: 51,106 training samples
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | score |
|:--------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:----------------------------------------------------------------|
| type | string | string | float |
| details | <ul><li>min: 41 tokens</li><li>mean: 154.84 tokens</li><li>max: 322 tokens</li></ul> | <ul><li>min: 32 tokens</li><li>mean: 133.5 tokens</li><li>max: 339 tokens</li></ul> | <ul><li>min: -1.65</li><li>mean: nan</li><li>max: 1.0</li></ul> |
* Samples:
| sentence1 | sentence2 | score |
|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------|
| <code>Instruct: Retrieve semantically similar text.<br>Query: AfD-Chefin Weidel verurteilt Verbot von COMPACT-Magazin NICHT (!) Was ist das für eine Stellungnahme? Der Angriff auf COMPACT ist ein Frontalangriff auf die Presse- und Meinungsfreiheit in diesem Land. Und muss entschieden verurteilt werden. Doch ausgerechnet AfD-Frontfrau Alice Weidel kommt mit einer handzahmen Alibi-Erklärung daher, spricht von einem „unguten Zeichen“ und will „kritisch begleiten“. Was es jetzt von der Bundestags-AfD braucht, ist parlamentarischer Druck, z.B. mit einer Sondersitzung des Innenausschusses. Faeser muss sich dafür verantworten, COMPACT verboten zu haben. Und dafür braucht es keine Alibi-Erklärungen, sondern knallharte Offensive. Schließlich plakatiert die AfD - ebenso, wie es der COMPACT-Leitspruch war - "Mut zur Wahrheit." Und nicht "Wir kuschen vor Faeser und Haldenwang". Übrigens: Björn Höcke hat das Verbot mit deutlichen Worten scharf verurteilt und geht zum Gegenangriff über. Dieser Mann hat es verstanden. FREIE SACHSEN: Folgt uns! <URL></code> | <code>Paul Klemm: „COMPACT-Verbot ist Anschlag auf den gesamten Widerstand“ Die Journalisten des Compact Magazins betrachten das Verbot ihrer Zeitschrift nicht nur als Attacke gegen sich selbst. Im Gegenteil: Nancy Faeser ziele mit ihrem Versuch auf die gesamte Systemopposition in Deutschland. Das sagt jedenfalls der bisherige TV-Chef von Compact, Paul Klemm, gegenüber AUF1. Die AUF1-Sondersendung „Tag 2 COMPACT-Verbot: So kann es jeden treffen!“ von gestern sehen Sie hier: <URL></code> | <code>-1.518102343739742</code> |
| <code>Instruct: Retrieve semantically similar text.<br>Query: vier Monate vor der allerersten Impfung RKI-Protokoll vom 17. August 2020 - mehr als 4 Monate bevor die erste Impfdosis gespritzt wurde "...wichtiger offener Punkt" RKI-LEAK Pressekonferenz 23.07.2024 🫵 Möge die gesamte Republik mit dem Finger auf Regierungs-Journalisten zeigen! ‼ Karl Lauterbach hat geringes Risiko von Covid absichtlich vor Impfpflicht-Abstimmung nicht kommuniziert Zwei Tage nach erstem Lockdown konnte man Massnahmen schon nicht mehr begründen Komplette Pressekonferenz Österreich: ÖRR berichtet über RKI-Files! "Die Pandemie der Ungeimpften" - Österreich Edition RKI-Files zum Download: Server 1 / Server 2 / Server 3 / Server 4 / Server 5 / Server 6 Danke Bernd Reiser auf telegram auf substack auf youtube auf odyssee auf Twitter .</code> | <code>‼ Corona: Nächste Impf-Lüge von Lauterbach aufgedeckt Gegen den Rat des Robert-Koch-Institutes (RKI) hat Bundesgesundheitsminister Karl Lauterbach (SPD) die Deutschen über die Wirkung der Corona-Impfung in Bezug auf Long Covid belogen. Wie aus den jetzt von der Journalistin Aya Velázquez veröffentlichten E-Mails des RKI hervorgeht, hatte der Experten-Rat keine verläßliche Wirkung der Vakzine gegen Long Covid erkannt. Vielmehr hatte er auf Bitten Lauterbachs, diese These wissenschaftlich zu untermauern, im Juli ausdrücklich davon abgeraten, eine solche Behauptung aufzustellen. Zunächst hieß es noch zurückhaltend, aber eindeutig, »die Evidenzlage ist bislang nicht klar«. Link zum Artikel</code> | <code>0.998</code> |
| <code>Instruct: Retrieve semantically similar text.<br>Query: "Kommunen und Sozialverbände fordern Hilfen für Hitzeschutz Hitzewellen werden durch den Klimawandel immer wahrscheinlicher. Kommunen müssen sich deshalb besser gegen extreme Temperaturen schützen. Es fehlt aber das Geld dafür." ------- Es fehlt mittlerweile das Geld für Hitzeschutz... Quelle</code> | <code>Heute in Großweitzschen: Die Zukunft unserer Kinder sollte nicht von einer wirtschaftlichen Entwicklung abhängig sein. Die Gemeindeverwaltung Großweitzschen planen die Kindertagesstätte ,,Wirbelwind"in Westewitz zu schließen. Wir müssen die kleinen Dorf-Kitas erhalten. Daher braucht es mehr Flexibilität im starren Kita-System und Geld vom Land, um die Dorf-Kitas zu erhalten. So entlasten wir unsere Gemeinden und schaffen es, dass junge Familien aufs Land ziehen. Mehr Infos gibt es auch hier: <URL> Kommt alle heute, den 16.07.2024 in den Versammlungsraum Gallschütz Nr. 13! Gemeinsam versuchen wir diese Entscheidung abzuwenden. Folgt uns bei Telegram, denn wir vernetzen und informieren den Widerstand! Hier geht's zum Kanal: <URL> ₂, ! Übersicht Termine einsenden Ländergruppen Alle Spazis Der Kanal, der den Regierenden und Mitmach-Tätern Beine macht !</code> | <code>-0.5582272769313432</code> |
* Loss: [<code>AnglELoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#angleloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_angle_sim"
}
```
### Evaluation Dataset
Evaluation was performed on a dataset from the same Telegram channels as the training data. Again, GPT-4o was used to identify matching claims. However, for the test data, trained annotators validated the results and mismatches that were classified as matches by GPT-4o were removed. A ratio of 1:30 was chosen. In other words, for 1 match there are 30 mismatches. This is supposed to reflect a realistic scenario in which there are much more posts that are not identical to a query-post.
#### Manually checked Telegram Dataset
* Size: 18,355 evaluation samples
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
* Approximate statistics based on the first 1000 samples:
| | sentence1 | sentence2 | label |
|:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------------------|
| type | string | string | int |
| details | <ul><li>min: 41 tokens</li><li>mean: 129.21 tokens</li><li>max: 391 tokens</li></ul> | <ul><li>min: 30 tokens</li><li>mean: 123.46 tokens</li><li>max: 379 tokens</li></ul> | <ul><li>0: ~96.50%</li><li>1: ~3.50%</li></ul> |
* Samples:
| sentence1 | sentence2 | label |
|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
| <code>Instruct: Retrieve semantically similar text.<br>Query: Дорогие подписчики и гости канала! У человека назначенного президентом России и похожего на Владимира Путина обострилось хроническое заболевание почек. В связи с этим под угрозой планы проведения и посещения "Путиным" мероприятий, и совещаний в ближайшие дни.</code> | <code>Ядерную дубину попова показали на канале Россия 1 Качественная графика , современный дизайн. Да и попов внушительно устрашающий . Подпишись сегодня и узнаешь, что будет завтра В ЧАТ СЮДА🪓</code> | <code>0</code> |
| <code>Instruct: Retrieve semantically similar text.<br>Query: An alle Maskenbefürworter Schaut Euch dieses Video an, und entscheidet selbst wie Ihr mit Eurer Gesundheit umgehen wollt ! Hier wird die CO2 Konzentration unter der Maske gemessen. <URL></code> | <code>Das mit den Masken, sozusagen wie einfach es ist Double hinzustellen und die Leute zu verarschen, zu belügen und zu betrügen, zeigte uns schon Stefan Raab. Wahrheit macht frei und Freiheit macht wahr <URL> Denk selbst und informiere Dich</code> | <code>0</code> |
| <code>Instruct: Retrieve semantically similar text.<br>Query: Elementares Bor in flüssiger und ionischer Form ~ hochdosiert mit 3 mg~ Elementares Bor enthält konzentrierte Mineraltropfen (CMD), ein besonderes Meerwasserkonzentrat mit vollem Spektrum an Mineralstoffen und Spurenelementen. Fast vollständig von Natrium befreit, wird es durch Sonnenenergie natürlich konzentriert und mit zusätzlichem Bor in Form von Natriumborat ergänzt. leicht resorbierbar durch die gelöste, ionische Form Meerwasserkonzentrat aus dem Großen Salzsee in Utah, Vereinigte Staaten ideal dosierbar mit Opti-Dose-Tropfer Besonderheiten des Herstellers Vitals: erfüllt höchste Qualitätsanforderungen (ISO 22000) verwendet hochwertige Rohstoffe Nahrungsergänzungsmittel seit 1988 Die bio-apo lebt die ganzheitliche Philosophie schon seit über 25 Jahren. Elementares Bor empfehle ich dir hier Mit dem Code "vital15" schenken wir dir 15% Rabatt.</code> | <code>Beitrag zu 10 : 05 Ich esse sehr viele Früchte und Zucker , wie meine Grosseltern auch getan haben . Trotzdem hatte Niemand von uns Diabetes . Meine Schwester ist allergisch auf Fruchtzucker und isst auch sonst selten Süsses . Trotzdem hat sie Probleme mit zu hohen Zuckerwerten ! Impfungen und Fertignahrung sind die Hauptursache . Denkt immer daran , dass wir in jedem Bereich angelogen werden . Vitamine wurden auch nie isoliert und diese "Vitaminpräparate" sind Chemie und sehr schädlich , was sich erst Jahre später bemerkbar macht . Übrigens war die Pharmalobby , die schrieb , dass zu wenig Vitamine in Früchte und Gemüse enthalten sei . Damit "Vitaminmittel" überhaupt verkauft werden , muss man ja ein Mangel haben .</code> | <code>0</code> |
* Loss: [<code>AnglELoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#angleloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "pairwise_angle_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_eval_batch_size`: 16
- `gradient_accumulation_steps`: 8
- `learning_rate`: 2e-05
- `num_train_epochs`: 2
- `warmup_ratio`: 0.1
- `fp16`: True
- `push_to_hub`: True
- `hub_model_id`: Sami92/multiling-e5-large-instruct-claim-matching
- `push_to_hub_model_id`: multiling-e5-large-instruct-claim-matching
#### All Hyperparameters
<details><summary>Click to expand</summary>
- `overwrite_output_dir`: False
- `do_predict`: False
- `eval_strategy`: steps
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 8
- `per_device_eval_batch_size`: 16
- `per_gpu_train_batch_size`: None
- `per_gpu_eval_batch_size`: None
- `gradient_accumulation_steps`: 8
- `eval_accumulation_steps`: None
- `learning_rate`: 2e-05
- `weight_decay`: 0.0
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-08
- `max_grad_norm`: 1.0
- `num_train_epochs`: 2
- `max_steps`: -1
- `lr_scheduler_type`: linear
- `lr_scheduler_kwargs`: {}
- `warmup_ratio`: 0.1
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `save_safetensors`: True
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `no_cuda`: False
- `use_cpu`: False
- `use_mps_device`: False
- `seed`: 42
- `data_seed`: None
- `jit_mode_eval`: False
- `use_ipex`: False
- `bf16`: False
- `fp16`: True
- `fp16_opt_level`: O1
- `half_precision_backend`: auto
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: 0
- `ddp_backend`: None
- `tpu_num_cores`: None
- `tpu_metrics_debug`: False
- `debug`: []
- `dataloader_drop_last`: False
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: None
- `past_index`: -1
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: False
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_min_num_params`: 0
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `fsdp_transformer_layer_cls_to_wrap`: None
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch
- `optim_args`: None
- `adafactor`: False
- `group_by_length`: False
- `length_column_name`: length
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `use_legacy_prediction_loop`: False
- `push_to_hub`: True
- `resume_from_checkpoint`: None
- `hub_model_id`: Sami92/multiling-e5-large-instruct-claim-matching
- `hub_strategy`: every_save
- `hub_private_repo`: False
- `hub_always_push`: False
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_inputs_for_metrics`: False
- `eval_do_concat_batches`: True
- `fp16_backend`: auto
- `push_to_hub_model_id`: multiling-e5-large-instruct-claim-matching
- `push_to_hub_organization`: None
- `mp_parameters`:
- `auto_find_batch_size`: False
- `full_determinism`: False
- `torchdynamo`: None
- `ray_scope`: last
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `dispatch_batches`: None
- `split_batches`: None
- `include_tokens_per_second`: False
- `include_num_input_tokens_seen`: False
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `batch_sampler`: batch_sampler
- `multi_dataset_batch_sampler`: proportional
</details>
### Training Logs
| Epoch | Step | Training Loss | loss | FineTuned_8_max_ap |
|:------:|:----:|:-------------:|:------:|:------------------:|
| 0 | 0 | - | - | 0.4155 |
| 0.1252 | 100 | 3.1911 | 0.3698 | 0.4095 |
| 0.2504 | 200 | 3.0285 | 0.3700 | 0.4180 |
| 0.3756 | 300 | 2.9879 | 0.3623 | 0.3774 |
| 0.5009 | 400 | 2.9907 | 0.3641 | 0.4271 |
| 0.6261 | 500 | 2.9632 | 0.3441 | 0.4599 |
| 0.7513 | 600 | 2.9207 | 0.3323 | 0.4447 |
| 0.8765 | 700 | 2.9043 | 0.3271 | 0.5012 |
### Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.0.1
- Transformers: 4.41.2
- PyTorch: 2.3.1+cu121
- Accelerate: 0.32.0
- Datasets: 2.20.0
- Tokenizers: 0.19.1
## Citation
### BibTeX
#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
```
#### AnglELoss
```bibtex
@misc{li2023angleoptimized,
title={AnglE-optimized Text Embeddings},
author={Xianming Li and Jing Li},
year={2023},
eprint={2309.12871},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
```
<!--
## Glossary
*Clearly define terms in order to be accessible across audiences.*
-->
<!--
## Model Card Authors
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->
<!--
## Model Card Contact
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
--> |