AngelPanizo commited on
Commit
89de81a
·
verified ·
1 Parent(s): c8e73b7

Add BERTopic model

Browse files
README.md ADDED
@@ -0,0 +1,75 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ tags:
4
+ - bertopic
5
+ library_name: bertopic
6
+ pipeline_tag: text-classification
7
+ ---
8
+
9
+ # MARTINI_enrich_BERTopic_COVID19VACCINEVICTIMSANDFAMILIES
10
+
11
+ This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
12
+ BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
13
+
14
+ ## Usage
15
+
16
+ To use this model, please install BERTopic:
17
+
18
+ ```
19
+ pip install -U bertopic
20
+ ```
21
+
22
+ You can use the model as follows:
23
+
24
+ ```python
25
+ from bertopic import BERTopic
26
+ topic_model = BERTopic.load("AIDA-UPM/MARTINI_enrich_BERTopic_COVID19VACCINEVICTIMSANDFAMILIES")
27
+
28
+ topic_model.get_topic_info()
29
+ ```
30
+
31
+ ## Topic overview
32
+
33
+ * Number of topics: 6
34
+ * Number of training documents: 544
35
+
36
+ <details>
37
+ <summary>Click here for an overview of all topics.</summary>
38
+
39
+ | Topic ID | Topic Keywords | Topic Frequency | Label |
40
+ |----------|----------------|-----------------|-------|
41
+ | -1 | vaers - pfizer - polio - myocarditis - lymphadenopathy | 28 | -1_vaers_pfizer_polio_myocarditis |
42
+ | 0 | globalist - tyranny - pandemic - cyber - everything | 268 | 0_globalist_tyranny_pandemic_cyber |
43
+ | 1 | vaers - pfizer - clots - symptoms - overdose | 71 | 1_vaers_pfizer_clots_symptoms |
44
+ | 2 | pfizer - deaths - 2023 - injected - dna | 67 | 2_pfizer_deaths_2023_injected |
45
+ | 3 | fauci - sars - lockdowns - misinformation - laboratory | 56 | 3_fauci_sars_lockdowns_misinformation |
46
+ | 4 | vax - hydroxychloroquine - zelenko - vladimir - surgeons | 54 | 4_vax_hydroxychloroquine_zelenko_vladimir |
47
+
48
+ </details>
49
+
50
+ ## Training hyperparameters
51
+
52
+ * calculate_probabilities: True
53
+ * language: None
54
+ * low_memory: False
55
+ * min_topic_size: 10
56
+ * n_gram_range: (1, 1)
57
+ * nr_topics: None
58
+ * seed_topic_list: None
59
+ * top_n_words: 10
60
+ * verbose: False
61
+ * zeroshot_min_similarity: 0.7
62
+ * zeroshot_topic_list: None
63
+
64
+ ## Framework versions
65
+
66
+ * Numpy: 1.26.4
67
+ * HDBSCAN: 0.8.40
68
+ * UMAP: 0.5.7
69
+ * Pandas: 2.2.3
70
+ * Scikit-Learn: 1.5.2
71
+ * Sentence-transformers: 3.3.1
72
+ * Transformers: 4.46.3
73
+ * Numba: 0.60.0
74
+ * Plotly: 5.24.1
75
+ * Python: 3.10.12
config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "calculate_probabilities": true,
3
+ "language": null,
4
+ "low_memory": false,
5
+ "min_topic_size": 10,
6
+ "n_gram_range": [
7
+ 1,
8
+ 1
9
+ ],
10
+ "nr_topics": null,
11
+ "seed_topic_list": null,
12
+ "top_n_words": 10,
13
+ "verbose": false,
14
+ "zeroshot_min_similarity": 0.7,
15
+ "zeroshot_topic_list": null
16
+ }
ctfidf.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:471fb08ffdd64ee77712801422caf81c24b4ac24bd7b0a7037b4ab030175713e
3
+ size 167528
ctfidf_config.json ADDED
The diff for this file is too large to render. See raw diff
 
topic_embeddings.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd417e8c83f7be667703cd1e7a8d082b956e8c2c5c29cf0b775c86fd2d1e88a1
3
+ size 24664
topics.json ADDED
@@ -0,0 +1,733 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "topic_representations": {
3
+ "-1": [
4
+ [
5
+ "vaers",
6
+ 0.6181034445762634
7
+ ],
8
+ [
9
+ "pfizer",
10
+ 0.6080014109611511
11
+ ],
12
+ [
13
+ "polio",
14
+ 0.6045516133308411
15
+ ],
16
+ [
17
+ "myocarditis",
18
+ 0.4829150438308716
19
+ ],
20
+ [
21
+ "lymphadenopathy",
22
+ 0.465628981590271
23
+ ]
24
+ ],
25
+ "0": [
26
+ [
27
+ "globalist",
28
+ 0.5610374808311462
29
+ ],
30
+ [
31
+ "tyranny",
32
+ 0.5502310395240784
33
+ ],
34
+ [
35
+ "pandemic",
36
+ 0.5301388502120972
37
+ ],
38
+ [
39
+ "cyber",
40
+ 0.4936389923095703
41
+ ],
42
+ [
43
+ "everything",
44
+ 0.48592060804367065
45
+ ]
46
+ ],
47
+ "1": [
48
+ [
49
+ "vaers",
50
+ 0.5868709087371826
51
+ ],
52
+ [
53
+ "pfizer",
54
+ 0.5407735109329224
55
+ ],
56
+ [
57
+ "clots",
58
+ 0.4758842885494232
59
+ ],
60
+ [
61
+ "symptoms",
62
+ 0.44046539068222046
63
+ ],
64
+ [
65
+ "overdose",
66
+ 0.43150147795677185
67
+ ]
68
+ ],
69
+ "2": [
70
+ [
71
+ "pfizer",
72
+ 0.5393372178077698
73
+ ],
74
+ [
75
+ "deaths",
76
+ 0.5129307508468628
77
+ ],
78
+ [
79
+ "2023",
80
+ 0.44723883271217346
81
+ ],
82
+ [
83
+ "injected",
84
+ 0.4388662576675415
85
+ ],
86
+ [
87
+ "dna",
88
+ 0.43482834100723267
89
+ ]
90
+ ],
91
+ "3": [
92
+ [
93
+ "fauci",
94
+ 0.6682949662208557
95
+ ],
96
+ [
97
+ "sars",
98
+ 0.5394763946533203
99
+ ],
100
+ [
101
+ "lockdowns",
102
+ 0.5040329694747925
103
+ ],
104
+ [
105
+ "misinformation",
106
+ 0.4735221266746521
107
+ ],
108
+ [
109
+ "laboratory",
110
+ 0.45327049493789673
111
+ ]
112
+ ],
113
+ "4": [
114
+ [
115
+ "vax",
116
+ 0.5669566988945007
117
+ ],
118
+ [
119
+ "hydroxychloroquine",
120
+ 0.5372714996337891
121
+ ],
122
+ [
123
+ "zelenko",
124
+ 0.4744741916656494
125
+ ],
126
+ [
127
+ "vladimir",
128
+ 0.44961994886398315
129
+ ],
130
+ [
131
+ "surgeons",
132
+ 0.43710485100746155
133
+ ]
134
+ ]
135
+ },
136
+ "topics": [
137
+ 0,
138
+ 0,
139
+ -1,
140
+ 2,
141
+ -1,
142
+ -1,
143
+ -1,
144
+ -1,
145
+ -1,
146
+ -1,
147
+ -1,
148
+ -1,
149
+ 0,
150
+ 0,
151
+ 3,
152
+ -1,
153
+ -1,
154
+ -1,
155
+ 2,
156
+ 4,
157
+ 0,
158
+ -1,
159
+ -1,
160
+ -1,
161
+ -1,
162
+ -1,
163
+ 3,
164
+ 0,
165
+ 0,
166
+ 2,
167
+ 3,
168
+ 3,
169
+ 2,
170
+ -1,
171
+ 0,
172
+ 2,
173
+ -1,
174
+ 1,
175
+ -1,
176
+ -1,
177
+ 0,
178
+ 0,
179
+ -1,
180
+ 2,
181
+ -1,
182
+ -1,
183
+ 2,
184
+ 3,
185
+ 1,
186
+ -1,
187
+ 3,
188
+ -1,
189
+ -1,
190
+ -1,
191
+ -1,
192
+ -1,
193
+ -1,
194
+ -1,
195
+ -1,
196
+ 1,
197
+ 1,
198
+ -1,
199
+ -1,
200
+ -1,
201
+ -1,
202
+ 3,
203
+ -1,
204
+ 0,
205
+ -1,
206
+ -1,
207
+ 0,
208
+ 2,
209
+ -1,
210
+ 3,
211
+ 0,
212
+ 4,
213
+ -1,
214
+ 3,
215
+ -1,
216
+ -1,
217
+ 0,
218
+ 2,
219
+ 0,
220
+ 2,
221
+ -1,
222
+ 2,
223
+ -1,
224
+ -1,
225
+ -1,
226
+ 2,
227
+ 2,
228
+ 0,
229
+ -1,
230
+ -1,
231
+ 0,
232
+ 2,
233
+ -1,
234
+ -1,
235
+ 0,
236
+ -1,
237
+ 0,
238
+ 3,
239
+ 0,
240
+ 3,
241
+ -1,
242
+ -1,
243
+ -1,
244
+ -1,
245
+ -1,
246
+ -1,
247
+ 2,
248
+ -1,
249
+ 3,
250
+ -1,
251
+ 2,
252
+ -1,
253
+ 2,
254
+ -1,
255
+ 0,
256
+ -1,
257
+ -1,
258
+ 2,
259
+ -1,
260
+ -1,
261
+ -1,
262
+ -1,
263
+ -1,
264
+ 3,
265
+ -1,
266
+ 4,
267
+ -1,
268
+ -1,
269
+ 1,
270
+ -1,
271
+ -1,
272
+ -1,
273
+ 0,
274
+ -1,
275
+ -1,
276
+ -1,
277
+ -1,
278
+ -1,
279
+ -1,
280
+ -1,
281
+ -1,
282
+ 0,
283
+ 0,
284
+ -1,
285
+ 1,
286
+ 2,
287
+ 3,
288
+ 3,
289
+ 0,
290
+ -1,
291
+ 2,
292
+ 3,
293
+ 3,
294
+ 0,
295
+ -1,
296
+ -1,
297
+ 1,
298
+ -1,
299
+ 1,
300
+ -1,
301
+ 0,
302
+ 1,
303
+ -1,
304
+ -1,
305
+ 1,
306
+ 0,
307
+ 1,
308
+ -1,
309
+ 0,
310
+ 3,
311
+ 3,
312
+ 3,
313
+ 3,
314
+ 0,
315
+ 1,
316
+ 1,
317
+ -1,
318
+ -1,
319
+ 2,
320
+ -1,
321
+ -1,
322
+ -1,
323
+ 0,
324
+ -1,
325
+ -1,
326
+ 1,
327
+ 1,
328
+ 4,
329
+ -1,
330
+ -1,
331
+ 2,
332
+ -1,
333
+ 1,
334
+ 1,
335
+ 3,
336
+ -1,
337
+ 1,
338
+ -1,
339
+ -1,
340
+ 3,
341
+ 0,
342
+ -1,
343
+ 1,
344
+ -1,
345
+ -1,
346
+ 0,
347
+ 1,
348
+ 2,
349
+ -1,
350
+ -1,
351
+ -1,
352
+ -1,
353
+ -1,
354
+ 0,
355
+ -1,
356
+ 2,
357
+ -1,
358
+ -1,
359
+ -1,
360
+ 0,
361
+ -1,
362
+ -1,
363
+ -1,
364
+ -1,
365
+ 3,
366
+ 2,
367
+ 0,
368
+ -1,
369
+ -1,
370
+ -1,
371
+ 0,
372
+ 2,
373
+ 3,
374
+ 3,
375
+ 3,
376
+ -1,
377
+ 1,
378
+ -1,
379
+ 3,
380
+ 2,
381
+ -1,
382
+ -1,
383
+ -1,
384
+ -1,
385
+ 3,
386
+ 3,
387
+ 3,
388
+ -1,
389
+ -1,
390
+ 3,
391
+ 3,
392
+ 3,
393
+ 1,
394
+ -1,
395
+ -1,
396
+ 3,
397
+ -1,
398
+ 3,
399
+ 3,
400
+ -1,
401
+ 3,
402
+ 2,
403
+ 3,
404
+ -1,
405
+ -1,
406
+ 3,
407
+ -1,
408
+ 0,
409
+ -1,
410
+ 4,
411
+ -1,
412
+ -1,
413
+ -1,
414
+ 3,
415
+ -1,
416
+ -1,
417
+ 0,
418
+ 1,
419
+ 4,
420
+ -1,
421
+ -1,
422
+ -1,
423
+ 1,
424
+ 1,
425
+ 2,
426
+ 3,
427
+ -1,
428
+ -1,
429
+ -1,
430
+ -1,
431
+ -1,
432
+ -1,
433
+ -1,
434
+ -1,
435
+ -1,
436
+ 0,
437
+ -1,
438
+ 1,
439
+ 4,
440
+ -1,
441
+ 2,
442
+ 1,
443
+ 2,
444
+ -1,
445
+ 3,
446
+ 1,
447
+ 1,
448
+ 0,
449
+ -1,
450
+ 0,
451
+ -1,
452
+ -1,
453
+ -1,
454
+ -1,
455
+ -1,
456
+ -1,
457
+ -1,
458
+ -1,
459
+ -1,
460
+ 2,
461
+ -1,
462
+ 1,
463
+ 1,
464
+ 0,
465
+ -1,
466
+ 2,
467
+ 1,
468
+ -1,
469
+ 2,
470
+ 0,
471
+ -1,
472
+ -1,
473
+ 2,
474
+ -1,
475
+ 2,
476
+ 0,
477
+ -1,
478
+ -1,
479
+ 3,
480
+ 2,
481
+ 0,
482
+ -1,
483
+ -1,
484
+ -1,
485
+ -1,
486
+ 0,
487
+ 0,
488
+ 0,
489
+ 2,
490
+ -1,
491
+ 3,
492
+ -1,
493
+ -1,
494
+ 0,
495
+ -1,
496
+ -1,
497
+ 0,
498
+ 0,
499
+ -1,
500
+ -1,
501
+ 2,
502
+ -1,
503
+ -1,
504
+ 0,
505
+ 0,
506
+ 1,
507
+ -1,
508
+ -1,
509
+ 2,
510
+ 2,
511
+ 0,
512
+ -1,
513
+ 1,
514
+ -1,
515
+ 1,
516
+ 0,
517
+ 0,
518
+ -1,
519
+ 3,
520
+ -1,
521
+ 2,
522
+ -1,
523
+ -1,
524
+ 0,
525
+ -1,
526
+ 3,
527
+ 4,
528
+ 0,
529
+ -1,
530
+ 2,
531
+ 3,
532
+ 4,
533
+ 1,
534
+ 2,
535
+ -1,
536
+ -1,
537
+ -1,
538
+ -1,
539
+ 0,
540
+ -1,
541
+ -1,
542
+ 3,
543
+ 0,
544
+ 0,
545
+ -1,
546
+ -1,
547
+ 2,
548
+ 0,
549
+ 0,
550
+ 2,
551
+ 0,
552
+ 2,
553
+ -1,
554
+ 2,
555
+ 0,
556
+ -1,
557
+ -1,
558
+ 0,
559
+ -1,
560
+ -1,
561
+ -1,
562
+ -1,
563
+ -1,
564
+ -1,
565
+ 2,
566
+ -1,
567
+ -1,
568
+ 3,
569
+ -1,
570
+ -1,
571
+ 2,
572
+ -1,
573
+ -1,
574
+ -1,
575
+ -1,
576
+ 1,
577
+ 1,
578
+ 2,
579
+ 3,
580
+ -1,
581
+ -1,
582
+ 3,
583
+ -1,
584
+ 3,
585
+ -1,
586
+ 4,
587
+ -1,
588
+ 1,
589
+ -1,
590
+ -1,
591
+ -1,
592
+ 2,
593
+ 4,
594
+ 2,
595
+ 1,
596
+ 1,
597
+ 1,
598
+ -1,
599
+ -1,
600
+ 4,
601
+ 1,
602
+ 4,
603
+ -1,
604
+ 1,
605
+ -1,
606
+ -1,
607
+ -1,
608
+ -1,
609
+ 2,
610
+ -1,
611
+ 4,
612
+ -1,
613
+ -1,
614
+ 0,
615
+ -1,
616
+ -1,
617
+ -1,
618
+ -1,
619
+ -1,
620
+ 0,
621
+ 4,
622
+ -1,
623
+ -1,
624
+ 1,
625
+ -1,
626
+ 4,
627
+ -1,
628
+ 4,
629
+ 4,
630
+ 4,
631
+ 1,
632
+ -1,
633
+ -1,
634
+ 0,
635
+ 4,
636
+ -1,
637
+ 1,
638
+ 4,
639
+ 1,
640
+ 4,
641
+ 4,
642
+ 4,
643
+ -1,
644
+ 1,
645
+ 1,
646
+ 4,
647
+ 1,
648
+ 1,
649
+ -1,
650
+ 4,
651
+ 1,
652
+ -1,
653
+ 1,
654
+ 1,
655
+ -1,
656
+ 4,
657
+ -1,
658
+ 3,
659
+ -1,
660
+ 1,
661
+ 1,
662
+ 1,
663
+ 1,
664
+ 2,
665
+ 1,
666
+ 1,
667
+ -1,
668
+ 1,
669
+ 1,
670
+ 0,
671
+ -1,
672
+ 1,
673
+ -1,
674
+ 1,
675
+ 1,
676
+ -1,
677
+ 1,
678
+ 2,
679
+ -1,
680
+ 4
681
+ ],
682
+ "topic_sizes": {
683
+ "0": 71,
684
+ "-1": 268,
685
+ "2": 56,
686
+ "3": 54,
687
+ "4": 28,
688
+ "1": 67
689
+ },
690
+ "topic_mapper": [
691
+ [
692
+ -1,
693
+ -1,
694
+ -1
695
+ ],
696
+ [
697
+ 0,
698
+ 0,
699
+ 0
700
+ ],
701
+ [
702
+ 1,
703
+ 1,
704
+ 3
705
+ ],
706
+ [
707
+ 2,
708
+ 2,
709
+ 1
710
+ ],
711
+ [
712
+ 3,
713
+ 3,
714
+ 2
715
+ ],
716
+ [
717
+ 4,
718
+ 4,
719
+ 4
720
+ ]
721
+ ],
722
+ "topic_labels": {
723
+ "-1": "-1_vaers_pfizer_polio_myocarditis",
724
+ "0": "0_globalist_tyranny_pandemic_cyber",
725
+ "1": "1_vaers_pfizer_clots_symptoms",
726
+ "2": "2_pfizer_deaths_2023_injected",
727
+ "3": "3_fauci_sars_lockdowns_misinformation",
728
+ "4": "4_vax_hydroxychloroquine_zelenko_vladimir"
729
+ },
730
+ "custom_labels": null,
731
+ "_outliers": 1,
732
+ "topic_aspects": {}
733
+ }