sdantonio commited on
Commit
7e0f9a1
·
verified ·
1 Parent(s): ac77974

Add BERTopic model

Browse files
README.md ADDED
@@ -0,0 +1,115 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ tags:
4
+ - bertopic
5
+ library_name: bertopic
6
+ pipeline_tag: text-classification
7
+ ---
8
+
9
+ # BERTopic_vakcinacijaine
10
+
11
+ This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
12
+ BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
13
+
14
+ ## Usage
15
+
16
+ To use this model, please install BERTopic:
17
+
18
+ ```
19
+ pip install -U bertopic
20
+ ```
21
+
22
+ You can use the model as follows:
23
+
24
+ ```python
25
+ from bertopic import BERTopic
26
+ topic_model = BERTopic.load("sdantonio/BERTopic_vakcinacijaine")
27
+
28
+ topic_model.get_topic_info()
29
+ ```
30
+
31
+ ## Topic overview
32
+
33
+ * Number of topics: 46
34
+ * Number of training documents: 18944
35
+
36
+ <details>
37
+ <summary>Click here for an overview of all topics.</summary>
38
+
39
+ | Topic ID | Topic Keywords | Topic Frequency | Label |
40
+ |----------|----------------|-----------------|-------|
41
+ | -1 | exposethepedosendofthecabal - newresistance - ukraine - russian - ukrainian | 11 | -1_exposethepedosendofthecabal_newresistance_ukraine_russian |
42
+ | 0 | европеи - китаи - информациеи - перезагрузка - путин | 633 | 0_европеи_китаи_информациеи_перезагрузка |
43
+ | 1 | vyriausybe - pries - ukraina - vakcinos - rusijos | 9113 | 1_vyriausybe_pries_ukraina_vakcinos |
44
+ | 2 | европеи - китаи - путин - украина - украины | 3477 | 2_европеи_китаи_путин_украина |
45
+ | 3 | vyriausybe - pries - visis - mogaus - jav | 2803 | 3_vyriausybe_pries_visis_mogaus |
46
+ | 4 | эксперимент_по_проверке_засекреченнои - смерть_от_вакцины - глубинное_государство - _системы_вооружения - изменение_характера | 832 | 4_эксперимент_по_проверке_засекреченнои_смерть_от_вакцины_глубинное_государство__системы_вооружения |
47
+ | 5 | датированнои - протестующие - всплывшеи - ислама - китаи | 350 | 5_датированнои_протестующие_всплывшеи_ислама |
48
+ | 6 | newresistance - jfk_tv - hampstead - weapons - ukraine | 168 | 6_newresistance_jfk_tv_hampstead_weapons |
49
+ | 7 | ukraina - zmoniu - ezeru - buti - zmones | 142 | 7_ukraina_zmoniu_ezeru_buti |
50
+ | 8 | elections - shocking - doxxing - blocked - unvaccinated | 123 | 8_elections_shocking_doxxing_blocked |
51
+ | 9 | newresistance - weapons - ukraine - russian - ukrainian | 104 | 9_newresistance_weapons_ukraine_russian |
52
+ | 10 | newresistance - jfk_tv - camouflage - targets - tanks | 82 | 10_newresistance_jfk_tv_camouflage_targets |
53
+ | 11 | units - ukraine - russian - laboratory - russia | 69 | 11_units_ukraine_russian_laboratory |
54
+ | 12 | швабовское - люциферазы - кошерная - концлагерь - поднебеснои | 62 | 12_швабовское_люциферазы_кошерная_концлагерь |
55
+ | 13 | newresistance - lockdowns - artillery - ukraine - unvaccinated | 59 | 13_newresistance_lockdowns_artillery_ukraine |
56
+ | 14 | обманная_медицинская_практика - разведывательное_сообщество - разведывательное_сообшество - паспорт_здоровья_от_ковида - мышление_технократов | 53 | 14_обманная_медицинская_практика_разведывательное_сообщество_разведывательное_сообшество_паспорт_здоровья_от_ковида |
57
+ | 15 | одобрение_без_данных - повреждение_мозга - нюрнбергскии - осознанное_согласие - комментарии_вируса_нет | 51 | 15_одобрение_без_данных_повреждение_мозга_нюрнбергскии_осознанное_согласие |
58
+ | 16 | white_hats_q - jfk_q17 - jfkennedyofficial - realjohnmcafee - hsretoucher17 | 50 | 16_white_hats_q_jfk_q17_jfkennedyofficial_realjohnmcafee |
59
+ | 17 | информациеи - telegram - nastikagroup - поделитесь - nastikatube | 45 | 17_информациеи_telegram_nastikagroup_поделитесь |
60
+ | 18 | ukraine - russian - ukrainian - russia - kiev | 45 | 18_ukraine_russian_ukrainian_russia |
61
+ | 19 | weltwirtschaftsforum - frieden_rockt_offiziell - ossebaard - offiziellen - sseldorf | 43 | 19_weltwirtschaftsforum_frieden_rockt_offiziell_ossebaard_offiziellen |
62
+ | 20 | russians - newresistance - artillery - ammunition - captured | 43 | 20_russians_newresistance_artillery_ammunition |
63
+ | 21 | отмена_законов_ковид - ные_полномочия_ковид - стандарты_безопасности_вакцин - уголовное_дело - микрочипы_в_таблетках | 39 | 21_отмена_законов_ковид_ные_полномочия_ковид_стандарты_б��зопасности_вакцин_уголовное_дело |
64
+ | 22 | геноцыд - genocide - pfizerio - lyga - kokybes | 38 | 22_геноцыд_genocide_pfizerio_lyga |
65
+ | 23 | exposethepedosendthecabal - ghosts - exposethepedosendofthecabal - spaceforcegalacticfederation - adrenochrome | 37 | 23_exposethepedosendthecabal_ghosts_exposethepedosendofthecabal_spaceforcegalacticfederation |
66
+ | 24 | bankrupt - друзяки - информациеи - vakcinos - gates | 37 | 24_bankrupt_друзяки_информациеи_vakcinos |
67
+ | 25 | cloneessssss - jfk_tv - subliminal - pmpzst3h - rolls | 36 | 25_cloneessssss_jfk_tv_subliminal_pmpzst3h |
68
+ | 26 | whitehatsq - r_interestingasfuck - newresistance - whistleblowers - kanekoathegreat | 35 | 26_whitehatsq_r_interestingasfuck_newresistance_whistleblowers |
69
+ | 27 | filmuoja - антиглобалист - ротшильда - belgrada - delfis | 33 | 27_filmuoja_антиглобалист_ротшильда_belgrada |
70
+ | 28 | icbm - launched - claiming - antonovsky - belarusian | 31 | 28_icbm_launched_claiming_antonovsky |
71
+ | 29 | nuotykiu - kompiuteri - nebalsuokit - tekstus - visis | 28 | 29_nuotykiu_kompiuteri_nebalsuokit_tekstus |
72
+ | 30 | аи - информациеи - поделитесь - сатанистов - sekmes | 24 | 30_аи_информациеи_поделитесь_сатанистов |
73
+ | 31 | poisoned - voting - county - depopulation - displayed | 23 | 31_poisoned_voting_county_depopulation |
74
+ | 32 | вывезенному - корумпированнои - проиллюстрирован - кондиционеров - прохладненько | 23 | 32_вывезенному_корумпированнои_проиллюстрирован_кондиционеров |
75
+ | 33 | frieden_rockt_offiziell - schwarzenegger - fernsehen - offiziellen - sterreichischen | 21 | 33_frieden_rockt_offiziell_schwarzenegger_fernsehen_offiziellen |
76
+ | 34 | russians - boosted - specialqforces - deaths - dumbsandunderground | 21 | 34_russians_boosted_specialqforces_deaths |
77
+ | 35 | versicherten - sprachen - georgia - verbrechen - ukraine | 21 | 35_versicherten_sprachen_georgia_verbrechen |
78
+ | 36 | генная_терапия_для_создания_биологического_оружия - официально_разоблачена_ложная_статистика_смертеи - показатели_капитализма_заинтересованных_сторон - технологии_наблюдения_в_туалете - формирование_выкованных_разумом_наручники | 19 | 36_генная_терапия_для_создания_биологического_оружия_официально_разоблачена_ложная_статистика_смертеи_показатели_капитализма_заинтересованных_сторон_технологии_наблюдения_в_туалете |
79
+ | 37 | pedophilia - satanic - babies - vigilantfox - admits | 19 | 37_pedophilia_satanic_babies_vigilantfox |
80
+ | 38 | oddfellows - pedophile - puppets - surrounded - libertyonlinenews | 17 | 38_oddfellows_pedophile_puppets_surrounded |
81
+ | 39 | вакцина_не_предотвращает_инфекцию - преднамеренное_массовое_убии - невозможность_осознанного_согласия - риск_для_генома_человека - договор_воз_о_пандемии | 16 | 39_вакцина_не_предотвращает_инфекцию_преднамеренное_массовое_убии_невозможность_осознанного_согласия_риск_для_генома_человека |
82
+ | 40 | donbass - launched - nzn - bmpt - john | 15 | 40_donbass_launched_nzn_bmpt |
83
+ | 41 | newzealand - embodied - wikileaksvip - censored - mrs | 14 | 41_newzealand_embodied_wikileaksvip_censored |
84
+ | 42 | white_hats_q - jfk_q17 - jfkennedyofficial - whistleblower - extended | 13 | 42_white_hats_q_jfk_q17_jfkennedyofficial_whistleblower |
85
+ | 43 | newresistance - abolition - uses - denoting - inproportion | 13 | 43_newresistance_abolition_uses_denoting |
86
+ | 44 | russians - bombing - operations - belarusian - handedly | 13 | 44_russians_bombing_operations_belarusian |
87
+
88
+ </details>
89
+
90
+ ## Training hyperparameters
91
+
92
+ * calculate_probabilities: False
93
+ * language: None
94
+ * low_memory: False
95
+ * min_topic_size: 10
96
+ * n_gram_range: (1, 1)
97
+ * nr_topics: None
98
+ * seed_topic_list: None
99
+ * top_n_words: 10
100
+ * verbose: False
101
+ * zeroshot_min_similarity: 0.7
102
+ * zeroshot_topic_list: None
103
+
104
+ ## Framework versions
105
+
106
+ * Numpy: 1.23.5
107
+ * HDBSCAN: 0.8.38.post1
108
+ * UMAP: 0.5.6
109
+ * Pandas: 2.2.2
110
+ * Scikit-Learn: 1.5.1
111
+ * Sentence-transformers: 3.0.1
112
+ * Transformers: 4.44.2
113
+ * Numba: 0.60.0
114
+ * Plotly: 5.24.0
115
+ * Python: 3.10.12
config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "calculate_probabilities": false,
3
+ "language": null,
4
+ "low_memory": false,
5
+ "min_topic_size": 10,
6
+ "n_gram_range": [
7
+ 1,
8
+ 1
9
+ ],
10
+ "nr_topics": null,
11
+ "seed_topic_list": null,
12
+ "top_n_words": 10,
13
+ "verbose": false,
14
+ "zeroshot_min_similarity": 0.7,
15
+ "zeroshot_topic_list": null
16
+ }
ctfidf.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c079e75ed46b29308ee335d11f85c2a1c26e80d17f7600d9fe1edbe1eb32ea50
3
+ size 4061432
ctfidf_config.json ADDED
The diff for this file is too large to render. See raw diff
 
topic_embeddings.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dc9b6ae0ee4a68afb05b16c530e29be0700feb7630cea27c0f76baee444b9b68
3
+ size 188504
topics.json ADDED
The diff for this file is too large to render. See raw diff