Add BERTopic model
Browse files- README.md +115 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +0 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
README.md
ADDED
@@ -0,0 +1,115 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
tags:
|
4 |
+
- bertopic
|
5 |
+
library_name: bertopic
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
---
|
8 |
+
|
9 |
+
# BERTopic_vakcinacijaine
|
10 |
+
|
11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
13 |
+
|
14 |
+
## Usage
|
15 |
+
|
16 |
+
To use this model, please install BERTopic:
|
17 |
+
|
18 |
+
```
|
19 |
+
pip install -U bertopic
|
20 |
+
```
|
21 |
+
|
22 |
+
You can use the model as follows:
|
23 |
+
|
24 |
+
```python
|
25 |
+
from bertopic import BERTopic
|
26 |
+
topic_model = BERTopic.load("sdantonio/BERTopic_vakcinacijaine")
|
27 |
+
|
28 |
+
topic_model.get_topic_info()
|
29 |
+
```
|
30 |
+
|
31 |
+
## Topic overview
|
32 |
+
|
33 |
+
* Number of topics: 46
|
34 |
+
* Number of training documents: 18944
|
35 |
+
|
36 |
+
<details>
|
37 |
+
<summary>Click here for an overview of all topics.</summary>
|
38 |
+
|
39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
40 |
+
|----------|----------------|-----------------|-------|
|
41 |
+
| -1 | exposethepedosendofthecabal - newresistance - ukraine - russian - ukrainian | 11 | -1_exposethepedosendofthecabal_newresistance_ukraine_russian |
|
42 |
+
| 0 | европеи - китаи - информациеи - перезагрузка - путин | 633 | 0_европеи_китаи_информациеи_перезагрузка |
|
43 |
+
| 1 | vyriausybe - pries - ukraina - vakcinos - rusijos | 9113 | 1_vyriausybe_pries_ukraina_vakcinos |
|
44 |
+
| 2 | европеи - китаи - путин - украина - украины | 3477 | 2_европеи_китаи_путин_украина |
|
45 |
+
| 3 | vyriausybe - pries - visis - mogaus - jav | 2803 | 3_vyriausybe_pries_visis_mogaus |
|
46 |
+
| 4 | эксперимент_по_проверке_засекреченнои - смерть_от_вакцины - глубинное_государство - _системы_вооружения - изменение_характера | 832 | 4_эксперимент_по_проверке_засекреченнои_смерть_от_вакцины_глубинное_государство__системы_вооружения |
|
47 |
+
| 5 | датированнои - протестующие - всплывшеи - ислама - китаи | 350 | 5_датированнои_протестующие_всплывшеи_ислама |
|
48 |
+
| 6 | newresistance - jfk_tv - hampstead - weapons - ukraine | 168 | 6_newresistance_jfk_tv_hampstead_weapons |
|
49 |
+
| 7 | ukraina - zmoniu - ezeru - buti - zmones | 142 | 7_ukraina_zmoniu_ezeru_buti |
|
50 |
+
| 8 | elections - shocking - doxxing - blocked - unvaccinated | 123 | 8_elections_shocking_doxxing_blocked |
|
51 |
+
| 9 | newresistance - weapons - ukraine - russian - ukrainian | 104 | 9_newresistance_weapons_ukraine_russian |
|
52 |
+
| 10 | newresistance - jfk_tv - camouflage - targets - tanks | 82 | 10_newresistance_jfk_tv_camouflage_targets |
|
53 |
+
| 11 | units - ukraine - russian - laboratory - russia | 69 | 11_units_ukraine_russian_laboratory |
|
54 |
+
| 12 | швабовское - люциферазы - кошерная - концлагерь - поднебеснои | 62 | 12_швабовское_люциферазы_кошерная_концлагерь |
|
55 |
+
| 13 | newresistance - lockdowns - artillery - ukraine - unvaccinated | 59 | 13_newresistance_lockdowns_artillery_ukraine |
|
56 |
+
| 14 | обманная_медицинская_практика - разведывательное_сообщество - разведывательное_сообшество - паспорт_здоровья_от_ковида - мышление_технократов | 53 | 14_обманная_медицинская_практика_разведывательное_сообщество_разведывательное_сообшество_паспорт_здоровья_от_ковида |
|
57 |
+
| 15 | одобрение_без_данных - повреждение_мозга - нюрнбергскии - осознанное_согласие - комментарии_вируса_нет | 51 | 15_одобрение_без_данных_повреждение_мозга_нюрнбергскии_осознанное_согласие |
|
58 |
+
| 16 | white_hats_q - jfk_q17 - jfkennedyofficial - realjohnmcafee - hsretoucher17 | 50 | 16_white_hats_q_jfk_q17_jfkennedyofficial_realjohnmcafee |
|
59 |
+
| 17 | информациеи - telegram - nastikagroup - поделитесь - nastikatube | 45 | 17_информациеи_telegram_nastikagroup_поделитесь |
|
60 |
+
| 18 | ukraine - russian - ukrainian - russia - kiev | 45 | 18_ukraine_russian_ukrainian_russia |
|
61 |
+
| 19 | weltwirtschaftsforum - frieden_rockt_offiziell - ossebaard - offiziellen - sseldorf | 43 | 19_weltwirtschaftsforum_frieden_rockt_offiziell_ossebaard_offiziellen |
|
62 |
+
| 20 | russians - newresistance - artillery - ammunition - captured | 43 | 20_russians_newresistance_artillery_ammunition |
|
63 |
+
| 21 | отмена_законов_ковид - ные_полномочия_ковид - стандарты_безопасности_вакцин - уголовное_дело - микрочипы_в_таблетках | 39 | 21_отмена_законов_ковид_ные_полномочия_ковид_стандарты_б��зопасности_вакцин_уголовное_дело |
|
64 |
+
| 22 | геноцыд - genocide - pfizerio - lyga - kokybes | 38 | 22_геноцыд_genocide_pfizerio_lyga |
|
65 |
+
| 23 | exposethepedosendthecabal - ghosts - exposethepedosendofthecabal - spaceforcegalacticfederation - adrenochrome | 37 | 23_exposethepedosendthecabal_ghosts_exposethepedosendofthecabal_spaceforcegalacticfederation |
|
66 |
+
| 24 | bankrupt - друзяки - информациеи - vakcinos - gates | 37 | 24_bankrupt_друзяки_информациеи_vakcinos |
|
67 |
+
| 25 | cloneessssss - jfk_tv - subliminal - pmpzst3h - rolls | 36 | 25_cloneessssss_jfk_tv_subliminal_pmpzst3h |
|
68 |
+
| 26 | whitehatsq - r_interestingasfuck - newresistance - whistleblowers - kanekoathegreat | 35 | 26_whitehatsq_r_interestingasfuck_newresistance_whistleblowers |
|
69 |
+
| 27 | filmuoja - антиглобалист - ротшильда - belgrada - delfis | 33 | 27_filmuoja_антиглобалист_ротшильда_belgrada |
|
70 |
+
| 28 | icbm - launched - claiming - antonovsky - belarusian | 31 | 28_icbm_launched_claiming_antonovsky |
|
71 |
+
| 29 | nuotykiu - kompiuteri - nebalsuokit - tekstus - visis | 28 | 29_nuotykiu_kompiuteri_nebalsuokit_tekstus |
|
72 |
+
| 30 | аи - информациеи - поделитесь - сатанистов - sekmes | 24 | 30_аи_информациеи_поделитесь_сатанистов |
|
73 |
+
| 31 | poisoned - voting - county - depopulation - displayed | 23 | 31_poisoned_voting_county_depopulation |
|
74 |
+
| 32 | вывезенному - корумпированнои - проиллюстрирован - кондиционеров - прохладненько | 23 | 32_вывезенному_корумпированнои_проиллюстрирован_кондиционеров |
|
75 |
+
| 33 | frieden_rockt_offiziell - schwarzenegger - fernsehen - offiziellen - sterreichischen | 21 | 33_frieden_rockt_offiziell_schwarzenegger_fernsehen_offiziellen |
|
76 |
+
| 34 | russians - boosted - specialqforces - deaths - dumbsandunderground | 21 | 34_russians_boosted_specialqforces_deaths |
|
77 |
+
| 35 | versicherten - sprachen - georgia - verbrechen - ukraine | 21 | 35_versicherten_sprachen_georgia_verbrechen |
|
78 |
+
| 36 | генная_терапия_для_создания_биологического_оружия - официально_разоблачена_ложная_статистика_смертеи - показатели_капитализма_заинтересованных_сторон - технологии_наблюдения_в_туалете - формирование_выкованных_разумом_наручники | 19 | 36_генная_терапия_для_создания_биологического_оружия_официально_разоблачена_ложная_статистика_смертеи_показатели_капитализма_заинтересованных_сторон_технологии_наблюдения_в_туалете |
|
79 |
+
| 37 | pedophilia - satanic - babies - vigilantfox - admits | 19 | 37_pedophilia_satanic_babies_vigilantfox |
|
80 |
+
| 38 | oddfellows - pedophile - puppets - surrounded - libertyonlinenews | 17 | 38_oddfellows_pedophile_puppets_surrounded |
|
81 |
+
| 39 | вакцина_не_предотвращает_инфекцию - преднамеренное_массовое_убии - невозможность_осознанного_согласия - риск_для_генома_человека - договор_воз_о_пандемии | 16 | 39_вакцина_не_предотвращает_инфекцию_преднамеренное_массовое_убии_невозможность_осознанного_согласия_риск_для_генома_человека |
|
82 |
+
| 40 | donbass - launched - nzn - bmpt - john | 15 | 40_donbass_launched_nzn_bmpt |
|
83 |
+
| 41 | newzealand - embodied - wikileaksvip - censored - mrs | 14 | 41_newzealand_embodied_wikileaksvip_censored |
|
84 |
+
| 42 | white_hats_q - jfk_q17 - jfkennedyofficial - whistleblower - extended | 13 | 42_white_hats_q_jfk_q17_jfkennedyofficial_whistleblower |
|
85 |
+
| 43 | newresistance - abolition - uses - denoting - inproportion | 13 | 43_newresistance_abolition_uses_denoting |
|
86 |
+
| 44 | russians - bombing - operations - belarusian - handedly | 13 | 44_russians_bombing_operations_belarusian |
|
87 |
+
|
88 |
+
</details>
|
89 |
+
|
90 |
+
## Training hyperparameters
|
91 |
+
|
92 |
+
* calculate_probabilities: False
|
93 |
+
* language: None
|
94 |
+
* low_memory: False
|
95 |
+
* min_topic_size: 10
|
96 |
+
* n_gram_range: (1, 1)
|
97 |
+
* nr_topics: None
|
98 |
+
* seed_topic_list: None
|
99 |
+
* top_n_words: 10
|
100 |
+
* verbose: False
|
101 |
+
* zeroshot_min_similarity: 0.7
|
102 |
+
* zeroshot_topic_list: None
|
103 |
+
|
104 |
+
## Framework versions
|
105 |
+
|
106 |
+
* Numpy: 1.23.5
|
107 |
+
* HDBSCAN: 0.8.38.post1
|
108 |
+
* UMAP: 0.5.6
|
109 |
+
* Pandas: 2.2.2
|
110 |
+
* Scikit-Learn: 1.5.1
|
111 |
+
* Sentence-transformers: 3.0.1
|
112 |
+
* Transformers: 4.44.2
|
113 |
+
* Numba: 0.60.0
|
114 |
+
* Plotly: 5.24.0
|
115 |
+
* Python: 3.10.12
|
config.json
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"calculate_probabilities": false,
|
3 |
+
"language": null,
|
4 |
+
"low_memory": false,
|
5 |
+
"min_topic_size": 10,
|
6 |
+
"n_gram_range": [
|
7 |
+
1,
|
8 |
+
1
|
9 |
+
],
|
10 |
+
"nr_topics": null,
|
11 |
+
"seed_topic_list": null,
|
12 |
+
"top_n_words": 10,
|
13 |
+
"verbose": false,
|
14 |
+
"zeroshot_min_similarity": 0.7,
|
15 |
+
"zeroshot_topic_list": null
|
16 |
+
}
|
ctfidf.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:c079e75ed46b29308ee335d11f85c2a1c26e80d17f7600d9fe1edbe1eb32ea50
|
3 |
+
size 4061432
|
ctfidf_config.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
topic_embeddings.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:dc9b6ae0ee4a68afb05b16c530e29be0700feb7630cea27c0f76baee444b9b68
|
3 |
+
size 188504
|
topics.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|