data-silence commited on
Commit
caf7ad0
1 Parent(s): 5bc36ce

data-silence/any-news-sum

Browse files
README.md CHANGED
@@ -1,189 +1,44 @@
1
  ---
2
- base_model: google/mt5-base
3
- pipeline_tag: summarization
4
  tags:
5
- - summarization
6
- - mT5
7
- datasets:
8
- - csebuetnlp/xlsum
9
- - data-silence/sumnews
10
- language:
11
- - am
12
- - ar
13
- - az
14
- - bn
15
- - my
16
- - zh
17
- - en
18
- - fr
19
- - gu
20
- - ha
21
- - hi
22
- - ig
23
- - id
24
- - ja
25
- - rn
26
- - ko
27
- - ky
28
- - mr
29
- - ne
30
- - om
31
- - ps
32
- - fa
33
- - pcm
34
- - pt
35
- - pa
36
- - ru
37
- - gd
38
- - sr
39
- - si
40
- - so
41
- - es
42
- - sw
43
- - ta
44
- - te
45
- - th
46
- - ti
47
- - tr
48
- - uk
49
- - ur
50
- - uz
51
- - vi
52
- - cy
53
- - yo
54
- licenses:
55
- - cc-by-nc-sa-4.0
56
- library_name: transformers
57
- inference:
58
- parameters:
59
- no_repeat_ngram_size: 4
60
- widget:
61
- - text: >-
62
- Высота башни составляет 324 метра (1063 фута), примерно такая же высота, как
63
- у 81-этажного здания, и самое высокое сооружение в Париже. Его основание
64
- квадратно, размером 125 метров (410 футов) с любой стороны. Во время
65
- строительства Эйфелева башня превзошла монумент Вашингтона, став самым
66
- высоким искусственным сооружением в мире, и этот титул она удерживала в
67
- течение 41 года до завершения строительство здания Крайслер в Нью-Йорке в
68
- 1930 году. Это первое сооружение которое достигло высоты 300 метров. Из-за
69
- добавления вещательной антенны на вершине башни в 1957 году она сейчас выше
70
- здания Крайслер на 5,2 метра (17 футов). За исключением передатчиков,
71
- Эйфелева башня является второй самой высокой отдельно стоящей структурой во
72
- Франции после виадука Мийо.
73
- example_title: Википедия
74
- - text: >-
75
- С 1 сентября в России вступают в силу поправки в закон «О банкротстве» —
76
- теперь должники смогут освобождаться от непосильных обязательств во
77
- внесудебном порядке, если сумма задолженности составляет не менее 50 тыс.
78
- рублей и не превышает 500 тыс. рублей без учета штрафов, пени, процентов за
79
- просрочку платежа и прочих имущественных или финансовых санкций. У физлиц и
80
- индивидуальных предпринимателей появилась возможность пройти процедуру
81
- банкротства без участия суда и финансового управляющего — достаточно подать
82
- соответствующее заявление через МФЦ. Сумму задолженности и список всех
83
- известных заявителю кредиторов нужно предоставить самостоятельно. Если все
84
- условия соблюдены, сведения внесут в Единый федеральный реестр в течение
85
- трех рабочих дней. При этом на момент подачи заявления в отношении заявителя
86
- должно быть окончено исполнительное производство с возвращением
87
- исполнительного документа взыскателю. Это значит, что у потенциального
88
- банкрота не должно быть имущества, которое можно взыскать. Кроме того, в
89
- отношении гражданина не должно быть возбуждено другое исполнительное
90
- производство. В период всей процедуры заявитель не сможет брать займы,
91
- кредиты, выдавать поручительства, совершать иные обеспечительные сделки.
92
- Внесудебное банкротство будет длиться шесть месяцев, в течение которых также
93
- будет действовать мораторий на удовлетворение требований кредиторов,
94
- отмеченных в заявлении должника, и мораторий об уплате обязательных
95
- платежей. Кроме того, прекращается начисление неустоек и иных финансовых
96
- санкций; имущественные взыскания (кроме алиментов) также будут
97
- приостановлены. По завершению процедуры заявителя освободят от дальнейшего
98
- выполнения требований кредиторов, указанных в заявлении о признании его
99
- банкротом, а эта задолженность признается безнадежной. В прошлом месяце
100
- стало известно, что за первое полугодие 2020 года российские суды признали
101
- банкротами 42,7 тыс. граждан (в том числе индивидуальных предпринимателей) —
102
- по данным единого реестра «Федресурс», это на 47,2% больше показателя
103
- аналогичного периода 2019 года. Рост числа обанкротившихся граждан во втором
104
- квартале по сравнению с первым замедлился — такая динамика обусловлена тем,
105
- что в период ограничений с 19 марта по 11 мая суды редко рассматривали
106
- банкротные дела компаний и меньше, чем обычно, в отношении граждан, объяснял
107
- руководитель проекта «Федресурс» Алексей Юхнин. Он прогнозирует, что во
108
- втором полугодии мы увидим рост показателя, когда суды рассмотрят все дела,
109
- что не смогли ранее в режиме ограничений. По его данным, уже в июне число
110
- личных банкротств выросло до 11,5 тыс., что в два раза превышает показатель
111
- аналогичного периода 2019 года.
112
- example_title: Новости
113
- - text: >-
114
- Актуальность проблемы. Электронная информация играет все большую роль во
115
- всех сферах жизни современного общества. В последние годы объем
116
- научно-технической текстовой информации в электронном виде возрос настолько,
117
- что возникает угроза обесценивания этой информации в связи с трудностями
118
- поиска необходимых сведений среди множества доступных текстов. Развитие
119
- информационных ресурсов Интернет многократно усугубило проблему
120
- информационной перегрузки. В этой ситуации особенно актуальными становятся
121
- методы автоматизации реферирования текстовой информации, то есть методы
122
- получения сжатого представления текстовых документов–рефератов (аннотаций).
123
- Постановка проблемы автоматического реферирования текста и соответственно
124
- попытки ее решения с использованием различных подходов предпринимались
125
- многими исследователями. История применения вычислительной техники для
126
- реферирования насчитывает уже более 50 лет и связана с именами таких
127
- исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько,
128
- Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные
129
- подходы к решению данной проблемы, которые достаточно четко подразделяются
130
- на два направления: автоматическое реферирование, основанное на
131
- экстрагировании из первичных документов с помощью определенных формальных
132
- признаков «наиболее информативных» фраз (фрагментов), совокупность которых
133
- образует некоторый экстракт; автоматическое реферирование, основанное на
134
- выделении из текстов с помощью специальных информационных языков наиболее
135
- существенной информации и порождении новых текстов (рефератов),
136
- содержат��льно обобщающих первичные документы.
137
- example_title: Научная статья
138
  ---
139
 
140
- # data-silence/any-news-sum
 
141
 
142
- This repository contains the mT5 checkpoint finetuned on the 45 languages of my [sumnews](https://huggingface.co/datasets/data-silence/sumnews) dataset which based on popular [XL-Sum](https://huggingface.co/datasets/csebuetnlp/xlsum).
143
- The model solves the news summarization task: it's designed to simultaneously generate a headline and a summary of a news article based on its full content.
144
- The primary focus of the training was on Russian language operation, but to some extent the model will work on text in any language supported by the mT5 mother model and XL-Sum dataset.
145
 
146
- ## Testing this model on `Spaces`
 
 
 
 
 
 
 
 
 
 
 
 
147
 
148
- You can try the model and evaluate its quality [here](https://huggingface.co/spaces/data-silence/sumnews)
149
 
150
- ## Using this model in `transformers`
151
 
152
- ```python
153
- import torch
154
- from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
155
 
156
- # Загрузка модели и токенизатора
157
- model_name = "data-silence/any-news-sum"
158
- tokenizer = AutoTokenizer.from_pretrained(model_name)
159
- model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
160
 
161
- device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
162
 
 
163
 
164
- def generate_summary_with_special_tokens(text, max_length=512):
165
- inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True).to(device)
166
-
167
- outputs = model.generate(
168
- **inputs,
169
- max_length=max_length,
170
- num_return_sequences=1,
171
- no_repeat_ngram_size=4,
172
- )
173
-
174
- generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
175
-
176
- # Разделение на заголовок и резюме
177
- parts = generated_text.split('<title_resume_sep>')
178
- title = parts[0].replace("<pad> ", "").strip()
179
- resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
180
-
181
- return title, resume
182
-
183
- title, resume = generate_summary_with_special_tokens('Пациенты с сердечными заболеваниями зачастую имеют низкий уровень мелатонина и нарушение цикла сна-бодрствования. До сих пор механизмы, лежащие в основе этого явления, оставались неясными. В статье, опубликованной в журнале Science, команда Мюнхенского технического университета (TUM) показывает, каким именно образом сердечные заболевания влияют на выработку гормона сна в шишковидной железе. А в качестве связующего звена между двумя органами оказывается ганглий в области шеи.')
184
- print(title) # Ученые показал, каким именно образом сердечные заболевания влияют на выработку гормона сна в шишковидной железе
185
- print(resume) # Ученые опубликовали статью, опубликованную в журнале Science, команда Мюнхенского технического университета (TUM) показывает, каким образом кардиальные заболевания влияет на выработку гормона сна в шишковидной железе.
186
- ```
187
 
188
  ### Training hyperparameters
189
 
@@ -197,14 +52,7 @@ The following hyperparameters were used during training:
197
  - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
198
  - lr_scheduler_type: linear
199
  - lr_scheduler_warmup_steps: 500
200
- - num_epochs: 4
201
-
202
- ### Training results at last epoch:
203
-
204
- | Training Loss | Epoch | Step | Validation Loss |
205
- |:-------------:|:-----:|:-----:|:---------------:|
206
- | 0.4487 | 4.0 | 20496 | 0.2799 |
207
-
208
 
209
  ### Framework versions
210
 
 
1
  ---
2
+ base_model: data-silence/any-news-sum3
 
3
  tags:
4
+ - generated_from_trainer
5
+ model-index:
6
+ - name: any-news-sum
7
+ results: []
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
  ---
9
 
10
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
11
+ should probably proofread and complete it, then remove this comment. -->
12
 
13
+ # any-news-sum
 
 
14
 
15
+ This model is a fine-tuned version of [data-silence/any-news-sum3](https://huggingface.co/data-silence/any-news-sum3) on an unknown dataset.
16
+ It achieves the following results on the evaluation set:
17
+ - eval_loss: 0.2748
18
+ - eval_title_rouge1: 0.1373
19
+ - eval_title_rouge2: 0.0489
20
+ - eval_title_rougeL: 0.1220
21
+ - eval_resume_rouge1: 0.0016
22
+ - eval_resume_rouge2: 0.0005
23
+ - eval_resume_rougeL: 0.0015
24
+ - eval_runtime: 3433.4702
25
+ - eval_samples_per_second: 9.37
26
+ - eval_steps_per_second: 1.562
27
+ - step: 0
28
 
29
+ ## Model description
30
 
31
+ More information needed
32
 
33
+ ## Intended uses & limitations
 
 
34
 
35
+ More information needed
 
 
 
36
 
37
+ ## Training and evaluation data
38
 
39
+ More information needed
40
 
41
+ ## Training procedure
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
42
 
43
  ### Training hyperparameters
44
 
 
52
  - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
53
  - lr_scheduler_type: linear
54
  - lr_scheduler_warmup_steps: 500
55
+ - num_epochs: 3
 
 
 
 
 
 
 
56
 
57
  ### Framework versions
58
 
config.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "_name_or_path": "google/mt5-base",
3
  "architectures": [
4
  "MT5ForConditionalGeneration"
5
  ],
 
1
  {
2
+ "_name_or_path": "data-silence/any-news-sum3",
3
  "architectures": [
4
  "MT5ForConditionalGeneration"
5
  ],
generation_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "decoder_start_token_id": 0,
3
+ "eos_token_id": 1,
4
+ "pad_token_id": 0,
5
+ "transformers_version": "4.42.4"
6
+ }
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1b5d4dc5ca2b3ed2114e5c48ada28990143d7efb879df79b4a2ae8e151b19b0b
3
  size 2329571184
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d77a52406a48b2f3b8eade0424a018bdabb80040c8ac3a55cc8fa3755ef0fca3
3
  size 2329571184
runs/Aug24_11-51-08_8d80415bf897/events.out.tfevents.1724501784.8d80415bf897.239.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:594797591ac2eabfb6251907005f845cde046127b9520275a53a8be2ab0d207d
3
+ size 618
runs/Aug24_12-31-21_75db80f746dc/events.out.tfevents.1724502695.75db80f746dc.1641.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:03c433e622622470cd1ec34895dc59735db37afef9e5d23b50909821d17d5880
3
+ size 618
runs/Aug24_12-32-24_75db80f746dc/events.out.tfevents.1724506190.75db80f746dc.1641.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bfedf06b5a16e17d2073aa5cde49adccd704e80faca567afa354e7d3ec61bc63
3
+ size 618
special_tokens_map.json CHANGED
@@ -1,12 +1,6 @@
1
  {
2
  "additional_special_tokens": [
3
- {
4
- "content": "<title_resume_sep>",
5
- "lstrip": false,
6
- "normalized": false,
7
- "rstrip": false,
8
- "single_word": false
9
- }
10
  ],
11
  "eos_token": {
12
  "content": "</s>",
 
1
  {
2
  "additional_special_tokens": [
3
+ "<title_resume_sep>"
 
 
 
 
 
 
4
  ],
5
  "eos_token": {
6
  "content": "</s>",
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6e8d10abfb667fdaf6e451d25c28765ba973f97c0163c267fcffef64c7e094b0
3
  size 5304
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:16c57c2ad5a2b36c82c200418bb0923d4aebddd210c687c5e6bf60a932f84553
3
  size 5304