File size: 5,138 Bytes
54edc2a
 
b6db6a8
 
 
 
 
 
 
 
b9c4bec
93c30c4
 
 
 
 
 
 
 
 
 
 
 
b6db6a8
 
6bc892e
f265419
6bc892e
13ebd28
6bc892e
 
 
 
58ef429
6bc892e
 
58ef429
 
9789956
9563067
6bc892e
 
 
 
 
9563067
6bc892e
 
 
 
58ef429
6bc892e
 
 
 
9789956
6bc892e
 
 
a57cee7
3ed3005
6bc892e
3ed3005
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
a57cee7
6bc892e
 
 
 
 
58ef429
 
6bc892e
 
 
d0afb8d
6bc892e
 
 
 
858d570
 
 
6bc892e
 
 
 
 
 
 
 
 
58ef429
6bc892e
 
58ef429
6bc892e
58ef429
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
---
license: apache-2.0
datasets:
- rristo/et_parliament_stenos_summary
language:
- et
metrics:
- name: rouge1
  type: rouge1
  value: 36.1651
  verified: false
- name: rouge2
  type: rouge2
  value: 15.9668
  verified: false
- name: rougeL
  type: rougeL
  value: 28.339
  verified: false
- name: rougeLsum
  type: rougeLsum
  value: 33.767
  verified: false
library_name: transformers
pipeline_tag: summarization
---
# Model Card

This is an Estonian Parliament stenograms summarization model. Model is trained on the [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary) dataset which consists of Parliament dialogues/talks.


### Model Description

Reason for creating this model is related to experiment if there would be possible to simply train Estonian summarization model which is has longer input sequence length than 1024 tokens.


- **Model type:** T5
- **Language(s) (NLP):** Estonian
- **Finetuned from model:** [agemagician/mlong-t5-tglobal-base](https://huggingface.co./agemagician/mlong-t5-tglobal-base). Vocabulary of the original model was reduced to keep only tokens present in training data.
- **Maximum input sequence (tokens):** 2048

## Uses

### Direct Use

Model is tended to be used summarizing Estonian Parliament talks stenograms. It might work with somewhat reasonable accurary with other Estonian texts.


## Bias, Risks, and Limitations

Biases coming from the original pre-trained model and from Estonian Parliament dataset (and GPT-3.5 which was used to create training data summaries) are probably present in the model. No extensive study has been made.


### Recommendations

Don't use model in case you need very accurate results, model might miss important aspects from the original text and hallucinate.

## How to Get Started with the Model

```
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
model = AutoModelForSeq2SeqLM.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")

text="""Varasematest uuringutest on teada, et punetav nägu võib märku anda erutusest näiteks aaradel ja raisakotkastel. Sestap huvitas Tours'i Ülikooli etoloog Delphine Soulet'd ja tema kolleege, kas sarnast tundemärki võib näha ka kodukanade (Gallus gallus domesticus) nägudel.
Töörühm filmis esmalt kuut Sussexi tõugu kana erinevates olukordades. Mõnes olukorras toimetasid kanad loomulikult omasoodu, teistes aga juhtisid uurijad lindude tegevust. Põnevates ja autasu tõotavates olukordades lasi töörühm kanadel võtta tolmuvanni või söötis neid ussikestega. Hirmuga seotud olukordades püüdsid uurijad linde käsitsi kinni.
Katsete järel oli töörühma päralt videosalvestistest võetud tuhandeid üksikkaadreid. Just nende analüüsiks loodud algoritmi toel said uurijad täpselt jälgida, kui punased olid igas olukorras kanade hari, põsed, kõrvanibud ja lotid.
Töörühma sõnul oli uuringu valim väike, mistõttu vajavad tulemused kinnitamist suuremas kordusuuringus. Siiski ilmneb tulemustest, et vähem punetavad põsed ja kõrvanibud võivad viidata linnu rahulikule ja rõõmsale seisundile. Vastukaaluks näib punetavam nägu märku andvat linnu suuremast emotsionaalsest erutusest. Sinna hulka kuuluvad nii ussikeste saamisega seotud elevus kui ka hirm.
Soulet ja kolleegid tegid veel ühe katse, kus jaotasid 25 Sussexi tõugu kana kahte rühma. Uurijad käisid viie nädala jooksul 13 linnu juures, et kanu pisitasa inimese kohaoluga harjutada. Ülejäänud 12 lindu jäeti viieks nädalaks kontrollrühmana omapäi.
Kui siis kõik kanad viie nädala möödudes uuesti inimestega kokku puutusid, ilmnes kahe kanarühma vahel selge vahe. Uurijatega harjunud linnud pelgasid inimest vähem ja muutusid nende juuresolekul näost vähem punaseks, kui nende üksi jäetud liigikaaslased."""


def summarize(text, model, tokenizer, max_new_tokens=512, device='cuda'):
    input_ids = tokenizer(
         text, return_tensors="pt"
    ).input_ids  # Batch size 1
    outputs = model.generate(input_ids=input_ids.to(device), max_new_tokens=max_new_tokens)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

DEVICE='cuda'
model=model.to(DEVICE)

summarize(text, model, tokenizer, device=DEVICE)

```

## Training Details

### Training Data

- [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary)
  

### Training Procedure

Training notebook is available [here](https://github.com/RRisto/longer_text_summary/blob/main/training/mLongT5/long_mt5_base_et_finetune_rk.ipynb) 


#### Training Hyperparameters

- **Training regime:** fp32
- **learning_rate:** 5e-5
- **num_train_epochs:** 12


## Evaluation


### Testing Data, Factors & Metrics

#### Testing Data

Test data is from [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary) test set, which contains stenograms not present in the training data.


#### Metrics and results

- rouge1: 36.1651
- rouge2: 15.9668
- rougeL: 28.339
- rougeLsum: 33.767