rristo's picture
Update README.md
d0afb8d verified
|
raw
history blame
No virus
5.14 kB
---
license: apache-2.0
datasets:
- rristo/et_parliament_stenos_summary
language:
- et
metrics:
- name: rouge1
type: rouge1
value: 36.1651
verified: false
- name: rouge2
type: rouge2
value: 15.9668
verified: false
- name: rougeL
type: rougeL
value: 28.339
verified: false
- name: rougeLsum
type: rougeLsum
value: 33.767
verified: false
library_name: transformers
pipeline_tag: summarization
---
# Model Card
This is an Estonian Parliament stenograms summarization model. Model is trained on the [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary) dataset which consists of Parliament dialogues/talks.
### Model Description
Reason for creating this model is related to experiment if there would be possible to simply train Estonian summarization model which is has longer input sequence length than 1024 tokens.
- **Model type:** T5
- **Language(s) (NLP):** Estonian
- **Finetuned from model:** [agemagician/mlong-t5-tglobal-base](https://huggingface.co./agemagician/mlong-t5-tglobal-base). Vocabulary of the original model was reduced to keep only tokens present in training data.
- **Maximum input sequence (tokens):** 2048
## Uses
### Direct Use
Model is tended to be used summarizing Estonian Parliament talks stenograms. It might work with somewhat reasonable accurary with other Estonian texts.
## Bias, Risks, and Limitations
Biases coming from the original pre-trained model and from Estonian Parliament dataset (and GPT-3.5 which was used to create training data summaries) are probably present in the model. No extensive study has been made.
### Recommendations
Don't use model in case you need very accurate results, model might miss important aspects from the original text and hallucinate.
## How to Get Started with the Model
```
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
model = AutoModelForSeq2SeqLM.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
text="""Varasematest uuringutest on teada, et punetav nägu võib märku anda erutusest näiteks aaradel ja raisakotkastel. Sestap huvitas Tours'i Ülikooli etoloog Delphine Soulet'd ja tema kolleege, kas sarnast tundemärki võib näha ka kodukanade (Gallus gallus domesticus) nägudel.
Töörühm filmis esmalt kuut Sussexi tõugu kana erinevates olukordades. Mõnes olukorras toimetasid kanad loomulikult omasoodu, teistes aga juhtisid uurijad lindude tegevust. Põnevates ja autasu tõotavates olukordades lasi töörühm kanadel võtta tolmuvanni või söötis neid ussikestega. Hirmuga seotud olukordades püüdsid uurijad linde käsitsi kinni.
Katsete järel oli töörühma päralt videosalvestistest võetud tuhandeid üksikkaadreid. Just nende analüüsiks loodud algoritmi toel said uurijad täpselt jälgida, kui punased olid igas olukorras kanade hari, põsed, kõrvanibud ja lotid.
Töörühma sõnul oli uuringu valim väike, mistõttu vajavad tulemused kinnitamist suuremas kordusuuringus. Siiski ilmneb tulemustest, et vähem punetavad põsed ja kõrvanibud võivad viidata linnu rahulikule ja rõõmsale seisundile. Vastukaaluks näib punetavam nägu märku andvat linnu suuremast emotsionaalsest erutusest. Sinna hulka kuuluvad nii ussikeste saamisega seotud elevus kui ka hirm.
Soulet ja kolleegid tegid veel ühe katse, kus jaotasid 25 Sussexi tõugu kana kahte rühma. Uurijad käisid viie nädala jooksul 13 linnu juures, et kanu pisitasa inimese kohaoluga harjutada. Ülejäänud 12 lindu jäeti viieks nädalaks kontrollrühmana omapäi.
Kui siis kõik kanad viie nädala möödudes uuesti inimestega kokku puutusid, ilmnes kahe kanarühma vahel selge vahe. Uurijatega harjunud linnud pelgasid inimest vähem ja muutusid nende juuresolekul näost vähem punaseks, kui nende üksi jäetud liigikaaslased."""
def summarize(text, model, tokenizer, max_new_tokens=512, device='cuda'):
input_ids = tokenizer(
text, return_tensors="pt"
).input_ids # Batch size 1
outputs = model.generate(input_ids=input_ids.to(device), max_new_tokens=max_new_tokens)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
DEVICE='cuda'
model=model.to(DEVICE)
summarize(text, model, tokenizer, device=DEVICE)
```
## Training Details
### Training Data
- [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary)
### Training Procedure
Training notebook is available [here](https://github.com/RRisto/longer_text_summary/blob/main/training/mLongT5/long_mt5_base_et_finetune_rk.ipynb)
#### Training Hyperparameters
- **Training regime:** fp32
- **learning_rate:** 5e-5
- **num_train_epochs:** 12
## Evaluation
### Testing Data, Factors & Metrics
#### Testing Data
Test data is from [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary) test set, which contains stenograms not present in the training data.
#### Metrics and results
- rouge1: 36.1651
- rouge2: 15.9668
- rougeL: 28.339
- rougeLsum: 33.767