Update README.md

d0afb8d verified 5 months ago

No virus

5.14 kB

	---
	license: apache-2.0
	datasets:
	- rristo/et_parliament_stenos_summary
	language:
	- et
	metrics:
	- name: rouge1
	type: rouge1
	value: 36.1651
	verified: false
	- name: rouge2
	type: rouge2
	value: 15.9668
	verified: false
	- name: rougeL
	type: rougeL
	value: 28.339
	verified: false
	- name: rougeLsum
	type: rougeLsum
	value: 33.767
	verified: false
	library_name: transformers
	pipeline_tag: summarization
	---
	# Model Card

	This is an Estonian Parliament stenograms summarization model. Model is trained on the [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary) dataset which consists of Parliament dialogues/talks.


	### Model Description

	Reason for creating this model is related to experiment if there would be possible to simply train Estonian summarization model which is has longer input sequence length than 1024 tokens.


	- Model type: T5
	- Language(s) (NLP): Estonian
	- Finetuned from model: [agemagician/mlong-t5-tglobal-base](https://huggingface.co./agemagician/mlong-t5-tglobal-base). Vocabulary of the original model was reduced to keep only tokens present in training data.
	- Maximum input sequence (tokens): 2048

	## Uses

	### Direct Use

	Model is tended to be used summarizing Estonian Parliament talks stenograms. It might work with somewhat reasonable accurary with other Estonian texts.


	## Bias, Risks, and Limitations

	Biases coming from the original pre-trained model and from Estonian Parliament dataset (and GPT-3.5 which was used to create training data summaries) are probably present in the model. No extensive study has been made.


	### Recommendations

	Don't use model in case you need very accurate results, model might miss important aspects from the original text and hallucinate.

	## How to Get Started with the Model

	```
	from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

	tokenizer = AutoTokenizer.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
	model = AutoModelForSeq2SeqLM.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")

	text="""Varasematest uuringutest on teada, et punetav nägu võib märku anda erutusest näiteks aaradel ja raisakotkastel. Sestap huvitas Tours'i Ülikooli etoloog Delphine Soulet'd ja tema kolleege, kas sarnast tundemärki võib näha ka kodukanade (Gallus gallus domesticus) nägudel.
	Töörühm filmis esmalt kuut Sussexi tõugu kana erinevates olukordades. Mõnes olukorras toimetasid kanad loomulikult omasoodu, teistes aga juhtisid uurijad lindude tegevust. Põnevates ja autasu tõotavates olukordades lasi töörühm kanadel võtta tolmuvanni või söötis neid ussikestega. Hirmuga seotud olukordades püüdsid uurijad linde käsitsi kinni.
	Katsete järel oli töörühma päralt videosalvestistest võetud tuhandeid üksikkaadreid. Just nende analüüsiks loodud algoritmi toel said uurijad täpselt jälgida, kui punased olid igas olukorras kanade hari, põsed, kõrvanibud ja lotid.
	Töörühma sõnul oli uuringu valim väike, mistõttu vajavad tulemused kinnitamist suuremas kordusuuringus. Siiski ilmneb tulemustest, et vähem punetavad põsed ja kõrvanibud võivad viidata linnu rahulikule ja rõõmsale seisundile. Vastukaaluks näib punetavam nägu märku andvat linnu suuremast emotsionaalsest erutusest. Sinna hulka kuuluvad nii ussikeste saamisega seotud elevus kui ka hirm.
	Soulet ja kolleegid tegid veel ühe katse, kus jaotasid 25 Sussexi tõugu kana kahte rühma. Uurijad käisid viie nädala jooksul 13 linnu juures, et kanu pisitasa inimese kohaoluga harjutada. Ülejäänud 12 lindu jäeti viieks nädalaks kontrollrühmana omapäi.
	Kui siis kõik kanad viie nädala möödudes uuesti inimestega kokku puutusid, ilmnes kahe kanarühma vahel selge vahe. Uurijatega harjunud linnud pelgasid inimest vähem ja muutusid nende juuresolekul näost vähem punaseks, kui nende üksi jäetud liigikaaslased."""


	def summarize(text, model, tokenizer, max_new_tokens=512, device='cuda'):
	input_ids = tokenizer(
	text, return_tensors="pt"
	).input_ids # Batch size 1
	outputs = model.generate(input_ids=input_ids.to(device), max_new_tokens=max_new_tokens)
	return tokenizer.decode(outputs[0], skip_special_tokens=True)

	DEVICE='cuda'
	model=model.to(DEVICE)

	summarize(text, model, tokenizer, device=DEVICE)

	```

	## Training Details

	### Training Data

	- [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary)


	### Training Procedure

	Training notebook is available [here](https://github.com/RRisto/longer_text_summary/blob/main/training/mLongT5/long_mt5_base_et_finetune_rk.ipynb)


	#### Training Hyperparameters

	- Training regime: fp32
	- learning_rate: 5e-5
	- num_train_epochs: 12


	## Evaluation


	### Testing Data, Factors & Metrics

	#### Testing Data

	Test data is from [et_parliament_stenos_summary](https://huggingface.co./datasets/rristo/et_parliament_stenos_summary) test set, which contains stenograms not present in the training data.


	#### Metrics and results

	- rouge1: 36.1651
	- rouge2: 15.9668
	- rougeL: 28.339
	- rougeLsum: 33.767