gsarti commited on
Commit
54a1566
1 Parent(s): 21ef05d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +74 -46
README.md CHANGED
@@ -1,54 +1,96 @@
1
  ---
2
- license: mit
3
- tags:
4
- - generated_from_trainer
5
  datasets:
6
- - it5/datasets
 
 
 
 
 
 
 
 
 
 
 
 
7
  metrics:
8
  - rouge
 
9
  model-index:
10
- - name: it5-efficient-small-el32-qg-0.0003
11
  results:
12
- - task:
13
- name: Summarization
14
- type: summarization
15
  dataset:
16
- name: it5/datasets qg
17
- type: it5/datasets
18
- args: qg
19
  metrics:
20
- - name: Rouge1
21
- type: rouge
22
- value: 40.5452
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23
  ---
 
 
 
 
 
24
 
25
- <!-- This model card has been generated automatically according to the information the Trainer had access to. You
26
- should probably proofread and complete it, then remove this comment. -->
27
 
28
- # it5-efficient-small-el32-qg-0.0003
29
 
30
- This model is a fine-tuned version of [stefan-it/it5-efficient-small-el32](https://huggingface.co/stefan-it/it5-efficient-small-el32) on the it5/datasets qg dataset.
31
- It achieves the following results on the evaluation set:
32
- - Loss: 1.8460
33
- - Rouge1: 40.5452
34
- - Rouge2: 21.7821
35
- - Rougel: 37.9644
36
- - Rougelsum: 37.9407
37
- - Gen Len: 14.059
38
 
39
- ## Model description
40
 
41
- More information needed
 
42
 
43
- ## Intended uses & limitations
 
 
 
44
 
45
- More information needed
46
 
47
- ## Training and evaluation data
 
48
 
49
- More information needed
 
 
50
 
51
- ## Training procedure
 
 
 
 
 
 
 
 
 
 
 
52
 
53
  ### Training hyperparameters
54
 
@@ -61,20 +103,6 @@ The following hyperparameters were used during training:
61
  - lr_scheduler_type: linear
62
  - num_epochs: 7.0
63
 
64
- ### Training results
65
-
66
- | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len |
67
- |:-------------:|:-----:|:-----:|:---------------:|:-------:|:-------:|:-------:|:---------:|:-------:|
68
- | 2.3227 | 0.78 | 5000 | 2.0119 | 35.4228 | 16.8454 | 33.0039 | 33.0042 | 13.4213 |
69
- | 2.0517 | 1.56 | 10000 | 1.9002 | 36.7771 | 18.1217 | 34.4954 | 34.4605 | 12.7787 |
70
- | 1.8388 | 2.35 | 15000 | 1.8676 | 38.3396 | 19.4592 | 35.8451 | 35.8358 | 13.2803 |
71
- | 1.6942 | 3.13 | 20000 | 1.8758 | 39.0889 | 20.3841 | 36.655 | 36.6291 | 13.0213 |
72
- | 1.7123 | 3.91 | 25000 | 1.8253 | 39.6282 | 20.9321 | 37.1541 | 37.1195 | 13.1837 |
73
- | 1.5719 | 4.69 | 30000 | 1.8311 | 39.7541 | 21.1663 | 37.3503 | 37.3096 | 13.3723 |
74
- | 1.4763 | 5.47 | 35000 | 1.8474 | 39.8798 | 21.3044 | 37.4297 | 37.4135 | 13.2783 |
75
- | 1.3963 | 6.25 | 40000 | 1.8533 | 40.1839 | 21.4959 | 37.5371 | 37.5414 | 13.4713 |
76
-
77
-
78
  ### Framework versions
79
 
80
  - Transformers 4.15.0
 
1
  ---
2
+ language:
3
+ - it
4
+ license: apache-2.0
5
  datasets:
6
+ - squad_it
7
+ tags:
8
+ - Italian
9
+ - efficient
10
+ - sequence-to-sequence
11
+ - question-generation
12
+ - squad_it
13
+ - text2text-generation
14
+ widget:
15
+ - text: "Le conoscenze mediche erano stagnanti durante il Medioevo. Il resoconto più autorevole di allora è venuto dalla facoltà di medicina di Parigi in un rapporto al re di Francia che ha incolpato i cieli, sotto forma di una congiunzione di tre pianeti nel 1345 che causò una \"grande pestilenza nell' aria\". Questa relazione è diventata la prima e più diffusa di una serie di casi di peste che cercava di dare consigli ai malati. Che la peste fosse causata dalla cattiva aria divenne la teoria più accettata. Oggi, questo è conosciuto come la teoria di Miasma. La parola \"peste\" non aveva un significato particolare in questo momento, e solo la ricorrenza dei focolai durante il Medioevo gli diede il nome che è diventato il termine medico. Risposta: re di Francia"
16
+ - text: "Il 14 aprile 2011, ABC ha annullato le lunghe opere di sapone All My Children e One Life to Live dopo 41 e 43 anni in onda, rispettivamente (in seguito al contraccolpo dei tifosi, ABC ha venduto i diritti ad entrambi gli spettacoli a Prospect Park, che alla fine ha rilanciato i saponi su Hulu per un' ulteriore stagione nel 2013 e con entrambe le società che si citano in giudizio per accuse di interferenza con il processo di rilancio degli spettacoli, mancato pagamento delle tasse di licenza. Il talk/lifestyle show che ha sostituito One Life to Live, The Revolution, non è riuscito a generare giudizi soddisfacenti ed è stato a sua volta annullato dopo soli sette mesi. La stagione 2011-12 ha visto l' ABC cadere al quarto posto nel 18-49 demografico nonostante rinnovando una manciata di nuovi spettacoli (compresi i drammi matricole Scandal, Revenge e Once Upon a Time) per la seconda stagione. Risposta: Hulu"
17
+ - text: "L' American Broadcasting Company (ABC) (stlized nel suo logo come abc dal 1957) è una rete televisiva commerciale americana trasmissione televisiva che è di proprietà del Disney-ABC Television Group, una controllata della divisione Disney Media Networks di The Walt Disney Company. La rete fa parte delle grandi reti televisive Big Three. La rete ha sede a Columbus Avenue e West 66th Street a Manhattan, con ulteriori uffici e stabilimenti di produzione a New York City, Los Angeles e Burbank, California. Risposta: Manhattan"
18
+ - text: "La disobbedienza civile non rivoluzionaria è una semplice disobbedienza delle leggi sulla base del fatto che sono giudicate \"sbagliate\" da una coscienza individuale, o come parte di uno sforzo per rendere alcune leggi inefficaci, per causarne l' abrogazione, o per esercitare pressioni per ottenere i propri desideri politici su qualche altra questione. La disobbedienza civile rivoluzionaria è più che altro un tentativo attivo di rovesciare un governo (o di cambiare le tradizioni culturali, i costumi sociali, le credenze religiose, ecc. La rivoluzione non deve necessariamente essere politica, cioè \"rivoluzione culturale\", implica semplicemente un cambiamento radicale e diffuso in una sezione del tessuto sociale). Gli atti di Gandhi sono stati descritti come disobbedienza civile rivoluzionaria. È stato affermato che gli ungheresi sotto Ferenc Deák hanno diretto una disobbedienza civile rivoluzionaria contro il governo austriaco. Thoreau ha anche scritto di disobbedienza civile realizzando \"rivoluzione pacifica\". Howard Zinn, Harvey Wheeler e altri hanno identificato il diritto sposato nella Dichiarazione d' Indipendenza di \"alterare o abolire\" un governo ingiusto come principio di disobbedienza civile. Risposta: Ferenc Deák"
19
  metrics:
20
  - rouge
21
+ - bertscore
22
  model-index:
23
+ - name: it5-efficient-small-el32-question-generation
24
  results:
25
+ - task:
26
+ type: question-generation
27
+ name: "Question generation"
28
  dataset:
29
+ type: squad_it
30
+ name: "SQuAD-IT"
 
31
  metrics:
32
+ - type: rouge1
33
+ value: 0.382
34
+ name: "Test Rouge1"
35
+ - type: rouge2
36
+ value: 0.201
37
+ name: "Test Rouge2"
38
+ - type: rougeL
39
+ value: 0.357
40
+ name: "Test RougeL"
41
+ - type: bertscore
42
+ value: 0.517
43
+ name: "Test BERTScore"
44
+ args:
45
+ - model_type: "dbmdz/bert-base-italian-xxl-uncased"
46
+ - lang: "it"
47
+ - num_layers: 10
48
+ - rescale_with_baseline: True
49
+ - baseline_path: "bertscore_baseline_ita.tsv"
50
  ---
51
+ # IT5 Cased Small Efficient EL32 for Question Generation 💭 🇮🇹
52
+
53
+ *Shout-out to [Stefan Schweter](https://github.com/stefan-it) for contributing the pre-trained efficient model!*
54
+
55
+ This repository contains the checkpoint for the [IT5 Cased Small Efficient EL32](https://huggingface.co/it5/it5-efficient-small-el32) model fine-tuned on question generation on the [SQuAD-IT corpus](https://huggingface.co/datasets/squad_it) as part of the experiments of the paper [IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation](https://arxiv.org/abs/2203.03759) by [Gabriele Sarti](https://gsarti.com) and [Malvina Nissim](https://malvinanissim.github.io).
56
 
57
+ Efficient IT5 models differ from the standard ones by adopting a different vocabulary that enables cased text generation and an [optimized model architecture](https://arxiv.org/abs/2109.10686) to improve performances while reducing parameter count. The Small-EL32 replaces the original encoder from the T5 Small architecture with a 32-layer deep encoder, showing improved performances over the base model.
 
58
 
59
+ A comprehensive overview of other released materials is provided in the [gsarti/it5](https://github.com/gsarti/it5) repository. Refer to the paper for additional details concerning the reported scores and the evaluation approach.
60
 
61
+ ## Using the model
 
 
 
 
 
 
 
62
 
63
+ Model checkpoints are available for usage in Tensorflow, Pytorch and JAX. They can be used directly with pipelines as:
64
 
65
+ ```python
66
+ from transformers import pipelines
67
 
68
+ qg = pipeline("text2text-generation", model='it5/it5-efficient-small-el32-question-generation')
69
+ qg("Le conoscenze mediche erano stagnanti durante il Medioevo. Il resoconto più autorevole di allora è venuto dalla facoltà di medicina di Parigi in un rapporto al re di Francia che ha incolpato i cieli, sotto forma di una congiunzione di tre pianeti nel 1345 che causò una "grande pestilenza nell\' aria". Questa relazione è diventata la prima e più diffusa di una serie di casi di peste che cercava di dare consigli ai malati. Che la peste fosse causata dalla cattiva aria divenne la teoria più accettata. Oggi, questo è conosciuto come la teoria di Miasma. La parola "peste" non aveva un significato particolare in questo momento, e solo la ricorrenza dei focolai durante il Medioevo gli diede il nome che è diventato il termine medico. Risposta: re di Francia")
70
+ >>> [{"generated_text": "Per chi è stato redatto il referto medico?"}]
71
+ ```
72
 
73
+ or loaded using autoclasses:
74
 
75
+ ```python
76
+ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
77
 
78
+ tokenizer = AutoTokenizer.from_pretrained("it5/it5-efficient-small-el32-question-generation")
79
+ model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-efficient-small-el32-question-generation")
80
+ ```
81
 
82
+ If you use this model in your research, please cite our work as:
83
+
84
+ ```bibtex
85
+ @article{sarti-nissim-2022-it5,
86
+ title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
87
+ author={Sarti, Gabriele and Nissim, Malvina},
88
+ journal={ArXiv preprint 2203.03759},
89
+ url={https://arxiv.org/abs/2203.03759},
90
+ year={2022},
91
+ month={mar}
92
+ }
93
+ ```
94
 
95
  ### Training hyperparameters
96
 
 
103
  - lr_scheduler_type: linear
104
  - num_epochs: 7.0
105
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
106
  ### Framework versions
107
 
108
  - Transformers 4.15.0