File size: 6,415 Bytes
b7ecf11
 
 
 
 
 
 
d7cc17f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b7ecf11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
053b085
b7ecf11
053b085
 
 
b7ecf11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
053b085
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
---
language: fr
datasets:
- piaf
- FQuAD
- SQuAD-FR
widget:
- text: Comment s'appelle le portail open data du gouvernement ?
  context: 'Etalab est une administration publique française qui fait notamment office
    de Chief Data Officer de l''État et coordonne la conception et la mise en œuvre
    de sa stratégie dans le domaine de la donnée (ouverture et partage des données
    publiques ou open data, exploitation des données et intelligence artificielle...).
    Ainsi, Etalab développe et maintient le portail des données ouvertes du gouvernement
    français data.gouv.fr. Etalab promeut également une plus grande ouverture l''administration
    sur la société (gouvernement ouvert) : transparence de l''action publique, innovation
    ouverte, participation citoyenne... elle promeut l’innovation, l’expérimentation,
    les méthodes de travail ouvertes, agiles et itératives, ainsi que les synergies
    avec la société civile pour décloisonner l’administration et favoriser l’adoption
    des meilleures pratiques professionnelles dans le domaine du numérique. À ce titre
    elle étudie notamment l’opportunité de recourir à des technologies en voie de
    maturation issues du monde de la recherche. Cette entité chargée de l''innovation
    au sein de l''administration doit contribuer à l''amélioration du service public
    grâce au numérique. Elle est rattachée à la Direction interministérielle du numérique,
    dont les missions et l’organisation ont été fixées par le décret du 30 octobre
    2019.  Dirigé par Laure Lucchesi depuis 2016, elle rassemble une équipe pluridisciplinaire
    d''une trentaine de personnes.'
model-index:
- name: etalab-ia/camembert-base-squadFR-fquad-piaf
  results:
  - task:
      type: question-answering
      name: Question Answering
    dataset:
      name: piaf
      type: piaf
      config: plain_text
      split: train
    metrics:
    - type: f1
      value: 83.2419
      name: F1
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOGM4YTdmZDQ2NjlmYWYyYzFhYjBjNjgxMDE1Y2E5ZGE0Zjg1YTg3NzAwNDQ1YzM4NDFkOTMzZjRlMzYzZTIxMCIsInZlcnNpb24iOjF9.V3wz0Gem8ZOkFHudDnLgy-OSmNX8L2PrbKKhkQ-h-uVHKvkIjUXwueOm2xLRVzhmsKWOfyETkfz-uU9Te0ufAQ
    - type: exact_match
      value: 60.5505
      name: Exact Match
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNThiMmM2NGRkYjFhYTBlOWI0ZTMyN2ZlNGM3ODI1NzYxMzk2YmQ1YmNiY2ZlZmJkMTA2MWNkZmFmOWNmYzlmYiIsInZlcnNpb24iOjF9.tTLX58YhmODF-Ckn1U6qtWGsvRNTqhJB777KY8g_2wyyTBp1rubQ0-7g038_mb-OAJQcCVRju-ecLXC8CN2eAg
    - type: loss
      value: 1.3265432119369507
      name: loss
      verified: true
      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMzViZWQ4YjA4NTE4NzJjMjZmMzIzMDUzYmNjZjM1YzkzMGVkNTYxOGQ4NWRhNzI5ZmUyODBmYzJmZmVjYjJkOSIsInZlcnNpb24iOjF9.QlxqxHYGLIT9CJ4XWuPzqPP4ypFi29yv6Z5cJz_o0xSz26RxKrFcTs9WSO_Tz7tiDZNiqfW3JOgZIISmU5I5DA
---

# camembert-base-squadFR-fquad-piaf

## Description

Question-answering French model, using base [CamemBERT](https://camembert-model.fr/) fine-tuned on a combo of three French Q&A datasets:

1. [PIAFv1.1](https://www.data.gouv.fr/en/datasets/piaf-le-dataset-francophone-de-questions-reponses/)
2. [FQuADv1.0](https://fquad.illuin.tech/)
3. [SQuAD-FR (SQuAD automatically translated to French)](https://github.com/Alikabbadj/French-SQuAD)

## Training hyperparameters

```shell
python run_squad.py \
--model_type camembert \
--model_name_or_path camembert-base \
--do_train --do_eval \
--train_file data/SQuAD+fquad+piaf.json \
--predict_file data/fquad_valid.json \
--per_gpu_train_batch_size 12 \ 
--learning_rate 3e-5 \ 
--num_train_epochs 4 \  
--max_seq_length 384 \ 
--doc_stride 128 \
--save_steps 10000 
``` 

## Evaluation results
### FQuAD v1.0 Evaluation
```shell
{"f1": 79.81, "exact_match": 55.14}
```
### SQuAD-FR Evaluation
```shell
{"f1": 80.61, "exact_match": 59.54}
```

## Usage

```python
from transformers import pipeline

nlp = pipeline('question-answering', model='etalab-ia/camembert-base-squadFR-fquad-piaf', tokenizer='etalab-ia/camembert-base-squadFR-fquad-piaf')

nlp({
    'question': "Qui est Claude Monet?",
    'context': "Claude Monet, né le 14 novembre 1840 à Paris et mort le 5 décembre 1926 à Giverny, est un peintre français et l’un des fondateurs de l'impressionnisme."
})
```
## Acknowledgments

This work was performed using HPC resources from GENCI–IDRIS (Grant 2020-AD011011224). 

## Citations

### PIAF
```
@inproceedings{KeraronLBAMSSS20,
  author    = {Rachel Keraron and
               Guillaume Lancrenon and
               Mathilde Bras and
               Fr{\'{e}}d{\'{e}}ric Allary and
               Gilles Moyse and
               Thomas Scialom and
               Edmundo{-}Pavel Soriano{-}Morales and
               Jacopo Staiano},
  title     = {Project {PIAF:} Building a Native French Question-Answering Dataset},
  booktitle = {{LREC}},
  pages     = {5481--5490},
  publisher = {European Language Resources Association},
  year      = {2020}
}

```

### FQuAD
```
@article{dHoffschmidt2020FQuADFQ,
  title={FQuAD: French Question Answering Dataset},
  author={Martin d'Hoffschmidt and Maxime Vidal and Wacim Belblidia and Tom Brendl'e and Quentin Heinrich},
  journal={ArXiv},
  year={2020},
  volume={abs/2002.06071}
}
```

### SQuAD-FR
```
 @MISC{kabbadj2018,
   author =       "Kabbadj, Ali",
   title =        "Something new in French Text Mining and Information Extraction (Universal Chatbot): Largest Q&A French training dataset (110 000+) ",
   editor =       "linkedin.com",
   month =        "November",
   year =         "2018",
   url =          "\url{https://www.linkedin.com/pulse/something-new-french-text-mining-information-chatbot-largest-kabbadj/}",
   note =         "[Online; posted 11-November-2018]",
 }
 ```

### CamemBERT
HF model card : [https://huggingface.co./camembert-base](https://huggingface.co./camembert-base)

```
@inproceedings{martin2020camembert,
  title={CamemBERT: a Tasty French Language Model},
  author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
  year={2020}
}
```