Cyrile's picture
Update README.md
90a413b
|
raw
history blame
6.59 kB
metadata
language: fr
license: cc-by-nc-sa-3.0
datasets:
  - fquad
  - piaf
widget:
  - text: Quand et  est sorti Toy Story ?
    context: >-
      Pixar Animation Studios, ou simplement Pixar dans le langage courant, est
      une société américaine de production de films en images tridimensionnelles
      de synthèse. Elle a acquis sa notoriété grâce à Toy Story, premier long
      métrage de ce type, sorti aux États-Unis en 1995. À ce jour, le studio
      d'animation a remporté dix-neuf Oscars, quatre Golden Globes et trois
      Grammy Awards ainsi que de nombreuses autres récompenses. Le studio
      travaille avec PhotoRealistic RenderMan, sa propre version de l'interface
      de programmation de rendu RenderMan utilisée pour créer des images de
      haute qualité. Ses studios de production et son siège social se trouvent
      au Pixar Campus situé à Emeryville près de San Francisco en Californie.
  - text: Quel est le premier long métrage du studio ?
    context: >-
      Pixar Animation Studios, ou simplement Pixar dans le langage courant, est
      une société américaine de production de films en images tridimensionnelles
      de synthèse. Elle a acquis sa notoriété grâce à Toy Story, premier long
      métrage de ce type, sorti aux États-Unis en 1995. À ce jour, le studio
      d'animation a remporté dix-neuf Oscars, quatre Golden Globes et trois
      Grammy Awards ainsi que de nombreuses autres récompenses. Le studio
      travaille avec PhotoRealistic RenderMan, sa propre version de l'interface
      de programmation de rendu RenderMan utilisée pour créer des images de
      haute qualité. Ses studios de production et son siège social se trouvent
      au Pixar Campus situé à Emeryville près de San Francisco en Californie.

DistilCamemBERT-QA

We present DistilCamemBERT-QA which is DistilCamemBERT fine-tuned for the Question-Answering task for the french language. This model is constructed over two datasets FQuAD v1.0 and Piaf which are composed of contexts and questions with their answers inside the context.

This modelization is close to etalab-ia/camembert-base-squadFR-fquad-piaf based on CamemBERT model. The problem of the modelizations based on CamemBERT is at the scaling moment, for the production phase for example. Indeed, inference cost can be a technological issue especially as in a context of cross-encoding like for this task. To counteract this effect, we propose this modelization which divides the inference time by 2 with the same consumption power thanks to DistilCamemBERT.

Dataset

The dataset is composed of FQuAD v1.0 and Piaf with 24'566 questions and answers for the training set and 3'188 for the evaluation set.

Evaluation results and benchmark

We compare DistilCamemBERT-QA to two other modelizations working on french language. The first one etalab-ia/camembert-base-squadFR-fquad-piaf is based on well named CamemBERT, the french RoBERTa model and the second one fmikaelian/flaubert-base-uncased-squad is based on FlauBERT an other french model based on BERT architecture this time. To compare the models to each others, the exact match comparing character by character the prediected answer and the ground truth is used, f1-score which measures the quality of intersection between predicted answer words and ground truth is also used and finally inclusion score which measures if the ground truth answer is include in predicted answer. For the mean inference time measure, an AMD Ryzen 5 4500U @ 2.3GHz with 6 cores was used.

model time (ms) exact match (%) f1-score (%) inclusion-score (%)
cmarkea/distilcamembert-base-qa 216.96 25.66 62.65 59.82
etalab-ia/camembert-base-squadFR-fquad-piaf 432.17 59.76 79.57 69.23
fmikaelian/flaubert-base-uncased-squad 875.84 0.22 5.21 3.68

Do not take into account the results on the FlauBERT model, there seems to be a problem with the modelling as the results seem very low.

How to use DistilCamemBERT-QA

from transformers import pipeline

qa_engine = pipeline(
    "question-answering",
    model="cmarkea/distilcamembert-base-qa",
    tokenizer="cmarkea/distilcamembert-base-qa"
)

result = qa_engine(
    context="David Fincher, né le 28 août 1962 à Denver (Colorado), "
    "est un réalisateur et producteur américain. Il est principalement "
    "connu pour avoir réalisé les films Seven, Fight Club, L'Étrange "
    "Histoire de Benjamin Button, The Social Network et Gone Girl qui "
    "lui ont valu diverses récompenses et nominations aux Oscars du "
    "cinéma ou aux Golden Globes. Réputé pour son perfectionnisme, il "
    "peut tourner un très grand nombre de prises de ses plans et "
    "séquences afin d'obtenir le rendu visuel qu'il désire. Il a "
    "également développé et produit les séries télévisées House of "
    "Cards (pour laquelle il remporte l'Emmy Award de la meilleure "
    "réalisation pour une série dramatique en 2013) et Mindhunter, "
    "diffusées sur Netflix.",
    question="Quel est le métier de David Fincher ?"
)

result
{'score': 0.7981914281845093,
 'start': 61,
 'end': 98,
 'answer': ' réalisateur et producteur américain.'}

Citation

@inproceedings{delestre:hal-03674695,
  TITLE = {{DistilCamemBERT : une distillation du mod{\`e}le fran{\c c}ais CamemBERT}},
  AUTHOR = {Delestre, Cyrile and Amar, Abibatou},
  URL = {https://hal.archives-ouvertes.fr/hal-03674695},
  BOOKTITLE = {{CAp (Conf{\'e}rence sur l'Apprentissage automatique)}},
  ADDRESS = {Vannes, France},
  YEAR = {2022},
  MONTH = Jul,
  KEYWORDS = {Mots-clef : Distillation ; CamemBERT ; Transformers ; NLP},
  PDF = {https://hal.archives-ouvertes.fr/hal-03674695/file/cap2022.pdf},
  HAL_ID = {hal-03674695},
  HAL_VERSION = {v1},
}