Les modèles de séquence-à-séquence
Les modèles encodeur-décodeur (également appelés modèles de séquence-à-séquence) utilisent les deux parties du transformer. À chaque étape, les couches d’attention de l’encodeur peuvent accéder à tous les mots de la phrase initiale, tandis que les couches d’attention du décodeur n’ont accès qu’aux mots positionnés avant un mot donné en entrée de ces couches d’attention.
Le pré-entraînement de ces modèles peut être réalisé en utilisant les objectifs des modèles basés sur l’encodeur ou des modèles basés sur le décodeur. En général cela implique quelque chose de plus complexe. Par exemple, le modèle T5 est pré-entraîné en remplaçant des zones aléatoires de texte (qui peuvent contenir plusieurs mots) par un masque spécial et l’objectif est alors de prédire le texte que ce masque cache.
Les modèles de séquence-à-séquence sont les plus adaptés pour les tâches liées à la génération de nouvelles phrases en fonction d’une entrée donnée, comme le résumé de texte, la traduction ou la génération de questions-réponses.
Les modèles qui représentent le mieux cette famille sont :