license: other
license_name: creative-commons-attribution-noncommercial
license_link: >-
https://raw.githubusercontent.com/idleberg/Creative-Commons-Markdown/refs/heads/main/4.0/by-nc-nd.markdown
language:
- en
metrics:
- accuracy
base_model:
- xlnet/xlnet-base-cased
pipeline_tag: text-classification
library_name: sklearn
tags:
- Emotions
Classificateur d'émotions basé sur XLNet
Ce projet implémente un classificateur d'émotions pour les textes français en utilisant le modèle XLNet pré-entraîné et fine-tuné (xlnet-base-cased). Il est capable de détecter les émotions suivantes : joie, peur, colère, tristesse.
Dataset
Le modèle a été entraîné sur un jeu de données contenant des annotations d'émotions pour des messages textuels en français. Les données ont été nettoyées et prétraitées avant d'être utilisées pour l'entraînement du modèle. Le dataset original est désequilibré, c'est pourquoi on a rééquilibré les classes afin d'avoir une meilleure performance. Après le prétraitement et le rééquilibrage, on obtient un dataset de 12000 lignes.
Entraînement
Le modèle XLNet a été fine-tuné sur les données d'entraînement pendant 5 époques avec un taux d'apprentissage adapté pour optimiser les performances. La métrique d'évaluation utilisée est l'accuracy. Les données on été divisé en 3 parties : 80% pour l'entrainement, 10% pour la validation et 10% pour les tests.
Performances
Le modèle a obtenu une accuracy de plus de 91% sur l'ensemble de validation et de test. Les prédictions sur des exemples choisis se sont avérées pertinentes.
Interprétation des outputs :
- Accuracy : Le modèle a atteint une accuracy de plus de 90 % sur les données de validation et de test, ce qui indique
- sa capacité à prédire correctement l'émotion dans la plupart des cas.
- Pertes : La courbe de perte pendant l'entraînement montre une diminution progressive, ce qui signifie que le modèle
- apprend et s'améliore au fil des époques.
- Prédictions : Les exemples de prédictions sur des textes de validation montrent que le modèle est capable d'identifier
- l'émotion dominante avec une probabilité élevée.
- On remarque aussi que le modèle a une bonne précision avec un score F1 de 0.91.
- Ce qui est un bon indicateur de la performance du modèle.
- Matrice de confusion: La matrice de confusion montre que le modèle est capable de distinguer les différentes émotions
- avec une bonne précision. Cependant, il y a quelques confusions entre les émotions "joie" et "peur", ce qui est compréhensible
- car ces émotions peuvent parfois être exprimées de manière similaire dans les textes.
Utilisation
Pour utiliser le modèle, vous pouvez charger le pipeline Hugging Face et passer un texte en entrée pour obtenir la prédiction d'émotion et les probabilités associées.