Exercice pratique
Dans cette unité, nous avons exploré la tâche audio de synthèse vocale, parlé des jeux de données existants, des modèles pré-entraînés et des nuances du finetuning de SpeechT5 pour une nouvelle langue.
Comme vous l’avez vu, le finetuning des modèles pour la tâche de synthèse vocale peut s’avérer difficile dans des scénarios à faibles ressources. Parallèlement, l’évaluation des modèles de synthèse vocale n’est pas facile non plus.
Pour ces raisons, cet exercice pratique se concentrera sur la mise en pratique des compétences plutôt que sur l’obtention d’une certaine valeur de métrique.
Votre objectif pour cette tâche est de finetuner SpeechT5 sur un jeu de données de votre choix. Vous pouvez choisir une autre langue dans le même jeu de données voxpopuli
, ou tout autre jeu de données listé dans cette unité.
Faites attention à la taille des données d’entraînement ! Pour s’entraîner sur un GPU gratuit de Google Colab, nous recommandons de limiter les données d’entraînement à environ 10-15 heures.
Une fois que vous avez terminé le processus de finetuné, partagez votre modèle en le téléchargeant sur le Hub. Assurez-vous de marquer votre modèle comme un modèle text-to-speech
soit avec les kwargs appropriés, soit dans l’interface utilisateur du Hub.
Rappelez-vous, le but principal de cet exercice est de vous fournir une grande pratique, vous permettant d’affiner vos compétences et d’acquérir une compréhension plus profonde des tâches audio de synthèse vocale.