Retrouvez quelques détails en faits et en chiffres à propos de l’entraînement du modèle.
Cedille est basé sur GPT-J, le modèle à 6 milliards de paramètres entraîné par la communauté EleutherAI. De cette façon, notre modèle génératif est un modèle à 6 milliards de paramètres, entraîné sur 78 milliards de tokens (équivalent à 300 gigaoctets de texte) de texte français provenant du jeu de données C4. Il a fallu 12 jours de calcul de la v3-128 TPU pour sortir la version "Boris" du modèle, du nom du célèbre écrivain et chanteur français Boris Vian.
Trois mois ont été nécessaires pour corriger les bugs et expérimenter avec le modèle. Nous avons effectué plusieurs tests comparatifs et avons par exemple constaté que Cedille est meilleur pour la traduction en français et est en moyenne moins toxique que GPT-3. Les benchmarks comprenaient OrangeSum pour la fonction résumer, WikiText pour la perplexité et WMT14-en-fr pour les tâches de traduction.
Le benchmark OrangeSum mesure la capacité et la performance du modèle à résumer des textes. Il est l’équivalent du dataset XSUM en français et a été créé à partir du site "Orange Actu". Nous atteignons actuellement un score de 13,7% (score ROUGE), contre 15,49% pour GPT-3 (Davinci) et 10,2% pour GPT-FR.
Grâce au corpus WikiText-FR de l'article de recherche GPT-fr composé de milliers d'articles Wikipedia de qualité en français, nous avons mesuré la "perplexité" du modèle, à savoir sa capacité à prédire le mot suivant dans un document donné. Plus le score de perplexité est faible, meilleure est la capacité du modèle à prédire avec précision. Cedille a obtenu un score de perplexité de 3,932, tandis que GPT-3 (Davinci) a obtenu un score de 3,993.
Avec le dataset WMT14-en-fr, nous avons mesuré les performances de Cedille dans la traduction de l'anglais vers le français. Cedille a obtenu le meilleur score (score BLEU) avec 24,91%, comparé à GPT-3 (Davinci) 20,4%, GPT-J 14,84%, et GPT-FR 1,47%.
Le dataset complet a été nettoyé avec Detoxify. Nous avons consacré beaucoup de temps et d'énergie à réduire la toxicité du modèle, ce qui a entraîné une amélioration minime mais mesurable.
Nous sommes bien conscients qu'il y a encore beaucoup de travail à faire sur ce sujet et nous publierons bientôt plus d'informations à ce propos!
Notre équipe a effectué de nombreux tests sur les capacités de Cedille en termes d’applications potentielles telles que les chatbots, la traduction en français, la rédaction d'articles fictifs, etc. Nous avons d’ailleurs utilisé les résultats de ces tests pour élaborer des exemples qui se trouvent sur notre plateforme.
N'hésitez pas à les essayer et en trouver de nouveaux!
Cedille a vu le jour grâce au support généreux du programme TFRC de Google.