Cedille, une nouvelle intelligence artificielle créée par l’agence digitale Coteries, basée à l’EPFL Innovation Park de Lausanne, apporte une solution à même de changer la donne pour les utilisateurs de langue française.
La génération de contenus en français sera désormais facilitée. Toute entreprise active dans la génération de textes en français, qui avait jusqu’à présent surtout accès à des modèles entraînés en anglais, peut désormais tirer parti du plus grand modèle francophone à ce jour, accessible publiquement en version Bêta sur app.cedille.ai.
Le modèle atteint aujourd’hui un score de perplexité – une mesure de performance clé de prédiction du prochain mot où le score le plus bas est le meilleur – de 4.5 comparé au meilleur système disponible publiquement (GPT-fr) qui présente un score de 12.9, positionnant Cedille comme près de 3 fois plus performant.
Le projet a été lancé avec le soutien du programme Google TRC et a été formé pendant plusieurs mois sur des Tensor Processing Units (TPU), des puces spéciales créées de toutes pièces par Google pour accélérer les calculs d'intelligence artificielle. En s'appuyant sur cette infrastructure, l'équipe a pu garantir une empreinte écologique neutre pour le processus de formation du modèle. Il s'agit d'une réussite majeure quand on sait que de tels processus nécessitent d'énormes quantités d'énergie et donc des émissions de carbone élevées.
Cedille s'appuie sur la communauté EleutherAI, un mouvement populaire de chercheurs en IA open source. Comme Cedille est disponible au public, les chercheurs peuvent vérifier et reproduire les résultats et les expérimenter à leur guise.
“Avec Cedille nous redistribuons les cartes pour le français comparé aux modèles de langue anglophones – et avec encore d’autres modèles de langues à venir! Nous avons pu réaliser cet exploit grâce aux efforts de la communauté open source EleutherAI. En publiant notre modèle publiquement, nous sommes ravis de contribuer en retour à la communauté!”
Martin Müller, Senior Machine Learning Engineer chez Coteries
Pour comprendre le monde, les principaux modèles de génération de textes actuels basés sur de l’intelligence artificielle tels que GPT-3 sont entraînés à l’aide de grandes bases de contenus disponibles publiquement sur internet. Comme ces contenus contiennent également une bonne part de désinformation, de sexisme ou de racisme, il a été démontré que les modèles existants peuvent reprendre ces mêmes tendances discriminatoires dans la génération de textes.
Coteries s’est efforcée de publier un modèle libre de contenus inappropriés au maximum et de filtrer les données pour l’entraînement de Cedille. Tous les contenus toxiques ainsi que les contenus de faible qualité ont été supprimés. Ce processus a été rendu possible par une combinaison de Natural Language Processing et d’un examen manuel minutieux des échantillons de données.
En conséquence, Cedille génère maintenant des textes de qualité avec une réduction significative de 14.7% de contenus toxiques comparé au meilleur modèle existant jusqu’à présent (GPT-fr).
Du journalisme amélioré jusqu’à de l’autocomplétion en passant par des chatbots, Cedille offre un potentiel d’utilisation très étendu. Coteries propose son modèle et les compétences de son équipe pour créer des applications personnalisées, représentant une excellente opportunité pour toute entreprise désirant tirer le meilleur parti de l’intelligence artificielle pour générer des contenus en français.
“Avec Cedille, je suis ravi de pouvoir apporter la puissance de très grands modèles à la langue française. Il n’y a désormais plus besoin d’entraîner un nouveau modèle pour chaque tâche spécifique: il suffit de donner quelques exemples à Cedille!”
Florian Laurent, Senior Machine Learning Engineer chez Coteries