«J’ai toujours rêvé de pouvoir parler à Siri en igbo, ma langue maternelle, et qu’elle réponde autre chose que: “Désolé, je n’ai pas compris”», explique Chris Emezue, aujourd’hui étudiant au doctorat en informatique à l’UdeM et à Mila. Ce constat est au point de départ de NaijaVoices, un projet de recherche consacré à la reconnaissance automatique de la parole en igbo, haoussa et yoruba, trois langues majeures parlées au Nigéria. Ce projet a donné lieu à la création de l’un des plus vastes jeux de données vocaux africains à ce jour: plus de 1800 heures d’enregistrements, recueillies auprès de plus de 5000 locuteurs, totalisant près de 645 000 phrases uniques.
Il a été mené, en collaboration avec Mila, par Chris Emezue dans le cadre de sa maîtrise en informatique à l’UdeM, sous la direction de Christopher Pal, professeur en informatique à l’UdeM et codirecteur scientifique d’IVADO. Ce projet s’inscrit aussi dans le programme IAR3 d’IVADO, qui vise à rendre l’intelligence artificielle plus inclusive et responsable.
Des langues parlées par des millions de personnes, mais absentes des technologies
Les systèmes d’intelligence artificielle vocale reposent sur un principe simple: plus une langue est présente dans les données d’entraînement, plus les modèles deviennent performants pour la reconnaître. Cette logique favorise naturellement les langues dominantes comme l’anglais. Dans ce contexte, l’igbo, le haoussa et le yoruba sont classés parmi les «langues à faibles ressources». Une expression que Chris Emezue juge trompeuse. «Ces langues sont parlées par des dizaines de millions de personnes. Elles ne sont pas faibles en locuteurs, mais en données numériques», explique-t-il.
Les ensembles de données africaines disponibles jusqu’à récemment étaient extrêmement limités. «On parlait de cinq heures, dix heures, parfois cinquante heures d’enregistrements. Et comme ils sont très petits, leurs applications sont très limitées. C’était comme une malédiction: l’IA africaine ne pouvait pas fonctionner qu’avec de petits ensembles de données. Je voulais briser cette malédiction.»
Cette situation s’explique aussi par le caractère largement oral de ces langues. «Dans de nombreuses régions d’Afrique, la transmission du savoir, les échanges quotidiens et la vie sociale passent avant tout par la voix. Nous aimons raconter des histoires, discuter, nous réunir.» Or, les systèmes d’IA ont été principalement entraînés sur des corpus écrits, ce qui désavantage les langues peu présentes dans les espaces numériques.
Créer des données avec les communautés locales
Pour surmonter cet obstacle, Chris Emezue a choisi une approche différente de celle généralement utilisée dans les projets technologiques internationaux. «Bien souvent, lorsqu’on crée des données dans des pays en développement, on arrive, on collecte, on paie et on repart. C’est une méthode extractive qui n’est pas durable.» Avec NaijaVoices, l’objectif était plutôt de bâtir un projet collaboratif. «Nous voulions vraiment créer des données avec les communautés, et non pour elles.»
La réussite de cette mobilisation repose en grande partie sur des réseaux de confiance locaux. Chris Emezue a impliqué sa propre famille dans le projet: sa mère, sa sœur et son frère ont participé à la coordination des opérations sur le terrain. «Sans des personnes implantées au Nigéria, connaissant les communautés et sachant qui contacter, je n’aurais pas pu mener à bien ce projet», souligne-t-il.
Un effort particulier a été déployé pour assurer une représentation équilibrée des voix féminines. Sa sœur jumelle a ainsi voyagé pendant plusieurs semaines dans des campements haoussas afin de rencontrer des femmes dans des régions reculées et leur présenter le projet. «Elles l’autorisaient à entrer chez elles justement parce qu’elle était une femme. Sans cela, notre jeu de données aurait été majoritairement masculin.»
1800 heures de voix authentiques
Avant même de commencer les enregistrements, la première étape a consisté à créer des phrases à lire plutôt que d’extraire du contenu en ligne (souvent religieux ou traduit de langues occidentales). Le projet a mobilisé 144 rédacteurs et linguistes pour produire des phrases originales reflétant des usages culturels authentiques. Ce travail a donné lieu à des discussions animées. «Les réunions pouvaient se transformer en débats: “Non, on ne dit pas ça comme ça… ma grand-mère m’a appris une autre formulation.”»
Une fois les textes validés, les enregistrements ont été réalisés sous supervision. Des facilitateurs locaux, formés aux aspects techniques et linguistiques, ont guidé les donneurs de voix à l’aide d’une application dédiée, afin d’assurer une qualité audio optimale.
Ainsi, plus de 1800 heures de pistes audio ont été enregistrées par 5000 locuteurs, faisant de NaijaVoices l’un des ensembles les plus diversifiés jamais constitués pour des langues africaines.
Tester les modèles
La phase suivante consistait à évaluer l’influence de ces données sur les modèles existants de reconnaissance automatique de la parole. «Pour la première fois, nous disposions du plus grand ensemble de données vocales africaines. Nous avons regardé ce que nous pouvions faire avec ces données.»
L’équipe a mené des expériences en ajustant plusieurs systèmes de pointe, notamment Whisper développé par OpenAI et MMS conçu par Meta. Les taux d’erreurs diminuent de façon marquée, avec des réductions pouvant atteindre 75 % selon la langue et la configuration. Dans certains cas, les performances sont multipliées de façon spectaculaire après l’intégration d’un seul sous-ensemble de données. «Ces expériences démontrent clairement que, lorsqu’on dispose de données représentatives et de très haute qualité, l’IA peut apprendre ces langues et y exceller», affirme Chris Emezue.
Un modèle durable et équitable
Au-delà de l’innovation technique, NaijaVoices propose également un modèle de diffusion original. Le jeu de données est accessible gratuitement pour la recherche et l’enseignement. Les entreprises souhaitant l’utiliser à des fins commerciales sont invitées à contribuer financièrement à la communauté. «Lorsqu’une entreprise fait un don, les fonds servent à créer davantage de données et à soutenir l’emploi local.»
Ce modèle commence déjà à porter ses fruits. «Ce jeu de données offre de nombreuses possibilités, allant de la recherche aux applications industrielles. Il est désormais possible, dans une certaine mesure, de développer des applications de qualité industrielle, et nous en observons déjà les premiers signes. À titre d’exemple, la dernière méta-analyse du modèle de reconnaissance automatique de la parole Omnilingual ASR, qui est en code source libre, a utilisé NaijaVoices comme jeu de données.»
Chris Emezue espère ainsi que des millions de personnes en Afrique pourront interagir avec les technologies numériques dans leur langue maternelle. «Il s’agit de la plus forte concentration de locuteurs jamais enregistrée dans l’histoire des bases de données vocales africaines. À l’heure actuelle, aucune base de données en Afrique ne compte 5000 locuteurs. Un tel nombre de locuteurs garantit une représentativité exceptionnelle et ouvre un champ des possibles immense.»