Seulement 4 langues africaines sont correctement prises en charge par les modèles de langage actuels. Une équipe sud-africaine relève le défi avec MzansiLM.

L’Afrique compte plus de 2000 langues, mais une étude publiée en 2025 dans les Proceedings of Machine Learning Research révèle un constat alarmant : seuls 41 langues africaines sont soutenues par les modèles de langage, avec un déficit criant pour 98% d’entre elles. Cette exclusion numérique menace de marginaliser des millions de locuteurs dans la révolution de l’IA.

Face à ce constat, des chercheurs de l’Université de Cape Town ont développé MzansiLM, un modèle de langage innovant intégrant les 11 langues officielles d’Afrique du Sud. Ce projet, accompagné de la base de données MzansiText, marque une avancée majeure dans la représentation des langues africaines dans l’intelligence artificielle.

Un modèle local qui surpasse les géants mondiaux

Contrairement aux mastodontes développés par les grandes entreprises technologiques, MzansiLM est un modèle de petite taille. Pourtant, ses tests ont démontré une performance supérieure en précision et fluidité, notamment pour l’isiXhosa. « MzansiLM sert de référence pour les travaux futurs », explique Anri Lombard, l’un des chercheurs. « C’est une fondation pour le développement d’applications spécifiques comme la synthèse de documents ou l’annotation de données dans des langues négligées par les IA globales.

Le défi des langues à faible empreinte numérique

Le principal obstacle à l’intégration des langues africaines dans l’IA réside dans leur faible présence numérique. Des langues comme l’isiZulu (12 millions de locuteurs) ou le haussa (70 millions) sont considérées comme « à faible ressource » en raison du manque de données textuelles disponibles. Jan Buys, enseignant à l’Université de Cape Town, souligne que « les pipelines de données des grands modèles favorisent encore plus l’anglais, creusant ainsi les inégalités.

Combler le fossé post-colonial des données linguistiques

Dans une note de politique publiée en 2025, Ife Adebara décrit ce phénomène comme du « language data flaring », une métaphore inspirée du gaspillage de ressources dans l’industrie pétrolière. Les politiques coloniales et post-coloniales, ainsi que le manque d’investissement local, ont contribué à cette sous-représentation. Mpho Primus, co-directeur de l’Institut pour les Systèmes Intelligents à Johannesburg, alerte : « Sans inclusion linguistique africaine, le continent restera consommateur de technologies étrangères et perdra son influence sur leur développement.

Implications pour l’économie numérique africaine

L’accès aux services publics via l’IA - santé, éducation, banque - dépend désormais de la capacité des systèmes à comprendre les langues locales. Cette question dépasse donc le simple cadre technologique pour devenir un enjeu socio-économique majeur. MzansiLM représente une première étape cruciale vers une IA véritablement inclusive pour l’Afrique.

L’intégration des langues africaines dans les systèmes d’IA n’est plus une option, mais une nécessité pour réduire la fracture numérique et culturelle. Des initiatives comme MzansiLM montrent qu’il est possible de renverser la tendance, à condition d’investir dans les infrastructures linguistiques locales.