Une startup kényane parie sur les dialectes locaux pour combler le fossé des IA

Dans une chambre d’étudiant à Nairobi, un jeune entrepreneur de 19 ans a monté ce qu’il décrit comme une entreprise d’intelligence artificielle full-stack. Map Maven GMB, fondée en 2025, propose un modèle de langage entraîné sur les dialectes kényans, un agent vocal déjà opérationnel dans une coopérative d’épargne et de crédit (SACCO), ainsi qu’un outil de prompts pour le grand public. La startup, évaluée à plusieurs millions selon ses projections, mise sur un marché en pleine expansion où les systèmes d’IA mondiaux peinent encore à traiter les langues africaines.

Un modèle spécialisé pour les dialectes locaux

Le cœur de l’offre de Map Maven GMB est Kaya, un modèle de langage basé sur l’architecture LLaMA de Meta avec 70 milliards de paramètres. Plutôt que de rivaliser avec les géants comme GPT-4, la startup a choisi une approche spécialisée, en enrichissant ce socle open-source avec des données locales pertinentes. Selon Abraham Muka, fondateur et CEO, interrogé le 23 mars dernier, l’entraînement combine des datasets ouverts de plateformes comme Kaggle et Hugging Face avec Swaweb, un dataset propriétaire conçu pour capturer les spécificités des dialectes kényans. Des locuteurs natifs ont participé au labellage, afin d’ancrer le modèle dans l’usage réel plutôt que dans la structure formelle de la langue.

Cependant, l’efficacité réelle de Kaya reste à démontrer. Aucune benchmark publique n’a encore été réalisée, et les performances comparatives avec les modèles globaux manquent. La startup décrit son produit comme étant en phase de pré-déploiement, avec des évaluations formelles prévues lors du déploiement. Les méthodes d’entraînement et de déploiement restent floues : on ignore si Kaya est entièrement fine-tuné ou s’il utilise des méthodes plus légères comme le paramètre-efficient tuning. De même, la taille du dataset, la distribution des tokens ou la gestion du code-switching ne sont pas précisées.

Un dataset propriétaire, mais quelle valeur ajoutée ?

Map Maven GMB présente son dataset Swaweb comme un avantage concurrentiel majeur. Selon Muka, les nuances des dialectes kényans ne se trouvent pas dans les datasets publics. Posséder ce type de données permet non seulement d’améliorer la performance du modèle, mais aussi de réduire les risques juridiques et de contrôler l’évolution des systèmes. Cependant, la valeur réelle de Swaweb dépend de facteurs non divulgués : sa taille, sa diversité géographique et contextuelle, ainsi que sa fréquence de mise à jour. Un dataset dynamique capturant une large gamme d’interactions serait difficile à reproduire, contrairement à un dataset statique ou limité.

Un produit déjà opérationnel dans le secteur financier

Si Kaya est encore en évaluation, l’agent vocal Sauti de la startup est déjà utilisé par Natcon SACCO, une coopérative d’épargne et de crédit comptant 280 membres. Le système gère des requêtes routinières comme l’éligibilité aux prêts, les taux d’intérêt ou les informations sur les agences, libérant ainsi le personnel pour des tâches plus complexes. Ce type de solution répond à un besoin crucial pour les petites institutions financières, souvent submergées par des demandes répétitives en dehors des heures d’ouverture et dans plusieurs langues.

Alors que Map Maven GMB se positionne comme un acteur clé de l’IA locale, la question reste de savoir si ses produits pourront passer du stade prometteur à une performance mesurable avant que les grands acteurs ne s’emparent du même créneau.