Responsable de l’opération : Valentin Vydrin (LLACAN)

Description : 

La tâche de l’opération est la création des corpus annotés pour des langues mandé (< Niger-Congo, Afrique de l’Ouest), ainsi que d’autres outils de traitement automatique de langue.

Résultats obtenus : 

L’opération a commencé par le corpus bambara morphologiquement annoté. En 2018, son volume s’est approché de 10 millions de mots, dont plus d’un million dans le sous-corpus désambiguïsé. Un corpus parallèle bambara-français et français-bambara (plus de 200 000 mots en 2018) y a été rajouté, de même qu’un corpus syntaxiquement annoté. En 2016, le Corpus maninka de référence a été mis en ligne (environ 3,5 millions de mots en 2018), et en 2018, un corpus du dan de l’Est (presque 500 000 mots en 2018).

Participants : 

Valentin Vydrin (INALCO-LLACAN), responsible de l’opération ; Gérard Dumestre (LLACAN), Jean Jacques Méric (INALCO), Kirill Maslinsky (Upper School of Economics, St. Petersburg, Russia), Ekaterina Aplonova (Upper School of Economics, Moscow, Russia), Andrij Rovenchak (Lviv University, Ukraine), Aby Sangaré (Université de Cocody, Côte d’Ivoire), Kalilou Téra (Université de Cocody, Côte d’Ivoire), Ibrahima Sory Condé 2 (Université Kofi Annan, Conakry), Mahamadou Konta (Académie Malienne de langues, Bamako)