Responsable : Valentin Vydrin

Cette opération, qui a débuté dans la première phase du LABEX, atteint un stade de maturité. Au cours de la première étape, les principaux outils électroniques nécessaires pour le fonctionnement des corpus parallèles, corpus annotés syntaxiquement et corpus audio, ont été développés. Ceux-ci faciliteront, d’une part, l’expansion et l’amélioration des corpus de textes existants et, d’autre part, la céation rapide de corpus de textes dans d’autres langues mande et éventuellement de langues d’autres familles.

Au cours de la nouvelle phase, l’accent sera mis sur les aspects NLP du projet, en particulier : désambiguïsation automatique (statistique) ; regroupement automatique des polysémies (sur la base d’une analyse vectorielle) ; développement d’outils OCR pour les langues concernées. En outre, les premiers essais de reconnaissance vocale et de traduction automatique seront effectués.