Contrairement à l’opinion répandue, beaucoup de langues africaines (et en particulier, les langues mandé) possèdent déjà des descriptions grammaticales et lexicographiques du type « traditionnel ». Cependant, les standards modernes sont beaucoup plus exigeants, on attend des études sur la base des données empiriques très larges, c.-à-d. des grand corpus textuels.

Dans la situation où les études des langues du monde basées sur de grands corpus annotés ont eu une influence profonde sur toutes les disciplines linguistiques, la linguistique de corpus pour les langues africaines a pris beaucoup de retard. Cependant, il y a du progrès dans ce domaine ; en particulier, des corpus en langues mandé ont été mis en ligne dans les années 2010. De nos jours, le Corpus bambara de référence comporte plus de onze millions de mots, et le Corpus Maninka de Référence, plus de 3,5 millions ; des corpus d’autres langues mandé sont aussi en cours d’élaboration dans le cadre du projet Corpora Mandeica (cf. http://cormand.huma-num.fr/mandeica/). Les premières recherches linguistiques mandéïsantes sur la base des corpus ont été publiées (cf. la liste des références).

L’objectif principal de ce projet doctoral est de tracer les grandes lignes d’une recherche linguistique sur les langues mandingues basée sur des corpus, et d’effectuer une (ou plusieurs) recherche(s) dans ce domaine. D’une façon préliminaire, il peut s’agir des directions suivantes (la liste étant indicative, plutôt qu’exhaustive) :

– sémantisme grammatical de quelques affixes ou mots auxiliaires ;

– analyse de la polysémie, en perspective de la création d’un dictionnaire inspiré du corpus ;

– études syntaxiques sur la base d’un sous-corpus syntaxiquement annoté ;

– étude de la spécificité des genres textuels différents ;

– étude de différents phénomènes linguistiques différents sur la base des corpus parallèles.

Le travail de thèse demandera la maîtrise de l’outillage informatique du Corpora Mandeica : le paquet de programmes Daba ; dépôt Git ; les interfaces pour l’intégration des textes dans les corpus (l’attribution des métadonnées, la désambiguïsation des textes automatiquement annotés, l’annotation syntaxique selon le modèle des « Universal Dependencies »). Le doctorant participera au développement des corpus mandingues.

Références :

Facchinetti, R. Theoretical Description and Practical Applications of Linguistic Corpora. Verona: QuiEdit, 2007.

Fuß, Eric et al. (Eds.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018.https://doi.org/10.17885/heiup.361.509

Rovenchak, Andrij. 2011. Phoneme distribution, syllabic structure, and tonal patterns in Nko texts. Mandenkan 47. 77–96.

Rovenchak, Andrij. 2015. Quantitative studies in the corpus of Nko periodicals. In Arjuna Tuzzi, Martina Benešová & Ján Mačutek (eds.), Recent Contributions to Quantitative Linguistics, 125–138. Berlin–Boston: Mouton de Gruyter.

Rovenchak, Andrij. 2018. Texts for the corpus of Nko: collection, conversion, and open issues. Mandenkan 59. 57–66.

Rovenchak, Andrij & Solomija Buk. 2013. Masadennin (The Little Prince in Bamana). Mandenkan (50). 117–130. doi:10.4000/mandenkan.268.

Vydrin, Valentin. 2016. Perfekt v jazyuke maninka Gvinei (Перфект в языке манинка Гвинеи) [The perfect in the Guinean Maninka]. In Timur Majsak, Vladimir Plungian & Ksenia Semenova (eds.), Issledovanija po teorii grammatiki 7 (Исследования по теории грамматики 7) [Studies in the theory of grammar 7] (Acta Linguistica Petropolitana. Trudy Instituta lingvisticheskikh issledovanij RAN (ACTA LINGUISTICA PETROPOLITANA. Труды Института лингвистических исследований РАН) [Acta Linguistica Petropolitana. Transaction of the Instiute for linguistic studies] 12 (2)), 709–741. St. Petersburg: Nauka.

Vydrin, Valentin. 2017a. New Electronic Resources for Texts in Manding Languages. In Daniela Merolla & Mark Turin (eds.), Searching For Sharing: Heritage and Multimedia in Africa, 109–121. Cambridge, UK: Open Book Publishers.

Vydrin, Valentin. 2017b. Korpusnyje slovari jazykov manden (Корпусные словари языков манден) [Towards corpus-driven dictionaries for Manding languages]. In Alexander Zheltov (ed.), African Collection – 2017, 342–357. St. Petersburg: Museum of Anthropology and Ethnography.

Vydrin, Valentin. 2017c. Vyrazhenie predikacii kachestva v gvinejskom maninka (Выражение предикации качества в гвинейском манинка) [Expression of the quality predication in the Maninka of Guinea]. In Valentin Vydrin & Anastasia Lyakhovich (eds.), V zheltoj zharkoj Afrike… K 50-letiju Aleksandra Zheltova (В жёлтой жаркой Африке… К 50-летию Александра Желтова) [In the hot yellow Africa… In honor of Alexander Zheltov on the occasion of his 50th birthday], 25–47. St. Petersburg: Nestor-Historia.

Vydrin, Valentin. 2018. Corpus-driven lexicography for African languages: Perspectives for Manding. The 9th World Congress Of African Linguistics: African languages in a global world: from description to state policies. Rabat, Mohammad V University of Rabat, 75. Rabat.

Vydrin, Valentin, Andrij Rovenchak & Kirill Maslinsky. 2016. Maninka Reference Corpus: A Presentation. TALAf 2016 : Traitement automatique des langues africaines (écrit et parole) Atelier JEP-TALN-RECITAL 2016. Paris. http://talaf.imag.fr/2016/Actes/VYDRIN_ET_AL%20-%20Maninka%20Reference%20Corpus:%20A%20Presentation.pdf

Contexte de la recherche : LABEX-EFL research project Corpus de textes pour les langues mande : du Labex EFL (resp. Valentin Vydrin) 

Établissement et laboratoire de rattachement : INALCO & Laboratoire Langage, langues et cultures d’Afrique (LLACAN). Une collaboration avec l’Equipe de Recherche Textes, Informatique, Multilinguisme de l’INALCO (ERTIM) est envisagée.

Compétences et expérience requises :

Le candidat doit être titulaire d’un mastère en linguistique avant le début du contrat. Une bonne connaissance des fondements de la linguistique typologique est nécessaire, de même que des bases sur la linguistique de corpus. Une maîtrise du bambara et/ou du maninka de Guinée est requise.

Des compétences informatiques souhaitables :

  • connaissance de l’environnement Linux ;
  • pratique du language de programmation Python ;
  • la maîtrise du logiciel Toolbox (pour le travail sur les dictionnaires liés au corpus) ;
  • la maîtrise du logiciel Elan ;
  • une compétence / expérience en annotation de corpus

Contact : Valentin Vydrin (vydrine@gmail.com)