Axe 3 : Typologie et dynamique des systèmes linguistiques (responsable : Martine Vanhove)

Le développement de bases de données typologiques, telles que réalisées par les instituts Max Planck à Nimègue et Leipzig, permet d’utiliser des méthodes quantitatives pour tester des hypothèses de classification ou de reconstruction. L’objectif de ce volet est de décrire et de modéliser la diversité linguistique en tant que systèmes dynamiques. Un enjeu majeur est de trouver un équilibre entre les approches qualitatives et quantitatives, et d’intégrer les variations historiques, régionales et sociales, ainsi que les facteurs discursifs. Les études seront poursuivies en étroite collaboration avec le volet 1 (phonologie évolutionnaire), 2 (grammaire), 4 (acquisition du langage et bilinguisme) et 6 (ressources linguistiques).

Les équipes de recherche impliquées ont une expertise de première main dans plus de 150 langues à travers le monde. Les différentes études partageront la méthodologie suivante:

  • Les méthodes de travail sur le terrain pour la collecte de données, y compris a) la collecte de données axée sur les tâches pour la parole semi-spontanée; b) la collecte de données phonétiques instrumentées avec un équipement léger tel qu’un échographe portable.
  • Traiter et archiver les données orales en utilisant les normes internationales (DoBeS, ELDP) comme les archives LaCiTO avec CRDO / Adonis.
  • Utiliser des bases de données (lexicales et morphologiques) pour des études statistiques (pour tester des langages universels ou des phylums) qui peuvent être indexées avec des systèmes cartographiques.

    Notre travail sera organisé en trois sous-ensembles avec un total de 10 workpackages.

Concernant la variation historique, nous remettrons en question la classification des langues de l’Afrique par Greenberg (1963), avec la méthode comparative traditionnelle ainsi que de nouvelles méthodes quantitatives sur des données descriptives plus nombreuses et meilleures des langues africaines pour prouver (ou non) l’unité génétique du centre soudanais d’une part et du Niger-Congo et de ses présumées branches inférieures d’autre part. Cela donnera lieu à de nouvelles propositions de classifications et de proto-langages. Les mêmes méthodes seront utilisées pour identifier les connexions externes de la famille austronésienne et pour améliorer la classification interne des langues de Taiwan. Nous étudierons des variations typologiques significatives dans un certain nombre de familles de langues pour lesquelles nous avons l’expertise nécessaire, à savoir. Austronésiens, afro-asiatiques, tibéto-birmans, dravidiens et iraniens, et proposent des voies et des modèles de changement typologique. Nous fournirons un travail documentaire et descriptif sur des langues précédemment non décrites d’Afrique, d’Asie et d’Océanie. L’utilisation de techniques quantitatives sophistiquées et l’apprentissage automatique sur des bases de données importantes, pour la classification et la reconstruction, constitueront un objectif majeur et un domaine privilégié de collaboration à l’intérieur et à l’extérieur des équipes du Labex.

En ce qui concerne le contact linguistique, des doutes ont été émis sur des modèles strictement génétiques du changement linguistique depuis que la linguistique indo-européenne, les théories Sprachbund ou Belt ont commencé à décrire des domaines où des langues sans lien génétique partagent des caractéristiques linguistiques cruciales. Cependant, peu de travail a été fait sur la modélisation précise du changement de surface, malgré le développement important de la linguistique de contact au cours des 15 dernières années. Certains chercheurs impliqués dans ce programme ont commencé à construire et à traiter divers corpus d’études multifactorielles, en particulier pour les langues parlées en Guyane française, et le but du WP LC1 sera le développement et l’extension à d’autres domaines d’une telle approche. Il nécessite des outils dédiés et de nouveaux corpus annotés pour prendre en compte les spécificités linguistiques (en collaboration avec le volet 6). La question de Sprachbund sera examinée dans deux domaines où la simple notion est sujette à débat. Les WP LC2 et LC3 traiteront de la zone Macro-Soudan (langues orales), d’une part, et de l’aire Caucase-Iran-Anatolie (langues à longue tradition écrite mais forte diffusion dialectale), d’autre part. Ils s’appuieront tous deux sur une approche quantitative (inventaire des caractéristiques, cartes linguistiques, bases de données lexicales comme dans le programme ANR ReFlex) ainsi que sur des études qualitatives (description grammaticale fine, études des catégories ou des caractéristiques concernées et de leur impact sur le système grammatical dans son ensemble et sur la variation de la langue). La collaboration avec le volet 4 sur la formation créole comme acquisition de la langue seconde abordera la question de l’émergence du langage. Ces work packages apporteront de nouvelles données quantitatives et apporteront un éclairage nouveau sur les analyses et les modèles morphologiques et syntaxiques.

Le travail sur le terrain, en particulier sur les langues orales, a pris de plus en plus en compte les facteurs discursifs dans la description grammaticale et la typologie linguistique. Les phénomènes, généralement appelés structure d’information, parfois considérés comme un niveau d’organisation linguistique distinct, jouent un rôle crucial dans l’organisation grammaticale de nombreuses langues: ils déterminent non seulement l’ordre des mots, mais aussi les différents types de verbes ou d’arguments. Le WP GD1 étudie ces marquages grammaticaux sur différents corpus de taille importante annotés pour la structure de l’information, ce qui est une innovation tant du point de vue théorique que méthodologique, puisqu’il prend des enjeux de comparabilité typologique. Il s’appuie sur les résultats du projet FSE CorpAfroAs et l’étend à d’autres langues étudiées dans le Labex. L’étude de l’interface grammaire-discours permettra également de mieux rendre compte de certains phénomènes négligés dans des approches strictement descriptives, telles que la structure de l’information. GD2 explorera les notions comme focus, backgrounding / foregrounding, distinction, saillance, et leur rôle dans la catégorisation grammaticale des différentes langues. Avec le Labex corpora, et grâce à des études antérieures sur des langues bien décrites (arménien, grec, russe, roumain, wolof, hindi), nous prévoyons d’avoir des résultats basés sur des corpus complétés par des tests expérimentaux tels que la saillance cognitive (en psycholinguistique ). GD3 étudie les marqueurs discursifs dans une perspective interlinguistique avec de grands corpus annotés (pour permettre l’accès à des contextes étendus) comme décrit dans le volet 6, disponible par exemple pour le russe (RNC), ou à annoter (pour l’arménien par exemple).

GD4 se concentre sur un ensemble de marqueurs verbaux Tense / Aspect / Mode / Evidentialité qui sont profondément enracinés dans des phénomènes interlinguistiques, diachroniques et synchroniques (comme la formation parfaite), et sont bien connus pour recevoir des utilisations interprétatives hautement contextuelles. L’utilisation de mesures quantitatives permettra au projet actuel de faire des progrès substantiels dans l’étude des catégories TAME en interaction avec les volets 2 et 6.

Ce volet regroupe plus de 60 professeurs et chercheurs, et 15 doctorants issus de 10 équipes partenaires, avec de nombreuses collaborations internationales. Au cours des 10 prochaines années, nous lancerons de nouvelles opérations d’annotation pour différents corpus de langues en collaboration avec le volet 6.


 

RT Linguistique historique, phyla et typologie

LC Modélisation de la langue Contacts et zones linguistiques

GD Grammaire et Discours : Modélisation des Interfaces