coordinators : A. Donabedian and P. Samvelian

SEDYL, MII, LLF, Lacito

Short presentation :

This research project on syntaxic microvariation in the languages of West Asia aims to contribute to a theoretical renewal of contact linguistics, using a methodology grounded on Digital Humanities, in terms of both heuristic exploration of extensive data (statistical tools and graph generation) and result visualization (interactive GIS). The project builds on a rich and comprehensive treatment of first hand data. Its methodology is based on a triple modelling that has a strong multidisciplinary potential:

Mapping the area: study of syntactic microvariation in a geographically complex area (former Empires with instable political borders and population displacements), which displays intensive multilingualism (Eastern Mediterranean, Iran, Caucasus) and strong dialectal fragmentation.

Sociolinguistic parameters: selection and categorization of relevant documented variants involved in the project.

Syntactic parameters: rethinking of syntactic categories, their boundaries and their overlap, resorting to typological and theoretical methods.

Langues, dialectes et isoglosses de l’Aire Iran-Caucase-Anatolie-Proche-Orient

Etat de l’art et contexte : Après la dialectologie au début du vingtième siècle, la typologie linguistique a investi les cartes linguistiques comme moyen de rendre compte soit de la variation linguistique à travers les langues du monde (cf. les projets extensifs comme The World Atlas of Language Structures http://wals.info/), soit au contraire d’aires de convergences qui, depuis le concept de Sprachbund, d’abord posé pour les Balkans et  le sous-continent Indien dans la première moitié du vingtième siècle, ont fait l’objet d’une théorisation de plus en plus élaborée. Les concepts théoriques récemment approfondis comme l’interférence du substrat (S. Thomason & T. Kaufmann 1988), ou nouveaux comme celui de « zone d’expansion » (spreadzone) (J. Nichols 1999), le travail sur les langues mixtes (cf. le bilan fourni dans Matras & Bakker 2008), ont préparé une réflexion sur le contact de langues abordée à travers la question des sociétés et du sujet bi-multilingue, de la notion de répertoire multiple ou unique chez le locuteur multilingue, ou encore la plus ou moins grande aptitude des catégories à l’emprunt (Poplack), etc.  La linguistique du contact s’est ainsi considérablement développée depuis les dernières décennies, devenant un champ fécond de la linguistique.

 

Quelques failles, qui portent sur la fragmentation de l’analyse et le rapport à la base empirique,  nous semblent requérir l’attention pour faire progresser le champ :

  • les traits linguistiques sont le plus souvent traités comme des oppositions binaires (présence/absence d’un trait phonétique, d’une opposition lexicale, opposition lexicale, type de catégorie empruntée ou non, etc.) ou, dans le cas de traits syntaxiques comme l’ordre des mots, de combinaisons de quelques paramètres, dépassant rarement une dizaine, et présentant donc une vision schématique de la catégorie.
  • La volonté de couvrir un grand nombre de langues conduit à utiliser des données issues des grammaires ou de travaux qui ont été élaborés dans un cadre spécifique, sans relation avec ce pour quoi l’information en est extraite, ce qui conduit souvent à des contestations sur la validité des données empiriques servant de fondement aux comparaisons extensives. La dissociation des compétences  (spécialiste d’une langue / spécialiste de typologie, de linguistique de contact, etc.) affaiblit ainsi les conclusions issues de ce type de travaux. De plus en plus de projets sont conduits par des spécialistes ayant accès aux données de première main dans l’aire qu’ils étudient, mais ils sont dans ce cas le plus souvent des atlas dialectologiques (cf. le romani – Y. Matras – , le néo-araméen – G . Khan – , le kurde – G. Haig), et le rapport à la base empirique change lorsque plus de langues sont prises en considération.
  • La réflexion sociolinguistique (maintien ou perte de la langue, rôle du code-switching…) est trop souvent séparée de la réflexion sur les catégories linguistiques elles-mêmes (Y. Matras s’intéresse par exemple au fonctionnement des copules, des articles, de la négation phrastique, mais du point de vue de l’empruntabilité des catégories plutôt que de leur fonctionnement propre).

Ce programme vise à modéliser la variation linguistique en situation de contact :  

– Modélisation cartographique : Etudier la microvariation syntaxique dans une aire de multilinguisme extensif (Méditerranée Orientale, Iran, Caucase), de grande fragmentation dialectale, et géographiquement complexe (issue d’Empires, aux frontières politiques instables, aux nombreux mouvements de population) ;

– Modélisation sociolinguistique : Sélectionner de manière pertinente et produire une caractérisation fine des variantes documentées dans le projet (nombre et typologie de locuteurs, langue de scolarisation ou non, politiques publiques locales en matière de multilinguisme, etc.)

– Modélisation syntaxique : Décrire les catégories syntaxiques en repensant leurs contours et leurs zones de superposition (exemple : frontière entre relatives et complétives) en s’appuyant à la fois sur travaux et méthodes typologiques et de linguistique théorique.

Méthodologie : Pour cela objectifs, le projet s’appuie sur :

– Une base empirique robuste, via un réseau d’experts non clos au sein du projet (données de première main dans le cas de données de terrain, ou, en cas de prise en compte de descriptions existantes, reformulées par l’expert au sein du projet pour éviter les distorsions dues au cadre théorique ou terminologique des travaux sources). Outre les données déjà disponibles, on procédera à un recueil de données de terrain ciblé sur la base de stimuli développés avec des psycholinguistes et articulés avec la modélisation syntaxique)

– Une modélisation fine des paramètres typologiques, sociolinguistiques, géographiques et linguistiques à travers une base de données géo-référencée.

– Une exploration heuristique de la base de données avec des outils statistiques  et des outils de visualisation cartographiques (SIG) ou de graphes (GePhi).

Résultats scientifiques visés : Le caractère innovant du projet réside dans l’articulation de deux objectifs :

– Proposer des modèles rendant compte de la manière dont les paramètres de divers plans (géographiques, sociolinguistiques et linguistiques) interagissent.

– Mettre en évidence des mécanismes du contact linguistique et ses limites dans une granularité permettant de comprendre la nature et le fonctionnement des catégories en jeu. Cela est rendu possible par le paramétrage fin des catégories linguistiques étudiées (jusqu’à 100 traits pouvant être structurés en arborescence et combinant des caractéristiques typologiques, morphosyntaxiques, distributionnelles, sémantiques, etc.), ce qui constitue le caractère le plus innovant de cette approche.

Ce projet se présente comme la mise en œuvre et la validation d’un cadre méthodologique et théorique appelé à se déployer sur une longue durée, compte tenu de la richesse de l’aire choisie.

A l’échelle du programme quadriannuel présenté ici, l’objectif est circonscrit. Il s’agit, sur la base de deux catégories linguistiques (1. relatives et complétives, 2. clitiques) de mettre au point, tester et soumettre la modélisation à la communauté scientifique ; aboutir à des résultats dans la description des catégories concernées, soumis à la communauté scientifique par le biais de publications.

En termes d’extension géographique, cette étape ne vise pas à saturer la carte de la région choisie. On privilégiera quelques zones pour lesquelles les compétences au sein du projet permettent d’atteindre une masse critique d’information rendant possibles des interprétations théoriques tant en termes de plasticité des catégories linguistiques étudiées qu’en termes de mécanismes et limites du contact linguistique  : 1) Antioche-Cilicie : arabe, turc, arménien, araméen, circassien, kurde, domari ;  2) Zone dite de l’Araxe – cf. D. Stilo – : persan, arménien, turc et azéri, langues caucasiques de l’est, kurde, tat, araméen, géorgien. Nous donnons ici le nom générique des langues concernées, cependant l’objet d’étude sera des variantes documentées de cette langue, généralement non standard, que ce soit des dialectes – cf. kurde, arménien, turc, araméen, tat – des variantes locales  – par ex. le russe du Caucase, l’arabe d’Antioche.

Ce projet ambitieux vise donc à mettre en œuvre une méthodologie résolument expérimentale et empirique contribuant au renouvellement théorique d’un champ dont l’actualité s’impose en linguistique et dans les disciplines connexes (anthropologie, didactique, psychologie expérimentale, etc.).  Il présente dans sa mise en œuvre une dimension technologique importante (base de données et SIG interactif en ligne), ainsi que le traitement d’un grand nombre de données empiriques en vue de renseigner la base de données avec une masse critique d’informations suffisante en nombre de variantes et par variante.