Axe 6 : Ressources langagières : données, lexiques, corpus, outils (responsable Cédric Gendrot, LPP-Paris3)

Cet Axe implique plus de 60 participants de toutes les équipes du Labex, et interagit avec tous les autres axes. Ses objectifs sont triples:

  • Définir et contrôler une politique de ressources linguistiques au sein du LabEx (établir un inventaire des ressources existantes et requises, encourager les développeurs de ressources à utiliser des standards et développer des mappings avec d’autres ressources, définir une politique de distribution autour de la disponibilité gratuite).

  • Concevoir et mettre en œuvre des techniques avancées de développement des ressources linguistiques pour améliorer leur précision, leur couverture et leur rapidité de développement (techniques pour les langues rares, techniques de transfert de connaissances linguistiques entre langues étroitement apparentées, techniques de collaboration pour le développement des ressources);
  • Appliquer les deux objectifs précédents au développement de ressources linguistiques pour le français – qui est évidemment une langue de choix pour le LabEx -, mais aussi pour d’autres langues de différentes familles typologiques pour lesquelles il y a un intérêt particulier au LabEx, par exemple, pour les langues, raisons sociales ou applicatives.

Il convient de souligner que l’importance des ressources linguistiques ne se limite pas aux études universitaires. Le développement des ressources linguistiques a un fort impact social qui dépend, entre autres, souvent de la langue concernée: (i) développer la coopération et le transfert de connaissances vers les pays en développement (créole mauricien, langues afroasiatiques …); (ii) préserver la diversité linguistique et enseigner les langues de la France (par exemple, l’arménien occidental, les langues de la Guyane française …); (iii) fournir des ressources pour les systèmes PNL utilisés dans les renseignements commerciaux et militaires (par exemple, les langues iraniennes, le chinois mandarin, l’arabe …) et d’autres applications NLP répandues, telles que la traduction automatique (français, chinois mandarin, etc.).

Outils communs pour les ressources linguistiques:
Ce sous-axe fournira un référentiel pour répertorier et distribuer les ressources existantes et futures dans le LabEx, en relation avec tous les autres volets et en particulier avec le volet 3 (un inventaire en ligne des ressources existantes et futures sera créé et maintenu). Un effort particulier sera fait en faveur des questions de normalisation, de distribution et de diffusion, notamment en favorisant la libre disponibilité de toutes les ressources, au moins à des fins de recherche. Un autre objectif majeur de ce sous-axe, en collaboration avec les développeurs de ressources et les utilisateurs, est de développer des outils adéquats pour valider, éditer et annoter toutes sortes de ressources linguistiques, ainsi que des outils pour extraire des informations linguistiques. Enfin, ce sous-axe jouera un rôle clé dans la formation des chercheurs sur la façon de développer et d’exploiter les ressources langagières.

Concevoir des techniques semi-automatiques pour le développement des ressources:
Pour la plupart des langues, aucune ressource linguistique utilisable n’est disponible, bien qu’elles servent de base au développement d’études linguistiques expérimentales et d’outils PNL. Cependant, développer de telles ressources est une tâche très coûteuse. Par conséquent, les techniques semi-automatiques de développement des ressources constituent un domaine de recherche crucial. Pour cette raison, ce sous-axe sera chargé d’améliorer l’état de l’art des modèles algorithmiques, formels et pratiques pour réduire autant que possible le coût du développement des ressources linguistiques. Un effort particulier sera fait pour le développement de ressources linguistiques de base, c’est-à-dire des lexiques morphologiques et des étiqueteurs de parties du discours ainsi que des corpus de parole. Des techniques spécifiques seront également développées pour tirer parti des situations où la langue concernée est étroitement liée à une autre pour laquelle des ressources linguistiques existent déjà. De plus, même si l’intervention humaine sera réduite autant que possible, un objectif important de ce sous-axe sera de comprendre comment l’optimiser, notamment par le biais de techniques collaboratives (wikis, jeux en ligne, mécaniques turcs).

Développer de nouvelles ressources linguistiques:
Les ressources sémantiques sont coûteuses à développer, et très peu existent pour le français, même si la recherche en linguistique, en psycholinguistique et en PNL bénéficierait fortement des ressources sémantiques à grande échelle, comme le montrent les travaux récents sur l’anglais. Un de nos buts est d’annoter des corpus particuliers, comme le TreeBank français, avec une grande variété de couches d’annotation sémantique, en plus des couches morphosyntaxiques et syntaxiques existantes, à savoir anaphore, (co)référence, entités nommées, FrameNet et informations discursives. Un autre but sera de produire de nouvelles ressources orales importantes (par exemple, une MapTask pour le français dans l’Axe 2, des corpus d’acquisition dans l’Axe 4, des corpus d’apprenants et une base de données phonologique dans l’Axe 1, en plus des existants. Troisièmement, les membres du LabEx poursuivront leurs travaux sur l’étude et l’équipement du français dans une perspective historique (ressources pour le français médiéval, ressources créées à partir de grammaires historiques et d’autres textes linguistiques). Des ressources importantes seront également développées pour plus de 20 langues qui présentent un intérêt particulier pour les WP LabEx, en collaboration avec d’autres Axes, notamment l’Axe 3. A mesure que de nouveaux besoins apparaîtront, de nouveaux projets seront mis en place.


Voici la liste des opérations de recherche du l’Axe 6:


·LR-1 A joint approach to language resources development (resp. C. Plancq) LLF, Alpage, LPP-P3, LLACAN, Lacito, SeDyL

– LR-2 Designing semi-automatic techniques for resource development

·LR-2.1 Techniques for resource-scarce languages (resp. B. Sagot) Alpage, LLF, LPP-P3

·LR-2.2 Techniques for transfering lexical resources from one language to a closely-related one (resp. B Sagot) Alpage, LLF, MII, LPP-P3, SeDyL

·LR-2.3 Techniques for speech corpora  (resp. M. Adda-Decker) LPP-P3, LACITO, Sedyl

  • LR-3 Developing new resources for French

·LR-3.1 Instantiating a French FrameNet and FrameNet-annotate the French TreeBank (resp. M. Candito) Alpage, LLF, Lattice

·LR-3.2 Adding annotation layers in the French Treebank for anaphora, (co)reference, named entities and discourse structures  (resp. L. Danlos) Alpage, LLF, Lattice

·LR-3.3 A multilayer meta-lexicon for French: developing mappings between existing resources (resp. B Sagot) Alpage, LPNCog, LPP-P5

·LR-3.5 Acoustic and physiological data for multi-sensor investigation of normal speech (resp. J. Vaissière) LPP-P3, LLF

·LR-3.6 Development of non-standard speech corpora: learner speech in French and English (resp. E. Delais) LLF, LPP-P3

·LR-3.7 Pathological speech: acoustic, perceptual  and physiological data (resp. C. Fougeron) LPP-P3, LLF

·LR-3.8 Longitudinal corpus of spoken French: acoustic, perceptual and physiological data (resp. C. Gendrot) LPP-P3, LFF

  • LR-4 Developing resources for various languages

·LR-4.1 Developing morphological and syntactic resources for western Iranian languages (resp. P.Samvelian)

·LR-4.3 Linguistic resources for Mandarin Chinese (resp. C. Saillard) LLF, Alpage

·LR-4.6 Towards a Treebank for Mauritian creole (resp. F. Henri) LLF, Alpage

·LR-4.8  Text corpora for Manding languages (Bambara, Maninka) (resp. V. Vydrin)

·LR-4.9  A historical perspective on language resources and linguistic traditions (resp. S. Archaimbault)

·LR-4.10  BdD PluriL – Base de Données Plurilingues (resp. I. Léglise) SEDYL, LACITO, LLF, LLACAN

·LR-4.11  Automatic paradigm generation and language description (resp. G. Jacques) CRLAO, Alpage, LLF, HTL

LR-4.12  Resource acquisition for Hausa : ResHau (resp. B. Crysmann) LLF, Alpage, LLACAN