Responsable de l’opération : Alexis Michaud

Description:

La transcription automatique (phonémique) est désormais possible pour des langues nouvellement décrites : grâce à des avancées technologiques toutes récentes, le logiciel Persephone peut être entraîné sur 1 à 4 heures d’enregistrements transcrits (mono-locuteur) et générer des transcriptions automatiques tout à fait utilisables, soit comme canevas que le linguiste corrige et améliore, soit comme entrée à d’autres traitements (reconnaissance de mots, traduction, etc). Cet outil est extrêmement attendu, dans un contexte où la diversité linguistique décline rapidement et la documentation linguistique (« linguistique de terrain ») peine à suivre.

Le soutien accordé par l’Axe 6 (4.000 euros) permet la création d’une interface utilisateur minimale. La liste des tâches exactes de développement est actuellement (déc. 2018) en cours de finalisation. (Le suivi des tâches à réaliser est public et mis à jour au fil du temps, selon les principes de la science ouverte : voir https://github.com/persephone-tools/persephone/issues.)

Références : 

Site du logiciel :

– documentation : https://persephone.readthedocs.io/en/stable/

– code source (libre accès) : https://github.com/persephone-tools/persephone

Publications au sujet du logiciel :

– pour un public de linguistes :

Michaud, Alexis, Oliver Adams, Trevor Cohn, Graham Neubig & Séverine Guillaume. 2018. Integrating automatic transcription into the language documentation workflow: experiments with Na data and the Persephone toolkit. Language Documentation and Conservation 12. 393–429. En ligne : http://hdl.handle.net/10125/24793

– pour un public d’informaticiens :

* Adams, Oliver, Trevor Cohn, Graham Neubig, Hilaria Cruz, Steven Bird & Alexis Michaud. 2018. Evaluating phonemic transcription of low-resource tonal languages for language documentation. Proceedings of LREC 2018 (Language Resources and Evaluation Conference), 3356–3365. Miyazaki. https://halshs.archives-ouvertes.fr/halshs-01709648

* Adams, Oliver, Trevor Cohn, Graham Neubig & Alexis Michaud. 2017. Phonemic transcription of low-resource tonal languages. Proceedings of ALTA 2017 (Australasian Language Technology Association Workshop), 53–60. Brisbane. https://halshs.archives-ouvertes.fr/halshs-01656683.

Participants LabEx : 

Alexis Michaud, LACITO-CNRS (responsable de l’opération)

Séverine Guillaume, LACITO-CNRS

Guillaume Jacques, CRLAO-CNRS

(liste ouverte à d’autres participants)

 

Partenaires hors LabEx : 

  • Oliver Adams (John Hopkins University, Etats-Unis) : développement du logiciel (back-end) et coordination du développement
  • CoEDLd (ARC Centre of Excellence for the Dynamics of Language, Australie) : soutien de 300 dollars australiens (10.030 euros) en 2018 pour la création d’API
  • Laurent Besacier (Université Grenoble Alpes) et groupe SIG-UL (ISCA)
  • Groupement de recherche LIFT « Linguistique informatique, linguistique formelle et linguistique de terrain »