Cette opération consiste à proposer une approche pour la détection et la classification non supervisées de relations sémantiques dans des articles scientifiques. L’approche proposée est mise en œuvre sur l’anthologie des conférences ACL mais est applicable à tout domaine pour lequel il existe des textes scientifiques.

La reconnaissance et la classification des relations sont traitées par des méthodes de clustering sans limiter a priori le nombre de clusters au nombre de relations de cet ensemble. Ceci permet d’extraire non seulement les relations connues, mais aussi potentiellement des relations d’un type nouveau.

L’extraction de relations repose sur les propriétés du couple d’entités reliées – notamment la source qui a permis de les identifier et leur représentation distributionnelle dans le corpus – ainsi que la portion de texte qui les sépare dans le document. Ces informations ont été exploités séparément par des méthodes de clustering mais aussi conjointement par des techniques de biclustering inspirées de la recherche en génétique. A des fins d’évaluation, une partie des documents a été manuellement annotée avec la typologie des relations. Les clusterings sont évalués en testant si les relations annotées manuellement présentes dans un même cluster correspondent effectivement à une même relation dans cette typologie.