Cursus de Linguistique Informatique, Université Paris Diderot
Projets informatique de master 1, année 2009-2010



Marquage des antécédents pronominaux en corpus

Il s'agit de mettre en oeuvre un ou plusieurs algorithmes de résolution d'anaphore sur un texte analysé syntaxiquement (Le French Treebank du laboratoire LLF pourra être utilisé).

A partir des occurrences pronominales de 3e personne marquées pour le genre et le nombre de leurs antécédents, il s'agit de proposer un ou plusieurs candidats dans la même phrase (pour les relatifs et les réfléchis) ou non (pour les personnels).

Les mots antécédents seront repérés par leur numéro dans la phrase (ID) éventuellement préfixé par le numéro de la phrase.

Langage
Java ou python
Responsable(s)
Pascal Amsili, Pascal Denis
Difficulté
Facile à très difficile
Groupe
2 personnes

Construction automatique d'un thésaurus distributionnel du français

Un thésaurus distributionnel est un dictionnaire dont chaque entrée est associée à une liste "voisins" distributionnels (à savoir des mots qui apparaîssent fréquemment dans les mêmes contextes). En plus de constituer une ressource intéressante pour la linguistique de corpus, ce type de thésaurus se montre extrêmement utile (comme complément ou même comme substitut à une ressource statique telle que Wordnet) pour de nombreuses tâches de TAL (parsing syntaxique, désambiguïsation lexicale...).

La construction d'un thésaurus distributionnel comprend trois grandes étapes: (i) l'extraction et le prétraitement d'un corpus de grande taille (plusieurs millions de mots), (ii) l'identification des contextes associés à chaque mot (ces contextes sont représentés sous la formes de simples n-grammes ou de triplets de dépendances syntaxiques), et (iii) un calcul de similarité entre contextes (ce calcul se fait typiquement sur base d'une mesure d'informatiion mutuelle).

Ce projet mettra donc en oeuvre cette procédure pour la construction d'un thésaurus automatique du français. En particulier, on utilisera comme corpus de départ le corpus issu de la campagne PASSAGE: un corpus de 100M de mots déjà prétraité et analysé en dépendances syntaxiques par différents analyseurs.

Ce sujet demande des compétences solides en programmation.

Références

  • Dekang Lin. 1998. Automatic Retrieval and Clustering of Similar Words. In ACL.
  • James Gorman and James R. Curran. 2006. Scaling distributional similarity to large corpora. In ACL.
  • Pavel & Kilgarrif. 2097. An efficient algorithm for building a distributional thesaurus. In ACL.
Langage
Java ou python
Responsable(s)
Pascal Denis
Difficulté
moyen à difficile
Groupe
2 personnes

Réseau sémantique à partir d'un dictionnaire

À partir de définitions provenant de dictionnaires électroniques, préalablement étiquetées, il s'agit de construire un « réseau sémantique ».

Pour chaque entrée (qui peut correspondre à un des sens d'une lexie), on repèrera les mots pleins qui participent à sa définition (il faut donc (1) distinguer les mots pleins des mots « outils », (2) repérer la définition proprement dite parmi l'ensemble des informations associées à une entrée (catégorie, exemples, synonymes...)), et on construira un réseau reliant l'entrée à tous ces mots pleins.

Ce réseau pourra être stocké sous forme de fichier Ascii, dans un format du genre de celui de WordNet. On pourra aussi, éventuellement, proposer une interface graphique permettant de visualiser graphiquement le réseau, voire de le modifier.

Dans un deuxième temps, on réalisera un programme exploitant ce réseau pour désambiguïser les sens d'un mot en contexte. Principe : étant donnée une phrase contenant le mot concerné, on repère les mots pleins qui l'entourent (contexte), et on recherche ces mots dans le réseau. Alors le sens correspondant est celui qui est le plus proche (dans un sens qu'il faut précisément définir) des mots pleins de son contexte.

D'autres exploitations d'un tel réseau peuvent être envisagées.

Langage
Java ou python
Responsable(s)
Pascal Amsili
Difficulté
Moyen à très difficile
Groupe
2 ou 3 personnes

Références

Extraction de dépendances à partir du French Treebank

ll s'agit d'expliciter les dépendances syntaxiques contenues dans les arbres syntagmatiques du French Treebank du laboratoire LLF . L'intérêt du sujet est d'une part pédagogique : il permet une familiarisation avec le traitement de corpus syntaxiquement annoté. Le passage de la constituance à la dépendance est en soi un problème linguistiquement intéressant, qui requiert une bonne maîtrise des concepts syntaxiques fondamentaux (constituants / fonctions / tête). D'autre part, le résultat de la conversion (le corpus converti en dépendances), directement exploitable pour par exemple extraire un lexique syntaxique, ou pour des expériences de parsing probabiliste en dépendances.

La mise en œuvre consistera en :

  • Etudier le corpus syntaxiquement annoté (avec par exemple l'outil tregexp). Un programme de chargement du corpus en structures python vous sera fourni.
  • Dégager et appliquer des règles de propagation de tête dans les constituants
  • Convertir les constituants en dépendances, si possible dans un format standard, comme celui de la campagne d'évaluation CoNLL 2006.
Vous procèderez itérativement en étudiant les erreurs / échecs à chaque itération.

Langage
Python
Responsable(s)
Marie Candito
Difficulté
Moyen
Groupe
2 personnes