Cursus de Linguistique Informatique, Université Paris Diderot
Projets informatique de master 1, année 2011-2012



Marquage des antécédents pronominaux en corpus

Il s'agit de mettre en oeuvre un ou plusieurs algorithmes de résolution d'anaphore sur un texte analysé syntaxiquement (Le French Treebank du laboratoire LLF pourra être utilisé).

A partir des occurrences pronominales de 3e personne marquées pour le genre et le nombre de leurs antécédents, il s'agit de proposer un ou plusieurs candidats dans la même phrase (pour les relatifs et les réfléchis) ou non (pour les personnels).

Les mots antécédents seront repérés par leur numéro dans la phrase (ID) éventuellement préfixé par le numéro de la phrase.

Langage
Java ou python
Responsable(s)
Pascal Amsili
Difficulté
Facile à très difficile
Groupe
2 personnes

Construction automatique d'un thésaurus distributionnel du français

Un thésaurus distributionnel est un dictionnaire dont chaque entrée est associée à une liste "voisins" distributionnels (à savoir des mots qui apparaîssent fréquemment dans les mêmes contextes). En plus de constituer une ressource intéressante pour la linguistique de corpus, ce type de thésaurus se montre extrêmement utile (comme complément ou même comme substitut à une ressource statique telle que Wordnet) pour de nombreuses tâches de TAL (parsing syntaxique, désambiguïsation lexicale...).

La construction d'un thésaurus distributionnel comprend trois grandes étapes: (i) l'extraction et le prétraitement d'un corpus de grande taille (plusieurs millions de mots), (ii) l'identification des contextes associés à chaque mot (ces contextes sont représentés sous la formes de simples n-grammes ou de triplets de dépendances syntaxiques), et (iii) un calcul de similarité entre contextes (ce calcul se fait typiquement sur base d'une mesure d'informatiion mutuelle).

Ce projet mettra donc en oeuvre cette procédure pour la construction d'un thésaurus automatique du français. En particulier, on utilisera comme corpus de départ le corpus issu de la campagne PASSAGE: un corpus de 100M de mots déjà prétraité et analysé en dépendances syntaxiques par différents analyseurs.

Ce sujet demande des compétences solides en programmation.

Références

Langage
Java ou python
Responsable(s)
Benoît Crabbé
Difficulté
moyen à difficile
Groupe
2 personnes

Calcul de dépendances syntaxiques profondes à partir de dépendances de surface

Les dépendances syntaxiques de surface sont des relations entre mots, au sein desquelles on distingue un gouverneur, et un dépendant dont en gros on peut dire que la présence est syntaxiquement légitimée ou permise par le gouverneur. Les dépendances ont un type (traditionnellement la fonction grammaticale). Par exemple dans Paul veut dormir à la plage on considère que la tête de la phrase est le verbe fini 'veut' (qui permet à la phrase de fonctionner comme énoncé autonome) et par exemple 'Paul' est un dépendant de 'veut', avec une dépendance de type sujet.

En dépendances de surface, pour une phrase donnée on a un mot tête qui n'a pas de gouverneur, et tous les autres mots qui ont exactement un gouverneur. Ainsi formellement, les mots reliés par dépendances forment un arbre.

Pour aller vers une représentation sémantique, on peut commencer par expliciter des relations de dépendances non directement exprimées (par exemple la relation sujet entre 'Paul' et 'dormir' dans l'exemple précédent, ou "normaliser" des dépendances, en se ramenant à la sous-catégorisation canonique des verbes (par exemple pour un passif le chat est suivi par la souris expliciter que souris est le sujet profond de 'suivre').

On propose d'étudier en corpus (le French Treebank converti en dépendances de surface) les modifications à apporter aux arbres de surface pour obtenir des dépendances profondes.

Il s'agira ensuite de proposer un module de conversion, en utilisera un code python existant de manipulation de graphes de dépendances.

Il s'agit d'un sujet avec une partie linguistique (syntaxe) assez importante, qui permet une familiarisation avec la syntaxe en dépendances.

Langage
Python
Responsable(s)
Benoît Crabbé
Difficulté
Moyen à Difficile
Groupe
2 personnes

Extraction de cadres de sous-catégorisation à partir d'un corpus syntaxiquement analysé

Les cadres de sous-catégorisation sont les listes d'arguments attendus par un prédicat, avec leur fonction grammaticale. Les cadres de sous-cat que l'on peut trouver dans un lexique construit manuellement sont souvent parcellaires, ils n'encodent pas les informations de fréquence (quel est le cadre de sous-cat le plus fréquent pour un verbe etc...), et enfin, ils ne sont pas forcément représentatifs du comportement des prédicats dans des corpus de spécialité.

On propose ici de réaliser un module d'extraction de cadres de sous-catégorisation à partir d'un corpus parsé. à partir des cadres de sous-catégorisation "bruts" obtenus par simple extraction, il s'agit d'utiliser des filtrages statistiques pour mettre en évidence les cadres effectivement pertinents.

Langage
Python
Responsable(s)
Benoît Crabbé
Difficulté
Facile à Moyen
Groupe
2 personnes