Projets informatiques cursus LI, Master1, 2010-2011

Cursus de Linguistique Informatique, Université Paris Diderot
Projets informatique de master 1, année 2010-2011

Responsable : Pascal Amsili (Prenom.Nom@linguist.jussieu.fr)

Projet n° 1 : Marquage des antécédents pronominaux en corpus
Projet n° 2 : Construction automatique d'un thésaurus distributionnel du français
Projet n° 3 : Réseau sémantique à partir d'un dictionnaire
Projet n° 4 : Calcul de dépendances syntaxiques profondes à partir de dépendances de surface
Projet n° 5 : Extraction de cadres de sous-catégorisation

Marquage des antécédents pronominaux en corpus

Il s'agit de mettre en oeuvre un ou plusieurs algorithmes de résolution d'anaphore sur un texte analysé syntaxiquement (Le French Treebank du laboratoire LLF pourra être utilisé).

A partir des occurrences pronominales de 3e personne marquées pour le genre et le nombre de leurs antécédents, il s'agit de proposer un ou plusieurs candidats dans la même phrase (pour les relatifs et les réfléchis) ou non (pour les personnels).

Les mots antécédents seront repérés par leur numéro dans la phrase (ID) éventuellement préfixé par le numéro de la phrase.

Langage: Java ou python
Responsable(s): Pascal Amsili
Difficulté: Facile à très difficile
Groupe: 2 personnes

Construction automatique d'un thésaurus distributionnel du français

Un thésaurus distributionnel est un dictionnaire dont chaque entrée est associée à une liste "voisins" distributionnels (à savoir des mots qui apparaîssent fréquemment dans les mêmes contextes). En plus de constituer une ressource intéressante pour la linguistique de corpus, ce type de thésaurus se montre extrêmement utile (comme complément ou même comme substitut à une ressource statique telle que Wordnet) pour de nombreuses tâches de TAL (parsing syntaxique, désambiguïsation lexicale...).

La construction d'un thésaurus distributionnel comprend trois grandes étapes: (i) l'extraction et le prétraitement d'un corpus de grande taille (plusieurs millions de mots), (ii) l'identification des contextes associés à chaque mot (ces contextes sont représentés sous la formes de simples n-grammes ou de triplets de dépendances syntaxiques), et (iii) un calcul de similarité entre contextes (ce calcul se fait typiquement sur base d'une mesure d'informatiion mutuelle).

Ce projet mettra donc en oeuvre cette procédure pour la construction d'un thésaurus automatique du français. En particulier, on utilisera comme corpus de départ le corpus issu de la campagne PASSAGE: un corpus de 100M de mots déjà prétraité et analysé en dépendances syntaxiques par différents analyseurs.

Ce sujet demande des compétences solides en programmation.

Références

Dekang Lin. 1998. Automatic Retrieval and Clustering of Similar Words. In ACL.
James Gorman and James R. Curran. 2006. Scaling distributional similarity to large corpora. In ACL.
Pavel & Kilgarrif. 2007. An efficient algorithm for building a distributional thesaurus. In ACL.

Langage: Java ou python
Responsable(s): Marie Candito
Difficulté: moyen à difficile
Groupe: 2 personnes

Réseau sémantique à partir d'un dictionnaire

Il s'agit de créer un réseau dont les sommets sont les entrées d'un dictionnaire, ou éventuellement les sous-sens des mots du dictionnaire, et dont les arcs (orientés) relient chaque entrée à toutes les entrées qui participent à sa définition. L'hypothèse sous-jacente est que la structure du dictionnaire permet de retrouver les liens sémantiques entre mots en définissant une "distance sémantique" dans le graphe résultant. On peut ensuite utiliser cette distance pour différentes tâches, comme faire la désambiguïsation des sens d'un mot en contexte ou encore tenter de retrouver des relations lexicales (synonymie, ou hyperonymie...).

Les sources possibles seront le wictionnaire du français, ou le Littré, qui existent en version xml. La taille importante des graphes sera gérée par des bibliothèques spécialisées de calcul matriciel.

Références

TextGraphs-4: Graph-based Methods for Natural Language Processing, ACL IJCNLP workshop (2009), http://www.textgraphs.org/ws09/index.html
Philippe Muller, Nabil Hathout, and Bruno Gaume. Synonym extraction using a semantic distance on a dictionary. In D. Boguraev and R. Mihalcea, editors, Proceedings of the HLT/NAACL workshop Textgraphs, New York, NY, 2006. Association for Computational Linguistics.
B. Gaume, N. Hathout, and P. Muller. Word sense disambiguation using a dictionary for sense similarity measure. In Proceedings of Coling 2004, volume II, pages 1194-1200, Genève, 2004, Association for Computational Linguistics.
Véronis, J. (2004). Hyperlex : lexical cartography for information retrieval. Computer, Speech and Language, 18 (3), 223-252.

Langage: Java ou python (préféré)
Responsable(s): Philippe Muller et Pascal Amsili
Difficulté: Moyen à difficile
Groupe: 2 ou 3 personnes

Calcul de dépendances syntaxiques profondes à partir de dépendances de surface

Les dépendances syntaxiques de surface sont des relations entre mots, au sein desquelles on distingue un gouverneur, et un dépendant dont en gros on peut dire que la présence est syntaxiquement légitimée ou permise par le gouverneur. Les dépendances ont un type (traditionnellement la fonction grammaticale). Par exemple dans Paul veut dormir à la plage on considère que la tête de la phrase est le verbe fini 'veut' (qui permet à la phrase de fonctionner comme énoncé autonome) et par exemple 'Paul' est un dépendant de 'veut', avec une dépendance de type sujet.

En dépendances de surface, pour une phrase donnée on a un mot tête qui n'a pas de gouverneur, et tous les autres mots qui ont exactement un gouverneur. Ainsi formellement, les mots reliés par dépendances forment un arbre.

Pour aller vers une représentation sémantique, on peut commencer par expliciter des relations de dépendances non directement exprimées (par exemple la relation sujet entre 'Paul' et 'dormir' dans l'exemple précédent, ou "normaliser" des dépendances, en se ramenant à la sous-catégorisation canonique des verbes (par exemple pour un passif le chat est suivi par la souris expliciter que souris est le sujet profond de 'suivre').

On propose d'étudier en corpus (le French Treebank converti en dépendances de surface) les modifications à apporter aux arbres de surface pour obtenir des dépendances profondes.

Il s'agira ensuite de proposer un module de conversion, en utilisera un code python existant de manipulation de graphes de dépendances.

Il s'agit d'un sujet avec une partie linguistique (syntaxe) assez importante, qui permet une familiarisation avec la syntaxe en dépendances.

Langage: Python
Responsable(s): Marie Candito
Difficulté: Moyen à Difficile
Groupe: 2 personnes

Extraction de cadres de sous-catégorisation à partir d'un corpus syntaxiquement analysé

Les cadres de sous-catégorisation sont les listes d'arguments attendus par un prédicat, avec leur fonction grammaticale. Les cadres de sous-cat que l'on peut trouver dans un lexique construit manuellement sont souvent parcellaires, ils n'encodent pas les informations de fréquence (quel est le cadre de sous-cat le plus fréquent pour un verbe etc...), et enfin, ils ne sont pas forcément représentatifs du comportement des prédicats dans des corpus de spécialité.

On propose ici de réaliser un module d'extraction de cadres de sous-catégorisation à partir d'un corpus parsé. à partir des cadres de sous-catégorisation "bruts" obtenus par simple extraction, il s'agit d'utiliser des filtrages statistiques pour mettre en évidence les cadres effectivement pertinents.

Langage: Python
Responsable(s): Marie Candito
Difficulté: Facile à Moyen
Groupe: 2 personnes

Cursus de Linguistique Informatique, Université Paris Diderot Projets informatique de master 1, année 2010-2011

Marquage des antécédents pronominaux en corpus

Construction automatique d'un thésaurus distributionnel du français

Références

Réseau sémantique à partir d'un dictionnaire

Références

Calcul de dépendances syntaxiques profondes à partir de dépendances de surface

Extraction de cadres de sous-catégorisation à partir d'un corpus syntaxiquement analysé

Cursus de Linguistique Informatique, Université Paris Diderot
Projets informatique de master 1, année 2010-2011