Cursus de Linguistique Informatique
	UFR de Linguistique : Département Enseignement Recherche International

Responsable : Benoît Crabbé prenom.nom@linguist.jussieu.fr

Projets M1 - 2008/2009

Le sujet peut être choisi parmi les sujets proposés suivants, ou il peut s'agir d'un sujet à l'initiative de l'étudiant, auquel cas il faut en fournir une description rédigée d'une à deux pages, et obtenir l'accord de l'enseignant.

Projet n° 1 : Concordancier et outils statistiques pour corpus annoté
Projet n° 2 : Extraction de collocations en corpus
Projet n° 3 : Repérage des entités nommées
Projet n° 4 : Réseaux sémantiques
Projet n° 5 : La sous-catégorisation verbale en corpus
Projet n° 6 : Marquage des antécédents pronominaux en corpus

Concordancier et outils statistiques pour corpus annoté

On propose de réaliser une suite d'outils pour l'exploration de corpus annotés en morphosyntaxe. Celle-ci se composera de deux sous-composantes :

Une suite d'outils statistiques qui permettront d'obtenir des informations quantitatives sur le corpus, comme la fréquence et le nombre d'occurrences des mots. Un outil statistique qui proposera de détecter les collocations en corpus en utilisant une heuristique guidée par l'information mutuelle. Les outils statistiques devront produire une sortie texte qui permettra l'usage de leurs résultats dans un logiciel approprié au traitement de données comme Microsoft Excell ou R.
Un concordancier. Le concordancier permettra de faire des recherches sur le corpus annoté. Celui-ci sera réalisé en prenant en compte trois facteurs principaux (1) L'expressivité du langage de requête (2) L'efficacité de la recherche en terme de temps de réponse et (3) de fournir une interface utilisateur conviviale permettant notamment à celui-ci de trier les résultats d'une concordance. On veillera à ce que le concordancier soit relativement indépendant des formats de corpus sur lequel il sera développé.

Responsable : Benoit Crabbé

Difficulté : très facile à très difficile

Langage : Java

Groupe : 2 personnes

Extraction de collocations en corpus

Les collocations sont des ensembles de deux ou plusieurs mots qui sont plus fréquemment coocurrents que la normale. Il s'agit de constructions qui ont une syntaxe classique mais une sémantique qui n'est pas complètement compositionnelle.

Par exemple on considère que thé fort est une collocation car ces deux mots apparaissent assez souvent en même temps et le sens de fort dans cette séquence est légèrement altéré : il ne s'agit pas d'une grande force physique mais plutôt d'une forte concentration d'un agent du thé.

Ce sujet propose de partir à la découverte de différentes méthodes connues de détection de collocations en corpus reposant sur des tests d'hypothèses statistiques (comme par exemple le test du Chi2 ou le test exact de Fisher) en utilisant des logiciels d'analyse de données appropriés.

Responsable : Benoît Crabbé

Difficulté : Moyen

Langage : langage de script (python ou Perl) et initiation au langage R

Groupe : 2 personnes

Repérage des entités nommées

On regroupe sous le terme "entités nommées" les noms de personnes, de lieux, de dates, noms d'entreprises, adresses, etc. Il s'agit d'expressions qui dénotent une entité unique de façon presque indépendante du contexte. On s'intéresse aux entités nommées pour plusieurs raisons :

elles constituent des syntagmes qui peuvent être relativement complexes au point de vue syntaxique (par exemple une adresse, ou un nom d'association) dont le repérage préalable peut grandement siplifier une analyse syntaxique ;
dans une perspective de recherche d'information, la reconnaissance des entités nommées permet de savoir de quoi parle un texte ;
elles sont nécessaires pour la résolution des anaphores.

Il s'agit dans ce projet de repérer de la façon la plus complète possible dans un texte étiqueté ou non, les entités de type "personne". Pour cela, on envisagera un algorithme en deux étapes (qui peuvent se répéter) :

au moyen de règles générales et de dictionnaires spécialisés (noms propres, amorces --- c'est-à-dire mots qui introduisent systématiquement des entités nommées, comme 'Melle', etc.), constitution d'une "table des symboles" des entités présentes dans le texte ;
à partir de cette table des symboles, et en tenant compte des formes variées sous lesquelles une même entités peut être désignée, recherche de nouvelles entités, voire de nouvelles règles trouvées précédemment.

L'idée est que le programme s'enrichit au fur et à mesure qu'il est utilisé.

Responsable : Marie Candito

Difficulté : Facile à très difficile

Langage : Java

Groupe : 2 ou 3 personnes

Réseaux sémantiques

À partir de définitions provenant de dictionnaires électroniques, préalablement étiquetées, il s'agit de construire un « réseau sémantique ».

Pour chaque entrée (qui peut correspondre à un des sens d'une lexie), on repèrera les mots pleins qui participent à sa définition (il faut donc (1) distinguer les mots pleins des mots « outils », (2) repérer la définition proprement dite parmi l'ensemble des informations associées à une entrée (catégorie, exemples, synonymes...)), et on construira un réseau reliant l'entrée à tous ces mots pleins.

Ce réseau pourra être stocké sous forme de fichier Ascii, dans un format du genre de celui de WordNet. On pourra aussi, éventuellement, proposer une interface graphique permettant de visualiser graphiquement le réseau, voire de le modifier.

Dans un deuxième temps, on réalisera un programme exploitant ce réseau pour désambiguïser les sens d'un mot en contexte. Principe : étant donnée une phrase contenant le mot concerné, on repère les mots pleins qui l'entourent (contexte), et on recherche ces mots dans le réseau. Alors le sens correspondant est celui qui est le plus proche (dans un sens qu'il faut précisément définir) des mots pleins de son contexte.

D'autres exploitations d'un tel réseau peuvent être envisagées.

Responsable : Pascal Amsili

Difficulté : Moyen à très difficile

Langage : Java

Groupe : 2 ou 3 personnes

La sous-catégorisation verbale en corpus

Il s'agit de compléter le French treebank du laboratoire LLF. voir http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-fr.php

A partir de Treelex, un lexique de valence extrait par A. Kupsc à partir de ce corpus (voir http://erssab.u-bordeaux3.fr/article.php3?id_article=150) il s'agit de marquer les attributs subcat pour chaque occurrence verbale dans le corpus en désambiguisant en contexte si plusieurs valences sont disponibles. Il s'agira d'un marquage automatique (langage de programmation libre, python recommandé) à valider manuellement. Il s'agira aussi de marquer la voix passive le cas échéant.

Le projet peut se concerner au marquage automatique, et la validation manuelle peut se faire dans le cadre d'un stage rémunéré par le laboratoire LLF (300 euros net/mois). Il est validé deux fois.

Responsable : Anne Abeillé, Marie Candito

Difficulté : Facile à moyen

Groupe : 1 personne

Marquage des antécédents pronominaux en corpus

Il s'agit de tester des algorithmes de résolution d'anaphores sur texte analysé syntaxiquement (Le French treebank du laboratoire LLF pourra être utilisé, voir http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-fr.php

A partir des occurrences pronominales de 3e personne marquées pour le genre et le nombre de leurs antécédents, il s'agit de proposer un ou plusieurs candidats dans la même phrase (pour les relatifs et les réfléchis) ou non (pour les personnels).

Les mots antécédents seront repérés par leur numéro dans la phrase (ID) éventuellement préfixé par le numéro de la phrase.

Langage : Java ou python

Responsables: Pascal Amsili

Difficulté : Facile à très difficile

Groupe : 2 personnes