Logo Paris 7 haut Cursus de Linguistique Informatique UFR de Linguistique
Logo Paris 7 bas




Descriptif des enseignements

N.B. : ne sont décrit sur cette page que (quelques) enseignements spécifiques au cursus de linguistique informatique. Pour les autres enseignements, on se reportera à la liste de l'UFR de Linguistique (plus ou moins à jour), ou au site de l'UFR d'Informatique.

Licence

Programmation 1 (49LI0335)

Responsable : Mathieu Constant

Introduction à la programmation, et en particulier à la programmation structurée, par l'intermédiaire du langage Java.

Utilisation d'UNIX (49LI0535)

Responsable : Carole Delporte-Gallet

Premier contact et utilisation avancée du système d'exploitation Unix avec une insistance sur les outils Unix de manipulation de fichiers texte. L'objectif pratique est de préparer les étudiants à utiliser le système Unix pour des applications liées au Traitement Automatique du Langage.

Introduction au TAL (49LI0735)

Responsable : Laurence Danlos

Introduction aux problématiques du Traitement Automatique des Langues (écrit et oral), par le biais d'études pratiques de diverses applications de TAL (en salle machine), et de cours magistraux introduisant les formalismes les plus courants (automates, transducteurs, grammaires formelles, graphes conceptuels.).

Probabilités et statistiques pour la linguistique informatique (49LI0135)

Responsable : Marie Candito

Le cours a pour but de familiariser les étudiants avec les concepts mathématiques d'analyse combinatoire, probabilités et statistiques descriptives, en alternant cours et exercices pratiques. L'accent est mis sur l'utilité de ces concepts en linguistique de corpus et en traitement automatique des langues.

Programme indicatif :

  • Méthodes sur corpus en TAL et en linguistique : cadre général et motivations
  • Probabilités sur des ensembles discrets et finis
  • Analyse combinatoire
  • Variables aléatoires, lois de probabilités, loi normale et théorèmes essentiels
  • Statistiques et linguistique de corpus
  • Tests statistiques et estimation en TAL

Introduction à la logique (51MT2LO4) (Cours de L2 de mathématiques)

Responsable :

Objectifs : Maîtriser les notions logiques de base (induction, déduction, méthodes constructives).

Programme des enseignements

  • Fonctions monotones sur l?ensemble des parties d?un ensemble. Théorème de point fixe. Application aux définitions et raisonnement par induction.
  • Calcul propositionnel. Preuves par induction sur l?ensemble des formules. Notions de satisfaction et de conséquence. Méthode de réfutation.
  • Systèmes de déduction : axiomes et règles. Exemples : logique intuitioniste et logique classique. Déduction naturelle.
  • Méthode des tableaux. Algorithme pour déterminer si une formule est conséquence d?un ensemble (fini) de formules.
  • Un exemple de langage du 1er ordre : le langage de l?Arithmétique.

Programmation 2 (49LI0336)

Responsable : Benoît Crabbé (en délégation en 2009-2010, remplacé)

Introduction à la programmation, et en particulier à la programmation structurée, par l'intermédiaire du langage Java. L'enseignement sera accompagné d'un mini-projet, ainsi que de séances de TP encadrées, selon les disponibilités en encadrement.

Algorithmique (49LI0436)

Responsable : Pascal Amsili

La conception de programmes informatiques de qualité nécessite aussi bien un travail sur l'organisation des actions, leur contrôle (algorithmique) qu'un travail sur les données : leur mode de codage, de stockage, etc. (structures de données). L'objectif du cours est d'aborder ces deux aspects de la conception, en étudiant les grandes classes de problèmes identifiés et leurs solutions. Voir la page suivante.

Bases formelles du TAL (49LI0636)

Responsable : Grégoire Winterstein
Premiers éléments mathématiques et informatiques nécessaires pour les approches formelles du TAL, avec une insistance particulière sur la théorie des langages formels (Automates, Grammaires, Expressions Régulières). On s'intéressera aussi au concept d'unification.

Master 1


Approches probabilistes pour le TAL (49LI3142)

Responsable : Marie Candito
Ce cours introduit quelques notions de probabilités et de statistiques sur des domaines discrets et finis à des fins de Traitement automatique des langues. Nous mettrons particulièrement l'accent sur les méthodes d'apprentissage bayésiennes à des fins de catégorisation de mots et d'analyse syntaxique. Le cours aborde également quelques notions de statistiques à des fins de linguistique de corpus. On terminera par un envoi et une présentation des idées essentielles de la théorie de l'information et leur application en TAL.

Programme indicatif:

  • Méthodes sur corpus en TAL et en linguistique : cadre général et motivations
  • Probabilités sur des ensembles discrets et finis
  • Analyse combinatoire
  • Variables aléatoires, lois de probabilités, loi normale et théorèmes essentiels
  • Statistiques et linguistique de corpus
  • Tests statistiques et estimation en TAL
  • Lois de probabilité jointes, modèles graphiques, modèles de markov
  • Automates et algorithmes pour HMMs (Viterbi)
  • Echantillonnage, estimation et lissage I (MLE : EM)
  • Echantillonnage, estimation et lissage II (Laplace, Good-Turing, Repli)
  • Grammaires de réécriture probabilistes
  • Analyse syntaxique probabiliste

Bibliographie succincte:

  • D. Jurafsky and H. Martin, An introduction to speech and natural language processing (2nd ed), Prentice Hall, to appear (2007).
  • S. Russell and P. Norvig, Artificial Intelligence : a modern approach, Penguin Books, 2002.
  • C. Manning and H. Schütze, Foundations of statistical natural language processing, MIT Press, 1999

Traduction automatique (49LI3042)

Responsable : Marie Candito
On présente dans ce cours les techniques utilisées pour la traduction automatique (TA), aussi bien les techniques symboliques ("systèmes par règles") que la traduction statistique. Les systèmes par règles sont présentés avec un survol des étapes d'analyse du langage naturel (analyse morphologique, syntaxique, sémantique). Les travaux dirigés portent sur les différentes étapes d'analyse en TA, la manipulation de logiciels de TA (systran, softissimo), l'alignement de mots et l'entraînement de systèmes de traduction statistique.

Programme indicatif :

  1. Introduction au domaine et typologie des systèmes de TA
  2. Systèmes par règles
    • désambiguisation morphologique et systèmes directs
    • analyse syntaxique et systèmes à transfert
    • systèmes à interlingua
  3. Systèmes guidés par les données
    • corpus comparables et corpus alignés
    • traduction basée sur l'exemple (EBMT)
    • traduction statistique (SMT)

Bibliographie succincte

  • D.D. Arnold et al., « Machine Translation. An Introductory Guide », Oxford, 1994 (http://www.essex.ac.uk/linguistics/clmt/MTbook/)
  • Hutchins & Somers, « An Introduction to Machine Translation Academic Press », London, 1992
  • chapitre 25 de D. Jurafsky & J. H. Martin, "Speech and Language Processing", 2ème édition, 2008
  • tutoriel en ligne Kevin Knight : "A Statistical MT Tutorial Workbook", 1999 (www.isi.edu/natural-language/mt/wkbk.rtf)

Sémantique computationnelle (49LI3342)

Responsable : Pascal Amsili

Ce cours est organisé autour de trois objectifs:

  • D'une part, délimiter le domaine empirique de la sémantique formelle contemporaine (sémantique compositionnelle dans la continuité du programme de Montague), en particulier en relation avec le domaine emergent de la pragmatique formelle ;
  • D'autre part, maîtriser les outils mathématiques utilisés dans la modélisation des phénomènes sémantiques (et à l'interface syntaxe-sémantique) : formalismes logiques, et théorie des modèles ; λ-calcul ; quantificateurs généralisés...) ;
  • Enfin, mettre en oeuvre de façon concrète le traitement informatique des problèmes de sémantique formelle, en particulier dans l'environnement nltk.
Programme indicatif:
  1. Domaine empirique de la sémantique compositionnelle
  2. Logique du premier ordre
  3. Compositionnalité et lambda-calcul
  4. Théorie des quantificateurs généralisés
  5. Interface avec la pragmatique
  6. Mise en oeuvre avec nltk
Bibliographie succincte:
  • Irene Heim & Angelika Kratzer, Semantics in the Generative Grammar, Blackwell Publishers, 1998.
  • Johan Bos & Patrick Blackburn: computational semantics, CSLI
Voir la page suivante.

Langages formels (49LI3241)

Responsable : Pascal Amsili

On présentera dans ce cours les bases avancées de la théorie des langages formels, aussi bien du point de vue mathématique que du point de vue informatique (avec une préoccupation linguistique). Le but est d'aborder d'une part la problématique de l'analyse syntaxique automatique (parsing), centrale en TAL, et d'autre part celle de la compilation, problématique plutôt informatique mais qui inspire de nombreuses applications de TAL et de linguistique formelle.

Programme (très) indicatif:

  • Ch1. Langages rationnels (révision)
  • Ch2. Langages algébriques (grammaires, automates à piles, algorithmes de transformation de grammaire)
  • Ch3. Introduction au parsing (top-down, bottom-up, LL, LR, LALR)
  • Ch4. Parsing tabulaire (CYK, Earley)
  • Ch5. Les générateurs d'analyseurs (lex-yacc, etc)
  • Travaux pratiques avec nltk et ply

Bibliographie succincte:

  • Alfred Aho, Ravi Sethi and Jeffrey Ullman, Compilateurs, Dunod (Paris), 2000. [Traduction de Compilers, Addison-Wesley, 1986]
  • Barbara Partee, Alice ter Meulen & Robert E. Wall, Mathematical Methods in Linguistics, Kluwer Academic Publishers, 1993.
Voir la page suivante.

Nouvelles théories syntaxiques (49LG0842)

Responsable : Anne Abeillé

Le cours a pour objectif de présenter le modèle des grammaires syntagmatiques guidées par la tête (HPSG) à partir de phénomènes syntaxiques observés en français. Des TP sur machines sont organisés pour les etudiants de Linguistique Informatique.

Traitement du signal de parole (49PE0442)

Responsable : Philippe Martin

Cet cours s'adresse en priorité aux étudiants de linguistique et de phonétique expérimentale, et aborde les principes de base d'analyse et de traitement du signal de parole : numérisation du signal, analyse de Fourier et de Prony, mesure de la fréquence fondamentale, applications à la synthèse et à la reconnaissance automatique, systèmes de transcription et d'alignement de corpus oraux, etc..

Il expose d'une manière simple sans complications mathématiques les bases de fonctionnement des nombreux logiciels d'analyse de la parole disponibles aujourd'hui, afin que chacun puisse également en comprendre les limitations et éviter ainsi erreurs et contresens dans leur mise en oeuvre.