Airelles (Ressources Linguistiques)



Thèmes scientifiques

Correction de lexiques

Ce travail prolonge l'approche de fouille d'erreur initiée par le projet ATOLL (INRIA Rocquencourt). Cette dernière permet de détecter des formes lexicales suspectes, c'est-à-dire absentes du lexique ou renseignées incorrectement. En collaboration avec E. de la CLERGERIE (INRIA Rocquencourt), nous proposons une méthode automatique de suggestions de corrections du lexique (à faire confirmer par un linguiste) pour ces formes suspectes. Les propositions de correction sont déduites des contraintes morpho-syntaxiques que l'analyse syntaxique aurait aimé voir satisfaites par les formes suspectes.

Les premiers résultats obtenus valident notre approche. Il reste encore à exploiter avec plus de précision les informations requises par les contraintes pour fournir des hypothèses de correction plus fines.

Une collaboration avec B. SAGOT du projet ALPAGES (INRIA Rocquencourt et PARIS 7) vient de débuter pour fournir une interface conviviale permettant d'exprimer les hypothèses de correction sous une forme compréhensible par un non spécialiste, et en retour d'injecter les corrections validées (et éventuellement modifiées par le linguiste) dans le lexique.

Une collaboration avec le projet COLE de l'université de Vigo vient de s'engager pour enrichir un lexique et une méta-grammaire de l'espagnol et engager une campagne de fouille et de corrections (visite de doctorants à partir de l'automne 2007).

Correction de grammaires

Lors du calcul d'hypothèses pour la correction de lexiques, certaines formes lexicales suspectes font échouer l'analyse syntaxique quels que soient les traits morpho-syntaxiques qu'on peut leur faire porter : ce n'est donc pas la non satisfaction de contraintes (et donc un manque au niveau des informations portées par le mot dans le lexique) qui est cause de l'échec de l'analyse mais plus probablement l'absence d'une règle grammaticale. Par exemple, rares est correctement renseigné dans le lexique, mais la grammaire n'a pas prévu de règle acceptant une construction comme Rares sont ceux qui.... Nous nous inspirons des méthodes statistiques développées pour la fouille d'erreur lexicale afin de déterminer les constructions suspectes, c'est à dire pour lesquelles il est probable que ce soit la grammaire et non le lexique qui est en cause.

Minimisation de transducteurs

Les meilleurs lexiques, bien qu'incomplets, comprennent dans leur forme extensive plusieurs centaines de milliers d'entrées (on y trouve par exemple toutes les flexions d'un verbe), auxquelles sont associés des ensembles de caractéristiques dépendantes du contexte d'utilisation du lexique (classe syntaxique - verbe, nom-commun, etc. -, genre, nombre, etc., mais aussi fréquence dans la langue, phonétique, etc.). Dans la perspective de fusion de différents lexiques, le nombre d'entrées et les informations qui leur sont associées peut croître très fortement.

Pour retrouver dans le lexique l'information associée à un mot du texte source, on peut utiliser une variante de transducteur : on garantit que cette information sera trouvée en un temps linéaire sur la longueur du mot. Toutefois, les transducteurs sont rarement utilisés, car ils demandent beaucoup de mémoire (plusieurs millions d'états et de transitions pour un lexique de bonne facture). La recherche dans le lexique est le plus souvent effectuée grâce à des tables à adressage dispersé, réputées moins gourmandes en place (mais plus en temps).

Il existe des algorithmes de minimisation de transducteurs, et nous avons pu vérifier expérimentalement qu'ils permettent, sur de gros lexiques, un gain de l'ordre de 85% en nombre d'états et de transitions par rapport au transducteur subséquentiel initial. Il est toutefois possible de réduire encore legèrement leur taille en construisant un transducteur couvrant. En collaboration avec J.-M. CHAMPARNAUD (LITIS, Rouen), nous avons donné un algorithme efficace pour calculer un transducteur couvrant (qui n'est pas nécessairement minimal). Le calcul d'un transducteur couvrant minimal est NP-complet, et nous cherchons actuellement des heuristiques approchant un des couvrants minimaux possibles.

Inférence de Grammaires de Propriété

Les Grammaires de Propriété (GP), introduites par Philippe BLACHE (Laboratoire Parole et Language, Aix-en-Provence) ouvrent des perspectives nouvelles. Elle privilégient les relations entre les différents composants d'une phrase sans imposer de dépendance hiérarchique, à la différence des formalismes qui sous-tendent un arbre syntaxique. Les propriétés sont des contraintes portant sur des ensembles de catégories (essentiellement catégories syntaxiques pour ce qui nous concerne). Le LPL aimerait enrichir sa GP du français (et en créer éventuellement pour d'autres langues), et nous a proposé une collaboration dans ce but. La méthode envisagée est la création de propriétés à partir d'un corpus annoté.

Par ailleurs, l'analyseur de GP développé au LPL a une complexité théorique exponentielle. Notre expérience en analyse syntaxique peut nous permettre d'étudier l'adaptation des méthodes tabulées classiquement utilisées en TALN pour garantir un temps polynomial. De plus, l'expertise de l'équipe Contraintes et Preuves pourra être mise à profit pour optimiser le calcul de la satisfaction des propriétés.


Airelles

Laboratoire I3S | CNRS  |  UNS