Projet Calligramme

previous up next contents
Précédent : Fondements scientifiques Remonter : Projet CALLIGRAMME, Logique Linéaire, Réseaux Suivant : Résultats nouveaux



Grands domaines d'application

Résumé : Le projet CALLIGRAMME vise à appliquer ses compétences en logique linéaire au traitement automatique des langues, et plus précisément dans l'analyse syntaxique de textes (et la génération de représentations sémantiques à partir de ceux-ci), la génération automatique de textes à partir de données formelles, et la fouille de données sur des corpus complexes. Le français est la langue qui est privilégiée.


Les grammaires catégorielles dans la linguistique informatique

Comparées aux autres types de grammaires, les grammaires catégorielles et plus particulièrement leur utilisation grammaticale de la théorie de la démonstration, représentent un champ d'investigation neuf, et donc en pleine expansion, dans le domaine du traitement automatique des langues naturelles. Actuellement des linguistes comme Bob Carpenter, Mark Johnson, Aravind Joshi, et Carl Pollard, spécialistes de grammaires bien implantées telles HPSG, LFG, ou TAG, en viennent pourtant aux solutions qui se dégagent de l'étude logique des grammaires catégorielles, puisque les phénomènes visés échappent aux autres types de grammaires.

Une raison pratique pour l'emploi de ces formalismes logiques est qu'ils sont basés sur des propriétés universelles communes à d'autres systèmes de communication (systèmes de déduction logique, calcul de processus), on peut, avec les mêmes outils, dans un même cadre, dériver conjointement des propriétés syntaxiques, sémantiques, voire même pragmatiques, et une réalisation complète en traitement automatique des langues naturelles, telle la traduction automatique ou la génération de texte, se doit de manipuler simultanément ces diverses structures.

La langue française, tout comme ses consoeurs romanes, présente des phénomènes syntaxiques que tout modèle décent doit prendre en compte, et qui résistent cependant à une modélisation (propre) dans les grammaires usuelles.

Par exemple, l'ordre des clitiques. Comme en témoignent les fréquentes erreurs des enfants et des étrangers ces constructions modifient l'ordre des mots d'une manière particulièrement stricte et complexe :


Calligramme soumet sa proposition au comité des projets.
Calligramme la lui soumet.
*Calligramme la vous soumet.
calligra
mme vous la soumet.


La négation en français, pourtant indispensable, est un constituant discontinu : ne...pas. Le traitement de ces derniers est toujours un problème, dont aucune solution proposée jusqu'à maintenant dans les grammaires catégorielles semble satisfaisante. Le problème se complique (et jusqu'à maintenant échappe à tous les formalismes grammaticaux) quand on voit que le clitique ne peut se combiner avec les pronoms clitiques :

Elle ne s'en rend pas vraiment compte,


et que l'ordre des adverbes influence la sémantique :

Elle ne s'en rend vraiment pas compte.

Si l'on souhaite atteindre, via l'analyse syntaxique, une représentation sémantique, les deux analyses de ces phrases se doivent d'être essentiellement différentes.

Ces phénomènes que nous venons de décrire sont tellement courants qu'un modèle syntaxique raisonnable du français ne peut pas les ignorer, tandis que les formalismes usuels en rendent difficilement compte : pour les modéliser, ils ont recours à des constructions ad hoc qui nuisent soit à la simplicité des formalismes et à leur propriétés calculatoires, soit à leur intelligence linguistique (tels le traitement des clitiques par les TAG).

Analyse syntaxique

L'intérêt de l'analyse syntaxique est central dans le traitement automatique des langues naturelles : puisqu'elle donne accès à une représentation sémantique, elle est un ingrédient essentiel de la traduction automatique, de la génération automatique, et de l'analyse de corpus. Un analyseur syntaxique est une composante essentielle de nombreux logiciels, comme par exemple des programmes de fouilles de données, ou de réponse à des requêtes verbales sur des bases de données. La majorité des analyseurs en opération actuellement sur de tels logiciels se limite à des types de phrases simples, catalogués d'avance. Il existe un besoin pour des analyseurs plus performants au niveau de la complexité, capables de traiter par exemple des enchâssements de relatives. De tels programmes pourraient traiter directement des ouvrages techniques comme des traités scientifiques.

Génération automatique de textes

Si la génération de textes dans toute sa généralité n'est pas un thème de notre équipe, elle retient cependant notre attention dans certains cas précis.

Il existe plusieurs situations où l'on doit transformer des données informatiques en un langage plus accessible aux humains, par exemple si on veut produire des bulletins météorologiques. Une caractéristique commune à ces problèmes est que le vocabulaire est très spécialisé et donc limité, mais qu'il n'y a aucune limite sur le nombre et la structure des phrases qu'on peut être amené à produire.



previous up next contents Précédent : Fondements scientifiques Remonter : Projet CALLIGRAMME, Logique Linéaire, Réseaux Suivant : Résultats nouveaux