Précédent : Fondements
scientifiques Remonter : Projet CALLIGRAMME, Logique Linéaire, Réseaux
Suivant : Résultats
nouveaux
Résumé : Le projet CALLIGRAMME vise à appliquer ses compétences en logique linéaire au traitement automatique des langues, et plus précisément dans l'analyse syntaxique de textes (et la génération de représentations sémantiques à partir de ceux-ci), la génération automatique de textes à partir de données formelles, et la fouille de données sur des corpus complexes. Le français est la langue qui est privilégiée.
Comparées aux autres types de grammaires, les grammaires catégorielles et plus particulièrement leur utilisation grammaticale de la théorie de la démonstration, représentent un champ d'investigation neuf, et donc en pleine expansion, dans le domaine du traitement automatique des langues naturelles. Actuellement des linguistes comme Bob Carpenter, Mark Johnson, Aravind Joshi, et Carl Pollard, spécialistes de grammaires bien implantées telles HPSG, LFG, ou TAG, en viennent pourtant aux solutions qui se dégagent de l'étude logique des grammaires catégorielles, puisque les phénomènes visés échappent aux autres types de grammaires.
Une raison pratique pour l'emploi de ces formalismes logiques est qu'ils sont basés sur des propriétés universelles communes à d'autres systèmes de communication (systèmes de déduction logique, calcul de processus), on peut, avec les mêmes outils, dans un même cadre, dériver conjointement des propriétés syntaxiques, sémantiques, voire même pragmatiques, et une réalisation complète en traitement automatique des langues naturelles, telle la traduction automatique ou la génération de texte, se doit de manipuler simultanément ces diverses structures.
La langue française, tout comme ses consoeurs romanes, présente des phénomènes syntaxiques que tout modèle décent doit prendre en compte, et qui résistent cependant à une modélisation (propre) dans les grammaires usuelles.
Par exemple, l'ordre des clitiques. Comme en témoignent les fréquentes erreurs des enfants et des étrangers ces constructions modifient l'ordre des mots d'une manière particulièrement stricte et complexe :
La négation en français, pourtant indispensable, est un
constituant discontinu : ne...pas. Le traitement de ces
derniers est toujours un problème, dont aucune solution proposée
jusqu'à maintenant dans les grammaires catégorielles semble
satisfaisante. Le problème se complique (et jusqu'à maintenant
échappe à tous les formalismes grammaticaux) quand on voit
que le clitique ne peut se combiner avec les pronoms
clitiques :
Si l'on souhaite atteindre, via l'analyse syntaxique, une représentation sémantique, les deux analyses de ces phrases se doivent d'être essentiellement différentes.
Ces phénomènes que nous venons de décrire sont tellement courants qu'un modèle syntaxique raisonnable du français ne peut pas les ignorer, tandis que les formalismes usuels en rendent difficilement compte : pour les modéliser, ils ont recours à des constructions ad hoc qui nuisent soit à la simplicité des formalismes et à leur propriétés calculatoires, soit à leur intelligence linguistique (tels le traitement des clitiques par les TAG).
L'intérêt de l'analyse syntaxique est central dans le traitement automatique des langues naturelles : puisqu'elle donne accès à une représentation sémantique, elle est un ingrédient essentiel de la traduction automatique, de la génération automatique, et de l'analyse de corpus. Un analyseur syntaxique est une composante essentielle de nombreux logiciels, comme par exemple des programmes de fouilles de données, ou de réponse à des requêtes verbales sur des bases de données. La majorité des analyseurs en opération actuellement sur de tels logiciels se limite à des types de phrases simples, catalogués d'avance. Il existe un besoin pour des analyseurs plus performants au niveau de la complexité, capables de traiter par exemple des enchâssements de relatives. De tels programmes pourraient traiter directement des ouvrages techniques comme des traités scientifiques.
Si la génération de textes dans toute sa généralité n'est pas un thème de notre équipe, elle retient cependant notre attention dans certains cas précis.
Il existe plusieurs situations où l'on doit transformer des données informatiques en un langage plus accessible aux humains, par exemple si on veut produire des bulletins météorologiques. Une caractéristique commune à ces problèmes est que le vocabulaire est très spécialisé et donc limité, mais qu'il n'y a aucune limite sur le nombre et la structure des phrases qu'on peut être amené à produire.