Analyse d'énoncés oraux pour le Dialogue homme-machine à l'aide de Grammaires Lexicalisées d'Arbres

Dans l'équipe Langue et Dialogue, nous avons pris le parti de fonder l'analyse syntaxique des énoncés oraux sur des modèles linguistiques utilisés pour l'écrit. Nous nous sommes fondés sur le formalisme des grammaires lexicalisées d'arbres adjoints (LTAG), choix que nous justifions, à la vue des différents formalismes existants, par des propriétés intéressantes autant linguistiques qu'informatiques. De nombreuses études sur l'expressivité linguistique de ce modèle ont été menées, les LTAG présentent en particulier des propriétés de lexicalisation facilitant la conception de grammaires pour lesquelles il est possible d'écrire des algorithmes d'analyse polynomiaux. Au cours de cette année, un analyseur à base de LTAG été mis au point. Il repose sur un algorithme original d'analyse par connexité délivrant des analyses pour les différents segments grammaticaux présents dans l'énoncé, le rendant de ce fait adapté à l'analyse locale et robuste d'énoncés oraux.

Cet algorithme s'appuie sur des techniques tabulaires et de compaction de la grammaire ce qui associe efficacité et robustesse.

De plus, une extension du formalisme LTAG permettant de prendre en compte un certain nombre de phénomènes linguistiques spécifiques à l'oral (ellipses) a été implantée. L'analyseur développé est intégré dans une plate-forme nommée EGAL (Extraction de Grammaires d'Arbres Lexicalisées) permettant de spécialiser de façon semi-automatique une grammaire générale de la langue à un sous-langage d'application spécifique à l'aide de corpus et de tester grammaires et analyses obtenues.