Projet Dialogue

Précédent : Fondements scientifiques
Remonter : Projet DIALOGUE, Dialogue à forte
Suivant : Logiciels
Les recherches que nous menons au sein du
projet Dialogue se déclinent en trois points :
- des études pluridisciplinaires sur la langue : comme nous
l'avons vu, l'objectif est de mettre l'accent sur les
conditions d'usage de la langue en combinant observation et
réflexion linguistique d'une part, et modélisation informatique
d'autre part ;
- la réalisation de prototypes : ceci nous permet de valider
nos modèles dans le cadre de situations concrètes, inspirées
notamment d'applications industrielles réalistes ;
- la définition d'outils et méthodes pour l'étude de corpus :
cet aspect est fondamental pour fournir à la fois une base
solide pour les études linguistiques que nous menons et
faciliter le test de méthodes particulières (par exemple de
l'analyse syntaxique locale ou d'une stratégie de calcul
référentiel) sur des données réelles.
L'une des caractéristiques des recherches que nous menons est
qu'il est impossible d'isoler une composante spécifique du
traitement du langage. A ce titre, tout élément d'analyse, qu'il
porte sur le niveau lexical, syntaxique ou sémantique doit
s'intégrer dans une vision plus large permettant in fine
l'interprétation de l'énoncé courant de l'utilisateur et la
gestion des réponses qui lui sont fournies (lancement d'une
action, message de réponse etc.). Depuis plusieurs années, notre
projet a placé le phénomène de la référence au sens large au
centre de cette notion d'interprétation. Ceci nous a en
particulier conduit à proposer un modèle original centré sur la
notion de contraste. Cette année nous avons poursuivi cette
approche en développant plus particulièrement les aspects
suivants :
- définition d'un modèle de représentation des référents :
les Représentations Mentales (RM) - l'objectif de cette
recherche, menée plus particulièrement dans le cadre du projet
Cervical, est d'intégrer, dans la mesure du possible,
l'ensemble des informations attachées à un objet susceptible
d'être activé lors d'un acte de référence. En particulier,
notre objectif est d'expliquer comment, dans une même
représentation, peuvent se combiner des informations d'ordre
spatial et/ou perceptif, temporel et lexical notamment.
Certains de ces points font l'objet d'études spécifiques (cf.
supra) ;
- lien entre geste et perception dans le dialogue multimodal
-- suite aux travaux de thèse de Nadia Bellalem, nous menons
actuellement une étude expérimentale sur la relation entre les
trajectoires gestuelles d'un utilisateur et la structure
perceptive des objets présentés à lui. L'analyse du corpus que
nous avons recueilli devrait nous permettre de définir des
algorithmes plus fins d'analyse des trajectoires référentielles
;
- temps et prédication dans le dialogue -- dans le cadre de
la collaboration avec l'Université de Genève (accueil de deux
doctorants de l'équipe de Jacques Moeschler), nous avons repris
le travail de modélisation des informations temporelles dans le
dialogue, notamment pour mieux représenter les actions
élémentaires relativement à un référent ou un groupe de
référents donnés ;
- gestion du dialogue et intentions -- l'objectif est
d'articuler l'interprétation des énoncés d'un utilisateur avec
les réponses qui lui sont faites. Pour cela nous explorons la
possibilité d'une représentation de haut-niveau (<<
contexte d'interprétation >>) qui englobe la notion de
RM, en confrontant nos propositions avec des représentations
plus formelles telles que la SDRT (Segmented Discourse
Representation Theory) ;
- analyseurs TAG pour le dialogue -- nous souhaitons adapter
le modèle syntaxique des TAG (Tree Adjoining Grammar) pour lui
permettre de prendre en compte des données issues de systèmes
de reconnaissance de la parole, par le biais de stratégies
d'analyse locales par connexité.
Ces recherches bénéficient d'un soutien dans le cadre du
projet Cervical du GIS Sciences de la Cognition, et s'insèrent
par ailleurs dans la collaboration que nous avons initiée cette
année avec le Laboratoire Central de Recherche de Thomson.
Dans le cadre du projet Esprit II Multiworks, nous avions eu
l'occasion de développer une première plateforme de dialogue
reposant sur les différentes propositions théoriques (modèle
temporel à deux relations, première version du modèle
référentiel) faites au sein de l'équipe. Nous avons fait le choix
de faire évoluer cette plateforme (« Multidial ») pour qu'elle
puisse à la fois servir de site d'expérimentation pour nos
propositions théoriques et de base pour les applications futures,
dans le cadre notamment de nos collaborations industrielles.
Notre objectif est de développer plus particulièrement les
aspects suivants :
- Définition d'un module lexical plus flexible -- afin de
palier les difficultés liées à la redéfinition d'une composante
lexicale pour chaque nouvelle application, nous étudions
actuellement l'usage qui peut être fait de ressources
normalisées issues notamment des projets européens Eagles et
Multext. En particulier, nous étudions comment il est possible
de « surcharger » des informations morphosyntaxiques plus ou
moins standard par des indications sémantico-pragmatiques plus
spécifiquement dédiées à la tâche en cours ;
- Remplacement de l'analyseur existant par un analyseur TAG.
En parallèle avec les travaux plus théoriques que nous menons
sur ce sujet, nous développons un analyseur TAG reposant sur
des algorithmes d'analyse classiques (Earley etc.) ;
- Evaluation d'une architecture distribuée. Nous menons
actuellement différentes expérimentations pour évaluer
l'intérêt d'une norme telle que CORBA pour la réalisation d'une
architecture de système de dialogue distribuée.
Ces recherches sont en particulier développées dans le cadre
de la collaboration que nous entretenons avec Alcatel Business
Systems à Strasbourg et avec qui nous participons au projet
Eureka Master.
Gérer des ressources linguistiques normalisées représente pour
nous à la fois un moyen de valider, par l'observation, nos
modèles théoriques, et une source générique d'information (par
exemple lexicale) pour les systèmes de dialogue que nous
développons. Plus globalement, il s'avère que la réflexion menée
autour de la normalisation des ressources linguistiques doit être
largement partagée au sein de la communauté académique. C'est à
ce titre qu'il nous a été demandé de coordonner le projet Silfide
(cf.
) dans le cadre duquel nous
situons l'essentiel de nos actions. Le projet Dialogue occupe
ainsi une place active au sein de la communauté nationale et
internationale dans le domaine de la normalisation des ressources
linguistiques et de leur utilisation, notamment au sein de la TEI
(Text Encoding Initiative). Parmi les points que nous développons
plus particulièrement nous pouvons mentionner :
- le maintien et le développement du prototype Silfide qui
devrait être rendu public officiellement à la fin 97. En
particulier, nous devons tendre vers un véritable réseau de
serveurs, notamment dans le cadre du projet Européen MLIS Elan,
récemment approuvé par la DGXIII, ainsi que de la collaboration
entamée depuis plusieurs mois avec le Vassar College (Nancy
Ide) ;
- le développement de nos compétences dans les domaines des
lexiques et des dictionnaires. Nous bénéficions en particulier
d'un soutien du SHOM (Service Hydrographique et océanographique
de la Marine du Ministère de la défense), pour valider les
standards existants sur la base du Dictionnaire Hydrographique
International ;
- la définition d'un schéma d'annotation de la référence qui
soit compatible avec le cadre général fourni par la TEI. Les
propositions que nous avons faites vont servir de base au
travail commun sur corpus qui doit commencer au sein du projet
Cervical ;
- l'indexation contrastive plein texte consiste à connaître
les mots spécifiques d'un texte (resp. d'une partie d'un texte)
par rapport à une collection (resp. à la totalité du texte). En
linguistique cela revient à comparer un sous corpus de travail
(des contextes) extrait d'un corpus de référence (l'ensemble
des contextes). Le contraste est obtenu en comparant la
répartition des mots dans le corpus de travail avec leur
répartition dans le corpus de référence et relève d'un test de
probabilité. Le test de l'écart réduit évalue les écarts entre
une distribution théorique (ou calculée) et une distribution
observée pour un ou plusieurs mots. Les scores obtenus mettront
en évidence des pics (excédent des occurrences) et des
dépressions (déficit des occurrences) statistiques qui
révèleront les éléments caractéristiques des contextes
sélectionnés par rapport à la totalité des contextes. Cela
permet alors :
- de classer (catégoriser) chaque texte ou fragment en
fonction des scores d'écart réduit d'un ou plusieurs mots
déterminés ;
- d'ordonner une liste de mots d'après leur score d'écart
réduit en lien avec un corpus de référence.
Mais il nous est apparut nécessaire de réserver son
utilisation à un mode semi-automatique de la même manière
qu'en lexicographie lors d'extraction de collocations de
termes particuliers ;
- dans le cadre des actions de recherche concertées de
l'AUpelf-Uref, nous participons à l'action spécifique
d'évaluation des aligneurs multilingues (ARC-A2), sur la base
de l'aligneur hiérachique développé au sein du projet (et qui
devrait sous peu être intégré dans Silfide).
Précédent : Fondements scientifiques
Remonter : Projet DIALOGUE, Dialogue à forte
Suivant : Logiciels