L'analyse
documentaire et l'accès à des bases de documents ou de
services
Résumé : Les trois principaux domaines d'application
des travaux de recherche menés dans le projet sont la
génomique, la supervision de réseaux téléphoniques et
électriques et la recherche d'informations. Des
applications sont envisagées dans des domaines connexes
tels que l'étude des séquences de mots en reconnaissance de
la parole ou l'analyse des séquences de commandes dans une
application de téléphones mobiles pour les travaux en
analyse de séquences, le ``monitoring'' de l'activité
cardiologique et cérébrale ou la surveillance de
l'évolution des cultures dans le domaine agricole pour les
travaux en diagnostic et supervision ; suivi du
dialogue oral dans un système automatique de renseignements
téléphoniques pour les travaux en recherche d'informations.
Mots-clés : automates, bio-informatique, analyse
linguistique
Résumé : L'objectif est, à partir d'un ensemble
d'observations de suites produites par un mécanisme mal
connu (séquences discrètes qui peuvent être aussi bien des
macro-molécules biologiques que des suites de commandes),
de mettre en évidence des sous-séquences ou des structures
qui apportent des indices pour la compréhension de ce
mécanisme.
Le but de l'analyse exploratoire est soit de rechercher des
sous-séquences ``surprenantes'' (signaux biologiques
potentiels), soit de modéliser un mécanisme particulier en
établissant une correspondance entre séquence, structure et
fonction (phénomène de régulation de gènes, automate d'accès
à un service à partir de séquences, modélisation de la
stratégie d'un apprenant dans la résolution d'un problème par
étapes).
Les difficultés peuvent provenir de la taille des séquences,
de l'existence d'interactions à longue distance, et de la
superposition de nombreuses contraintes indépendantes pour
aboutir à la séquence observée. Comme dans tout domaine réel,
il faut aussi résoudre des problèmes d'approximation ou de
bruit sur les observations.
La modélisation s'attache à décrire les séquences à un
niveau lexical et syntaxique. Essentiellement nous étudions
les arbres de suffixes et les grammaires formelles (ou les
automates associés), ainsi que les méthodes de modélisation
de l'utilisateur.
L'analyse de ces séquences suppose des recherches dans le
domaine de l'analyse statistique et linguistique (lexicale et
syntaxique) de séquences.
Du point de vue de l'acquisition des modèles, le
développement de techniques d'inférence grammaticale
constitue une préoccupation centrale dans ce contexte. Nous
étudions ainsi des séquences d'ADN de procaryotes, des
séquences de mots dans une application de reconnaissance de
la parole et projetons d'étudier les séquences de commande
dans une application de téléphones mobiles.
Mots-clés : réseaux, supervision, diagnostic,
reconnaissance et acquisition de scénarios
Résumé : L'objectif est de détecter à partir d'un
ensemble d'observations (souvent datées ou au moins
ordonnées) le dysfonctionnement d'un système physique,
d'identifier ce dysfonctionnement en localisant le ou les
composants défectueux, et de préconiser l'action (ou la
suite d'actions) qui semble la plus appropriée au maintien
des fonctionnalités du système. Nous nous appuyons sur les
méthodes utilisant des modèles de fonctionnement ou de
dysfonctionnement des systèmes surveillés (approches de
type model-based).
Les systèmes actuellement étudiés sont les réseaux de
télécommunications et de distribution d'électricité. Ces
systèmes étant pour la plupart dynamiques, les modélisations
sur lesquelles nous nous focalisons permettent de tenir
compte de la dimension temporelle: automates communicants
temporels, graphes causaux temporels.
Deux approches sont étudiées:
- La première part du principe que la surveillance du
système est faite en temps réel par un logiciel de
reconnaissance de scénarios ; le problème essentiel
est alors celui de l'acquisition automatique de ces
scénarios à partir des modèles existants. L'objectif est de
pouvoir suivre l'évolution technologique rapide des
systèmes considérés tout en garantissant l'efficacité de la
surveillance. L'acquisition des scénarios se fait, à partir
des données résultant de la simulation de
dysfonctionnements, avec des techniques de type PLI (et
plus particulièrement PLI avec contraintes) de manière à
construire une base de scénarios discriminants. Cette
approche est testée dans le cadre de la supervision du
réseau de transmission de données Transpac (contrat CTI
avec le Cnet/France-Télécom) ainsi que sur une application
de supervision de réseaux de distribution d'électricité
(contrat avec EDF). Nous envisageons d'utiliser cette
approche dans le domaine de la surveillance médicale
(activité cardiaque en particulier).
- La seconde a pour objectif de construire un outil de
diagnostic (dans notre cas un automate de diagnostic, ou
diagnostiqueur) à partir du modèle de fonctionnement du
système (décrit dans notre cas par un automate). Cette
approche est testée dans le cadre de la supervision du
réseau de transmission de données Transpac dans le cadre du
CTI mentionné ci-dessus.
Mots-clés : recherche d'informations, lexicologie,
terminologie, coopération, révision
Résumé : L'objectif est d'assister un utilisateur à
la recherche d'informations. Cette assistance passe par
l'inférence d'un ensemble de connaissances utilisables en
recherche documentaire (terminologie, indexation
automatique, recherche d'informations sur le Web, ...) et
par l'interprétation des actes d'un locuteur en vue de
reconnaître ses intentions et d'y répondre de manière
coopérative.
Un des aspects de notre travail porte
sur l'inférence de connaissances lexicales. Plus précisément,
nous cherchons à modéliser le fonctionnement de noms et de
prédicats dans des corpus, c'est-à-dire à détecter l'ensemble
des mots des textes qui permet de caractériser et d'expliquer
le sens particulier de ces noms et verbes en contexte. Une
application particulière de ce travail est l'étude de la
variation sémantique des termes d'un domaine, travail qui
peut directement être intégré en recherche documentaire afin
d'accroître la pertinence des textes obtenus lors d'une
requête d'un utilisateur.
Il s'agit
d'interpréter les actions d'un utilisateur de façon
coopérative, en tenant compte de l'évolution des buts et des
intentions de cet utilisateur. Ce travail trouve une
application particulière, en coopération avec le
Cnet/France-Télécom, au sein d'un service d'interrogation
oral avec un service d'informations. Les séquences à
interpréter sont alors l'historique du dialogue. Une logique
modale complexe, combinant divers systèmes modaux, dont
certains très classiques comme KD45, est déjà utilisée comme
langage de représentation des connaissances. L'historique du
dialogue est ainsi traduit sous la forme d'une formule modale
de plus en plus grosse, représentant l'état de croyance
actuel du système, lequel conserve ainsi également la mémoire
de ses croyances passées, à chaque stade du dialogue. Il
convient de tenir compte d'erreurs toujours possibles, soit
parce que la requête de l'utilisateur est effectivement
erronée (donnez moi le serveur de météo marine pour
l'Orne, par exemple) soit par la suite d'une erreur du
système ``en amont'' (de reconnaissance vocale par exemple).
Il faut aussi tenir compte de l'évolution possible de la
requête de l'utilisateur, qui réagit en fonction des réponses
que le système lui a déjà données. L'acquisition des modèles
nécessaires passe par l'utilisation de techniques de révision
des connaissances et de raisonnement par défaut.
La coopération a démarré en avril 1997 et doit durer trois
ans.
Précédent :
Fondements scientifiques
Remonter : Rapport activite 1997 Suivant :
Logiciels