Projet Repco

previous up next contents
Précédent : Logiciels Remonter : Rapport activite 1997 Suivant : Actions industrielles



Résultats nouveaux

  
Modélisation de systèmes (ou d'activités complexes) évoluant dans le temps en vue de leur surveillance en ligne



Participants : Marie-Odile Cordier , Irène Grosclaude , Véronique Masson , Emmanuel Mayer , René Quiniou , Laurence Rozé , Sylvie Thiébaux , Philippe Laborie


Mots-clés : modélisation, supervision, diagnostic, acquisition de scénarios, apprentissage par PLI, décision en univers incertain, raisonnement à partir de cas


Résumé : Dans le cadre de l'aide à la surveillance de systèmes ou d'activités complexes, nous nous intéressons plus spécifiquement au cas de surveillance par analyse de séquences d'alarmes reçues par l'opérateur. Nous utilisons pour cela des modèles de fonctionnement du système, en particulier des modèles de pannes. Les activités du projet dans ce thème portent sur trois points: l'acquisition de scénarios à partir de modèles, la construction d'automates diagnostiqueurs et l'interaction diagnostic/décision dans un univers incertain. Ces travaux de recherche s'appuient principalement sur deux applications, la surveillance de réseaux de télécommunications dans le cadre d'un contrat CTI avec le Cnet/France-Télécom et la supervision de réseaux de distribution d'électricité d'EDF dans le cadre de deux contrats avec EDF.


Dans le cadre de l'aide à la surveillance de systèmes ou d'activités complexes, nous nous intéressons plus spécifiquement au cas de surveillance par analyse de séquences d'alarmes reçues par l'opérateur. Nous cherchons non seulement à détecter les dysfonctionnements mais à les caractériser en localisant les composants responsables (diagnostic). Nous utilisons pour cela des modèles du système, en particulier des modèles de pannes, qui sont décrits dans le formalisme des automates communicants temporels pour les deux applications de surveillance des réseaux (télécommunications et distribution d'électricité) que nous traitons, ainsi que dans celui des graphes causaux temporels.

Les activités du projet dans ce thème portent sur trois points: l'acquisition de scénarios à partir de modèles, la construction d'automates diagnostiqueur et l'interaction diagnostic/décision dans un univers incertain. Ces travaux de recherche s'appuient principalement sur deux applications, la surveillance de réseaux de télécommunications dans le cadre d'un contrat CTI avec le Cnet/France-Télécom et la supervision de réseaux de distribution d'électricité d'EDF dans le cadre de deux contrats avec EDF (voir relations industrielles). Une troisième application est en cours d'étude avec l'ENSAR pour la surveillance de terrains agricoles à partir d'images satellitaires.

Acquisition de scénarios à partir de modèles

Les logiciels de reconnaissance de scénarios ont été tout spécialement conçus pour le suivi de systèmes dynamiques. Un scénario ou chronique décrit une situation par l'ensemble des événements qui la caractérisent et les contraintes temporelles qui s'y rapportent. La reconnaissance de scénarios a pour but d'analyser un flux d'événements en ligne et de détecter parmi l'ensemble des scénarios décrits ceux que les événements satisfont. Cette approche est efficace pour la surveillance du système en ligne mais le principal problème est celui de l'acquisition et de la maintenance de la base de scénarios.

Nous étudions l'acquisition automatique de scénarios à partir des modèles de fonctionnement et de dysfonctionnements des systèmes surveillés. Le modèle est utilisé en simulation afin d'acquérir pour chaque panne significative les séquences d'observations correspondantes et constituer ainsi une base significative d'apprentissage. Les séquences étiquetées sont ensuite généralisées afin d'obtenir un ensemble de scénarios discriminants. Cette approche est mise en oeuvre dans le projet GASPAR qui porte sur la surveillance de réseaux de télécommunications avec le Cnet/France-Télécom. Elle est aussi utilisée dans l'approche de détection de pannes dans le cas de réseaux de distribution d'électricité d'EDF. Nous démarrons l'étude de ce problème dans le cas de modèles à base de graphes causaux temporels.

Acquisition automatique de scénarios de panne discriminants par des techniques d'apprentissage de type PLI. Application au projet GASPAR.

 Le projet GASPAR propose un système de surveillance de réseaux de transmission de données (Transpac). Il fait l'objet d'un contrat CTI que nous avons avec le Cnet/France-Télécom. Les composants de ce réseau émettent des alarmes (par exemple lors de l'occurrence de pannes) qui sont destinées au superviseur. Le principal problème concerne le phénomène de masquage de ces alarmes (une alarme émise par un composant peut ne pas parvenir au superviseur si un composant qui doit le retransmettre est lui-même en panne). Nous proposons une approche à base de modèles s'appuyant sur la génération hors ligne de séquences temporelles d'alarmes (scénarios) associés aux pannes significatives et sur la reconnaissance en ligne de ces séquences. Dans un premier temps, un modèle du système surveillé a été construit et décrit dans le formalisme des automates communicants. Un simulateur a été réalisé qui permet donc d'obtenir pour chaque panne considérée l'ensemble des séquences d'alarmes qui peuvent parvenir au superviseur. Nous nous intéressons actuellement au module de discrimination qui doit construire à partir de ces séquences d'alarmes simulées les scénarios des pannes significatives. Les scénarios temporels appris constitueront la base de scénarios d'un système de reconnaissance de scénarios.

La méthode que nous expérimentons s'appuie sur des techniques touchant à la programmation logique inductive (PLI), et plus particulièrement sur des techniques d'induction sur des clauses contraintes qui étendent les langages logiques classiques aux langages avec contraintes (PLC). Nous nous inspirons des travaux décrits par [SR96b,SR96a]. Le principe est de rechercher pour chaque exemple positif de pannes un scénario discriminant qui accepte l'exemple positif et rejette l'ensemble des exemples négatifs (séquences relatives aux autres pannes). Nous avons implémenté cette approche en utilisant le gestionnaire de contrainte CLP$(\mathcal{FD})$ et avons étendu la solution proposée au cas où plusieurs exemples positifs doivent être pris en compte. Le principal problème rencontré est celui lié à la combinatoire induite par les appariements multiples. Nous avons proposé d'introduire des biais de langage dépendant du domaine et étudions actuellement l'utilisation de méthodes stochastiques afin de contourner cette difficulté.

Une des difficultés actuellement à l'étude est celle des pannes multiples et tout particulièrement celles qui ``interagissent'', c'est-à-dire celles dont les effets ne sont pas la simple union des effets de chacune des pannes élémentaires.

Acquisition de scénarios par simulation pour la surveillance de réseaux de distribution d'électricité d'EDF ; le système GEMO

Afin d'améliorer la qualité de service en distribution, EDF développe AUSTRAL, une plate-forme de fonctions temps-réel visant à assister l'opérateur chargé de conduite dans ses activités de gestion d'alarmes, de diagnostic et de reprise de service.

La fonction de gestion d'alarmes et de diagnostic d'AUSTRAL (nommée FONSYNT) a pour objectif d'analyser le flot de télésignalisations (événements) en provenance des postes sources et du réseau pour délivrer à l'opérateur des informations synthétiques moins denses et plus compréhensibles que celles du flot d'entrée. Ces informations synthétiques peuvent concerner des bons comme des mauvais fonctionnements des équipements du réseau.

FONSYNT repose sur une approche générale à base de chroniques [*]. Une chronique décrit une classe de comportements temporels caractéristiques du système supervisé donnant lieu à la synthèse d'une information pour l'opérateur ou pour le système d'aide à la conduite. En cours de supervision l'outil tente de reconnaître, dans le flot d'événements qui lui arrivent, des motifs temporels préalablement écrits dans les chroniques.

Ce type d'approche est connu pour son efficacité mais aussi pour les difficultés liées à la description et à la maintenance de l'expertise (base de chroniques). Plus précisément, la description manuelle des chroniques par un expert est une activité

Cette expertise est, de plus, très difficile à maintenir car la moindre évolution du réseau de distribution ou de son plan de protection entraîne une remise en cause globale de l'expertise.

Dans le cadre d'une collaboration entre l'IRISA et EDF, nous avons poursuivi le développement de GEMO, un système permettant de générer automatiquement la base de chroniques de FONSYNT [54]. GEMO repose sur une approche basée sur les modèles. L'expertise est générée à partir d'une description des comportements normaux et anormaux de chacun des composants du réseau sous la forme d'automates communicants [47]. Nous utilisons pour cela l'outil de modélisation, simulation et vérification de systèmes à événements discrets ASA+.

La simulation exhaustive d'une tranche générique du modèle permet de construire un ensemble de squelettes de chroniques. Ces squelettes de chroniques sont ensuite analysés et discriminés par un module spécialisé pour générer l'expertise.

La description du modèle en entrée de GEMO est plus naturelle et environ dix fois plus concise que l'expertise décrite manuellement. Une évolution du plan de protection du réseau n'entraîne que des modifications locales du modèle. On montre d'autre part que l'expertise générée par GEMO est correcte, complète par rapport au modèle, non-redondante et facilement lisible par un expert [36].

Une première expérimentation de GEMO a permis de regénérer automatiquement l'expertise déjà décrite manuellement pour les Centres de Lyon et de Versailles. GEMO devrait être utilisé de manière opérationnelle en 98 pour adapter cette expertise en vue de l'utilisation d'AUSTRAL sur le Centre de Nîmes.

Nous avons d'autre part comparé l'application EDF et GEMO aux travaux effectués dans le cadre du projet GASPAR et montré dans [35] comment l'approche utilisée pour GEMO s'inscrit dans le cadre plus général de la synthèse automatique de chroniques à partir d'un modèle.

Graphes causaux temporels

Nous étudions une utilisation déductive des graphes causaux temporels qui, au contraire de l'approche abductive, descend intuitivement les chaînes causales pour recueillir tous les observables impliqués par la supposition de l'existence d'une (ou plusieurs) panne(s). Cette méthode permet la compilation du graphe causal en un ensemble de ``scénarios''. Nous nous sommes particulièrement intéressés au problème de l'interaction de pannes: les conséquences communes de deux ou plusieurs pannes peuvent s'avérer différentes de la simple juxtaposition des effets prédits par l'occurrence unique des pannes. On peut ainsi observer des masquages de pannes: les effets sont opposés et se compensent, ou les effets sont identiques mais leur durée est plus courte que prévu.

Concernant la mise en oeuvre, nous étudions la coopération entre un mécanisme déductif et un gestionnaire de contraintes temporelles, ici LaTeR [BCT95] mis à notre disposition par l'Université de Turin.

Le champ d'application de la méthode est important. Nous projetons de l'appliquer à la supervision de procédés industriels (surveillance du circuit de refroidissement d'une centrale nucléaire) et au monitoring en milieu hospitalier (surveillance cardiaque de patients en unité de soins intensifs).

Construction d'un automate diagnostiqueur

Cette approche est explorée en parallèle de celle faisant l'objet du projet GASPAR ([*]). Dans le cadre de ce projet, le modèle du réseau est utilisé en simulation: étant donné un ensemble de causes, le modèle permet, de propagation en propagation, d'en déduire les effets. Dans l'application Transpac, les causes sont des événements datés de panne ou de retour en fonctionnement et les effets sont les alarmes reçues par le superviseur. Il faut ensuite construire une base de scénarios à partir des séquences obtenues.

La méthode explorée ici consiste à utiliser le modèle de manière abductive (partir des effets et en raisonnant sur le modèle, remonter aux causes). Compte tenu de la complexité des raisonnements abductifs et des contraintes temps-réel présentes dans le réseau Transpac, nous nous sommes focalisés sur les techniques abductives hors ligne et en particulier aux travaux présentés dans [SSL$^{+}$95,SSL$^{+}$94]. À partir d'un modèle du système, décrit en terme d'automates synchrones, un automate particulier est construit: le diagnostiqueur. Ses transitions s'effectuent uniquement à partir des événements observables et ses états contiennent de l'information sur les pannes rencontrées par le système. Diagnostiquer le système consiste à parcourir le diagnostiqueur au fur et à mesure de l'arrivée d'événements observables. Une telle approche est intéressante pour deux raisons: elle vérifie nos critères de généricité et d'efficacité et la modélisation est très proche de celle utilisée dans le projet GASPAR (automates communicants).

L'approche diagnostiqueur développé par Sampath et al. s'appuie sur des hypothèses qui sont beaucoup trop restrictives pour notre application. Les deux principales sont l'utilisation d'un modèle de tout le système, ce qui pour l'application Transpac est combinatoirement impossible, et l'utilisation d'un modèle statique n'incluant aucune contrainte temporelle. La prise en compte de ces nouvelles hypothèses nous a conduit à adapter la construction du diagnostiqueur (cf [42]). En raison du nombre de composants importants du réseau, cette méthode reste lourde et nos recherches portent actuellement sur la construction et l'utilisation générique d'un tel diagnostiqueur, en tirant parti de la structure fortement hiérarchique du réseau concerné.

Interaction diagnostic/décision dans un univers incertain

Dans le cadre d'un contrat CERD entre EDF et le CNRS, nous avons poursuivi nos travaux concernant le problème de la génération de plans de reprise de service suite à l'occurrence de défauts sur les réseaux de distribution d'électricité EDF.

Il s'agit, lors de l'occurrence de défauts sur les lignes des réseaux de distribution, de localiser les lignes fautives en interprétant les télésignalisations reçues, puis de construire un plan de reconfiguration du réseau afin de réalimenter au mieux les clients du réseau. Le plan de reconfiguration consiste en une suite d'ouvertures et de fermetures des organes de coupure par l'intermédiaire d'actionneurs. Un des principaux problèmes est le manque de fiabilité des capteurs ainsi que des actionneurs. Le principal problème est ainsi l'imbrication entre la détermination des lignes fautives (le diagnostic) et la décision de modifier la structure du réseau afin de rétablir au plus vite le réseau dans une configuration satisfaisante.

Un prototype SyDRe a été réalisé ([*]) et testé sur des réseaux de taille réelle. Ce prototype traite un nombre arbitraire de fautes sur un ou plusieurs départs. Il se charge du suivi de l'exécution des plans de reprise et de leur révision en cas d'échec.

Dans le cadre d'une prolongation du contrat avec l'EDF, nous avons porté les résultats du contrat CERD initial dans l'environnement du projet AUSTRAL. L'intérêt de ce portage réside dans la possibilité de faire tourner le prototype initial sur les jeux de données des réseaux utilisés par AUSTRAL afin de la valider de façon rigoureuse. La mise au point de nouveaux algorithmes de génération de plans de reprise améliorent l'ancienne version de manière significative. Un nouveau simulateur a été développé afin d'exploiter la nouvelle modélisation des données (nouveaux composants, nouveaux comportements). Il permet une simulation au niveau d'abstraction requis pour la validation de SyDRe: simulation de défauts, de manoeuvres d'organes, de changement de modes de fonctionnement. Enfin, les modalités d'intégration de SyDRe à AUSTRAL ont été définies, mises en oeuvre, et testées avec succès sur le réseau de Bordeaux qui est représentatif des réseaux de distribution réels.

Surveillance de parcelles agricoles

Dans le cadre d'une collaboration avec l'ENSAR, nous avons abordé le problème de la surveillance de zones agricoles à partir de l'analyse d'images satellitaires et aériennes dans l'objectif de suivre la qualité de l'eau. Nous nous intéressons plus précisément à l'étude de l'occupation des parcelles du bassin versant Cheze-Canut, d'une surface de 8000 hectares. L'objectif du projet est de fournir, chaque année, deux cartes résumant les différentes occupations du sol (prairie, blé, sol nu, etc.) des quelques 300 parcelles aux saisons les plus significatives : en été pour la reconnaissance des cultures et en hiver pour l'identification des sols nus.

La classification appliquée aux images est de type supervisée puisque c'est aujourd'hui celle qui offre les meilleurs résultats. Elle consiste à recenser des échantillons par une vérité terrain, et de définir, a priori, le nombre de classes et leur caractérisation sous forme d'histogrammes. Le processus de classification selon la méthode du maximum de vraisemblance produit une répartition de l'ensemble des pixels dans une des occupations du sol prédéfinies : c'est la carte thématique. Les échantillons conservés permettent de valider le résultat de la classification.

Même si cette méthode conduit à des taux de reconnaissance acceptables dans l'ensemble, les résultats présentent ponctuellement quelques anomalies. Notre objectif est de proposer une méthode d'interprétation d'un territoire agricole par classification ``intelligente'' sur une séquence d'images. Nous orientons notre démarche selon deux axes : la perpective d'une classification orientée non plus sur le pixel mais sur la parcelle ; l'identification d'occupations du sol plus ``sûres'' par l'appui de connaissances sémantiques, en l'occurrence des modèles agronomiques formalisant l'évolution des parcelles sous forme de contraintes temporelles.

Projet TSF (CAPS-REPCO)



Participants : René Quiniou , François Bodin (projet CAPS), Yann Mével (projet CAPS)


Le raisonnement à partir de cas est une des techniques d'intelligence artificielle utilisée lorsque les modèles des systèmes que l'on veut contrôler sont difficiles à obtenir. On effectue alors une modélisation très spécifique de situations concrètes (cas) en espérant compenser cette spécificité par le nombre de cas stockés.
Le projet TSF vise à intégrer des techniques de raisonnement à partir de cas pour l'aide au portage de programmes vers des architectures hautes performances. L'idée est de procurer à l'usager des expériences de portage similaires afin de faciliter la mise au point de ses propres transformations.

Nous sommes concentrés cette année sur la formalisation de la représentation des cas et de la notion d'abstraction utilisée pour structurer la base de cas, et la recherche de programmes similaires à la fois sur le plan syntaxique (abstraction de l'arbre de syntaxe abstrait) et sur le plan sémantique (abstraction du graphe de contrôle de flot).

Apprentissage automatique et structuration de données  



Participants : Laurent Blin , Jacques Nicolas , Catherine Belleannée , François Coste , Robin Gras , Laurent Miclet , Israël-César Lerman , Valérie Rouat , Christine Sinoquet , Basaveneppa Tallur , Raoul Vorc'h , Joaquim Pinto da Costa


Mots-clés : inférence grammaticale, analyse de données, classification automatique


Variable: au sens "analyse des données", il s'agit d'un attribut, d'un élément d'un système descriptif
Ensemble des modalités: domaine, ensemble des valeurs possibles pour une variable.

Résumé : L'automatisation de la construction de modèles de systèmes complexes est au coeur des motivations des recherches effectuées ici. Nous focalisons nos travaux pour le traitement de données qui se présentent sous forme de séquences discrètes finies. L'analyse de ces séquences passe généralement par deux étapes: une étape de prétraitement d'analyse à un niveau lexical et éventuellement syntaxique et une étape d'inférence grammaticale qui conduit au modèle souhaité.
Nous traitons également des problèmes importants associés au développement pratique de ces outils: la réduction de la complexité d'un système descriptif et la comparaison de modèles structurant un même ensemble d'objets.

Du point de vue de l'analyse de données, la modélisation de systèmes complexes entraîne la confrontation à un système descriptif où les variables sont trop nombreuses ou avec un trop grand nombre de modalités pour être traité par des méthodes classiques. Nous illustrons ce problème sur deux applications très différentes qui montrent l'intérêt d'une approche classificatoire pour la réduction de cette complexité. Une autre voie de recherche consiste à utiliser des descripteurs qui sont eux-mêmes plus complexes et réduisent ainsi la complexité de chaque description.


Analyse de séquences

Classification de protéines

Nous travaillons depuis quelques années avec des biologistes moléculaires dans le but de repérer dans une macro-molécule biologique des motifs ou des enchaînements de motifs caractéristiques d'une fonction donnée.

Nous avons ainsi développé une méthode de classification des séquences biologiques non alignées (donc de tailles variables). On y propose une méthode de calcul de similarité entre séquences utilisant la notion de "fenêtres significatives" en vue de leur classification par la méthode AVL. L'expérimentation sur différentes familles de séquences protéiques produit de bons résultats tout en mettant en évidence l'importance des paramètres tels que la matrice de similarité entre acides aminés, la taille de fenêtre et le niveau de signification [45].

D'autres travaux en cours avec les biologistes portent sur le problème de prédiction de la fonction de protéines de la famille MIP (Major Intrinsic Proteins) à partir de séquences. Deux fonctions physiologiques -AQP (acquaporins) et GLPF (glycerol facilitators)- de ces protéines sont connues. Une étude a permis, à partir d'un ensemble de protéines de la famille MIP dont les fonctions sont connues, de montrer que l'analyse globale des séquences entières, de composition très variable, ne permet pas de distinguer ces deux fonctions. L'analyse des régions situées entre les résidus fortement conservés et une méthode de choix de matrice de similarités a permis par contre de caractériser ces fonctions [30,31].

Les perspectives pour l'année 1998 concernent la mise au point d'une méthode systématique de classification de séquences sur des régions potentiellement pertinentes, en liaison avec l'analyse lexicale des séquences et le problème du réglage optimal des paramètres en fonction d'une classification connue.

Analyse lexicale de séquences biologiques

Nous avons développé FOREST (FOuineur de RÉpétitions dans les Séquences Titanesques) autour de deux structures de données complémentaires. Les séquences sont considérées à la fois comme des objets linéaires et comme des objets à structure d'arbre, correspondant à un accès à l'information par sa position ou par son contexte.

Nous avons appliqué FOREST à l'étude du génome complet d' Escherichia coli, séquences comportant plus de 4,8 millions de caractères. Ces tests ont montré que le traitement d'aussi grandes séquences était réaliste. Ils ont servi de base à une étude plus spécifique du contexte des motifs servant de ``marqueurs'' de début de gènes.

Nous nous sommes intéressés cette année à la recherche de motifs particuliers dans les grandes séquences génétiques. Nous avons développé un algorithme permettant la recherche de co-occurrences de motifs de type expression régulière avec erreurs. Nous utilisons le langage A défini par Myers comme formalisme de représentation des motifs complexes que nous recherchons. Ce langage permet de définir l'association de deux motifs comme la présence du second à un intervalle de distances donné du premier [32,46]. La thèse de R. Gras sur ce sujet a été soutenue en fin d'année [46].

Analyse syntaxique de séquences biologiques

L'étude précédente concerne la recherche de motifs connus. Une étude plus ambitieuse concerne l'analyse syntaxique non-déterministe dans une séquence de grande taille d'associations de motifs non déterminés par avance, i.e. dont on connaît simplement la structure (par exemple, recherche d'un palindrome biologique) ainsi que la nature des associations élémentaires possibles, décrite par un morphisme de chaînes. Nous référant aux travaux sur le formalisme SVG (String Variable Grammars) de D. Searls [Sea93], qui introduit des variables de type chaîne dans une grammaire logique, nous explorons les possibilités et limites de SVG sur le plan de la complexité, de l'expressivité et de la spécificité pour ce qui concerne la modélisation «au plus près» d'un langage donné. Nous proposons un formalisme SVG modifié qui autorise la modélisation d'associations impliquant plusieurs motifs d'une part, associations en nombre fini d'exemplaires non déterminé par avance, d'autre part.

La mise en oeuvre d'analyseurs pour les grammaires correspondantes pose le problème de la réduction du non-déterminisme très important qu'elles impliquent. Nous avons conçu dans ce but un analyseur syntaxique guidé par des connaissances statistiques. Le principe est celui d'un couplage entre un analyseur syntaxique fondé sur le modèle SVG et un modèle de n-grams. L'application réalisée traite du problème de la détermination des meilleures traductions reverse d'une séquence protéique [50,43].

Du point de vue des perspectives, nous travaillons sur un mécanisme de primo-instanciation (recensement des sous-mots intéressants de la séquence), qui permet une évaluation paresseuse des «gaps», zones peu contraintes des séquences qui compliquent énormément l'analyse.

Inférence grammaticale

La phase ultime de l'analyse de séquences est la génération automatique du modèle de séquencement lui-même par inférence grammaticale. Dans le cadre de l'exploration des éléments déterministes du treillis des automates finis correspondant à un ensemble de mots fixé (cf. §[*]), nous avons caractérisé les fusions d'états menant à des automates incompatibles. Cette caractérisation requiert de travailler sur une version étendue du PTA, prenant en compte aussi bien les mots acceptés que les mots rejetés.
Nous avons considéré le problème, classique en inférence grammaticale, de la recherche du plus petit automate déterministe compatible avec les mots présentés. Nous avions cependant l'ambition, contrairement aux travaux existant, de rechercher l'ensemble de toutes les solutions du problème. La mise au point d'une caractérisation sous la forme d'un système de contraintes entre couples d'états, nous a permis de considérer le problème en termes d'optimisation et de satisfaction de contraintes. Le problème peut alors être reformulé comme la recherche de k-coloriage minimum de graphes issus du système de contraintes. Un algorithme de production de l'ensemble des solutions s'inscrivant dans cette approche a été proposé et implémenté [24,26,25]. Son expérimentation sur un ensemble de données du domaine montre de très bons résultats sur un benchmark classiquement utilisé dans le domaine. Ce travail est effectué dans le cadre d'un contrat Cnet/France-Télécom sur l'inférence d'un modèle syntaxique en dialogue oral.
Les perspectives concernent le traitement de problèmes plus difficiles de part le nombre d'états des automates cibles ou le bruit associé au corpus d'apprentissage.

Réduction de la complexité d'un système descriptif

La méthode Arcade (ARbre de ClAssification et de DÉcision)

Le problème principal traité est celui de la construction d'un arbre binaire de décision dans le cas où les attributs prédictifs sont qualitatifs et ont un très grand nombre de valeurs. Ce travail a été appliqué au problème de la prédiction de la structure secondaire d'une protéine. L'idée de base consiste dans le regroupement des valeurs au moyen d'une méthode de classification automatique hiérarchique, où la similarité entre valeurs se trouve directement associée avec le degré de discrimination des classes à prédire. Nous avons proposé une méthode, Arcade, qui est une hybridation de la méthode CART avec notre méthode de binarisation et l'introduction d'une famille de coefficients d'association entre attributs qualitatifs, issus de l'approche AVL. À la différence des indices classiques (Entropie, Gini, X2), ces coefficients peuvent tenir compte d'une sémantique sous-jacente à l'ensemble des valeurs de la variable classe à prédire. De plus, la complexité de la construction de l'arbre binaire est indépendante du nombre de classes à prédire, alors que dans la méthode CART cette complexité devient exponentielle dès lors que le nombre de classes à prédire est supérieur à 2.
Suite à la thèse de Joaquim Pinto Da Costa (juillet 1996) montrant l'extrême réduction de complexité qu'on peut atteindre, les plus récentes expériences ont consisté à exploiter sur ces données les programmes CART, ainsi que C4.5 [Qui93], dans leurs plus extrêmes limites. La description autorisée est alors définie au moyen de mots à deux lettres comprenant ainsi 400 valeurs. Les temps de traitement ont été très importants et les meilleurs résultats se situent autour de 54% de prédiction correcte, très inférieurs aux 66% de notre méthode. Nous avons également mené une analyse conceptuellement plus formelle de la méthode qui s'avère ainsi être très générale. Nous espérons pouvoir l'étendre au cas de la construction d'arbres non binaires.

Analyse combinatoire des données dans le problème de la satisfiabilité

Le problème SAT est celui de la satisfiabilité d'un ensemble de clauses. Le problème de la détermination du nombre de solutions d'une instance SAT, noté #SAT est un problème #P-complet. Il est bien connu qu'il n'existe pas, jusqu'à présent, d'algorithme déterministe polynômial capable de résoudre ces problèmes. Même plus, il n'existe pas un tel algorithme pouvant assurer une approximation du nombre de solutions dont la précision est supérieure à un seuil donné. Notre approche est différente et correspond à une optique de recherche opérationnelle où il s'agit de trouver la meilleure approximation, quitte ensuite à évaluer sa qualité. À cette fin nous utilisons une algorithmique issue de l'analyse combinatoire des données, fondée sur une représentation que nous avions proposée il y a quelques années, ensembliste, géométrique et logique d'une instance SAT. Elle permet d'une part, une vision synthétique des algorithmes proposés dans la littérature et, d'autre part, la prise en compte de caractéristiques statistiques globales de l'instance. Il en résulte la spécification d'algorithmes performants pour le calcul approché du nombre de solutions dans notre cas.

L'utilisation de la classification et de l'analyse combinatoire des données permet de procéder conformément au principe général "diviser pour résoudre". Nos résultats actuels portent sur le problème 3-SAT où chaque clause comprend 3 variables. On se place au pic de la difficulté dans le cas d'un modèle aléatoire uniforme, sans aucune structure stochastique cachée. Le faible nombre de variables par clause nous conduit à adopter une technique de sériation. Relativement au tableau réorganisé Clauses$\times$Variables, une formule d'indépendance approchée ramène le problème à la meilleure coupure en deux du tableau, par déplacement linéaire.
Des critères de coupure de complexité polynômiale (d'ordre 1 ou 2) en le nombre de clauses ont été étudiés. Le plus élaboré tient intimement compte de la structure statistique de l'instance aléatoire réorganisée. Les résultats obtenus sont très prometteurs et sont en tout cas sensiblement meilleurs que ceux précédemment obtenus dans la littérature [41,37].
Ces travaux se situent dans le cadre de la préparation de la thèse de Valérie Rouat.

Traitement numérique des données

Il s'agit de concevoir des systèmes de représentation suffisamment robustes pour décrire des connaissances plus complexes que les simples observations de type attribut-valeur, utilisées dans l'Analyse de Données classique. Un des objectifs est de bénéficier de l'efficacité des méthodes numériques pour appréhender des données de type symbolique. L'approche utilisée est de nature relationnelle, où chaque descripteur engendre une relation binaire sur l'ensemble des objets qu'il caractérise. La spécificité d'un descripteur se traduit par les propriétés de la relation qu'il induit (ordre, préordre, ...). Le traitement consiste alors -dans le but de classifier les descripteurs- à mettre au point des coefficients d'accord entre eux, en optimisant statistiquement une mesure de ressemblance (similarité ou dissimilarité) entre les graphes valués des relations qu'ils engendrent [40].

Analyse de la comparaison de structures combinatoires (arbres de classification)

La comparaison d'arbres dont les feuilles sont étiquetées par le même ensemble O d'objets est un des problèmes combinatoires les plus fondamentaux de la classification des données. Le problème que nous nous sommes posé est celui de l'élaboration d'un coefficient de ressemblance entre deux arbres. Un certain nombre de coefficients existent déjà, mais ne tiennent pas intimement compte de la nature des structures à associer. Situant le problème dans le contexte général de la comparaison de relations d'arité quelconque sur un ensemble fini d'objets, deux représentations mathématiques sont proposées. La première correspond à une relation binaire valuée, mais où la valuation ultramétrique tient compte du profil de l'arbre. La seconde correspond à une relation binaire (préordre total ultramétrique), mais sur l'ensemble P des parties à deux éléments de l'ensemble O des objets.

Nous avons précisé les aspects du calcul formel et combinatoire correspondant à une méthode de construction d'une famille très générale de coefficients d'associations entre relations, éventuellement valuées. Dans cette méthode intervient la conception d'un indice brut aléatoire dont il s'agit d'évaluer l'espérance mathématique et la variance. Une évaluation analytique des expressions mathématiques obtenues est impossible dans le cas étudié. C'est une algorithmique récursive originale[Rou97a,Rou97b] qui a permis une solution élégante au problème posé, par la recherche d'un grand ensemble de sous-arbres obéissant à certaines conditions ordinales, dans un arbre total [38,48].

Traitement automatique du langage naturel  



Participants : Ronan Pichon , Pascale Sébillot


Résumé : Nos travaux portent d'une part sur l'interprétation hors domaine des composés anglais et français et, d'autre part, sur l'acquisition automatique d'informations lexicales à partir de corpus spécialisés.


Nous avons réalisé un système permettant de déterminer automatiquement la relation qu'entretiennent les constituants d'un composé en se basant uniquement sur la forme du composé et sur la sémantique des mots qui le composent. Cette étude se focalise plus spécifiquement sur les séquences binominales de la forme Nom Nom en anglais et Nom à/de (déterminant) Nom en français. Pour les composés contenant un constituant déverbal (truck-driver, séquençage de l'ADN), notre calcul automatique se base sur la satisfaction de la structure argumentale du prédicat verbal sous-jacent. Les composés sans constituant déverbal sont traités en généralisant la notion d'attachement d'information prédicative aux noms simples, en faisant appel à une représentation lexicale élaborée des noms intégrant des informations pragmatiques telle que la met en oeuvre Pustejovsky dans le lexique génératif.

Ces travaux ont été utilisés en recherche documentaire pour faciliter le processus d'indexation automatique de textes en améliorant, par un filtre sémantique, la phase d'appariement entre le vecteur des index associé à une requête et celui des termes contenus dans les textes [53]. Les tests effectués ont montré l'importance du calcul sémantique des séquences binominales pour améliorer la précision et le rappel d'un système d'indexation. Le contexte de la séquence est exploité pour mettre en oeuvre une désambiguïsation plus efficace des mots et pour rechercher des liens de paraphrase sémantique entre la requête adressée au système et les textes de la base indexée. Cette première approche a donné naissance à une collaboration avec Cécile Fabre (ERSS Toulouse) et Christian Jacquemin (IUT Nantes) pour étudier les variations sémantiques des termes.

Parallèlement à ces travaux, nous nous intéressons à l'utilisation et au raffinement de notre modèle d'interprétation des composés hors domaine lorsque des connaissances supplémentaires relatives à un domaine spécialisé ou un corpus spécifique sont disponibles. Ceci nous a conduit à débuter, dans le cadre de la thèse de Ronan Pichon, un travail plus général sur l'acquisition d'informations lexicales à partir de corpus [49]. Grâce à des méthodes de classification, nous étudions le fonctionnement des noms et des verbes d'un domaine donné. Une application concrète de ce travail vise à préciser les prédicats qui peuvent être attachés un nom ou à une classe de noms dans ce domaine, résultats intégrables au système d'interprétation des composés.

EIAO (Enseignement Intelligemment Assisté par Ordinateur)  



Participants : Jean-Maurice Blin , François-Gilles Carpentier , Frédéric Danna , Véronique Masson , Dominique Py , René Quiniou , Pascale Sébillot


Résumé : L'EIAO a pour objectif la transmission des savoirs. Ceci nécessite trois types de connaissances: des connaissances sur le domaine enseigné, des connaissances sur l'élève et des connaissances pédagogiques. Les connaissances sur l'élève sont habituellement regroupées dans un modèle de l'élève. Les techniques de constitution et de mise à jour des modèles de l'élève peuvent être considérées comme un cas particulier des techniques employées pour les modèles de l'usager.


Compounds: un système d'enseignement des composés anglais

 

Participants : Frédéric Danna , Pascale Sébillot , Jin Zhi


Compounds est un tutoriel intelligent dont le but est d'aider les étudiants francophones de la langue anglaise à maîtriser le phénomène de composition, c'est-à-dire à comprendre le sens de mots composés anglais et à en produire.

Sa connaissance experte est basée sur les résultats de nos travaux sur les composés en traitement automatique du langage naturel.

Pour pouvoir adapter un tuteur à un élève, il convient de modéliser cet apprenant, ce qui consiste généralement à choisir une représentation formelle de sa connaissance et à déterminer les processus permettant d'acquérir et de synthétiser cette connaissance. Au sein de Compounds, nous utilisons la logique probabiliste pour prendre en compte l'état de connaissance d'un élève et son évolution. Cette logique nous permet, entre autres, de gérer les contradictions qu'un élève peut posséder à un instant donné [13].

Nous avons implémenté [8] et testé notre système de modélisation de l'élève [28] en utilisant une première interface très simple. Cependant, afin de ne pas biaiser les résultats lors de la saisie des réponses par une interface rigide contenant des canevas de réponses, nous avons travaillé à la réalisation d'une interface conviviale autorisant des réponses plus libres des élèves, en particulier des réponses syntaxiquement incorrectes mais sémantiquement interprétables en termes de compréhension des mécanismes de composition [27].

Nous avons également débuté la réalisation du module pédagogique de Compounds. Celui-ci se décompose en un gestionnaire pédagogique qui regroupe la structuration des connaissances à enseigner (curriculum) et différents modules permettant de planifier une succession de leçons, d'encourager l'élève lors d'échecs, de commenter ses erreurs, et un générateur d'exercices qui, étant donnée une trame d'exercice transmise par le gestionnaire, produit automatiquement le texte de l'exercice souhaité. Ce module permet à l'élève, selon son choix, d'interagir dans un mode plus ou moins guidé avec le tuteur.

Afin d'aider les étudiants à comprendre plus précisément les mécanismes linguistiques en jeu dans l'élaboration d'un composé, nous avons élaboré, en complément au logiciel Compounds, un outil de type micro-monde, cahier de brouillon interactif qui permet à l'utilisateur de former incrémentalement un composé en visualisant, à chaque étape, la signification de la partie déjà construite [29]. L'affichage des modifications sémantiques engendrées par les remaniements effectués par l'apprenant permet à celui-ci de prendre conscience des connaissances linguistiques sous-jacentes aux composés.

Projet Mentoniezh

 

Participants : François-Gilles Carpentier , Dominique Py


Le projet Mentoniezh vise à l'élaboration d'outils pour l'aide à la résolution de problèmes, sur le domaine de la géométrie euclidienne plane, en classe de quatrième et troisième. Il est développé en collaboration avec le Laboratoire de Didactique de l'université de Rennes I.

Mentoniezh est constitué d'un résolveur pédagogique qui détient l'expertise géométrique et d'un tuteur qui guide et corrige l'élève tout au long de la résolution du problème, en exploitant pour cela les résultats fournis par le démonstrateur. Le résolveur est de type ``expert encadreur'', c'est-à-dire qu'il est capable de produire plusieurs preuves pour un problème donné.

Nous nous sommes intéressés à la catégorie de problèmes pour lesquels les objets présents dans l'énoncé ne permettent pas de produire une preuve, et nous avons intégré des mécanismes permettant de compléter automatiquement cet énoncé par l'objet manquant. Pour cela, nous avons défini un ensemble d'heuristiques qui exploitent les données du problème et la conclusion à atteindre afin de déterminer l'objet à introduire dans l'énoncé. L'objet ainsi ajouté peut se révéler identique à un objet préexistant. Le démonstrateur a donc été étendu de manière à traiter les cas d'identité tout en préservant la cohérence et la complétude de la base de déductions. Ces extensions permettent au démonstrateur de résoudre la majeure partie des problèmes nécessitant l'ajout d'objets, sur lesquels il échouait auparavant.

Nous avons également étudié l'expression des preuves. Certains exercices en comportent un grand nombre et le problème se pose de trouver une représentation efficace et concise de l'ensemble de ces preuves. Nous avons proposé deux définitions de la notion de preuve et spécifié les algorithmes d'énumération des preuves correspondants. Par ailleurs nous avons défini, à partir de propriétés sur la structure des preuves, des critères de ``qualité" qui permettent d'évaluer l'intérêt d'une preuve.

Raisonnement à partir de cas - application à la rééducation de l'aphasie



Participants : Jean-Maurice Blin , Véronique Masson , René Quiniou


Nous étudions l'apport des techniques d'apprentissage automatique pour la modélisation de l'usager. La technique d'apprentissage utilisée, la Programmation Logique Inductive (PLI), est peu efficace et nécessite l'utilisation de biais d'apprentissage ou des heuristiques pour présenter des résultats satisfaisants en des temps de calcul acceptables. Nous proposons d'utiliser le raisonnement à partir de cas (RàPC) pour mémoriser et retrouver efficacement les inférences ayant conduit à des solutions lors de modélisations précédentes dans des contextes similaires.

Nous nous sommes, cette année, concentrés sur l'utilisation du RàPC pour améliorer les performances des systèmes de recherche dans les espaces d'états, une généralisation du problème de l'amélioration de la PLI. Nous nous focalisons particulièrement sur les classes de problèmes à théorie du domaine faible, c'est-à-dire pour lesquels l'élaboration d'heuristiques à caractère général est particulièrement difficile. Nous avons proposé un principe de guidage de la recherche par RàPC qui considère comme cas tout sous-chemin d'un chemin solution et l'utilisation du RàPC pour la suggestion d'heuristiques [22,12]. Nous avons particulièrement étudié la structure hiérarchique de la base de cas.

Ce principe est appliqué dans le système SARAH (Système d'Aide à la Rééducation de l'ApHasie) [14]. Le système a fait l'objet d'une évaluation auprès d'une population de patients aphasiques, dans le cadre d'un stage de neuropsychologie [Jou97]. Cette évaluation a montré que le clinicien s'accorde en général avec les explications de SARAH. Elle a aussi permis de pointer certaines faiblesses du système et a fourni des propositions pour son amélioration.

Projet GIDE  



Participants : Stéphane Le Peutrec , Sophie Robin


Mots-clés : Représentations des connaissances à objets, reformulation de connaissances, abstraction


Résumé : Le projet Gide vise la conception d'un système de consultation ``intelligente'' de dossiers médicaux afin d'aider le médecin à assurer un meilleur suivi des patients. Ce système doit être capable d'extraire d'un dossier les informations pertinentes pour un contexte de consultation donné et de restituer ces informations avec un niveau de détail approprié. Deux démarches sont possibles pour répondre à cette problématique. L'utilisateur formule la requête lui garantissant d'obtenir le résultat souhaité. Il faut alors disposer d'un langage de requête suffisamment expressif. La seconde démarche, qui est la nôtre, est de reformuler la réponse à la requête émise par l'utilisateur, en l'adaptant à ses besoins. Cette seconde démarche s'inscrit naturellement dans le cadre de l'abstraction de connaissances.


Le modèle de représentation choisi étant les représentations de connaissances à objets, toute entité de connaissances est modélisée par une structure de données à trois niveaux de représentation: frame-attribut-facettes. Une requête d'interrogation formulée par l'utilisateur est assimilée à une classe, et de ce fait est insérée dans la hiérarchie de spécialisation de classes par un algorithme classique de classification de classes.

Une étude de l'abstraction dans le cadre général de la résolution de problème nous a permis d'isoler des abstractions primitives, dont l'action est par exemple de supprimer, de renommer ou condenser des valeurs d'attributs, des attributs, ou encore des classes ou des instances. Une abstraction est alors définie comme une composition d'abstractions primitives. Plus précisément, elle est une fonction décrivant le passage d'une intension initiale à une intension finale. Tout objet, dont l'intension s'unifie avec l'intension initiale est transformé, les autres sont inchangés. Une étude comparative de ces abstractions et des abstractions rencontrées dans la littérature nous a permis de mettre en évidence les propriétés syntaxiques et sémantiques de nos abstractions. Il apparaît en particulier que ces abstractions préservent les modèles de la base de connaissances initiale au regard d'une sémantique de type dénotationnel. Une implémentation des abstractions primitives a été réalisée dans le langage de représentation à objets Yafool.

Nous nous sommes basés sur cette première étude pour proposer une définition de la reformulation d'une réponse. La réponse initiale à une requête est constituée des instances de la classe associée à cette requête. Les valeurs des attributs de ces instances peuvent à leur tour être des instances, qu'il convient alors d'ajouter au sein de la réponse initiale. Une réponse est alors organisée en niveaux et plus on s'éloigne du premier niveau, plus on a accès à des informations précises. Une reformulation se doit de traiter différemment les niveaux d'une réponse initiale. En effet, plus des instances sont précises, plus elles sont sans doute en marge des centres d'intérêt de l'utilisateur et par conséquent plus elles peuvent être soumises à un élagage ou à un condensé important d'informations. Nous avons défini une reformulation comme étant une liste d'abstractions à appliquer aux différents niveaux d'une réponse.

Raisonnements et logiques non classiques  



Participants : Philippe Besnard , Yves Moinard , Raymond Rolland


circonscription: logique de modèles minimaux particulière décrivant précisément l'ajout automatique d'axiomes formalisant la notion d'exception.

Notre étude des logiques des modèles minimaux est maintenant suffisamment avancée pour nous permettre de revenir à la logique particulière qui se trouve historiquement à l'origine du sujet. La circonscription consiste en une description précise d'un ensemble de formules à ajouter systématiquement à une théorie classique, afin de traiter la notion de propriété exceptionnelle. Une propriété est exceptionnelle quand l'ensemble des éléments qui la vérifient est un des ensembles les plus petits possible (pour $\subset$), tout en respectant les données décrivant une situation. Les utilisations concernent la traduction de règles avec exception ou les systèmes évolutifs. Bien qu'une sémantique précise (conçue originellement en partie à l'intérieur de l'équipe Repco à la fin des années 80) soit connue depuis longtemps, l'étude des propriétés logiques restait encore très imparfaite. Il s'agit de propriétés comme la cumulativité, importante pour comprendre quel type de raisonnement est réellement formalisé, et quels comportements on peut en attendre. Une telle étude est indispensable pour permettre à l'utilisateur de déterminer si la circonscription est adaptée à son problème, et si oui laquelle précisément. Or, les études générales des logiques des modèles minimaux s'avéraient trop frustres pour pouvoir s'appliquer exactement à la circonscription, qui demeure pourtant à ce jour la seule logique des modèles minimaux effectivement utilisée en informatique. Nous avons précisé quelles propriétés maintenant bien connues comme la cumulativité ou la monotonie inversée (variante d'un sens du principe de la déduction en logique classique) s'appliquent à ce cas précis: quelles variantes sont satisfaites et par quelle circonscription. Ces résultats font l'objet pour l'instant d'un rapport qui fait le point sur le sujet.

Parallèlement, nous avons entamé des études sur la calculabilité effective de la circonscription, en étendant une méthode déjà connue qui consiste à partir des formules inaccessibles (que la circonscription ne peut jamais fournir comme résultat), afin de retrouver complètement toutes les formules qu'elle peut fournir. Nos résultats préliminaires se limitent au cas fini, mais identifient un plus petit ensemble parmi les formules inaccessibles. Cet ensemble a beaucoup moins d'éléments que les ensembles connus jusqu'ici, ce qui doit faciliter les calculs effectifs. Nous avons aussi pour la première fois montré comment utiliser cette méthode à toutes les circonscriptions pour lesquelles elle est possible.

Nous avons enfin montré comment la circonscription pouvait s'appliquer naturellement au cas des contradictions, pour définir un type de raisonnement où les contradictions sont minimisées. Le but est bien entendu de raisonner le plus correctement possible même lorsque les prémisses recèlent des contradictions.



Notes:

...chroniques
chronique est un autre terme pour scénario ; voir définition.



previous up next contents Précédent : Logiciels Remonter : Rapport activite 1997 Suivant : Actions industrielles