Précédent : Présentation générale et
objectifs Remonter : Rapport activite 1997 Suivant :
Grands domaines
d'application
Mots-clés : surveillance, diagnostic, modèles de
fonctionnement, modèles de pannes, simulation, reconnaissance
de scénarios, graphes causaux temporels, acquisition de
scénarios
alarme: indicateur discret émis par un système de
surveillance à partir d'événements et censé provoquer une
réaction humaine ou automatique.
scénario (ou chronique): ensemble d'événements
ponctuels et de contraintes temporelles sur ces événements
caractéristiques d'une situation.
reconnaissance de scénario: système permettant à
partir d'un ensemble de scénarios décrivant des situations
(la base de scénarios) d'analyser au vol une séquence
d'observations datées et de reconnaître les
situations.
Résumé : Nous avons défini dans la section précédente ce que nous entendons par surveillance (et supervision) de systèmes. Les principales approches de l'intelligence artificielle à ce problème sont basées sur un modèle de fonctionnement ou des dysfonctionnements au coeur du système de surveillance. Nous décrivons essentiellement le domaine de la modélisation de systèmes (ou d'activités complexes) évoluant dans le temps en vue de leur surveillance en ligne. Pour plus de détails et pour les références, consulter par exemple [BC96,GRO97].
Les alarmes de conduite sont destinées à être traitées en ligne par un opérateur de conduite qui a un objectif d'optimisation à court terme (rester au plus près d'un régime idéal). Le but de la surveillance est alors l'aide à la conduite, et l'analyse doit être faite en temps réel. Les dérives structurelles du système (usure des pièces, modifications lentes des propriétés de ses composants, etc.) ne sont pas prises en compte en tant que telles et sont corrigées par un réglage de paramètres.
Ceci s'oppose au traitement des alarmes de maintenance, destinées à une analyse hors ligne plus fouillée de l'historique du système, cherchant à prévoir les incidents et à planifier les opérations d'entretien. Les principales difficultés rencontrées sont les suivantes:
On peut distinguer trois grandes classes de modèles symboliques:
Les modèles décrivant le comportement normal du système (méthodes de diagnostic dites ``consistency-based'') sont utilisés, par confrontation prédit/observé, pour la détection de situations anormales. Les modèles de panne, que nous prévilégions, décrivent les comportements en cas de dysfonctionnement et sont utilisés pour expliquer les observations et identifier les pannes par un raisonnement abductif (des observations aux causes).
Techniquement, les deux principaux types de modèles prédictifs utilisés pour les systèmes dynamiques sont les modèles qualitatifs et les modèles à événements discrets.
Les modèles qualitatifs peuvent être vus comme une abstraction de modèles numériques qui décrit les contraintes qualitatives entre les variables du système. La simulation qualitative, étant donné un état initial, calcule les états successeurs satisfaisant les contraintes. Le suivi et la détection reviennent alors à repérer dans quel état est le système, et l'interprétation consiste à sélectionner les modes de comportement qui permettent de prédire le comportement le plus proche de celui observé.
Dans les modèles à événements discrets, le temps et les variables sont discrétisés. Les formalismes utilisés sont les automates ou les réseaux de Petri. Les réseaux de Petri permettent de bien traiter les problèmes de synchronisation en simulation mais leur utilisation en diagnostic est délicate. Nous utilisons principalement la représentation par automates communicants temporels, aussi adaptée à la simulation et la détection. Pour la phase d'interprétation et de diagnostic, on transforme hors ligne l'automate en un automate «diagnostiqueur» dont les transitions s'effectuent uniquement à partir des événements observables et les états caractérisent les pannes rencontrées par le système, ou on construit par apprentissage à partir des pannes les plus courantes (simulées en ce qui nous concerne) des couples (ensemble d'événements observables, pannes) utilisables en ligne par un reconnaisseur de scénarios.
Dans un graphe d'influence, les noeuds représentent les variables du procédé et les arcs les liens (corrélations, délais, ...) entre les variables. Ils peuvent être utilisés en simulation ou de manière abductive pour remonter des alarmes aux variables ou situations les expliquant.
Dans un graphe causal, les noeuds représentent en général des situations et les feuilles des symptômes ou effets observables. Les arcs sont interprétés comme des liens causaux («a cause b» , «a peut causer b») et en général étiquetés par des contraintes temporelles. Ces graphes sont toujours utilisés de manière abductive (diagnostic abductif temporel).
Mots-clés : recherche d'informations, terminologie,
calcul sémantique, indexation
composé, séquence binominale: dans nos travaux,
association de deux noms de la forme Nom Nom en
anglais et Nom à/de (déterminant) Nom en français. Le
premier est appelé tête et le second modifieur. Les noms
peuvent être simples ou obtenus par adjonction d'un suffixe à
un verbe (constituant déverbal).
interprétation ou calcul sémantique d'un composé:
détermination de la relation qu'entretiennent les
constituants d'un composé.
prédicat, arguments: un prédicat désigne un
opérateur mettant en relation des arguments. Dans la phrase,
le verbe joue en général le rôle de prédicat, les compléments
étant ses arguments. La liste des arguments forme la
structure argumentale
terme: symbole conventionnel qui désigne de façon
univoque une notion à l'intérieur d'un domaine de
connaissances.
arbre des suffixes: arbre construit à partir d'un
mot (chaîne, texte) dont chaque feuille correspond à un
suffixe du mot et chaque noeud interne correspond à un plus
long préfixe commun à l'ensemble de ses fils.
Résumé : Nous considérons ici deux types très différents de séquences naturelles : les textes (documents) et les séquences biologiques (ADN, ARN, protéines), vues comme des textes sur un alphabet généralement réduit. Dans les deux cas, on s'intéresse prioritairement à l'analyse de contenu et le but est de modéliser la connaissance incluse dans les textes, en passant par une phase d'indexation automatique, qui consiste à traduire le contenu de textes en une structure de données facilitant la recherche au moment des requêtes adressées sur celui-ci. Le filtrage de termes pertinents nécessite de plus l'emploi d'outils d'analyse syntaxique ou statistique.
La recherche d'informations (recherche documentaire) consiste, à partir d'un ensemble de textes et d'une requête d'un utilisateur, à proposer à ce dernier les textes adéquats. Il s'agit d'identifier les notions importantes d'un texte et de mesurer la proximité entre une requête et les textes de la base en déterminant celles qu'ils partagent. La qualité des systèmes d'indexation automatique dépend de ce fait largement des techniques employées pour traduire le contenu des textes dans un langage d'indexation et pour réaliser l'appariement entre les textes indexés de la base consultée et la requête.
La performance des systèmes de recherche d'informations est mesurée à l'aide de deux paramètres qui mesurent la proportion de réponses pertinentes retrouvées soit par rapport au nombre total de réponses pertinentes dans la base interrogée (le rappel) ou par rapport au nombre total de réponses données (la précision).
On oppose deux types d'indexation : l'indexation par index atomiques (indexation simple), qui assimile les indicateurs de contenu aux mots simples (noms, verbes et adjectifs) du texte (objectif premier : le rappel), et l'indexation par index complexes (indexation syntagmatique), qui manipule des groupes de mots (objectif premier : la précision) et aboutit donc à des index plus spécifiques et plus dispersés.
En fait, les résultats des systèmes ayant choisi l'une ou l'autre option ne permettent pas de trancher de manière définitive entre ces deux techniques et une voie moyenne consistant à recourir à des index dont le degré d'informativité est intermédiaire entre les index trop généraux et trop spécifiques semble raisonnable. Dans tous les cas cependant, l'extraction des termes clés des textes est primordiale. Nous présentons les idées fortes de ce domaine.
Le repérage des séquences candidates à être des termes s'effectue selon les systèmes, soit par des critères syntaxiques, soit par des critères statistiques, soit par une approche mêlant ces deux aspects.
Les éléments-clés porteurs du contenu informationnel des textes sont des termes, bien souvent formés de l'association de plusieurs noms (interpréteur de commande, word processing). Nous avons choisi d'aborder la modélisation du contenu d'un texte via la modélisation de la sémantique des séquences binominales (formées de deux noms) en anglais et en français. Nous défendons l'idée que plus l'information sémantique attachée à ces séquences est riche (en particulier pour identifier le lien entre les constituants), plus grandes sont les possibilités de manipuler ces termes pour les structurer, les classer, les reformuler, etc. En extraction de terminologie, l'analyse sémantique de ces séquences peut, par exemple, permettre de typer sémantiquement les patrons syntaxiques de termes que l'on cherche à détecter, pour se restreindre aux associations de classes conceptuelles de termes effectivement productives. En structuration de terminologie, le traitement sémantique permet d'améliorer et de préciser la construction d'un réseau de termes en spécifiant, par exemple, le type de modification liant deux noeuds de ce réseau.
Nous cherchons donc à mettre en évidence des mécanismes d'inférence permettant de déterminer automatiquement la relation qu'entretiennent les constituants d'un composé en se basant uniquement sur la forme du composé et sur la sémantique des mots qui le composent. Le problème est difficile car l'information sémantique contenue dans les composés est la plupart du temps implicite. Par exemple, un interpréteur de commandes sert à interpréter des commandes (relation explicite) alors qu'un parc à munitions sert à entreposer des munitions (relation implicite). Le caractère implicite est de plus source d'ambiguïtés : milk disease est une maladie causée par le lait alors que plant disease est une maladie affectant une plante.
Pour les composés contenant un constituant déverbal, le calcul se base sur la satisfaction de la structure argumentale du prédicat verbal sous-jacent. Par exemple, l'interprétation de truck-driver se base sur le fait que le verbe drive a deux arguments : un agent et un thème. Dans nos travaux, qui utilisent les résultats linguistiques formalisés dans le cadre génératif par Lieber[Lie83] et Selkirk[Sel82], l'interprétation correcte conduit à la formule drive(agent : driver, thème : truck), qui correspond à l'interprétation un chauffeur qui conduit des camions.
En l'absence de constituant prédicatif, l'interprétation repose sur des connaissances de nature extra-linguistique. Nous utilisons les principes énoncés par Pustejovsky dans le cadre du lexique génératif [Pus95] , concernant la relation entre le nom et une information événementielle sous-jacente. La relation peut-être : fonctionnelle, le modifieur étant le thème du prédicat fonctionnel associé à la tête (four à minerai est représenté par cuire(instrument : four, thème :minerai) ; agentive, le modifieur étant l'agent du prédicat (message du compilateur est représenté par émettre(agent : compilateur, thème : message)) ; constitutive, le modifieur correspondant à l'élément constitutif (poussière de plastique est représenté par composer(agent : plastique, thème :poussière)) ; formelle, le modifieur étant l'objet sur lequel porte la relation de caractérisation (capacité du silicium est représenté par caractériser(agent : capacité, thème : silicium)).
Les deux étapes du calcul de la sémantique d'une séquence binominale sont donc les suivantes : 1) détermination des prédicats associés aux constituants en se focalisant sur le nom tête ; 2) filtrage des schémas prédicatifs effectivement possibles pour la séquence en se basant sur des contraintes de typage associées aux arguments des prédicats (qu'on trouve dans une base lexicale comme WordNet), et sur le rôle sémantique de la préposition et du déterminant en français.
Partant d'un modèle d'interprétation général, on cherche à le raffiner quand des connaissances supplémentaires sous forme de textes relatifs à un domaine spécialisé sont disponibles. Cette acquisition automatique d'informations lexicales sur corpus nécessite la mise au point de techniques de classification et d'apprentissage.
Qu'il s'agisse de textes ou de séquences génétiques,
l'analyse ou la consultation répétée de grandes séquences est
facilitée par un pré-traitement de celles-ci, conduisant à la
création d'un index sur les mots qu'on y a rencontré. On peut
ensuite attacher un certain nombre d'informations aux mots
repérés, qui vont servir de base aux traitements ultérieurs,
et factoriser ainsi des recherches multiples coûteuses.
La structure de données fondamentale mise au point en
algorithmique des chaînes pour retrouver ainsi tous les
facteurs d'un mot est l'arbre digital des suffixes. Celui-ci
contient sous forme hiérarchisée l'ensemble des facteurs
présents dans un mot : chaque noeud représente un
facteur, chaque arc est étiqueté par une lettre et chaque
noeud père est le plus grand préfixe commun à ses noeuds
fils, le mot attaché au fils pouvant être obtenu à partir de
celui du père en lui ajoutant la lettre de l'arc. Les
feuilles de l'arbre correspondent à l'ensemble des suffixes
du mot. Cette structure peut ensuite être compactée en un
arbre des suffixes (on supprime les fils uniques) ou
minimisée en un automate des suffixes (on repère les
sous-arbres isomorphes). On aboutit ainsi à des structures
linéaires en fonction de la taille de la séquence et dont le
temps de construction est lui-même linéaire.
Mots-clés : inférence grammaticale, analyse de
données, classification automatique
PTA: Prefix Tree Acceptor: il s'agit du plus petit
automate fini déterministe reconnaissant l'ensemble des
préfixes d'un ensemble de mots donné.
programme logique: ensemble fini de clauses
définies.
clauses définies: disjonction de littéraux
contenant un seul littéral positif, un littéral étant soit
une formule atomique, soit la négation d'une formule
atomique.
Résumé : Ce module décrit les techniques étudiées dans le projet, visant à acquérir des modèles et à les mettre au point de manière automatique à partir d'un ensemble d'observations sur leur comportement. Cette automatisation pose des problème de filtrage, de structuration des observations, puis de spécification du "saut inductif", c'est-à-dire de la manière dont vont être définis puis calculés les modèles acceptables au vu des observations.Le projet s'appuie pour cela sur les travaux issus de l'apprentissage, de la classification et de l'analyse des données. Plus précisément, nous nous intéressons à un apprentissage de type structurel, c'est-à-dire où il s'agit de faire émerger des relations entre données parmi lesquelles les dépendances ne sont pas connues. Les techniques associées ressortent de l'inférence grammaticale ou de la programmation logique inductive suivant que les structures visées soient des grammaires ou des programmes.
On appelle inférence grammaticale l'apprentissage
automatique d'un modèle de langage à partir d'un échantillon
fini des phrases du langage qu'elle accepte (instances
positives) et éventuellement d'un échantillon fini de phrases
n'appartenant pas à ce langage (instances négatives).
Spécifier complètement un problème d'inférence grammaticale
suppose de
Nous nous intéressons plus particulièrement dans notre
équipe au cas où la classe acceptée est la classe des
langages rationnels et où on travaille sur une représentation
par automates finis.
Il existe une relation d'ordre de généralité naturelle sur
les automates induite par la fusion d'états dans un automate:
toute fusion d'états dans un automate mène à un automate
(appelé automate dérivé) reconnaissant un langage plus
général ou équivalent au langage reconnu initialement.
Si de plus on prend comme critère d'acceptation la complétude
structurelle (i.e. toute transition d'un automate solution
est exercée et tout état final est utilisé), on montre que
l'espace de recherche de toutes les solutions est un
treillis. Celui-ci peut être construit à partir d'un automate
canonique reconnaissant uniquement les instances positives.
Les éléments du treillis sont dérivés de cet élément nul par
une fonction correspondant à la fusion de ses états.
L'élément universel du treillis est l'automate universel,
reconnaissant n'importe quelle suite de caractères.
On peut restreindre encore l'espace de recherche si l'on s'intéresse uniquement aux automates déterministes. Dans ce cas, on remplace l'automate canonique par l'arbre accepteur des préfixes comme élément nul du treillis. Celui-ci peut être dérivé de l'automate canonique en fusionnant les états partageant les mêmes préfixes.
La programmation logique inductive (PLI) consiste à
inférer un programme logique (par
exemple, dans le langage Prolog) à partir de la donnée de
faits complètement instanciés
qui
doivent être vérifiés dans le programme cible et
éventuellement d'un noyau de programme
. Sur un plan logique, on souhaite vérifier la relation
.
Les prédicats pouvant intervenir dans les clauses de
sont généralement fixés, de même que
l'ensemble des termes admissibles. Par rapport aux techniques
d'inférence grammaticale présentées précédemment, on
s'intéresse, en plus du problème structurel qui consiste à
trouver l'ensemble des relations intervenant dans les clauses
du programme, au problème de la généralisation des termes
intervenant dans les relations.
Lorsque les variables prennent leurs valeurs sur un domaine numérique, il est intéressant d'étendre la classe des programmes acceptés aux programmes avec contraintes. On isole ainsi le problème de la généralisation des termes qui peut être ramené à un problème de satisfaction de contraintes.
Le contexte général où se situent nos travaux est celui d'une interaction entre d'une part, une approche de classification non métrique, combinatoire et statistique et, d'autre part, un ensemble de problèmes algorithmiques fondamentaux qui se présentent dans l'analyse de données complexes issues de l'observation, de la connaissance ou de modèles. La problématique générale est celle de la réduction la plus importante de la complexité qui permette, cependant, de filtrer au mieux l'information significative.
L'aspect classification comprend aussi bien la classification non supervisée par Analyse de la Vraisemblance du Lien (AVL) que celle supervisée qui relève de la discrimination par arbres de décision. D'autres méthodes d'analyse combinatoire des données peuvent également intervenir. Les aspects les plus concernés de l'intelligence artificielle sont d'une part l'apprentissage et d'autre part, le problème de la satisfiabilité.
Si la classification est un outil fondamental pour spécifier une algorithmique de résolution approchée, inversement, l'algorithmique et l'informatique interviennent de façon essentielle dans la résolution de nos problèmes combinatoires de classification.