Précédent : Composition de l'équipe
Remonter : Rapport activite 1997 Suivant :
Fondements
scientifiques
Nous développons une nouvelle action dont la problématique générale est de fournir une assistance intelligente à un utilisateur confronté à l'analyse de données complexes et de taille importante. Par assistance intelligente, nous entendons le développement de capacités automatiques de modélisation, de reconnaissance de situations intéressantes et d'élaboration de recommandations d'actions adaptées et explicables. Ces capacités sont de nature abductive ou inductive, c'est-à-dire que le problème central est celui de la sélection d'une ou de plusieurs hypothèses pertinentes pouvant expliquer au mieux un ensemble d'observations. Nous nous situons dans une perspective intelligence artificielle. Le but est de rendre l'utilisateur autonome face à l'analyse de ses données, i.e. de ne pas requérir la présence d'un tiers (spécialiste d'analyse des données, spécialiste de traitement du signal ou autre) pour l'interprétation des résultats fournis. Respecter cet objectif suppose de fournir des résultats facilement interprétables et donc travailler sur des modèles conceptuellement simples.
Les thèmes scientifiques sur lesquels se focalisent le projet sont les suivants:
Nous décrivons maintenant un peu plus précisément les études qui nous intéressent dans ce contexte. Les aspects plus techniques sont développés dans la partie didactique.
Nous nous limitons aux systèmes de surveillance dans lesquels un opérateur est impliqué ; il s'agit donc plus précisément d'aide à la surveillance d'un système.
Nous nous intéressons à la supervision par gestion d'alarmes, qui est pratiquée dans la gestion des réseaux de transmission de données ou de distribution d'électricité. L'opérateur chargé de la surveillance reçoit des événements (les alarmes) datés et émis par les composants eux-mêmes en réaction à des événements extérieurs. Les observations recueillies sur le système sont des informations discrètes, correspondant à un événement ponctuel ou à une propriété associée à un intervalle de temps. Nous ne traitons pas ici les signaux continus issus des capteurs.
Nous considérons ici deux types très différents de séquences naturelles : les textes (documents) et les séquences biologiques (ADN, ARN, protéines), vues comme des textes sur un alphabet généralement réduit. Dans les deux cas, on s'intéresse prioritairement à l'analyse de contenu et le but est de modéliser la connaissance incluse dans les textes, en passant par une phase d'indexation automatique, qui consiste à traduire le contenu de ces textes en une structure de données facilitant la recherche au moment des requêtes adressées sur celui-ci. Le filtrage de termes pertinents nécessite de plus l'emploi d'outils d'analyse syntaxique ou statistique. Ces études peuvent être rattachées au domaine récent du «text mining» (fouille de textes). Parmi les recherches menées actuellement en analyse de documents, on peut distinguer essentiellement trois familles[JR94] : la catégorisation de textes, dont le but est de trier les documents traités en les séparant en groupes pertinents ; l'extraction de données, qui, à partir d'un ensemble de documents d'un domaine donné, produit un ensemble de structures capturant l'information-clé de ces textes, en vue d'un remplissage automatique d'une base de données ; la recherche d'informations (recherche documentaire) enfin, qui nous concerne et qui consiste, à partir d'un ensemble de documents et d'une requête d'un utilisateur, à proposer à ce dernier les textes adéquats.