Précédent : Logiciels Remonter : Projet SYCO, Modèles fondamentaux
et Suivant : Actions industrielles
La notion d'interaction, centrale dans le paradigme multi-agent, a fait l'objet d'une étude pluridisciplinaire à l'éclairage des modèles issus de la psycho-sociologie dans le cadre d'une collaboration avec le GRC de l'Université de Nancy 2. Ces travaux fondamentaux nous ont conduits à proposer un modèle permettant de modéliser l'organisation d'organisation (structure de relations entre les membres dune société d'agents communicants en décrivant les interactions entre agents. Nous avons proposé un modèle [26] permettant de modéliser l'organisation d'une société d'agents en décrivant les interactions entre agents. Ce modèle intégre la perspective statique d'une organisation (structure de relations entre les membres d'une société) et son aspect dynamique (moyens d'action qui permettent d'aboutir et de faire évoluer cette organisation). Par là même, nous disposons d'un moyen de décrire une société d'agents et de la faire évoluer pour qu'elle s'adapte.
Cette approche a été implantée en Java et a donné lieu à l'outil JAVAMA. Différentes expérimentations ont été conduites et ont montré l'intérêt de ce modèle, notamment vis à vis de ses capacités à réorganiser une société.
Nous travaillons à une extension de ce modèle pour prendre en compte des interactions qui ne se composent pas uniquement d'actions de communication mais également d'actions dans un environnement. Pour ce faire, il est nécessaire de modéliser et simuler l'environnement du système multi-agent.
Nous avons réalisé une parallélisation basée sur un maillage spatial, mais où la mise à jour d'une maille ne nécessite pas seulement les frontières des mailles voisines. A titre d'exemple, la propagation de potentiels selon un algorithme de gradient à vagues, nous impose de répercuter au sud d'une maille les perturbations arrivant au nord de celle-ci. Ce simulateur parallèle est utilisé pour la simulation de systèmes multi-robots devant accomplir des tâches de tri collectif.
Nous avons poursuivi nos travaux sur la modélisation des systèmes multi-agents à un niveau conceptuel indépendant de l'implantation par extension de COMMONKADS.
Nous proposons un ensemble de modèles conceptuels pour la description de systèmes composés d'agents possédant des compétences diverses. Nous introduisons également des méthodes pour l'acquisition incrémentale des connaissances et aussi une structuration de bibliothèques de modèles adaptées à la réutilisation.
Un environnement d'ingénierie de la connaissance a été réalisé pour démontrer la faisabilité de cette approche conceptuelle. Il intègre l'outil KADSTOOL et produit des descriptions en langage semi-formel CML-M, une version étendue du langage CML introduit par COMMONKADS. Nous avons également réalisé un environnement de simulation pour valider les architectures multi-agents développées sur la base des spécifications CML. Cet environnement est une extension du Michigan Intelligent Cooperation Experiment (MICE). Nous avons appliqué notre approche au problème de la robotique mobile par la méthode du reverse engineering.
La capacité pour les Systèmes à Bases de Connaissances (SBC)
d'expliquer leurs raisonnements ou de justifier leurs conclusions
de manière convaincante est une caractéristique indispensable
pour l'acceptation de tels systèmes par l'utilisateur final. Les
systèmes industriels avec des fonctions d'aide à la conduite de
procédés ou d'aide au diagnostic ont besoin d'explications en
temps réel qui ne permettent pas l'utilisation de méthodes
classiques habituellement employées dans les SBC explicatifs.
Nous travaillons sur les différentes manières de fournir à
l'utilisateur des explications répondant à ses besoins, et sur
les méthodes de recueil de connaissances explicatives (protocole
de recueil, modélisation et représentation des connaissances).
Notre réflexion fondamentale s'appuie sur une réalisation
pratique en collaboration avec l'IRSID et Usinor
(cf. § ).
Un moyen naturel pour localiser notre robot mobile Gaston consiste en l'identification d'un ensemble de caractéristiques (balises naturelles), comme une porte, un angle de couloir, etc., qui constituent autant de points de repère. Nous avons constitué une bibliothèque de balises afin de constituer des modèles dont l'identification devrait permettre la localisation du robot. Dans ce but, nous étudions donc comment le problème d'apprentissage et de reconnaissance de balises naturelles peut se décrire à l'aide des modèles de Markov cachés du second ordre [18].
Il existe plusieurs approches de la planification d'actions, en particulier les approches qui relèvent de la logique et les approches issues de la théorie de la décision. Si nous continuons à mener des recherches sur le premier point, c'est dans la seconde catégorie que se situe notre apport principal [67]). L'objectif que nous nous sommes fixé est d'aborder des domaines dans lesquels les actions ont des résultats probabilistes et les agents une connaissance imparfaite de l'état dans lequel ils se trouvent. Pour ce faire nous modélisons la planification comme un processus de décision markovien partiellement observable. L'implantation informatique pose encore aujourd'hui de nombreux problèmes, notamment en ce qui concerne les performances en temps des algorithmes sous-jacents. Nous explorons actuellement diverses voies en vue de piloter un robot mobile en temps réel : approximations, techniques anytime , utilisation de plans sous-optimaux mais néanmoins satisfaisants, implantation parallèle, etc.
La détermination de l'action optimale dans les environnements stochastiques partiellement observables se résout, comme nous l'avons vu dans le paragraphe précédent, dans le cadre de la théorie des POMDP (processus de décision markoviens partiellement observables) issue de la recherche opérationnelle mais presque complètement ignorée en IA jusqu'à très récemment. Nous étudions le problème de l'apprentissage d'un modèle POMDP à partir de données réelles recueillies à partir de notre plate-forme robotique. L'objectif est de cartographier l'environnement dans lequel évolue le robot grâce à l'exploration préalable de celui-ci. Un autre but est d'apprendre les réactions de l'environnement aux actions du robot. Le modèle ainsi appris est utilisé par le planificateur stochastique.
La généralisation confirmatoire consiste à déterminer les lois générales confirmées par un ensemble d'observations. L'induction confirmatoire repose sur l'hypothèse des similarités : les individus inconnus se comportent comme les individus connus. Nous avons montré qu'une circonscription des individus modélise mieux cette hypothèse qu'une circonscription des propriétés. Le modèle proposé permet d'obtenir des clauses plus générales et d'éviter des généralisations indésirables par rapport aux approches existantes. Ce modèle défini en logique des prédicats se spécialise dans le cas propositionnel en un calcul des premiers impliqués.
Considérant le problème de la classification, ou classement, d'objets à partir d'exemples, nous avons proposé une nouvelle technique de classification, dite par portée, qui consiste à chercher l'ensemble des exemples à partir desquels une règle cohérente et pertinente peut être construite. Nous présentons un ensemble d'adaptations des fondements logiques de la classification par portée aux données réelles. La classification par portée est également étendue aux instances généralisées en règles. Les stratégies de généralisation, et surtout la recherche des voisins diffèrent nettement de celles existantes. Nous montrons que, bien que les hypothèses construites diffèrent, notre approche et celle de l'espace des versions disjonctif conduisent au même classement. Ce point de vue original permet cependant de proposer, au delà d'une implantation plus efficace, des développements propres à une approche à base de règles. Notre approche a une meilleure précision en moyenne et un temps d'exécution semblable à ceux des approches les plus utilisées à base d'instances ou de règles, sur des ensembles de test usuels.
Participants : Nicolas Capponi , Jean Lieber , Ludmila
Mangelinck , Amedeo Napoli , Arnaud Simon , Yannick Toussaint
Nous avons continué cette année à travailler sur les langages et modèles à objets pour la représentation de connaissances, et sur les logiques de descriptions [49] [65]. Parallèlement, nous avons travaillé sur les modes de raisonnement qui sont associés aux représentations par objets, comme le raisonnement par classification et le raisonnement à partir de cas. En particulier, le processus de classification permet de manipuler et de contrôler une hiérarchie d'objets, mais il faut aussi signaler que la classification intervient, à des degrés divers, dans de très nombreuses activités d'intelligence artificielle [43].
La fouille de données peut se voir comme une technique d'analyse intelligente et interactive de données, qui consiste à extraire pour les exploiter des informations qui existent sous forme implicite dans un ensemble de données brutes. Cette technique combine l'utilisation (i) de modes de raisonnement comme le raisonnement déductif et le raisonnement par classification, (ii) de techniques d'apprentissage symbolique comme l'induction et la construction d'arbres de décision, (iii) de techniques d'analyse de données numériques, (iv) des fonctionnalités associées aux systèmes de gestion de bases de données, et enfin, (v) de techniques de visualisation interactive de données.
Le cadre choisi pour mener à bien le projet de fouille de données avec application au domaine médical est celui des représentations à base d'objets, qui facilite la combinaison des différents outils nécessaires au processus de fouille de données [40] [55] [66]. La fouille de données est un thème pluridisciplinaire, qui cadre bien avec l'ensemble de travaux menés précédemment sur les représentations à base d'objets et le raisonnement par classification.
Nous nous intéressons à la terminologie telle qu'elle est actuellement définie dans les travaux du groupe Terminologie et Intelligence Artificielle du GDR-PRC IA en prenant en compte une dimension linguistique des termes et une dimension conceptuelle. L'objectif principal est de disposer d'un environnement de gestion de la terminologie qui puisse être intégré et exploité par des outils de traitement automatique de la langue. Les travaux en cours utilisent les logiques de description du type de CLASSIC.
Nous exploitons la logique de descriptions CLASSIC pour représenter les structures prédicatives contenues dans les textes (par exemple, <<l'infestation d'une plante par un insecte>>). Nous avons construit un algorithme de généralisation conceptuelle par induction permettant de construire de nouveaux concepts synthétisant les informations collectées par une analyse linguistique manuelle.
Le langage naturel a souvent été négligé dans le domaine industriel, les concepteurs pensant que les normes et les langages formels de spécification pourraient pallier les difficultés. Le travail réalisé cette année dans le cadre d'un DEA a consisté à repérer les marqueurs linguistiques de relations causales ou de conséquence dans les textes de spécification. L'objectif était de mettre en valeur ces relations afin d'amorcer une réflexion sur le lien entre spécification naturelles et spécifications formelles au niveau de ces relations.
Participants : Frédéric Alexandre , Yann Boniface ,
Laurent Bougrain , François Charpillet , Hervé Frezza , Emmanuel
Hartwich , Jean-Paul Haton , Jean-Daniel Kant , Jérôme Louis ,
Nicolas Pican , Nicolas Rougier
Notre expérience théorique et pratique concernant les aspects perceptifs et statistiques du connexionnisme nous permet aujourd'hui de nous concentrer, en suivant toujours une démarche ascendante, sur deux aspects fondamentaux actuellement mal maîtrisés dans le domaine des réseaux de neurones artificiels. Sur la base de mécanismes connexionnistes, il s'agit d'une part de la création de représentations internes multi-modales et d'autre part de leur exploitation afin de satisfaire des demandes internes ou externes de nature diverse.
Pour le moment, avant de les développer dans les deux parties qui suivent, mettons schématiquement ces deux points en perspective: si l'on veut prétendre, à l'aide de modèles connexionnistes, aborder la modélisation de fonctions intelligentes typiquement humaines, il nous semble indispensable que le système que nous construisons puisse apprendre à connaître le monde dans lequel il vit et par là même, s'en faire une représentation interne structurée et utilisable, image de ce monde, de ses propriétés et de ses régularités, mais aussi des conséquences de ses actes sur lui. Par ailleurs, il doit aussi être capable d'utiliser cette représentation interne pour choisir à chaque instant le comportement le mieux approprié en fonction de l'état du monde et de son expérience passée. Ces deux dernières phrases résument nos deux axes de recherche, que nous présentons maintenant.
Nos études concernent les indices acoustiques ainsi que les mécanismes de perception des sons de la parole. Après une série d'expériences concernant l'identification du lieu d'articulation des consonnes occlusives du français, nous nous sommes intéressée à l'identification du contexte vocalique subséquent à partir du bruit d'explosion de ces consonnes. En d'autres termes, nous avons recherché si la voyelle pouvait être identifiée à partir du bruit de la consonne qui la précéde. L'an passé, nous avons montré que les auditeurs étaient capables d'identifier les grands traits de la voyelle (ouvert/fermé et avant/arrière). Cette année, nous avons recherché les indices acoustiques de ces traits [20] (à notre connaissance, il n'y a pas d'étude antérieure sur ce sujet). Nous avons particulièrement analysé les spectres acoustiques des bruits dont le contexte était bien identifié par les auditeurs. La limite inférieure du bruit de friction ainsi que la présence d'un pic proéminent dans les basses fréquences se révèlent des indices très performants. La plupart des contextes a pu être correctement identifié sans spécification de la consonne. On observe une forte corrélation entre les résultats acoustiques et perceptifs. Nos expériences montrent donc que les grands traits du contexte vocalique, dont la connaissance est nécessaire à une bonne identification de la consonne, sont identifiables à partir de celle-ci. Nos résultats sont cohérents avec les récentes théories sur la perception des voyelles qui montrent que l'information vocalique est répartie sur toute la syllabe.
La seconde voie permettant de prendre en compte des connaissances sur les phénomènes de production de parole consiste à utiliser un mécanisme d'inversion acoustique-articulatoire dans le processus de décodage.
Nous avons choisi d'utiliser le modèle articulatoire de Maeda qui, par ses qualités anthropomorphiques, permet de prendre en compte directement des contraintes sur la forme du conduit vocal. Cette année, nous avons adapté ce modèle à notre locuteur test grâce à une série d'images IRM. Cela nous a permis de développer une première méthode d'inversion par tabulation [44]. Par rapport aux travaux comparables, nous avons utilisé un algorithme qui permet de définir des trajectoires éventuellement incomplètes. Cela a l'avantage d'éviter d'introduire dans les trajectoires des points erronés résultant de problèmes d'échantillonnage de l'espace articulatoire lors de la construction du dictionnaire de formes.
Pour vérifier que les trajectoires articulatoires calculées sont correctes, nous retrouvons les contours du conduit vocal à partir des films cinéradiographiques représentant des images 2D de tout le conduit vocal. Pour cela nous avons développé un logiciel de dépouillement en partie automatique, grâce à l'utilisation de techniques de suivi et de snakes développées dans le projet ISA.
Dans le cadre de l'action incitative de l'INRIA consacrée à l'amélioration des prothèses auditives nous avons travaillé cette année sur les premiers aspects du diagnostic des déficiences auditives. Pour cela nous avons développé des algorithmes permettant de construire des stimuli avec le synthétiseur à formants de Klatt. L'objectif est de s'aider de signaux de parole naturelle et d'extraire aussi automatiquement que possible les paramètres de contrôle du synthétiseur de Klatt.
Nous avons également approfondi l'étude de notre modèle stochastique original de trajectoires [8,36] et montré qu'il peut être amélioré par l'utilisation de modèles fondés sur la notion de segments [59], [8].
L'ensemble de ces travaux se poursuit dans les directions suivantes:
Nous travaillons sur des modèles de langage hybrides pour la
reconnaissance de la parole. Nos modèles combinent deux
composantes, stochastique et formelle [56]. Concernant la composante
stochastique, nous avons focalisé nos efforts sur l'apprentissage
des paramètres d'interpolation du modèle. Cette interpolation est
indispensable pour traiter les événements non rencontrés lors de
la phase d'apprentissage. Elle permet d'affecter une probabilité
non nulle aux structures langagières non rencontrées pendant la
phase d'apprentissage. Pour ce faire, nous avons étudié trois
techniques d'interpolation : linéaire, non linéaire et
markovienne sur un corpus de 46 millions de mots extraits des
journaux Le Monde et le Monde Diplomatique. Cette étude a montré
l'importance que peuvent avoir les paramètres d'interpolation sur
la mesure de la perplexité (unité de mesure d'un modèle de
langage). Concernant le modèle de langage formel, il est composé
d'une grammaire d'unification permettant de prendre en compte
certaines caractéristiques de la langue que les modèles
stochastiques ont du mal à modéliser. Nous avons participé à la
première campagne d'évaluation des sytèmes de dictée automatique
[25] et des modèles de
langage dans le cadre du projet AUPELF sur la capacité de
prédiction du modèle de langage (
cf. § ).
Un autre volet de nos recherches a consisté cette année à comparer le modèle n-classes aux modèles multi-classes, en collaboration avec F. Bimbot (IRISA). La différence entre les multi-classes et les n-classes réside dans le fait que les premiers travaillent avec des historiques de longueur variable alors que les seconds utilisent des historiques de longueur fixe.
Deux nouvelles applications pratiques de nos algorithmes de reconnaissance ont été développées : la réalisation d'une machine à dicter des comptes rendus cardiologiques indépendante du locuteur (cette réalisation s'intègre dans le cadre de l'action Santé) et la réalisation d'une machine à dicter utilisant un vocabulaire de 20 000 mots et une grammaire générale du français ; cette machine à dicter a obtenu de bonnes performances pendant la dernière campagne de test AUPELF-UREF.
Nous nous sommes penchés sur la détermination d'unités sous lexicales pour l'identification du locuteur ou du langage. Chaque unité est représentée par un état d'une chaîne de Markov ergodique. Nous proposons des méthodes pour capturer les corrélations acoustiques et linguistiques [14]. Une application à l'identification du locuteur en anglais a montré plus de 99% de taux d'identification correcte [13]. Nous testons actuellement ces modèles sur des corpus standard de lettres épelées au téléphone.
Nous avons étudié cette année la recombinaison synchrone d'un système multi-bandes de reconnaissance de la parole. Cette recombinaison a été réalisée à l'aide de deux classifieurs : un classifieur linéaire dont les poids sont calculés grâce à l'algorithme d'apprentissage discriminant MCE (Minimum Cross Entropy ) et un Perceptron Multi-Couches (MLP). Cette étude a été menée en milieu bruité et extrêmement bruité. Notre méthode améliore considérablement dans ce dernier cas les performances d'un système classique de reconnaissance de la parole.
Nous avons appliqué à de la parole Lombard une nouvelle méthode de compensation qui permet une transformation non linéaire aussi bien dans le domaine fréquentiel que cepstral de la parole ayant servi à l'apprentissage du système.
Dans le cadre de l'adaptation aux conditions de test, nous avons développé une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test [36]. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires. Le but est de diminuer la variabilité de la parole due aux différents environnements non seulement pendant l'adaptation mais également pendant l'apprentissage.
Un des inconvénients majeurs de l'adaptation bayésienne a posteriori est qu'elle ne permet que l'adaptation des unités observées pendant la phase d'adaption. Nous proposons un nouvel algorithme basé sur le principe MCE (Minimum Cross Entropy ) [12] pour résoudre ce problème. Son évaluation sur un corpus de lettres épelées a montré des performances bien supérieures à celles de la méthode bayésienne.
Ce programme de recherche est réalisé en collaboration avec des ergonomes de l'IMASSA. Son originalité est de rendre possibles des comparaisons utiles pour la conception des interfaces multimodales du futur, entre l'utilisation contrainte et l'usage spontané de la parole et du geste 2D en présence et en l'absence de contraintes temporelles.
Les conclusions de notre analyse des données multimodales recueillies dans le cadre de S1 sont présentes dans [6]. Cette année, nous avons essentiellement réalisé la transcription, le codage et l'analyse des expressions orales et gestuelles produites dans le contexte de S2. Une comparaison entre les énoncés produits dans les situations S1 et S2 au cours de la première session [52] montre que les contraintes d'expression imposées aux sujets de S2 ont été sans influence sur leur activité et sur leur usage des modalités. Elles ont eu en revanche une incidence significative, globalement positive, sur leur expression orale. Par ailleurs, il apparaît que, dans un environnement multimodal (parole + geste) où l'ensemble des actions possibles sur l'application peut être exprimé soit oralement soit gestuellement, une des fonctions principales du geste est la reformulation des commandes orales non reconnues, qu'elles appartiennent ou non au langage artificiel imposé.