Projet Syco

previous up next contents
Précédent : Logiciels Remonter : Projet SYCO, Modèles fondamentaux et Suivant : Actions industrielles



Résultats nouveaux

Modèles de décision et IA distribuée

 

Participants : Frédéric Alexandre , Christophe Antoine , Olivier Aycard , Makram Bouzid , Anne Boyer , François Charpillet , Vincent Chevrier , Rémy Foisel , Jean-Michel Gallone , Norbert Glaser , Jean-Paul Haton , Marie-Christine Haton , Nicolas Lachiche , Pierre Laroche , Marc Lejeune , Malek Mouhoub , Nicolas Moureaux , Laurent Piraud


Systèmes multi-agents

  Nous étudions la résolution de problèmes lorsqu'elle nécessite la coopération ou la mise en concurrence de plusieurs agents logiciels ou humains. Nous nous intéressons non seulement aux mécanismes liés à la dynamique d'une société d'agents (interactions, négociation, coordination, communication, organisation et auto-organisation, comportement sous contraintes de ressources), mais aussi aux techniques d'acquisition et de représentation des connaissances qui sont nécessaires au développement de tels systèmes.

Etude de l'interaction et de l'organisation

La notion d'interaction, centrale dans le paradigme multi-agent, a fait l'objet d'une étude pluridisciplinaire à l'éclairage des modèles issus de la psycho-sociologie dans le cadre d'une collaboration avec le GRC de l'Université de Nancy 2. Ces travaux fondamentaux nous ont conduits à proposer un modèle permettant de modéliser l'organisation d'organisation (structure de relations entre les membres dune société d'agents communicants en décrivant les interactions entre agents. Nous avons proposé un modèle [26] permettant de modéliser l'organisation d'une société d'agents en décrivant les interactions entre agents. Ce modèle intégre la perspective statique d'une organisation (structure de relations entre les membres d'une société) et son aspect dynamique (moyens d'action qui permettent d'aboutir et de faire évoluer cette organisation). Par là même, nous disposons d'un moyen de décrire une société d'agents et de la faire évoluer pour qu'elle s'adapte.

Cette approche a été implantée en Java et a donné lieu à l'outil JAVAMA. Différentes expérimentations ont été conduites et ont montré l'intérêt de ce modèle, notamment vis à vis de ses capacités à réorganiser une société.

Nous travaillons à une extension de ce modèle pour prendre en compte des interactions qui ne se composent pas uniquement d'actions de communication mais également d'actions dans un environnement. Pour ce faire, il est nécessaire de modéliser et simuler l'environnement du système multi-agent.

Simulation multi-agent

L'approche multi-agents dans le cadre de la simulation permet de décrire une société, son environnement et leur évolution en se basant sur une de description locale des comportements des agents et des objets intervenant dans le monde. La simulation d'agents agissant dans un environnement physique nous a conduits à proposer une modélisation de l'environnement dans lequel interagissent les agents. Ce modèle prend explicitement en compte la simultanéité des actions et la gestion des conflits éventuels (que se passe-t-il lorsque deux agents veulent occuper la même position dans l'environnement, par exemple). Il distingue la composante <<physique>> de l'agent, c'est à dire la représentation de l'agent dans son environnement et la composante <<décisionnelle>> correspondant aux processus permettant à l'agent de décider de l'action à réaliser. Par ailleurs, l'environnement supporte des lois décrivant les conditions et les conséquences des actions. Ce modèle a été implanté et est utilisé pour la simulation de systèmes multi-robots. Cette implantation permet d'étudier différentes stratégies de collaboration dans un problème de tri collectif.

Systèmes multi-agents parallèles

Le modèle de simulation décrit ci-dessus a servi de base pour étudier les possibilités qu'offrait le parallèlisme vis à vis de tels modèles. Nous avons exploré plusieurs voies d'implantation : par envoi de messages et par partage de mémoire. Nous avons constaté qu'au début la programmation par envois de messages paraît plus simple, mais qu'en fait la programmation par partage de mémoire se révèle la méthode la plus rapide pour implanter et pour exécuter notre modèle en parallèle.

Nous avons réalisé une parallélisation basée sur un maillage spatial, mais où la mise à jour d'une maille ne nécessite pas seulement les frontières des mailles voisines. A titre d'exemple, la propagation de potentiels selon un algorithme de gradient à vagues, nous impose de répercuter au sud d'une maille les perturbations arrivant au nord de celle-ci. Ce simulateur parallèle est utilisé pour la simulation de systèmes multi-robots devant accomplir des tâches de tri collectif.

Résolution de problème par système multi-agents réactif

Nous avons développé un modèle multi-agents pour simuler l'organisation spatiale d'un territoire agricole. Ce modèle s'inspire des modèles d'éco-résolution : les occupations du sol sont représentées par des groupes d'agents qui cherchent à conquérir des parcelles de territoire afin de remplir un objectif de production. Il peut y avoir combat pour une parcelle entre les agents des différents groupes, l'issue du combat dépendant de la force respective des groupes. Le modèle multi-agents construit répond correctement aux spécifications du problème agronomique et possède des propriétés intéressantes, notamment celles d'être anytime et incrémental.

Robotique mobile

Le champ d'application offert par la robotique mobile implique la distribution au moins partielle des connaissances nécessaires à la réussite d'une mission. Cette distribution nécessite la mise en oeuvre de stratégies et protocoles de communication afin de ne pas saturer les voies de communication informatiques par des messages trop nombreux et trop volumineux. Ce problème est également un problème crucial dans le cadre des systèmes multi-agents et notre plate-forme robotique (robot mobile Nomad 200) est un cadre pour proposer et valider dans un contexte réel différentes politiques de communication et d'organisation. Nous avons réfléchi à la conception d'une architecture intégrative se fondant sur le paradigme multi-agents pour gérer les différentes activités liées aux déplacements et les tâches inhérentes à la mission du robot. Cette réflexion porte sur la définition de primitives de communication permettant de structurer les échanges entre les différents modules impliqués dans la conduite du robot. Ces primitives intègrent la possibilité de restructurer le système dynamiquement. Un premier prototype réalisé à l'aide de la plate-forme MIX a montré la validité de ces idées.

Modélisation conceptuelle

Nous avons poursuivi nos travaux sur la modélisation des systèmes multi-agents à un niveau conceptuel indépendant de l'implantation par extension de COMMONKADS.

Nous proposons un ensemble de modèles conceptuels pour la description de systèmes composés d'agents possédant des compétences diverses. Nous introduisons également des méthodes pour l'acquisition incrémentale des connaissances et aussi une structuration de bibliothèques de modèles adaptées à la réutilisation.

Un environnement d'ingénierie de la connaissance a été réalisé pour démontrer la faisabilité de cette approche conceptuelle. Il intègre l'outil KADSTOOL et produit des descriptions en langage semi-formel CML-M, une version étendue du langage CML introduit par COMMONKADS. Nous avons également réalisé un environnement de simulation pour valider les architectures multi-agents développées sur la base des spécifications CML. Cet environnement est une extension du Michigan Intelligent Cooperation Experiment (MICE). Nous avons appliqué notre approche au problème de la robotique mobile par la méthode du reverse engineering.

L'explication dans les systèmes à Bases de Connaissances

La capacité pour les Systèmes à Bases de Connaissances (SBC) d'expliquer leurs raisonnements ou de justifier leurs conclusions de manière convaincante est une caractéristique indispensable pour l'acceptation de tels systèmes par l'utilisateur final. Les systèmes industriels avec des fonctions d'aide à la conduite de procédés ou d'aide au diagnostic ont besoin d'explications en temps réel qui ne permettent pas l'utilisation de méthodes classiques habituellement employées dans les SBC explicatifs. Nous travaillons sur les différentes manières de fournir à l'utilisateur des explications répondant à ses besoins, et sur les méthodes de recueil de connaissances explicatives (protocole de recueil, modélisation et représentation des connaissances). Notre réflexion fondamentale s'appuie sur une réalisation pratique en collaboration avec l'IRSID et Usinor (cf. § [*]).

Résolution de contraintes temporelles

  Nos travaux sur le raisonnement temporel portent sur la définition de modèles de représentation et de raisonnement que ce soit pour traiter des problèmes purement symboliques ou des problèmes mixtes numériques et symboliques. Pour cela les techniques que nous développons relèvent d'approches complémentaires comme la propagation de contraintes, les réseaux neurominétiques, ou encore les algorithmes génétiques. Dans l'approche par propagation de contraintes, nous étudions une extension de l'algèbre des intervalles d'Allen qui permet de représenter à la fois des informations numériques et symboliques. Pour exploiter la représentation du temps définie dans notre modèle TemPro, nous avons mené une étude comparative exhaustive des algorithmes de consistance d'arc et de consistance de chemin actuellement connus. Ceux-ci ont été adaptés au problème spécifique de la résolution de contraintes temporelles. Nous en avons déduit une stratégie optimale d'utilisation de ces algorithmes en fonction du type de problème posé.

Conception d'algorithmes anytime pour l'ordonnancement

  Sur un modèle de représentation similaire à celui de TemPro, nous avons défini une méthode de compilation des contraintes temporelles sous forme d'un réseau de neurones récurrent inspiré du modèle de Hopfield. Le fonctionnement de ce réseau permet la résolution de contraintes temporelles en les exprimant par un ensemble de contraintes booléennes dont Tagliarini et Christ ont montré qu'elles pouvaient s'écrire sous forme d'une fonction d'énergie dont le minimum est atteint pour une solution satisfaisant toutes les contraintes. Cette méthode d'optimisation a été choisie dans l'optique d'une exploitation temps réel du système développé. L'approche développée conçoit que, face à un problème donné, on recherche non pas la meilleure réponse dans l'absolu, mais la meilleure réponse possible dans le temps imparti.

Modèles stochastiques pour la robotique

Reconnaissance de balises naturelles

Un moyen naturel pour localiser notre robot mobile Gaston consiste en l'identification d'un ensemble de caractéristiques (balises naturelles), comme une porte, un angle de couloir, etc., qui constituent autant de points de repère. Nous avons constitué une bibliothèque de balises afin de constituer des modèles dont l'identification devrait permettre la localisation du robot. Dans ce but, nous étudions donc comment le problème d'apprentissage et de reconnaissance de balises naturelles peut se décrire à l'aide des modèles de Markov cachés du second ordre [18].

Planification stochastique

Il existe plusieurs approches de la planification d'actions, en particulier les approches qui relèvent de la logique et les approches issues de la théorie de la décision. Si nous continuons à mener des recherches sur le premier point, c'est dans la seconde catégorie que se situe notre apport principal [67]). L'objectif que nous nous sommes fixé est d'aborder des domaines dans lesquels les actions ont des résultats probabilistes et les agents une connaissance imparfaite de l'état dans lequel ils se trouvent. Pour ce faire nous modélisons la planification comme un processus de décision markovien partiellement observable. L'implantation informatique pose encore aujourd'hui de nombreux problèmes, notamment en ce qui concerne les performances en temps des algorithmes sous-jacents. Nous explorons actuellement diverses voies en vue de piloter un robot mobile en temps réel : approximations, techniques anytime , utilisation de plans sous-optimaux mais néanmoins satisfaisants, implantation parallèle, etc.

Modèles de décision stochastique

La détermination de l'action optimale dans les environnements stochastiques partiellement observables se résout, comme nous l'avons vu dans le paragraphe précédent, dans le cadre de la théorie des POMDP (processus de décision markoviens partiellement observables) issue de la recherche opérationnelle mais presque complètement ignorée en IA jusqu'à très récemment. Nous étudions le problème de l'apprentissage d'un modèle POMDP à partir de données réelles recueillies à partir de notre plate-forme robotique. L'objectif est de cartographier l'environnement dans lequel évolue le robot grâce à l'exploration préalable de celui-ci. Un autre but est d'apprendre les réactions de l'environnement aux actions du robot. Le modèle ainsi appris est utilisé par le planificateur stochastique.

Apprentissage inductif

La généralisation confirmatoire consiste à déterminer les lois générales confirmées par un ensemble d'observations. L'induction confirmatoire repose sur l'hypothèse des similarités : les individus inconnus se comportent comme les individus connus. Nous avons montré qu'une circonscription des individus modélise mieux cette hypothèse qu'une circonscription des propriétés. Le modèle proposé permet d'obtenir des clauses plus générales et d'éviter des généralisations indésirables par rapport aux approches existantes. Ce modèle défini en logique des prédicats se spécialise dans le cas propositionnel en un calcul des premiers impliqués.

Considérant le problème de la classification, ou classement, d'objets à partir d'exemples, nous avons proposé une nouvelle technique de classification, dite par portée, qui consiste à chercher l'ensemble des exemples à partir desquels une règle cohérente et pertinente peut être construite. Nous présentons un ensemble d'adaptations des fondements logiques de la classification par portée aux données réelles. La classification par portée est également étendue aux instances généralisées en règles. Les stratégies de généralisation, et surtout la recherche des voisins diffèrent nettement de celles existantes. Nous montrons que, bien que les hypothèses construites diffèrent, notre approche et celle de l'espace des versions disjonctif conduisent au même classement. Ce point de vue original permet cependant de proposer, au delà d'une implantation plus efficace, des développements propres à une approche à base de règles. Notre approche a une meilleure précision en moyenne et un temps d'exécution semblable à ceux des approches les plus utilisées à base d'instances ou de règles, sur des ensembles de test usuels.

Représentation de connaissances par objets, classification, fouille de données et analyse de textes



Participants : Nicolas Capponi , Jean Lieber , Ludmila Mangelinck , Amedeo Napoli , Arnaud Simon , Yannick Toussaint


Représentation par objets et classification

  Les représentations de connaissances par objets (RCO) et les logiques de descriptions sont des formalismes de représentation de connaissances qui nous intéressent d'un point de vue pratique et théorique.

Nous avons continué cette année à travailler sur les langages et modèles à objets pour la représentation de connaissances, et sur les logiques de descriptions [49] [65]. Parallèlement, nous avons travaillé sur les modes de raisonnement qui sont associés aux représentations par objets, comme le raisonnement par classification et le raisonnement à partir de cas. En particulier, le processus de classification permet de manipuler et de contrôler une hiérarchie d'objets, mais il faut aussi signaler que la classification intervient, à des degrés divers, dans de très nombreuses activités d'intelligence artificielle [43].

Raisonnement à partir de cas

  Les études sur les représentations par objets et le raisonnement par classification sont naturellement complétées par des travaux sur le raisonnement à partir de cas, qui est une mécanisation possible du raisonnement par analogie. Ces travaux se composent essentiellement d'une étude des interactions entre la remémoration d'un cas et l'adaptation du cas remémoré, ainsi que d'une étude formelle sur le raisonnement à partir de cas et la résolution de problèmes [4] [42] [46]. D'un point de vue pratique, ces études théoriques sont appliquées dans le système RESYN/CBR, qui a pour objet la planification de synthèses en chimie organique. Le développement de RESYN/CBR se fait dans le cadre du GDR 1093 du CNRS (Traitement Informatique de la Connaissance en Chimie Organique).

Fouille de données - Application au domaine de la santé

  La fouille de données s'appuie sur le fait qu'exploiter, sur la base de méthodes d'intelligence artificielle, des données médicales - en l'occurrence celles du Registre Lorrain du Cancer de l'Enfant - peut conduire à une meilleure analyse, compréhension et utilisation de ces données, et par suite, à une meilleure prise en charge et un meilleur suivi du malade.

La fouille de données peut se voir comme une technique d'analyse intelligente et interactive de données, qui consiste à extraire pour les exploiter des informations qui existent sous forme implicite dans un ensemble de données brutes. Cette technique combine l'utilisation (i) de modes de raisonnement comme le raisonnement déductif et le raisonnement par classification, (ii) de techniques d'apprentissage symbolique comme l'induction et la construction d'arbres de décision, (iii) de techniques d'analyse de données numériques, (iv) des fonctionnalités associées aux systèmes de gestion de bases de données, et enfin, (v) de techniques de visualisation interactive de données.

Le cadre choisi pour mener à bien le projet de fouille de données avec application au domaine médical est celui des représentations à base d'objets, qui facilite la combinaison des différents outils nécessaires au processus de fouille de données [40] [55] [66]. La fouille de données est un thème pluridisciplinaire, qui cadre bien avec l'ensemble de travaux menés précédemment sur les représentations à base d'objets et le raisonnement par classification.

Interprétation et simulation de paysages, collaboration avec l'INRA



Participants : Jean-Paul Haton , Florence Le Ber , Ludmila Mangelinck


  Ce projet qui porte sur l'interprétation et la simulation de paysages est développé en collaboration avec l'INRA (Centre de Nancy, à Champenoux). Ce projet a pour but de construire un système à bases de connaissances pour le diagnostic et la simulation des paysages agricoles. Le diagnostic fait référence à la caractérisation de structures spatiales issues d'images satellitaires. La simulation fait référence au recueil et à la modélisation des connaissances et des raisonnements sur les paysages. Une maquette est en cours de développement et en cours de test sur différents paysages.

Traitement automatique de textes techniques

  L'information scientifique et technique est actuellement un enjeu majeur dans le monde de la recherche scientifique et dans l'univers industriel. Bien souvent consignée dans des volumes très importants de textes, nous nous proposons de développer des méthodologies et des outils capables d'<<analyser>> ces textes en prenant en compte leur spécificité tant du point de vue linguistique ou conceptuel (ancré dans un domaine de connaissance particulier) que du point de vue de la finalité de ces textes.

La terminologie

Nous nous intéressons à la terminologie telle qu'elle est actuellement définie dans les travaux du groupe Terminologie et Intelligence Artificielle du GDR-PRC IA en prenant en compte une dimension linguistique des termes et une dimension conceptuelle. L'objectif principal est de disposer d'un environnement de gestion de la terminologie qui puisse être intégré et exploité par des outils de traitement automatique de la langue. Les travaux en cours utilisent les logiques de description du type de CLASSIC.

L'analyse de l'information

  Nous cherchons à mettre en oeuvre des outils infométriques et linguistiques d'analyse de textes. L'analyse est définie comme la phase suivant la recherche d'information: un usager consulte une base documentaire et en extrait un certain nombre de références. Les résumés sont traités dans leur ensemble pour construire une base de connaissance partielle représentant les connaissances qui ont pu être extraites des textes. Actuellement, un environnement ouvert est réalisé pour identifier les termes importants dans les textes, les classer (en clusters) par infométrie et cartographier les résultats. Il fonctionne aussi bien sur des textes anglais que sur des textes français. La poursuite des travaux porte sur une analyse linguistique fine des structures prédicatives qui ont été considérées comme importantes à la suite de l'étape de clusterisation .

Nous exploitons la logique de descriptions CLASSIC pour représenter les structures prédicatives contenues dans les textes (par exemple, <<l'infestation d'une plante par un insecte>>). Nous avons construit un algorithme de généralisation conceptuelle par induction permettant de construire de nouveaux concepts synthétisant les informations collectées par une analyse linguistique manuelle.

Les méthodes informatiques et linguistiques de traitement de textes techniques

Le langage naturel a souvent été négligé dans le domaine industriel, les concepteurs pensant que les normes et les langages formels de spécification pourraient pallier les difficultés. Le travail réalisé cette année dans le cadre d'un DEA a consisté à repérer les marqueurs linguistiques de relations causales ou de conséquence dans les textes de spécification. L'objectif était de mettre en valeur ces relations afin d'amorcer une réflexion sur le lien entre spécification naturelles et spécifications formelles au niveau de ces relations.

Modèles connexionnistes neuromimétiques



Participants : Frédéric Alexandre , Yann Boniface , Laurent Bougrain , François Charpillet , Hervé Frezza , Emmanuel Hartwich , Jean-Paul Haton , Jean-Daniel Kant , Jérôme Louis , Nicolas Pican , Nicolas Rougier


Notre expérience théorique et pratique concernant les aspects perceptifs et statistiques du connexionnisme nous permet aujourd'hui de nous concentrer, en suivant toujours une démarche ascendante, sur deux aspects fondamentaux actuellement mal maîtrisés dans le domaine des réseaux de neurones artificiels. Sur la base de mécanismes connexionnistes, il s'agit d'une part de la création de représentations internes multi-modales et d'autre part de leur exploitation afin de satisfaire des demandes internes ou externes de nature diverse.

Pour le moment, avant de les développer dans les deux parties qui suivent, mettons schématiquement ces deux points en perspective: si l'on veut prétendre, à l'aide de modèles connexionnistes, aborder la modélisation de fonctions intelligentes typiquement humaines, il nous semble indispensable que le système que nous construisons puisse apprendre à connaître le monde dans lequel il vit et par là même, s'en faire une représentation interne structurée et utilisable, image de ce monde, de ses propriétés et de ses régularités, mais aussi des conséquences de ses actes sur lui. Par ailleurs, il doit aussi être capable d'utiliser cette représentation interne pour choisir à chaque instant le comportement le mieux approprié en fonction de l'état du monde et de son expérience passée. Ces deux dernières phrases résument nos deux axes de recherche, que nous présentons maintenant.

Création de représentations internes

  En connexionnisme, la technique la plus communément utilisée pour appréhender et représenter la distribution de diverses sources d'informations consiste à effectuer une classification des données perçues. Cela permet tout d'abord de réduire cette diversité en créant une représentation prototypique, cela peut également permettre de créer une cartographie dégageant des liens de proximité entre ces prototypes. Un point difficile qui reste ouvert est celui du traitement efficace de données multi-modales. Nous avons tout d'abord repris et adapté à nos problèmes les outils classiques du connexionnisme: modèles non supervisés (cartes de Kohonen, Neural Gas) et supervisés (perceptrons) [51]. Ils ont été appliqués à des données géographiques, médicales et bibliographiques (cf. § [*],  § [*] et  § [*]). Nous avons de même repris nos modèles d'inspiration corticale d'aires sensorielles [33] pour des problèmes de navigation de robot et d'analyse d'images médicales (cf. § [*] et  § [*]). En ce qui concerne la représentation croisée de données multi-modales, le modèle original OWE, développé dans notre équipe, a été utilisé avec succès dans des problèmes difficiles dans les domaines sidérurgiques [16] et géographiques (cf. § [*] et  § [*]). Ce modèle est construit sur la base d'architectures classiques (perceptrons) [50]. L'approche d'inspiration biologique, pour sa part, conduit à la modélisation d'aires associatives, vue comme l'intégration d'aires sensorielles, afin de permettre la reconnaissance ou la localisation de formes. Nous définissons des lois multiplicatives de représentation croisée des différentes sources d'information [1]. Nous appliquons ce mécanisme à l'apprentissage conjoint, d'une part, de la localisation et de l'identification de structures, d'autre part, à la création d'aires associatives représentant l'univers d'un agent autonome. Nous réfléchissons enfin aux différentes possibilités d'implantation informatique de ces outils sur des architectures séquentielles (banques d'outils paramétrables, simulateurs) et parallèles ( cf. § [*]). Concernant ce dernier point, nous étudions en particulier comment le formalisme de communication de ces modèles, très proche de l'envoi de messages, peut être implanté de façon transparente par des techniques de mémoire partagée. Outre l'accélération de la vitesse des calculs que ces travaux laissent entrevoir, nous les considérons également comme un moyen de mieux comprendre les phénomènes de communication et de distribution de l'information dans nos modèles.

Stratégies d'exploitation

  Nous abordons ce problème tout d'abord par la combinaison de classifieurs et la sélection automatique des meilleurs modèles. Nous suivons pour cela le principe du raisonnement à partir de cas dont les fonctions de remémoration et d'adaptation sont réalisées par réseaux connexionnistes (cf. § [*] et  § [*]). Ces réseaux sont entraînés sur la prédiction de performances des classifieurs et sur l'estimation de leur participation dans le résultat final [17]. Dans le cadre de notre modélisation corticale, nous nous intéressons à la caractérisation de mécanismes du cortex frontal. Il s'agit de construire par apprentissage des séquences d'activation des aires associatives, permettant d'atteindre les buts courants recherchés. Nous cherchons ici à déterminer quels sont les mécanismes qui permettent au système d'élaborer une stratégie, de déduire une règle à partir de l'observation de quelques situations de décision. Pour cela, nous avons conçu un modèle connexionniste, le réseau RALF (Reinforcement and Attentional Learning Framework) [41,38], qui utilise une carte associative pour coder les règles de décision. Des mécanismes de renforcement incorporés dans ce réseau permettent de sélectionner les critères qui fournissent des actions satisfaisantes. Ce travail a permis d'expliquer des résultats d'expériences en neurophysiologie et de préciser le rôle du cortex frontal dans la formation de ce type de règles. Nous cherchons enfin à exploiter des mécanismes neuronaux temporels comme base de recherche et de confirmation d'hypothèses. L'idée est d'apprendre à lier temporellement des fragments de perception et d'action de manière à déterminer des relations de causalité entre eux. Un but en termes d'action ou de perception pourra alors être traduit, par ces relations causales, en sous-buts intermédiaires à résoudre. Nous élaborons en conséquence ces mécanismes temporels d'appel et de satisfaction de buts, que nous cherchons également à rendre compatibles avec les mécanismes associatifs de construction de cartes, vus précédemment. Nous retrouvons ici aussi des travaux de modélisation du cortex frontal. Nous les appliquons plus particulièrement au problème de la sélection de l'action pour un système autonome qui perçoit son environnement et intègre les conséquences de ses actes (dans le cadre du projet GIS cf. § [*]).

Parole et signaux

 

Participants : Mohamed Afify , Frédéric Alexandre , Anne Bonneau , Anne Boyer , Noëlle Carbonell , Christophe Cerisara , François Charpillet , Stéphane Durand , Dominique Fohr , Christelle Gassert , Yifan Gong , Virginie Govaere , Emmanuel Hartwich , Jean-Paul Haton , Marie-Christine Haton , Jean-Luc Husson , Irina Illina , Yves Laprie , Jean-François Mari , Bruno Mathieu , Odile Mella , Sandrine Robbe , Kamel Smaïli , Imed Zitouni


Aspects phonétiques

 

Indices acoustiques et perceptifs des sons de la parole

Nos études concernent les indices acoustiques ainsi que les mécanismes de perception des sons de la parole. Après une série d'expériences concernant l'identification du lieu d'articulation des consonnes occlusives du français, nous nous sommes intéressée à l'identification du contexte vocalique subséquent à partir du bruit d'explosion de ces consonnes. En d'autres termes, nous avons recherché si la voyelle pouvait être identifiée à partir du bruit de la consonne qui la précéde. L'an passé, nous avons montré que les auditeurs étaient capables d'identifier les grands traits de la voyelle (ouvert/fermé et avant/arrière). Cette année, nous avons recherché les indices acoustiques de ces traits [20] (à notre connaissance, il n'y a pas d'étude antérieure sur ce sujet). Nous avons particulièrement analysé les spectres acoustiques des bruits dont le contexte était bien identifié par les auditeurs. La limite inférieure du bruit de friction ainsi que la présence d'un pic proéminent dans les basses fréquences se révèlent des indices très performants. La plupart des contextes a pu être correctement identifié sans spécification de la consonne. On observe une forte corrélation entre les résultats acoustiques et perceptifs. Nos expériences montrent donc que les grands traits du contexte vocalique, dont la connaissance est nécessaire à une bonne identification de la consonne, sont identifiables à partir de celle-ci. Nos résultats sont cohérents avec les récentes théories sur la perception des voyelles qui montrent que l'information vocalique est répartie sur toute la syllabe.

Inversion articulatoire

La seconde voie permettant de prendre en compte des connaissances sur les phénomènes de production de parole consiste à utiliser un mécanisme d'inversion acoustique-articulatoire dans le processus de décodage.

Nous avons choisi d'utiliser le modèle articulatoire de Maeda qui, par ses qualités anthropomorphiques, permet de prendre en compte directement des contraintes sur la forme du conduit vocal. Cette année, nous avons adapté ce modèle à notre locuteur test grâce à une série d'images IRM. Cela nous a permis de développer une première méthode d'inversion par tabulation [44]. Par rapport aux travaux comparables, nous avons utilisé un algorithme qui permet de définir des trajectoires éventuellement incomplètes. Cela a l'avantage d'éviter d'introduire dans les trajectoires des points erronés résultant de problèmes d'échantillonnage de l'espace articulatoire lors de la construction du dictionnaire de formes.

Pour vérifier que les trajectoires articulatoires calculées sont correctes, nous retrouvons les contours du conduit vocal à partir des films cinéradiographiques représentant des images 2D de tout le conduit vocal. Pour cela nous avons développé un logiciel de dépouillement en partie automatique, grâce à l'utilisation de techniques de suivi et de snakes développées dans le projet ISA.

Dans le cadre de l'action incitative de l'INRIA consacrée à l'amélioration des prothèses auditives nous avons travaillé cette année sur les premiers aspects du diagnostic des déficiences auditives. Pour cela nous avons développé des algorithmes permettant de construire des stimuli avec le synthétiseur à formants de Klatt. L'objectif est de s'aider de signaux de parole naturelle et d'extraire aussi automatiquement que possible les paramètres de contrôle du synthétiseur de Klatt.

Modèles statistiques et neuronaux pour la reconnaissance de la parole

  Afin de disposer d'une modélisation plus fine, nous avons poursuivi le développement des modèles de Markov d'ordre 2 [10] qui ont montré leur capacité à mieux modéliser la durée des mots ou des phonèmes que les modèles d'ordre 1. Ces modèles ont été utilisés conjointement avec des modèles connexionnistes.

Nous avons également approfondi l'étude de notre modèle stochastique original de trajectoires [8,36] et montré qu'il peut être amélioré par l'utilisation de modèles fondés sur la notion de segments [59], [8].

L'ensemble de ces travaux se poursuit dans les directions suivantes:

Modèles de langage pour la reconnaissance de la parole

 

Nous travaillons sur des modèles de langage hybrides pour la reconnaissance de la parole. Nos modèles combinent deux composantes, stochastique et formelle [56]. Concernant la composante stochastique, nous avons focalisé nos efforts sur l'apprentissage des paramètres d'interpolation du modèle. Cette interpolation est indispensable pour traiter les événements non rencontrés lors de la phase d'apprentissage. Elle permet d'affecter une probabilité non nulle aux structures langagières non rencontrées pendant la phase d'apprentissage. Pour ce faire, nous avons étudié trois techniques d'interpolation : linéaire, non linéaire et markovienne sur un corpus de 46 millions de mots extraits des journaux Le Monde et le Monde Diplomatique. Cette étude a montré l'importance que peuvent avoir les paramètres d'interpolation sur la mesure de la perplexité (unité de mesure d'un modèle de langage). Concernant le modèle de langage formel, il est composé d'une grammaire d'unification permettant de prendre en compte certaines caractéristiques de la langue que les modèles stochastiques ont du mal à modéliser. Nous avons participé à la première campagne d'évaluation des sytèmes de dictée automatique [25] et des modèles de langage dans le cadre du projet AUPELF sur la capacité de prédiction du modèle de langage ( cf. § [*]).

Un autre volet de nos recherches a consisté cette année à comparer le modèle n-classes aux modèles multi-classes, en collaboration avec F. Bimbot (IRISA). La différence entre les multi-classes et les n-classes réside dans le fait que les premiers travaillent avec des historiques de longueur variable alors que les seconds utilisent des historiques de longueur fixe.

Deux nouvelles applications pratiques de nos algorithmes de reconnaissance ont été développées : la réalisation d'une machine à dicter des comptes rendus cardiologiques indépendante du locuteur (cette réalisation s'intègre dans le cadre de l'action Santé) et la réalisation d'une machine à dicter utilisant un vocabulaire de 20 000 mots et une grammaire générale du français ; cette machine à dicter a obtenu de bonnes performances pendant la dernière campagne de test AUPELF-UREF.

Identification du locuteur et du langage

Nous nous sommes penchés sur la détermination d'unités sous lexicales pour l'identification du locuteur ou du langage. Chaque unité est représentée par un état d'une chaîne de Markov ergodique. Nous proposons des méthodes pour capturer les corrélations acoustiques et linguistiques [14]. Une application à l'identification du locuteur en anglais a montré plus de 99% de taux d'identification correcte [13]. Nous testons actuellement ces modèles sur des corpus standard de lettres épelées au téléphone.

Amélioration de la robustesse des systèmes en parole bruitée

 

Décomposition/recombinaison multi-bandes

Nous avons étudié cette année la recombinaison synchrone d'un système multi-bandes de reconnaissance de la parole. Cette recombinaison a été réalisée à l'aide de deux classifieurs : un classifieur linéaire dont les poids sont calculés grâce à l'algorithme d'apprentissage discriminant MCE (Minimum Cross Entropy ) et un Perceptron Multi-Couches (MLP). Cette étude a été menée en milieu bruité et extrêmement bruité. Notre méthode améliore considérablement dans ce dernier cas les performances d'un système classique de reconnaissance de la parole.

Compensation non linéaire

Nous avons appliqué à de la parole Lombard une nouvelle méthode de compensation qui permet une transformation non linéaire aussi bien dans le domaine fréquentiel que cepstral de la parole ayant servi à l'apprentissage du système.

Adaptation au locuteur

Dans le cadre de l'adaptation aux conditions de test, nous avons développé une approche de la normalisation des environnements pendant l'apprentissage et une approche de l'adaptation du modèle acoustique, issu de l'apprentissage, à l'environnement de test [36]. Les approches normalisent ou adaptent le modèle acoustique à l'aide de transformations linéaires. Le but est de diminuer la variabilité de la parole due aux différents environnements non seulement pendant l'adaptation mais également pendant l'apprentissage.

Un des inconvénients majeurs de l'adaptation bayésienne a posteriori est qu'elle ne permet que l'adaptation des unités observées pendant la phase d'adaption. Nous proposons un nouvel algorithme basé sur le principe MCE (Minimum Cross Entropy ) [12] pour résoudre ce problème. Son évaluation sur un corpus de lettres épelées a montré des performances bien supérieures à celles de la méthode bayésienne.

Etude empirique de l'usage de la parole dans un environnement multimodal

  Nous avons conçu un programme de recherche empirique de l'usage de la parole et du geste 2D en situation d'interaction homme-machine effective, avec le paradigme expérimental du magicien d'Oz. Ce programme est centré sur l'étude du comportement d'utilisateurs potentiels de la multimodalité parole + geste dans quatre situations d'interaction homme-machine différentes. Dans les situations S1 et S2, les sujets réalisent interactivement des tâches de conception simples (aménagement d'intérieurs à partir de plans 2D), alors que dans S3 et S4 ils doivent contrôler diverses chaînes de fabrication. Dans S1 et S3, les sujets peuvent s'exprimer librement, oralement ou gestuellement alors que, dans S2 et S4, ils doivent respecter des contraintes d'expression pré-définies. Chaque situation fait intervenir un groupe de huit sujets volontaires pendant trois sessions de 30 à 40 mn chacune.

Ce programme de recherche est réalisé en collaboration avec des ergonomes de l'IMASSA. Son originalité est de rendre possibles des comparaisons utiles pour la conception des interfaces multimodales du futur, entre l'utilisation contrainte et l'usage spontané de la parole et du geste 2D en présence et en l'absence de contraintes temporelles.

Les conclusions de notre analyse des données multimodales recueillies dans le cadre de S1 sont présentes dans [6]. Cette année, nous avons essentiellement réalisé la transcription, le codage et l'analyse des expressions orales et gestuelles produites dans le contexte de S2. Une comparaison entre les énoncés produits dans les situations S1 et S2 au cours de la première session [52] montre que les contraintes d'expression imposées aux sujets de S2 ont été sans influence sur leur activité et sur leur usage des modalités. Elles ont eu en revanche une incidence significative, globalement positive, sur leur expression orale. Par ailleurs, il apparaît que, dans un environnement multimodal (parole + geste) où l'ensemble des actions possibles sur l'application peut être exprimé soit oralement soit gestuellement, une des fonctions principales du geste est la reformulation des commandes orales non reconnues, qu'elles appartiennent ou non au langage artificiel imposé.



previous up next contents Précédent : Logiciels Remonter : Projet SYCO, Modèles fondamentaux et Suivant : Actions industrielles