Project : axis
Section: New Results
Keywords : clustering , données agrégées , distances , intervalles , distance de Hausdorff , cartes topologiques , données symboliques , stabilité , validation , analyse de données symboliques .
Méthodes de partitionnement et validation
Participants : Patrice Bertrand, [Marie Chavent], Marc Csernel, [F. A. T. De Carvalho], Achia El Golli, Yves Lechevallier, [Rosanna Verde].
Classification non supervisée à partir de dissimilarités mesurant le lien entre représentations complexes des données
Nous avons travaillé sur une approche classificatoire dont l'objectif est l'obtention d'un partitionnement d'un grand nombre d'objets en un nombre réduit de classes homogènes à partir d'un tableau de dissimilarités calculé sur ces objets. L'algorithme choisi est issu de l'algorithme des Nuées Dynamiques sur un tableau de dissimilarités dont le critère de classification est basé sur la somme des dissimilarités entre les individus appartenant à la même classe. L'algorithme proposé fait décroître ce critère.
Le choix d'une mesure de proximité est nécessaire : aussi, durant le projet CLADIS, nous avons étudié diverses mesures de proximité, utilisables sur un tableau de descriptions d'objets ayant une structure complexe.
Lors du calcul de la mesure de proximité il est nécessaire de tenir compte de la variabilité, ( liée aux valeurs observées sur chaque variable) et de la connaissance du domaine exprimée par des règles ( dépendances entre variables). Nous les avons modélisées en créant deux types de dépendances, l'une est basée sur la structure hiérarchique, l'autre est logique. Concernant cette famille d'indices, nous proposons deux approches :
-
Les indices de la première approche utilisent pour chaque variable une fonction de comparaison suivie d'une fonction d'agrégation. La fonction de comparaison, utilisant des opérateurs symboliques (jonction, conjonction), est basée sur la différence de contenu et de position. La fonction d'agrégation s'inspire de la métrique de Minkowsky. La prise en compte des contraintes se fait par la pondération de chacune des valeurs ;
-
Les indices de la seconde approche n'utilisent que la fonction de comparaison. La comparaison entre une paire d'objets est réalisée globalement par une fonction qui utilise des opérateurs symboliques et des mesures positives.
Le problème majeur de toutes ces approches est l'aspect combinatoire du calcul lors de la prise en compte des dépendances logiques. Il est linéaire en fonction du nombre de variables et, malheureusement, exponentiel en fonction du nombre de règles. Pour depasser cette difficulté, nous proposons un approche par décomposition des descriptions symboliques selon la Forme Normale Symbolique (cf. 6.3) que nous sommes en train d'étudier.
Un prototype de cette méthode a été réalisé dans le cadre du projet CLADIS entre l'INRIA et le CNPq.
Classification non supervisée à partir d'un tableau de données intervalles
Nous avons étudié trois nouvelles approches classificatoires d'un tableau de données à structure complexe. Deux approches sont applicables aux tableaux d'intervalles, la dernière peut être appliquée aux tableaux issus d'un ensemble de variables multivaluées.
Ces trois approches utilisent des algorithmes de classification de type Nuées Dynamiques optimisant un critère lié aux distances entre les objets à classer ou bien mesurant l'adéquation entre un ensemble de prototypes (noyaux, centroides) et une partition de ces d'objets, les prototypes étant une modélisation d'une classe de cette partition.
Dans la première approche, les prototypes sont des éléments de l'espace de représentation des objets à classer c'est-à-dire un vecteur dont les coordonnées sont des intervalles. La distance entre un prototype et un individu est basée sur la distance de Hausdorff entre deux vecteurs d'intervalles. La distance de Hausdorff entre deux intervalles et est égale à :
La distance d entre deux vecteurs d'intervalles et est alors une combinaison des distances de Hausdorff d'où :
Dans la seconde approche, les prototypes sont des vecteurs de distributions calculés à partir de systèmes de pondérations associés à un ensemble d'intervalles, dits intervalles élémentaires. Dans ce cas on parlera de prototypes généralisés.
Dans la troisième approche, le prototype généralisé et les individus ne sont plus représentables dans le même espace de description. La mesure de comparaison utilisée n'est donc pas une dissimilarité mais une fonction de comparaison (" matching "). Cette fonction est constituée de deux composantes car elle intègre non seulement l'écart entre deux intervalles mais aussi le système de pondération de ces deux intervalles.
Un prototype comprenant ces trois approches a été réalisé dans le cadre du projet CLADIS entre l'INRIA et le CNPq et du projet européen ASSO.
Algorithme des cartes topologiques auto-organisatrices et données symboliques
L'algorithme des cartes topologiques auto-organisatrices (SOM : Self Organising Map), introduit par Kohonen, est un outil structurant les relations entre classes via un réseau de neurones, et réduisant la dimension des données initiales tout en préservant, au moins partiellement, la topologie de l'espace des variables. Il permet également de visualiser les données dans un espace de dimension faible, généralement égale à 2. Ces propriétés constituent des avantages considérables par rapport aux algorithmes de partitionnement, surtout en phase d'exploration. Les cartes topologiques réalisent une interface entre les méthodes de classification et les techniques de réduction des données .
L'algorithme des cartes topologiques proposé par Kohonen est un procédé d'auto-organisation qui cherche à projeter des données représentées dans un espace de grande dimension, dans un espace de faible dimension. En fin d'apprentissage, le but du réseau est de reproduire sur la carte de sortie les corrélations présentes dans les données d'entrées.
Cette année, dans le cadre de la thèse d'Aicha El Golli, nous avons proposé une nouvelle version « batch » de l'algorithme des cartes topologiques qui prend en entrée des tableaux de dissimilarités. Dans cette version les prototypes ne sont plus recalculés à chaque fois qu'on présente une observation mais après une phase d'affectation de l'ensemble d'apprentissage. C'est une version non stochastique de l'algorithme des cartes topologiques. La méthode ainsi proposée répond aux deux objectifs suivants : 1) traiter aussi bien les données classiques que les données symboliques, 2) fournir une interprétation symbolique des neurones et donc des classes obtenues. Chaque neurone sera caractérisé par un prototype qui est modélisé par un objet symbolique.
Méthode d'évaluation de la stabilité d'une classe
Dans le cadre du contrat européen ASSO, nous avions déjà proposé une méthode d'évaluation de la stabilité d'une classe (arbitraire) générée par une méthode de partitionnement. La stabilité d'une classe est évaluée à partir de deux statistiques qui estiment le degré de stabilité inhérent à l'isolation et à la compacité de cette classe. Les valeurs prises par ces statistiques sont évaluées à l'aide d'un test de Monte-Carlo, l'hypothèse nulle de ce test étant l'absence de structure en classe de l'ensemble des données.
Cette année, P. Bertrand et Y Lechevallier ont défini une méthodologie à suivre pour interpréter les valeurs prises par ces statistiques de stabilité dans le cas de données symboliques. Dans le cas es données symboliques la principale difficulté provient du fait que l'hypothèse nulle utilise l'enveloppe convexe calculée sur la représentation dans un espace euclidien des données (i.e. des représentations sous forme d'intervalles, de lois de probabilité discrètes non métriques, de valeurs ensemblistes, ...) et qu'il se produit souvent une explosion combinatoire qui est liée au nombre de coordonnées à prendre en compte.