Action Sodas

previous up next contents
Précédent : Logiciels Remonter : Action SODAS, Structures de classification Suivant : Actions industrielles



Résultats nouveaux

Cette année nos principales avancées ont concerné les quatre axes suivants :

Pyramides et Hiérarchies faibles dans le Modèle Ordinal pour la Classification



Participants : Patrice Bertrand , Melvin Janowitz


La motivation initiale est de montrer que les classes d'une hiérarchie faible (resp. d'une pyramide) peuvent être décrites par des propriétés équivalentes portant soit sur l'ensemble des cliques de la dissimilarité induite, soit sur celui des 2-boules de la même dissimilarité induite. Plus précisément, étant donné un indice de dissimilarité $\delta$ défini sur un ensemble E, deux types de parties de E sont considérés : les cliques de $\delta$, encore appelés ensembles maximalement reliés selon l'indice $\delta$, et les k-boules. Une clique M au niveau $\alpha$, est simplement un sous-ensemble M de E ayant un diamètre égal à $\alpha$, et qui est maximal pour cette propriété. Étant donné une partie A de E, ayant k éléments, la k-boule $B_{A}$ générée par A, est définie par $B_A = \{ x \in E : \;\forall a \in A, \;\delta (a,x) \leq \mbox{diam} \; A\}$.

Dans le but de caractériser l'ensemble des classes d'une hiérarchie faible, Bandelt and Dress (1989) ont défini un troisième type de parties, appelées classes faibles. Un sous-ensembleC de E est appelé classe faible si $\delta (a,b) < \max \{ \delta (a,x),\delta (b,x)\}$ pour tout $a,b\in C$ et pour tout $x \not\in C$. En d'autres termes, C est une classe faible si $B_{ab} \subseteq C$ pour tout $a,b \in C$.De plus, Bandelt (1992) a introduit l'inégalité des quatre points qui caractérise les dissimilarités induites par les hiérarchies faibles indicées. Diatta and Fichet (1994) ont montré que l'inégalité des quatre points est vérifiée si et seulement si la condition d'inclusion et la condition du diamètre sont simultanément vérifiées. Nous établissons alors que la condition des quatre points est vérifiée si et seulement si toute 3-boule est 2-convexe.

Nous introduisons un quatrième type de sous-ensemble, appelé classe très faible. Une classe très faible est une partie C de E satisfaisant $C = B_{ab}$ pour chaque paire $a, b \in C$ telle que $\delta (a,b) = \mbox{diam}\;C$.Quelques caractérisations obtenues sont indiquées dans la Table 1 ci-dessous, où sur chaque ligne, la condition de gauche est équivalente à la condition de droite.

$\textstyle\parbox{12cm}{\begin{center}{\em Table 1 : {\footnotesize \'equiva... ...s & Chaque clique est une classe faible. \\ \hline\end{tabular}\end{center} }$


Par ailleurs, nous avons prouvé que la condition des quatre points est satisfaite si et seulement si l'ensemble des cliques est fermé par intersections non vides. Concernant les dissimilarités induites par les représentations pyramidales, i.e les dissimilarités Robinsoniennes, nous avons obtenu plusieurs caractérisations de la condition de Robinson forte introduite par Durand and Fichet (1988).

Généralisation des Pyramides



Participants : Catherine Dornback , Patrice Bertrand


Une technique de classification consiste à produire à partir des données (c.-à-d. un ensemble E fini qui est décrit soit par des variables, soit par des valeurs de dissimilarité entre éléments de E), une ou plusieurs classifications deE emboîtées.
Lorsque le résultat est une séquence emboîtée de partitions de E, il est aisément visualisé à l'aide d'une hiérarchie. Les pyramides introduites par Diday (1984) proposent une représentation visuelle du résultat d'une technique de classification en acceptant un certain degré de recouvrement entre les classes (autrement dit le résultat est une séquence emboîtée de recouvrements de E). Il est bien connu que les pyramides faiblement indicées, encore appelées représentations pyramidales, sont en correspondance bijective avec les dissimilarités Robinsoniennes propres.
Une généralisation de la notion de pyramide, appelée pseudo-pyramide, est introduite.

Les coefficients de dissimilarité générant des familles emboîtées de relations binaires réflexives, nous les avons généralisés par des coefficients de dissimilarité ``impropres'' qui génèrent seulement des relations binaires symétriques. Une bijection entre les pseudo-pyramides indicées (resp. faiblement indicées) et les dissimilarités impropres Robinsoniennes (resp. fortement Robinsoniennes) est alors possible. Cette généralisation supprime la nécessité que la valeur minimale d'un coefficient de dissimilarité soit égale à 0.

De plus, une technique de classification utilisant une dissimilarité impropre n'impose pas aux sous-ensembles singletons d'appartenir aux classifications obtenues. Finalement, il est prouvé que chaque pseudo-pyramide indicée est un treillis planaire, et une caractérisation de cette classe de treillis planaires est donnée en termes d'inf-demi-treillis interdits.

Classification hiérarchique descendante



Participants : Marie Chavent , Edwin Diday , Yves Lechevallier


La méthode de classification hiérarchique proposée répond aux objectifs suivants :

Pour atteindre ce double but de classification et d'interprétation, nous proposons une méthode descendante de type monothétique qui a l'avantage de fournir simultanément:

Nous proposons également:

Une application de cette méthode commemce au début de 98 avec le CERIES, l'objectif est de définir une typologie des peaux saines.

Modèles statistiques et réseaux de neurones



Participants : Yves Lechevallier , Antonio Ciampi


Par notre intervention au niveau de la ``boite noire'' des réseaux de neurones, notre démarche est analogue à celle de la modélisation classique. Cependant, par une modélisation statistique de l'architecture du réseau, nous rendons plus lisible cette "boite noire".

Nous proposons un modèle d'architecture de réseau de neurones adapté aux données de survie et censurées. La valeur de sortie du réseau de neurones est utilisée comme paramètre de modélisation de la fonction de survie. La fonction de vraisemblance de notre échantillon est optimisée par le réseau.

Chaque observation est caractérisée par un vecteur de description ${\bf z}$ et un couple $y=(\delta,t)$. La valeur t correspond à la durée de survie de cette observation. Si cette durée est censurée alors la valeur $\delta$ est égale à 1 sinon elle est égale à 0. L'objectif est de donner à chaque observation sa fonction de survie. Si la population est homogène, c'est-à-dire si l'information contenue dans la description ne joue aucun rôle, alors l'estimation du paramètre de cette fonction de survie est évidente et va déterminer la loi de la fonction de survie pour $z=0$ dans le cas où la population n'est plus homogène. Si on suppose que la population n'est pas homogène alors la fonction de survie h dépend du vecteur de description et nous avons :

\begin{displaymath}h(t,{\bf z})=\exp{\varphi({\bf z})}h_{0}(t)\end{displaymath}




$\varphi({\bf z})$ sera égal à la valeur de sortie du réseau $Out_{W}({\bf z})$ dépendant de la matrice des pondérations W de ce réseau.

A partir d'un échantillon de taille N, le réseau optimise une fonction de coût C liée au logarithme de la vraisemblance, i.e. :

\begin{displaymath}C=\sum_{i=1}^{N}c(y^{(i)},Out_{W}({\bf z}^{(i)}))\end{displaymath}






\begin{displaymath}c(y^{(i)},Out_{W}({\bf z}^{(i)}))=\delta^{(i)}h(t^{(i)};Out_{W}({\bf z}^{(i)}))-H(t^{(i)};Out_{W}({\bf z}^{(i)}))\end{displaymath}


avec $H(t,{\bf z})=\int_{0}^{t}h$.

Nous avons utilisé cette approche sur une base de données censurées de l'Institut de Cardiologie de Montréal constituée de 1710 patients. Cet ensemble a été découpé en 3 ensembles : d'un ensemble d'apprentissage, constitué de 1000 patients, qui sert à calculer les pondérations du réseau, d'un second, constitué de 300 patients, qui est utilisé comme test d'arrêt de présentation de l'échantillon d'apprentissage au réseau, et d'un dernier ensemble qui sert d'ensemble test et qui permet d'évaluer l'efficacité du réseau. Nous avons utilisé une couche de neurones cachés et avons fait varier le nombre de neurones de cette couche entre 2 et 10.

Extension de la distance de Kolmogorov-Smirnov dans le cadre des méthodes de segmentation



Participants : Mounir Asseraf , Yves Lechevallier


Le calcul de la distance de Kolmogorov-Smirnov est basé sur un ordre total ou partiel défini sur les valeurs possibles prises par une variable aléatoire. Cette notion d'ordre n'a pas de sens pour les variables nominales. On peut cependant palier cette difficulté en utilisant l'ordre d'inclusion des parties qui joue alors le rôle de relation d'ordre. Mais le calcul de ce critère a une complexité importante ; nous avons établi deux théorèmes permettant de réduire cette complexité.

Cette année, nous avons continué l'étude de la stabilité et la robustesse de notre algorithme de segmentation en utilisant diverses techniques de simulation.

Construction d'objets symboliques à partir d'une base de données relationnelle



Participants : Véronique Stéphan , Edwin Diday , Yves Lechevallier


L'objectif de ce travail est de résumer sous la forme d'assertions (conjonction de propriétés) l'information contenue dans l'extension d'une requête à une base de données relationnelle ; cette extension constitue un échantillon de la population. Dans la mesure où les informations extraites par des requêtes proviennent de plusieurs tables, on est confronté à un problème de généralisation.
Dans un premier temps, nous nous étions intéressés au mode d'interaction avec la base de données et aux choix des descriptions en sortie. Dans un second temps, nous avons mis en oeuvre plusieurs opérateurs permettant la sélection d'une population à partir de la base et la prise en compte de connaisssances supplémentaires comme l'ajout d'une taxonomie sur le domaine d'une variable et la définition de dépendances logiques entre variables.

Afin de mesurer l'adéquation de notre description aux données, nous avons défini un critère de qualité. Nous nous sommes intéressés à deux configurations : le cas où l'ensemble des individus de départ peut être décrit par une seule assertion et le second cas, où nous sommes amenés à décrire cet ensemble par une disjonction d'assertions. Nous avons particulièrement étudié le moyen d'éliminer de la description finale, les individus atypiques qui perturbent l'étape de généralisation. Enfin, nous avons défini plusieurs critères pour évaluer les descriptions en sortie. Dans le cadre d'un contrat de recherche nous avons pu tester ces opérateurs sur différentes bases d'EDF stockées par le SGBD Oracle.

Mesures de proximité entre objets symboliques tenant compte des dépendances logiques



Participants : Francisco [ de] Carvalho, Marc Csernel


Nous poursuivons les recherches sur le calcul de la proximité entre objets assertion booléen en tenant compte à la fois de la variabilité (exprimée comme une disjonction de valeurs relatives à une variable), et de la connaissance du domaine (exprimée sous la forme de dépendances logiques entre variables). Ces dépendances logiques, exprimées par des règles, représentent des contraintes sur l'espace de description engendrée par les variables.

Une première approche utilisant une fonction de comparaison et une fonction d'agrégation a été proposée par De Carvalho (1994). Dans cette approche, la fonction de comparaison utilise l'union et l'intersection symboliques, et elle est inspirée des indices proposés pour traiter les tableaux binaires usuels. La fonction d'agrégation est basée sur la métrique de Minkowski. La prise en compte des dépendances logiques entre variables lors du calcul de la proximité entre une paire d'objets assertion booléen utilise une mesure positive, appelée potentiel de description, associée à chaque variable.

Cette année nous avons travaillé dans deux directions. D'une part nous avons proposée de nouveaux indices :

Le problème majeur lié à ces approches est celui de l'aspect combinatoire du temps de calcul lors de la prise en compte des dépendances logiques. Il augmente de manière exponentielle en fonction du nombre T de dépendances introduites. Une méthode permettant, moyennant quelques contraintes sur les dépendances, de retrouver un temps de calcul polynômial a été développée. Cette méthode est basée sur une normalisation des assertions booléennes est appelée Normal Symbolic Form (NSF). Elle n'est utilisable que lorsque les dépendances entre les variables forment des arbres, et non pas un graphe quelconque. Nous avons affiné notre travail en proposant une estimation plus précise de la complexité.

Treillis stochastiques d'objets symboliques



Participant : Edwin Diday , Richard Emillion


Notre objectif ici est d'expliquer et de commenter les résultats apparus dans une note aux Comptes Rendus de l'Académie des Sciences présentée par G. Choquet. Les treillis de Galois, introduits par Birkhoff, sont définis par Barbut-Monjardet dans le cadre général d'une correspondance de Galois, c'est-à-dire de deux applications $f : E \rightarrow F$ (intension) et $g : F \rightarrow E$ (extension) décroissantes avec $h = gof$ et $k = fog$ extensives (i.e. $\geq I_{d}$), E et F étant deux treillis.

Cependant la plupart des travaux récents sont seulement effectués dans un cadre binaire. Or, il est intéressant de sortir de ce cadre binaire car quand le nombre d'observations et de propriétés augmentent, le nombre d'éléments du treillis peut augmenter de façon exponentielle. On est alors amené à décrire plutôt des classes d'observations associées à chaque individu par des structures résumantes plus riches : on obtient des données symboliques. On s'intéresse ici particulièrement au cas où les cases du tableau de données contiennent des histogrammes, des variables aléatoires ou leur loi. On se place dans le cadre général suivant: I est un ensemble dénombrable d'individus, E le treillis des parties de I et $<F, \leq, \vee, \wedge \gt$ un treillis $\sigma$-complet, tout $i \in I$ admettant une description $d_{i} \in F$.

Voici quelques résultats obtenus :

sur les treillis de Galois maximaux : dans le cas binaire, $f(A)$, pour $A \subset I$, décrit A et $g(z), z \in F$, est l'ensemble des individus ayant au moins z pour description. Il est alors intéressant, dans le cas général, d'avoir une description et une extension maximale. Nous avons démontré l'existence et l'unicité d'un Treillis de Galois vérifiant ces maximalités lorsque la description des individus est imposée.

sur les capacités et crédibilités dans les treillis de Galois : lorsque la description d'un individu est une mesure, par exemple une loi de probabilité, les capacités et les crédibilités apparaissent naturellement dans les descriptions données précédemment. On montre que si $d_{ij}$ est une mesure $\sigma$-additive, on obtient un treillis de Galois de capacités $\sigma$- sous ou sur - additives.

sur les treillis de Galois stochastiques : on étudie le cas des descriptions d'individus par des v.a. ou des lois. Dans certains cas pratiques, seuls les histogrammes empiriques sont disponibles, dans d'autres, on dispose des échantillons. Nous étudions également des problèmes de convergence quand la taille des échantillons augmente. On peut interpréter chaque noeud d'un treillis stochastique par $\kappa (A,V)$ : la capacité des individus de A à atteindre l'objectif V. Les convergences s'interprètent comme suit : à mesure que la connaissance des objets s'améliorent ($n \rightarrow \infty$) les concepts (noeuds du treillis $T_{n}$) se précisent, s'organisent et se stabilisent.

Extension des méthodes d'analyse factorielle à des données symboliques



Participants : Ahlame Chouakria , Edwin Diday


L'extension de la méthode d'Analyse en Composantes Principales à des données intervalles se traduit par la visualisation sous forme de rectangles représentant des individus et/ou des variables dans les plans factoriels.

On propose, tout d'abord, une amélioration de la représentation graphique dans les plans factoriels à l'aide d'une procédure itérative visualisant les positions des rectangles pour différents niveaux de contributions et pour différents niveaux de qualités de représentation.

Cette méthode est ensuite généralisée, à l'aide d'une technique de pondération, à des contraintes portant sur les domaines des variables intervalles. Ces contraintes sont également visualisées et interprétées sur les plans factoriels.

Par ailleurs, on s'intéresse aussi à une autre méthode, largement utilisée dans le traitement des questionnaires et dans l'exploitation des enquêtes : l'Analyse des Correspondances Multiples (ACM). À défaut de méthodes pouvant analyser des données complexes, les questionnaires, en ACM, sont souvent conçus de façon à ce que les sujets soient contraints de répondre en choisissant une seule valeur, par exemple, une valeur d'intensité sur une échelle, ou une modalité parmi les modalités d'une variable qualitative.

Ainsi nous proposons une méthode s'appliquant à des données complexes, par exemple, des intervalles ou des ensembles finis de valeurs, décrivant de façon naturelle les réponses des sujets à des questionnaires d'enquêtes. Les réponses peuvent être structurées de manière plus complexes : taxonomies, graphes de contiguïté géographique ou temporelle, ...

Dans le cas des variables intervalles, on propose trois techniques de codage:

Afin de prendre en compte la structure a priori définies sur les données, nous proposons une méthode consistant à résoudre un problème d'optimisation sous contraintes linéaires.

Évaluation d'une classe par estimation de sa stabilité



Participants : Ghazi Bel Mufti , Patrice Bertrand


Nous nous plaçons dans le cadre d'un schéma de rééchantillonnage, pour proposer des indices mesurant l'isolation et la compacité d'une classe C générée par une méthode $\cal M$ de partitionnement appliquée à un ensemble $\Omega$ d'objets à classer. Le calcul de ces indices de validité se décompose en trois étapes :

1)
Tirage avec remise de N échantillons de même taille dans l'ensemble $\Omega$;
2)
Application de la méthode $\cal M$ de partitionnement à chacun des N échantillons prélevés;
3)
Calcul de la valeur de l'indice de validité par comparaison de la classe C avec l'ensemble des partitionnements obtenus à l'étape 2).

Dans un premier temps, nous avons déterminé trois cas possibles lorsque l'on compare la classe C avec un partitionnement de $\Omega$ obtenu à l'aide de la méthode $\cal M$, ces trois cas caractérisant trois types différents d'isolation (resp. de compacité) de la classe C. Ainsi à l'issue de N partitionnements réalisés sur les N échantillons de même taille prélevés, on calcule les fréquences d'apparition des trois types différents d'isolation (resp. de compacité). Il en résulte que le triplet de fréquences ainsi associé à la classe C peut alors être représenté graphiquement, sur un plan, comme barycentre des trois points équidistants qui sont associés aux trois types possibles d'isolation (resp. de compacité).

Par ailleurs, toujours en utilisant le même schéma de rééchantillonnage, nous proposons trois nouveaux indices I, H et V qui mesurent respectivement l'isolation, la compacité et la validité d'une classe.

Les valeurs prises par ces indices $I(C)$, $H(C)$ et $V(C)$ sont utilisées afin de tester l'hypothèse nulle $H_0$ selon laquelle les données sont réparties de façon uniforme dans l'enveloppe convexe des données initiales. Après avoir simulé des jeux de données uniformément réparties, les rééchantillonnages associés à ces données, permettent de déterminer la distribution empirique des indices I, H et V sous l'hypothèse nulle $H_0$, et donc de tester si les valeurs observées sont en accord avec cette hypothèse nulle. Finalement, l'évaluation de C est constituée des trois seuils de signification qui sont les résultats des tests précédents.

Nous avons réalisé de nombreuses simulations afin de tester la sensibilité des trois indices I, H et V aux variations de multiples facteurs : lois de distribution des points de chaque classe, forme et séparation des classes, degré d'homogénéité de la classe, présence d'un bruit sur les données, méthode de classification utilisée, paramètres relatifs à la procédure de validation. Pour chaque type de simulation ainsi réalisée, nous avons calculé les valeurs des indices I, H et V et comparé les valeurs obtenues à celles prises par l'indice U de Gordon (1994). Ces simulations ont montré que l'indice V proposé est pertinent et plus sensible que l'indice U de Gordon.

Évaluation et interprétation de sériations obtenues à l'issue d'une Classification Pyramidale



Participants : Vincent Leprince , Patrice Bertrand


En analyse de données, il existe plusieurs méthodes de sériation, i.e. des méthodes ayant pour but d'ordonner un ensemble fini d'objets, ces objets pouvant être les individus ou les variables d'un tableau de données. La relation d'ordre générée par une méthode de sériation sur l'ensemble des objets, peut être soit totale (sériation totale) soit partielle (bloc-sériation).
Notre approche se place dans le cadre de données se présentant sous la forme d'un tableau de dissimilarités entre objets. La pertinence de la relation d'ordre obtenue est évaluée à l'aide d'un critère d'adéquation qui compare la relation d'ordre à la préordonnance associée au tableau de dissimilarités entre les objets. La seule valeur du critère d'adéquation est insuffisante pour déterminer si la sériation obtenue est globalement optimale. En effet, cette valeur numérique n'est pas uniquement fonction de l'adéquation entre les données et la sériation évaluée, mais dépend également du nombre d'objets traités, de la dimension de l'espace, ainsi que du type de variables utilisées. Pour obtenir une estimation plus intrinsèque du degré de sériation des données, nous proposons une procédure, basée sur la méthode de Monte-Carlo, qui est analogue, dans son principe, à la méthode de validation d'une classe proposée par Gordon (1994) en classification automatique. Plus précisément, le principe de cette procédure est de déterminer (de façon empirique) la loi suivie par le critère d'adéquation dans le cas où les données suivent un modèle nul d'absence de sériation, par exemple dans le cas où les données sont uniformément réparties dans une hypersphère. Le degré de sériation est alors évalué par le seuil de signification du test de l'hypothèse nulle $H_0$ : ``les données examinées suivent le modèle nul''.
Après avoir étudié le cas des variables continues, nous avons examiné le cas des variables binaires en effectuant de nombreuses simulations ayant pour paramètres les paramètres du modèle nul, le nombre d'individus et le nombre de variables.

Finalement, nous proposons un critère d'adéquation général, qui permet d'évaluer le degré de sériation de données lorsque la méthode génère une bloc-sériation.



previous up next contents Précédent : Logiciels Remonter : Action SODAS, Structures de classification Suivant : Actions industrielles