Précédent : Logiciels Remonter : Action SODAS, Structures de classification
Suivant : Actions industrielles
Cette année nos principales avancées ont concerné les quatre axes suivants :
Participants : Patrice Bertrand , Melvin Janowitz
La motivation initiale est de montrer que les classes d'une
hiérarchie faible (resp. d'une pyramide) peuvent être décrites
par des propriétés équivalentes portant soit sur l'ensemble des
cliques de la dissimilarité induite, soit sur celui des 2-boules
de la même dissimilarité induite. Plus précisément, étant donné
un indice de dissimilarité défini sur un ensemble E,
deux types de parties de E sont considérés : les
cliques de
, encore appelés ensembles maximalement reliés
selon l'indice
, et les k-boules. Une clique
M au niveau
, est simplement un
sous-ensemble M de E ayant un
diamètre égal à
, et qui est maximal pour cette
propriété. Étant donné une partie A de
E, ayant k éléments, la k-boule
générée par A, est définie par
.
Dans le but de caractériser l'ensemble des classes d'une
hiérarchie faible, Bandelt and Dress (1989) ont défini un
troisième type de parties, appelées classes faibles. Un
sous-ensembleC de E est appelé
classe faible si pour tout
et pour
tout
. En d'autres termes, C est une
classe faible si
pour tout
.De plus, Bandelt (1992) a introduit l'inégalité des
quatre points qui caractérise les dissimilarités induites par les
hiérarchies faibles indicées. Diatta and Fichet (1994) ont montré
que l'inégalité des quatre points est vérifiée si et seulement si
la condition d'inclusion et la condition du diamètre sont
simultanément vérifiées. Nous établissons alors que la condition
des quatre points est vérifiée si et seulement si toute 3-boule
est 2-convexe.
Nous introduisons un quatrième type de sous-ensemble, appelé
classe très faible. Une classe très faible est une partie
C de E satisfaisant pour chaque paire
telle que
.Quelques caractérisations
obtenues sont indiquées dans la Table 1 ci-dessous, où sur chaque
ligne, la condition de gauche est équivalente à la condition de
droite.
Par ailleurs, nous avons prouvé que la condition des quatre
points est satisfaite si et seulement si l'ensemble des cliques
est fermé par intersections non vides. Concernant les
dissimilarités induites par les représentations pyramidales, i.e
les dissimilarités Robinsoniennes, nous avons obtenu plusieurs
caractérisations de la condition de Robinson forte introduite par
Durand and Fichet (1988).
Participants : Catherine Dornback , Patrice Bertrand
Une technique de classification consiste à produire à partir
des données (c.-à-d. un ensemble E fini qui est
décrit soit par des variables, soit par des valeurs de
dissimilarité entre éléments de E), une ou plusieurs
classifications deE emboîtées.
Lorsque le résultat est une séquence emboîtée de partitions de E,
il est aisément visualisé à l'aide d'une hiérarchie. Les
pyramides introduites par Diday (1984) proposent une
représentation visuelle du résultat d'une technique de
classification en acceptant un certain degré de recouvrement
entre les classes (autrement dit le résultat est une séquence
emboîtée de recouvrements de E). Il est bien connu que les
pyramides faiblement indicées, encore appelées représentations
pyramidales, sont en correspondance bijective avec les
dissimilarités Robinsoniennes propres.
Une généralisation de la notion de pyramide, appelée
pseudo-pyramide, est introduite.
Les coefficients de dissimilarité générant des familles emboîtées de relations binaires réflexives, nous les avons généralisés par des coefficients de dissimilarité ``impropres'' qui génèrent seulement des relations binaires symétriques. Une bijection entre les pseudo-pyramides indicées (resp. faiblement indicées) et les dissimilarités impropres Robinsoniennes (resp. fortement Robinsoniennes) est alors possible. Cette généralisation supprime la nécessité que la valeur minimale d'un coefficient de dissimilarité soit égale à 0.
De plus, une technique de classification utilisant une dissimilarité impropre n'impose pas aux sous-ensembles singletons d'appartenir aux classifications obtenues. Finalement, il est prouvé que chaque pseudo-pyramide indicée est un treillis planaire, et une caractérisation de cette classe de treillis planaires est donnée en termes d'inf-demi-treillis interdits.
Participants : Marie Chavent , Edwin Diday , Yves
Lechevallier
La méthode de classification hiérarchique proposée répond aux objectifs suivants :
Pour atteindre ce double but de classification et d'interprétation, nous proposons une méthode descendante de type monothétique qui a l'avantage de fournir simultanément:
Nous proposons également:
Une application de cette méthode commemce au début de 98 avec le CERIES, l'objectif est de définir une typologie des peaux saines.
Participants : Yves Lechevallier , Antonio Ciampi
Par notre intervention au niveau de la ``boite noire'' des réseaux de neurones, notre démarche est analogue à celle de la modélisation classique. Cependant, par une modélisation statistique de l'architecture du réseau, nous rendons plus lisible cette "boite noire".
Nous proposons un modèle d'architecture de réseau de neurones adapté aux données de survie et censurées. La valeur de sortie du réseau de neurones est utilisée comme paramètre de modélisation de la fonction de survie. La fonction de vraisemblance de notre échantillon est optimisée par le réseau.
Chaque observation est caractérisée par un vecteur de
description et un couple
. La
valeur t correspond à la durée de survie de cette observation. Si
cette durée est censurée alors la valeur
est égale à
1 sinon elle est égale à 0. L'objectif est de donner à chaque
observation sa fonction de survie. Si la population est homogène,
c'est-à-dire si l'information contenue dans la description ne
joue aucun rôle, alors l'estimation du paramètre de cette
fonction de survie est évidente et va déterminer la loi de la
fonction de survie pour
dans le cas où la population
n'est plus homogène. Si on suppose que la population n'est pas
homogène alors la fonction de survie h dépend du vecteur de
description et nous avons :
A partir d'un échantillon de taille N, le réseau optimise une
fonction de coût C liée au logarithme de la
vraisemblance, i.e. :
Nous avons utilisé cette approche sur une base de données censurées de l'Institut de Cardiologie de Montréal constituée de 1710 patients. Cet ensemble a été découpé en 3 ensembles : d'un ensemble d'apprentissage, constitué de 1000 patients, qui sert à calculer les pondérations du réseau, d'un second, constitué de 300 patients, qui est utilisé comme test d'arrêt de présentation de l'échantillon d'apprentissage au réseau, et d'un dernier ensemble qui sert d'ensemble test et qui permet d'évaluer l'efficacité du réseau. Nous avons utilisé une couche de neurones cachés et avons fait varier le nombre de neurones de cette couche entre 2 et 10.
Participants : Mounir Asseraf , Yves Lechevallier
Le calcul de la distance de Kolmogorov-Smirnov est basé sur un ordre total ou partiel défini sur les valeurs possibles prises par une variable aléatoire. Cette notion d'ordre n'a pas de sens pour les variables nominales. On peut cependant palier cette difficulté en utilisant l'ordre d'inclusion des parties qui joue alors le rôle de relation d'ordre. Mais le calcul de ce critère a une complexité importante ; nous avons établi deux théorèmes permettant de réduire cette complexité.
Cette année, nous avons continué l'étude de la stabilité et la robustesse de notre algorithme de segmentation en utilisant diverses techniques de simulation.
Participants : Véronique Stéphan , Edwin Diday , Yves
Lechevallier
L'objectif de ce travail est de résumer sous la forme
d'assertions (conjonction de propriétés) l'information contenue
dans l'extension d'une requête à une base de données
relationnelle ; cette extension constitue un échantillon de la
population. Dans la mesure où les informations extraites par des
requêtes proviennent de plusieurs tables, on est confronté à un
problème de généralisation.
Dans un premier temps, nous nous étions intéressés au mode
d'interaction avec la base de données et aux choix des
descriptions en sortie. Dans un second temps, nous avons mis en
oeuvre plusieurs opérateurs permettant la sélection d'une
population à partir de la base et la prise en compte de
connaisssances supplémentaires comme l'ajout d'une taxonomie sur
le domaine d'une variable et la définition de dépendances
logiques entre variables.
Afin de mesurer l'adéquation de notre description aux données, nous avons défini un critère de qualité. Nous nous sommes intéressés à deux configurations : le cas où l'ensemble des individus de départ peut être décrit par une seule assertion et le second cas, où nous sommes amenés à décrire cet ensemble par une disjonction d'assertions. Nous avons particulièrement étudié le moyen d'éliminer de la description finale, les individus atypiques qui perturbent l'étape de généralisation. Enfin, nous avons défini plusieurs critères pour évaluer les descriptions en sortie. Dans le cadre d'un contrat de recherche nous avons pu tester ces opérateurs sur différentes bases d'EDF stockées par le SGBD Oracle.
Participants : Francisco [ de] Carvalho, Marc Csernel
Nous poursuivons les recherches sur le calcul de la proximité entre objets assertion booléen en tenant compte à la fois de la variabilité (exprimée comme une disjonction de valeurs relatives à une variable), et de la connaissance du domaine (exprimée sous la forme de dépendances logiques entre variables). Ces dépendances logiques, exprimées par des règles, représentent des contraintes sur l'espace de description engendrée par les variables.
Une première approche utilisant une fonction de comparaison et une fonction d'agrégation a été proposée par De Carvalho (1994). Dans cette approche, la fonction de comparaison utilise l'union et l'intersection symboliques, et elle est inspirée des indices proposés pour traiter les tableaux binaires usuels. La fonction d'agrégation est basée sur la métrique de Minkowski. La prise en compte des dépendances logiques entre variables lors du calcul de la proximité entre une paire d'objets assertion booléen utilise une mesure positive, appelée potentiel de description, associée à chaque variable.
Cette année nous avons travaillé dans deux directions. D'une part nous avons proposée de nouveaux indices :
Le problème majeur lié à ces approches est celui de l'aspect combinatoire du temps de calcul lors de la prise en compte des dépendances logiques. Il augmente de manière exponentielle en fonction du nombre T de dépendances introduites. Une méthode permettant, moyennant quelques contraintes sur les dépendances, de retrouver un temps de calcul polynômial a été développée. Cette méthode est basée sur une normalisation des assertions booléennes est appelée Normal Symbolic Form (NSF). Elle n'est utilisable que lorsque les dépendances entre les variables forment des arbres, et non pas un graphe quelconque. Nous avons affiné notre travail en proposant une estimation plus précise de la complexité.
Participant : Edwin Diday , Richard Emillion
Notre objectif ici est d'expliquer et de commenter les
résultats apparus dans une note aux Comptes Rendus de l'Académie
des Sciences présentée par G. Choquet. Les treillis de Galois,
introduits par Birkhoff, sont définis par Barbut-Monjardet dans
le cadre général d'une correspondance de Galois, c'est-à-dire de
deux applications
(intension) et
(extension) décroissantes
avec
et
extensives (i.e.
), E et F étant deux
treillis.
Cependant la plupart des travaux récents sont seulement
effectués dans un cadre binaire. Or, il est intéressant de sortir
de ce cadre binaire car quand le nombre d'observations et de
propriétés augmentent, le nombre d'éléments du treillis peut
augmenter de façon exponentielle. On est alors amené à décrire
plutôt des classes d'observations associées à chaque individu par
des structures résumantes plus riches : on obtient des données
symboliques. On s'intéresse ici particulièrement au cas où les
cases du tableau de données contiennent des histogrammes, des
variables aléatoires ou leur loi. On se place dans le cadre
général suivant: I est un ensemble dénombrable d'individus,
E le treillis des parties de I et un treillis
-complet, tout
admettant une description
.
Voici quelques résultats obtenus :
sur les treillis de Galois maximaux : dans le cas
binaire, , pour
, décrit A et
, est l'ensemble des individus ayant au moins z
pour description. Il est alors intéressant, dans le cas général,
d'avoir une description et une extension maximale. Nous avons
démontré l'existence et l'unicité d'un Treillis de Galois
vérifiant ces maximalités lorsque la description des individus
est imposée.
sur les capacités et crédibilités dans les treillis de
Galois : lorsque la description d'un individu est une mesure,
par exemple une loi de probabilité, les capacités et les
crédibilités apparaissent naturellement dans les descriptions
données précédemment. On montre que si est une mesure
-additive, on obtient un treillis de Galois de capacités
- sous ou sur - additives.
sur les treillis de Galois stochastiques : on étudie le
cas des descriptions d'individus par des v.a. ou des lois. Dans
certains cas pratiques, seuls les histogrammes empiriques sont
disponibles, dans d'autres, on dispose des échantillons. Nous
étudions également des problèmes de convergence quand la taille
des échantillons augmente. On peut interpréter chaque noeud d'un
treillis stochastique par : la
capacité des individus de A à atteindre l'objectif
V. Les convergences s'interprètent comme suit : à mesure que la
connaissance des objets s'améliorent (
)
les concepts (noeuds du treillis
) se précisent,
s'organisent et se stabilisent.
Participants : Ahlame Chouakria , Edwin Diday
L'extension de la méthode d'Analyse en Composantes Principales à des données intervalles se traduit par la visualisation sous forme de rectangles représentant des individus et/ou des variables dans les plans factoriels.
On propose, tout d'abord, une amélioration de la représentation graphique dans les plans factoriels à l'aide d'une procédure itérative visualisant les positions des rectangles pour différents niveaux de contributions et pour différents niveaux de qualités de représentation.
Cette méthode est ensuite généralisée, à l'aide d'une technique de pondération, à des contraintes portant sur les domaines des variables intervalles. Ces contraintes sont également visualisées et interprétées sur les plans factoriels.
Par ailleurs, on s'intéresse aussi à une autre méthode, largement utilisée dans le traitement des questionnaires et dans l'exploitation des enquêtes : l'Analyse des Correspondances Multiples (ACM). À défaut de méthodes pouvant analyser des données complexes, les questionnaires, en ACM, sont souvent conçus de façon à ce que les sujets soient contraints de répondre en choisissant une seule valeur, par exemple, une valeur d'intensité sur une échelle, ou une modalité parmi les modalités d'une variable qualitative.
Ainsi nous proposons une méthode s'appliquant à des données complexes, par exemple, des intervalles ou des ensembles finis de valeurs, décrivant de façon naturelle les réponses des sujets à des questionnaires d'enquêtes. Les réponses peuvent être structurées de manière plus complexes : taxonomies, graphes de contiguïté géographique ou temporelle, ...
Dans le cas des variables intervalles, on propose trois techniques de codage:
Afin de prendre en compte la structure a priori définies sur les données, nous proposons une méthode consistant à résoudre un problème d'optimisation sous contraintes linéaires.
Participants : Ghazi Bel Mufti , Patrice Bertrand
Nous nous plaçons dans le cadre d'un schéma de
rééchantillonnage, pour proposer des indices mesurant l'isolation
et la compacité d'une classe C générée par une
méthode de partitionnement appliquée à un ensemble
d'objets à classer. Le calcul de ces indices de
validité se décompose en trois étapes :
Dans un premier temps, nous avons déterminé trois cas
possibles lorsque l'on compare la classe C avec un
partitionnement de obtenu à l'aide de la méthode
, ces trois cas caractérisant trois types différents
d'isolation (resp. de compacité) de la classe C.
Ainsi à l'issue de N partitionnements réalisés sur
les N échantillons de même taille prélevés, on
calcule les fréquences d'apparition des trois types différents
d'isolation (resp. de compacité). Il en résulte que le triplet de
fréquences ainsi associé à la classe C peut alors
être représenté graphiquement, sur un plan, comme barycentre des
trois points équidistants qui sont associés aux trois types
possibles d'isolation (resp. de compacité).
Par ailleurs, toujours en utilisant le même schéma de rééchantillonnage, nous proposons trois nouveaux indices I, H et V qui mesurent respectivement l'isolation, la compacité et la validité d'une classe.
Les valeurs prises par ces indices ,
et
sont utilisées afin de tester l'hypothèse nulle
selon laquelle les données sont réparties de façon
uniforme dans l'enveloppe convexe des données initiales. Après
avoir simulé des jeux de données uniformément réparties, les
rééchantillonnages associés à ces données, permettent de
déterminer la distribution empirique des indices I, H et V sous
l'hypothèse nulle
, et donc de tester si les valeurs
observées sont en accord avec cette hypothèse nulle. Finalement,
l'évaluation de C est constituée des trois seuils
de signification qui sont les résultats des tests précédents.
Nous avons réalisé de nombreuses simulations afin de tester la sensibilité des trois indices I, H et V aux variations de multiples facteurs : lois de distribution des points de chaque classe, forme et séparation des classes, degré d'homogénéité de la classe, présence d'un bruit sur les données, méthode de classification utilisée, paramètres relatifs à la procédure de validation. Pour chaque type de simulation ainsi réalisée, nous avons calculé les valeurs des indices I, H et V et comparé les valeurs obtenues à celles prises par l'indice U de Gordon (1994). Ces simulations ont montré que l'indice V proposé est pertinent et plus sensible que l'indice U de Gordon.
Participants : Vincent Leprince , Patrice Bertrand
En analyse de données, il existe plusieurs méthodes de
sériation, i.e. des méthodes ayant pour but d'ordonner un
ensemble fini d'objets, ces objets pouvant être les individus ou
les variables d'un tableau de données. La relation d'ordre
générée par une méthode de sériation sur l'ensemble des objets,
peut être soit totale (sériation totale) soit partielle
(bloc-sériation).
Notre approche se place dans le cadre de données se présentant
sous la forme d'un tableau de dissimilarités entre objets. La
pertinence de la relation d'ordre obtenue est évaluée à l'aide
d'un critère d'adéquation qui compare la relation d'ordre à la
préordonnance associée au tableau de dissimilarités entre les
objets. La seule valeur du critère d'adéquation est insuffisante
pour déterminer si la sériation obtenue est globalement optimale.
En effet, cette valeur numérique n'est pas uniquement fonction de
l'adéquation entre les données et la sériation évaluée, mais
dépend également du nombre d'objets traités, de la dimension de
l'espace, ainsi que du type de variables utilisées. Pour obtenir
une estimation plus intrinsèque du degré de sériation des
données, nous proposons une procédure, basée sur la méthode de
Monte-Carlo, qui est analogue, dans son principe, à la méthode de
validation d'une classe proposée par Gordon (1994) en
classification automatique. Plus précisément, le principe de
cette procédure est de déterminer (de façon empirique) la loi
suivie par le critère d'adéquation dans le cas où les données
suivent un modèle nul d'absence de sériation, par exemple dans le
cas où les données sont uniformément réparties dans une
hypersphère. Le degré de sériation est alors évalué par le seuil
de signification du test de l'hypothèse nulle :
``les données examinées suivent le modèle nul''.
Après avoir étudié le cas des variables continues, nous avons
examiné le cas des variables binaires en effectuant de nombreuses
simulations ayant pour paramètres les paramètres du modèle nul,
le nombre d'individus et le nombre de variables.
Finalement, nous proposons un critère d'adéquation général, qui permet d'évaluer le degré de sériation de données lorsque la méthode génère une bloc-sériation.