Action Sodas

previous up next contents
Précédent : Présentation générale et objectifs Remonter : Action SODAS, Structures de classification Suivant : Grands domaines d'application



Fondements scientifiques

Afin d'extraire des connaissances de vastes ensembles de données on est amené à les résumer en de plus petits ensembles d'unités statistiques décrivant des classes. Tout en réduisant le tableau de données initiales, ces unités statistiques doivent perdre un minimum d'informations. Il en résulte de nouveaux tableaux de données plus complexes car chacune des cellules de ces tableaux ne contient plus nécessairement une valeur unique.

Nous avons orienté notre action vers l'étude et le traitement de vastes ensembles de données complexes en vue d'en extraire des connaissances synthétiques (par exemple, sous forme de structures de classification ordonnées, de graphiques d'interprétation ou de règles d'aide à la décision). Le thème privilégié de l'action est la détermination d'une structure de classification à l'aide d'algorithmes optimisant un critère d'ajustement. Une validation statistique des classifications obtenues est nécessaire, car nous ne possédons qu'un échantillon de notre population. Les applications de cette approche sont nombreuses et concernent des domaines aussi variés que le traitement d'enquêtes, la reconnaissance des formes, le génome humain, l'environnement et l'océanographie.

Classification automatique



Participant : Patrice Bertrand , Marie Chavent , Marc Csernel , Edwin Diday , Yves Lechevallier , Vincent Leprince , Ghazi Bel Mufti , Véronique Stéphan


Mots-clés : Classification automatique, algorithme d'optimisation, apprentissage de connaissances


Dans le domaine de la classification automatique, c'est-à-dire la recherche d'une structure en classes homogènes d'un ensemble de données, nous nous intéressons tout particuliérement à l'étude de la classification pyramidale introduite par E. Diday (1984) et à la méthode des cartes topologiques de Kohonen (1984).

La structure pyramidale, représentant un indice de dissimilarité entre objets par une famille d'intervalles d'un ordre total entre les objets, est une extension de la structure hiérarchique bien connue dans le domaine de la classification. D'une part, nous cherchons à mesurer le degré de sériation qui est induit sur l'ensemble des objets par chaque classification pyramidale. D'autre part de façon plus théorique, nous cherchons à introduire un cadre unifiant divers types de classifications stratifiées, i.e. la classification pyramidale et les hiérarchies faibles.

L'algorithme des cartes auto-organisatrices de Kohonen est l'un des modèles neuronaux les plus anciens dans le cadre de l'apprentissage non supervisé. Un grand nombre de résultats théoriques, maintenant disponibles, explicitent les liens entre ce modèle et les méthodes de classification automatique. En utilisant le formalisme des Nuées Dynamiques et la principale caractéristique du processus d'auto-organisation de Kohonen qui est de permettre une adaptation des poids en fonction du voisinage du neurone le plus actif et non, comme pour la méthode des Nuées Dynamiques uniquement en fonction du neurone le plus actif, nous avons proposé plusieurs variantes de l'algorithme initial.

Comme nous ne possédons qu'un échantillon de notre population l'étude de la robustesse et de la validation des résultats ainsi que de la mise au point d'outils d'interprétation est indispensable. L'étude de la validation est abordée au niveau des classes de la structure classificatoire et des outils d'interprétation des structures pyramidales sont développés. L'approche de validation des classes obtenues à l'issue d'une classification automatique étudie la stabilité des résultats de la classification, après rééchantillonnage des données.

Partitionnement récursif et identification



Participant : Mounir Asseraf , Yves Lechevallier , Emmanuel Périnel


Mots-clés : apprentissage automatique, algorithme d'optimisation, apprentissage de connaissances, estimation non paramétrique, modélisation statistique, réseaux de neurones


A partir de connaissances a priori se présentant sous la forme d'une partition fournie par les experts ou obtenue par une méthode de classification automatique, et à partir d'un ensemble de descripteurs, nous cherchons à extraire des règles de décision explicatives. Les réseaux de neurones ont été utilisés pour améliorer les fonctions d'aide à la décision, l'architecture de ces réseaux est construite à partir d'un arbre de classification. Nous avons généralisé les méthodes de segmentation aux tableaux de données complexes.

Notre intérêt dans l'utilisation des réseaux de neurones est du, au fait, que les principes généraux et les techniques fondamentales de l'inférence statistique, s'appliquent aux réseaux de neurones formels car ce sont des modèles statistiques d'une très grande flexibilité. Cette flexibilité du modèle est liée au choix de l'architecture. L'adéquation du modèle aux données est réalisée par les connexions et des poids entre les cellules de l'architecture. Toutefois, malgré leur flexibilité et leur universalité, les réseaux de neurones ne peuvent se soustraire aux limites intrinsèques de toute modélisation statistique, et plus particulièrement aux limites de l'estimation non-paramétrique, notamment au dilemme biais/variance. Ce dilemme se résume à un compromis entre l'augmentation de la complexité de l'architecture du réseau et le fait que cette augmentation entraîne une dégradation du taux de classement en généralisation, bien qu'il y ait une meilleure adaptation du réseau à l'ensemble d'apprentissage.

Analyse des données symboliques



Participant : Marie Chavent , Marc Csernel , Edwin Diday , Younès Hillali , Véronique Stéphan


Mots-clés : analyse de données, apprentissage de connaissances symboliques, représentation de connaissances


Afin de décrire de façon succincte de grands ensembles de données sans perdre trop d'informations, on est conduit à utiliser des descriptions d'objets plus complexes décrits par des données dites « symboliques » car elles ne peuvent se manipuler comme des nombres.

Tout en réduisant le tableau de données initiales, ces unités statistiques doivent perdre un minimum d'informations. Il en résulte de nouveaux tableaux de données plus complexes appelés «tableaux de données symboliques » car chacune de leurs cases ne contient plus nécessairement une valeur qualitative ou quantitative unique, mais par exemple, des valeurs multiples, un intervalle, un histogramme, une variable aléatoire, une loi de probabilité, une fonction ou une règle de dépendance. C'est pourquoi, il en résulte le besoin d'analyser de telles données en étendant l'Analyse des Données standard à ce que l'on a appelé l'Analyse des Données Symboliques.

Soit W un ensemble dit des individus, D un ensemble dit des descriptions, y une application de W dans D. D est muni d'un opérateur R définissant une relation dite de "comparaison" (par exemple, une relation d'ordre) entre deux descriptions. On note $[d' R d]\in L$ le résultat de la comparaison de deux descriptions d et $d'$ par cet opérateur, dans un ensemble L qui peut être {vrai, faux} ou $[0, 1]$.

Un objet symbolique est une description cohérente munie d'une fonction permettant de la comparer avec une description quelconque d'individu. Pour fixer les idées, une assertion constitue un exemple simple d'objet symbolique: c'est un couple $(a, d)$ où a est une application de l'ensemble des individus dans L (identique à {vrai, faux } dans le cas dit booléen et à [0, 1] dans le cas dit modal) et d est une description. Par exemple, dans l'étude démographique du statut social des familles, on peut avoir l'assertion: \begin{displaymath} StatutFamille_{32}(w) = [Travail(w) \in \{partiel, sans\}] \wedge [Age(w) \in \{3, 25, 30\}] \end{displaymath} qui représente l'objet symbolique $ s = (a, d)$ avec $d = (d_{1}, d_{2})$ tel que: \begin{displaymath} a(w)=[Travail(w) \in d_{1}] \wedge [Age(w) \in d_{2}] \end{displaymath}

L'intérêt des objets symboliques est au moins de trois ordres: d'abord, parce qu'ils donnent un résumé explicatif et proche du langage initial de l'utilisateur. Ensuite, parce qu'ils sont indépendants des données initiales et sont capables de calculer le degré d'appariement avec tout individu d'un tableau de données quelconque utilisant les mêmes variables. Enfin, parce qu'ils peuvent être issus d'un tableau de données classique et fournir un tableau de données symboliques, point de départ d'une nouvelle analyse de plus haut niveau de connaissances.



previous up next contents Précédent : Présentation générale et objectifs Remonter : Action SODAS, Structures de classification Suivant : Grands domaines d'application