Précédent : Présentation générale et
objectifs Remonter : Action SODAS, Structures de classification
Suivant : Grands domaines d'application
Nous avons orienté notre action vers l'étude et le traitement de vastes ensembles de données complexes en vue d'en extraire des connaissances synthétiques (par exemple, sous forme de structures de classification ordonnées, de graphiques d'interprétation ou de règles d'aide à la décision). Le thème privilégié de l'action est la détermination d'une structure de classification à l'aide d'algorithmes optimisant un critère d'ajustement. Une validation statistique des classifications obtenues est nécessaire, car nous ne possédons qu'un échantillon de notre population. Les applications de cette approche sont nombreuses et concernent des domaines aussi variés que le traitement d'enquêtes, la reconnaissance des formes, le génome humain, l'environnement et l'océanographie.
Dans le domaine de la classification automatique, c'est-à-dire la recherche d'une structure en classes homogènes d'un ensemble de données, nous nous intéressons tout particuliérement à l'étude de la classification pyramidale introduite par E. Diday (1984) et à la méthode des cartes topologiques de Kohonen (1984).
La structure pyramidale, représentant un indice de dissimilarité entre objets par une famille d'intervalles d'un ordre total entre les objets, est une extension de la structure hiérarchique bien connue dans le domaine de la classification. D'une part, nous cherchons à mesurer le degré de sériation qui est induit sur l'ensemble des objets par chaque classification pyramidale. D'autre part de façon plus théorique, nous cherchons à introduire un cadre unifiant divers types de classifications stratifiées, i.e. la classification pyramidale et les hiérarchies faibles.
L'algorithme des cartes auto-organisatrices de Kohonen est l'un des modèles neuronaux les plus anciens dans le cadre de l'apprentissage non supervisé. Un grand nombre de résultats théoriques, maintenant disponibles, explicitent les liens entre ce modèle et les méthodes de classification automatique. En utilisant le formalisme des Nuées Dynamiques et la principale caractéristique du processus d'auto-organisation de Kohonen qui est de permettre une adaptation des poids en fonction du voisinage du neurone le plus actif et non, comme pour la méthode des Nuées Dynamiques uniquement en fonction du neurone le plus actif, nous avons proposé plusieurs variantes de l'algorithme initial.
Comme nous ne possédons qu'un échantillon de notre population l'étude de la robustesse et de la validation des résultats ainsi que de la mise au point d'outils d'interprétation est indispensable. L'étude de la validation est abordée au niveau des classes de la structure classificatoire et des outils d'interprétation des structures pyramidales sont développés. L'approche de validation des classes obtenues à l'issue d'une classification automatique étudie la stabilité des résultats de la classification, après rééchantillonnage des données.
A partir de connaissances a priori se présentant sous la forme d'une partition fournie par les experts ou obtenue par une méthode de classification automatique, et à partir d'un ensemble de descripteurs, nous cherchons à extraire des règles de décision explicatives. Les réseaux de neurones ont été utilisés pour améliorer les fonctions d'aide à la décision, l'architecture de ces réseaux est construite à partir d'un arbre de classification. Nous avons généralisé les méthodes de segmentation aux tableaux de données complexes.
Notre intérêt dans l'utilisation des réseaux de neurones est du, au fait, que les principes généraux et les techniques fondamentales de l'inférence statistique, s'appliquent aux réseaux de neurones formels car ce sont des modèles statistiques d'une très grande flexibilité. Cette flexibilité du modèle est liée au choix de l'architecture. L'adéquation du modèle aux données est réalisée par les connexions et des poids entre les cellules de l'architecture. Toutefois, malgré leur flexibilité et leur universalité, les réseaux de neurones ne peuvent se soustraire aux limites intrinsèques de toute modélisation statistique, et plus particulièrement aux limites de l'estimation non-paramétrique, notamment au dilemme biais/variance. Ce dilemme se résume à un compromis entre l'augmentation de la complexité de l'architecture du réseau et le fait que cette augmentation entraîne une dégradation du taux de classement en généralisation, bien qu'il y ait une meilleure adaptation du réseau à l'ensemble d'apprentissage.
Afin de décrire de façon succincte de grands ensembles de données sans perdre trop d'informations, on est conduit à utiliser des descriptions d'objets plus complexes décrits par des données dites « symboliques » car elles ne peuvent se manipuler comme des nombres.
Tout en réduisant le tableau de données initiales, ces unités statistiques doivent perdre un minimum d'informations. Il en résulte de nouveaux tableaux de données plus complexes appelés «tableaux de données symboliques » car chacune de leurs cases ne contient plus nécessairement une valeur qualitative ou quantitative unique, mais par exemple, des valeurs multiples, un intervalle, un histogramme, une variable aléatoire, une loi de probabilité, une fonction ou une règle de dépendance. C'est pourquoi, il en résulte le besoin d'analyser de telles données en étendant l'Analyse des Données standard à ce que l'on a appelé l'Analyse des Données Symboliques.
Soit W un ensemble dit des individus, D un ensemble
dit des descriptions, y une application de W dans D. D
est muni d'un opérateur R définissant une relation dite de
"comparaison" (par exemple, une relation d'ordre) entre deux
descriptions. On note le résultat de
la comparaison de deux descriptions d et
par cet
opérateur, dans un ensemble L qui peut être {vrai, faux} ou
.
Un objet symbolique est une description cohérente
munie d'une fonction permettant de la comparer avec une
description quelconque d'individu. Pour fixer les idées, une
assertion constitue un exemple simple d'objet
symbolique: c'est un couple où a est une
application de l'ensemble des individus dans L (identique à
{vrai, faux } dans le cas dit booléen et à [0, 1] dans
le cas dit modal) et d est une description. Par exemple,
dans l'étude démographique du statut social des familles, on peut
avoir l'assertion:
qui représente l'objet symbolique
avec
tel que:
L'intérêt des objets symboliques est au moins de trois ordres: d'abord, parce qu'ils donnent un résumé explicatif et proche du langage initial de l'utilisateur. Ensuite, parce qu'ils sont indépendants des données initiales et sont capables de calculer le degré d'appariement avec tout individu d'un tableau de données quelconque utilisant les mêmes variables. Enfin, parce qu'ils peuvent être issus d'un tableau de données classique et fournir un tableau de données symboliques, point de départ d'une nouvelle analyse de plus haut niveau de connaissances.