Project : axis
Section: New Results
Sélection et transformation des structures de données
Participants : Mireille Arnoux, Marc Csernel, [F. A. T. De Carvalho], Aicha El Golli, Nathalie Evan, Sémi Gaieb, Miha Jurca, Yves Lechevallier, Doru Tanasa, Brigitte Trousse, [Rosanna Verde].
Extraction et construction de données agrégées
Keywords : généralisation , données agrégées .
En analyse de données, la méthode de généralisation permet d'agréger les informations d'une base de données en décrivant des concepts sous-jacents aux données. Elle est non seulement un outil descriptif pour l'utilisateur mais aussi une étape intermédiaire permettant d'autres analyses sur ces concepts. Ayant un ensemble d'individus G de , ensemble de la population, le but de la généralisation est de construire une bonne représentation de G par un vecteur multidimensionnel résumant toutes les descriptions des individus (réel, binaire, catégories ou modalités...). Une méthode déjà adoptée consiste à associer à ce vecteur un poids et un scalaire résumant la dispersion de ces individus. Une seconde approche proposée dans le cadre de l'analyse de données symbolique, permet de résumer un ensemble d'observations par une description symbolique (intervalle, distribution, ...).
Cette année nous avons développé un nouvel opérateur de généralisation . Celui-ci construit un ensemble de classes homogènes qui peuvent être modèlisées sous la forme d'objets symboliques. L'objectif est d'extraire d'un ensemble de bases de données relationnelles, en utilisant l'opérateur de généralisation proposé par Véronique Stéphan dans sa thèse, un ensemble d'assertions décrivant les concepts à analyser. Si la description de certains concepts est assez hétérogènes alors nous proposons une méthode de classification divise afin améliorer la qualité de cette description. Cette nouvelle description est formalisée par une disjonction d'assertions. Cette approche a été introduite dans DB2SO utilisé par le logiciel d'analyse de données symboliques SODAS dans le cadre du projet européen ASSO. Ce dernier permet de créer des objets symboliques à partir des bases de données relationnelles. Dans la première version de ce logiciel, DB2SO permettait de regrouper les observations appartenants au même groupe et les généraliser par une description symbolique qu'on appelle "assertion". Certaines de ces assertions incluent des observations atypiques. Dans la nouvelle version des améliorations ont été effectuées. Ces améliorations permettent de généraliser chaque groupe par une disjonction d'assertions, ce qui a permis d'avoir des descriptions plus homogènes et de meilleure qualité. Pour cela, une étape de décomposition a été ajoutée au processus de généralisation. Cette décomposition appliquée à chaque groupe est basée sur un algorithme de classification divisive.
Forme Normale Symbolique appliquée à la transformation de données
Keywords : distance , espace de description , Forme Normale Symbolique .
La Forme Normale Symbolique (FNS), inspirée de la 3ème Forme Normale des base de données relationnelles, consiste à factoriser les descriptions des objets symboliques selon les contraintes exprimées par des règles entre les variables de telle façon que seulement la partie cohérente de ces objets soit représentée.
Une nouvelle version de notre bibliothèque de transformation et manipulation de données (écrite en C++) a été mise au point par M. Csernel avec l'aide des étudiants de l'université de Recife en collaboration avec F.A.T. de Carvalho (cf. projet CLADIS). Cette nouvelle version intègre la possibilité de travailler avec des données intervalles.
Un premier essai, réalisé en collaboration avec Rosanna Verde, de traduction manuelle au format F.N.S d'un tableau de données intervalles nous a permis d'évaluer la possibilité d'introduire cette nouvelle version dans les programmes actuellement développés dans ASSO.
Pré-traitement de logs HTTP multi-sites
Keywords : logs HTTP , fusion de données , multi sites , Web .
Nous avons établi une méthodologie pour le pré-traitement des fichiers logs Web avant d'appliquer des méthodes de fouille de données sur ces logs issus de sites différents. Le pré-traitement consiste dans le filtrage et nettoyage de ces logs dans le but d'éliminer les requêtes pour les images, les requêtes provenant des robots Web et former en suite des sessions de navigations. Les données ont été rendus anonymes pour permettre en suite l'analyse par des étudiants du STID. Nous avons implémenté cette méthode sous forme des scripts Perl que nous aons appliquée sur trois mois de logs Web (Novembre 01 - Janvier 02).
Persistance et exploitation de logs comportementales des utilisateurs d'un site Web
Keywords : persistance , modèle relationnel , logs , Web .
Cette année nous avons revisité le modèle relationnel de logaudience issue d'une première capitalisation des diverses modélisations des sessions des internautes naviguant sur le Web ou dans un site Web réalisées ces dernières années (contrat FT CTI, prédiction du comportement utilisateur, etc.) lors de la conception de systèmes de recommandations.
Cette année fut l'occasion dans le cadre de notre projet Colors e-behaviour (cf. 6.8) de revisiter notre modèle relationnel de notre boite à outils logaudience de sorte 1) à bien séparer les données brutes des données d'usage en vue d'une analyse et 2) à y intégrer les traces des comportements visuels des internautes. Ce travail s'est fait dans le cadre du projet DESS de Nathalie Evan (2001-2002) (resps : M. Arnoux et S. Gaieb) s'intitulant : "Persistance et exploitation des données comportementales des utilisateurs d'un site web" Celui-ci s'intégrait dans le développement d'un système de recommandation adaptatif basé sur l'approche Broadway. Un effort particulier a été fat sur la structuration et le traitement des données relatives aux comportements visuels et non visuels des internauets. Le suivi des données comportementales était assez fin car enrichi par un suivi visuel (dispositif Eye tracking) ; de plus il était important de collecter des données historisées et aussi de les agréger notamment par rapport aux sessions des utilisateurs. Nous avons donc choisi de construire un entrepôt de données. Les faits essentiels correspondent aux accès aux pages web avec pour dimensions principales la session, le temps et la page. La dimension page peut être considérée sous l'angle de plusieurs hiérarchies selon une organisation physique ou logique ; nous avons retenu tout d'abord la vision qui correspond à un annuaire thématique avec un parcours arborescent illustré par l'annuaire des rapports INRIA de 2001 (cf. 4).
Transformation de données spatiales
Keywords : Analyse des données symbolique , fouille de données spatiales .
L'encadrement du stage de DEA de Tao Wan a été réalisé conjointement par Karine Zetouni de l'UVSQ et Yves Lechevallier . La fouille de données spatiales (dite data mining spatial) répond à un besoin réel de nombreuses applications en permettant de tirer profit de la disponibilité croissante de données localisées et de leur richesse potentielle. Il se caractérise par l'introduction des relations spatiales dans l'analyse.
L'objectif de ce stage est de réaliser une étude bibliographique sur le sujet de la fouille de données spatiales et d'introduire les spécificités des données spatiales dans les méthodes d'arbre de décision.
Cette étude s'est appuyée sur une base de données correspondant à un échantillon représentatif d'accidents routiers (plus de 10 000 accidents) fournie par l'INRETS.
Durant ce stage une conversion du schéma de la base de données relationnelles des accidents routiers en un tableau de données symboliques a été faite. Le logiciel SODAS a été utilisé pour réaliser une analyse de ce tableau.
Améliorations de notre boite à outils de classification
Cette année les améliorations de notre boite à outils de la classification ont principalement été sur les deux parties suivantes :
Interfaces communes
Le travail a consisté à regrouper les outils et les méthodes de classification (utilisant notre bibliothèque de transformation et d'exploitation des données développées dans AxIS via une interface commune. Ainsi chacun peut intégrer facilement sa méthode de classification, la tester et la comparer avec les autres méthodes. Actuellement deux interfaces ont été réalisées : une en C++ et une sur le Web ( stage de M. Jurca) offrant ainsi un serveur intranet dans l'équipe.
Visualisation des cartes de Kohonen
La représentation "classique" des cartes de Kohonen consiste en un ensemble de U cellules disposées en réseau. La structure du réseau est libre mais généralement une grille est choisie comme structure de visualisation. Durant son stage de DEA, Tarek Ait-Mohamed (resp : Y. Lechevallier) a proposé trois nouvelles formes de description des cellules et une première version écrite en Java. Ces descriptions ont été construites à partir du vecteur de pondération associé à chaque cellule de la carte.