Team AXIS

Members
Overall Objectives
Scientific Foundations
Application Domains
Software
New Results
Contracts and Grants with Industry
Other Grants and Activities
Dissemination
Bibliography
Inria / Raweb 2002
Project: AXIS

Project : axis

Section: Scientific Foundations


Keywords : analyse des usages , web usage mining , entrepot de données , fouille de données , sous-séquences fréquentes , classification .

ECD appliquées aux données d'usage

Rappelons en Fig. 2 les quatre étapes du processus ECD. a) L'étape de sélection des données vise tout d'abord à extraire d'un entrepôt de données ainsi constitué les ensembles d'informations utiles aux méthodes de fouille de données. b) L'étape de transformation des données concerne quant à elle l'utilisation de "parseurs" construisant les tableaux de données directement utilisables par les algorithmes de l'ECD. c) Les techniques de fouille de données utilisées peuvent être l'extraction de règles d'association, la découverte des motifs séquentiels, la recherche de structures classificatoires.d) Enfin la dernière étape est de permettre une réutilisation dans l'analyse de l'usage des résultats obtenus par les techniques de fouille de données.

Les recherches en ECD appliquées aux données d'usage sont motivées par un double but : augmenter les usages d'un SI ou améliorer le SI en confrontant les informations structurelles du SI aux résultats de l'analyse de l'usage.

Figure 2. Les différentes étapes du processus d'ECD
Images/ECD

a) Sélection et transformation des structures de données

Les méthodes ECD envisagées s'appuieront sur la notion de session dont la représentation peut être realisée avec l'aide d'un modèle tabulaire (items), d'un modèle des règles d'association (séquences d'items) ou enfin d'un modèle de graphe. Cette notion de session permet d'intervenir au bon niveau dans l'extraction de connaissances à partir des fichiers logs. Notre objectif est que nos outils de pré-analyse puissent construire des résumés et générer des statistiques sur ces résumés. A ce niveau de formalisation nous pouvons, introduire des règles et des graphes, définir des structures hiérarchiques sur les variables, extraire des séquences temporelles et donc, constituer de nouveaux types de données en utilisant des méthodes d'ECD.

Enfin, comme les méthodes d'analyse viennent de divers domaines de recherches ( Analyse de données, statistique, Data Mining, Intelligence artificielle,...), une transformation des données en entrée et en sortie de ces programmes est nécessaire et sera contrôlée par des traducteurs. Les données en entrée seront issues des bases de données ou bien d'un fichier d'un format standard (XML) ou d'un format propriétaire.

Nous insistons sur l'importance de cette étape dans le processus d'extraction des connaissances.

b) Extraction des règles d'associations

L'objectif de nos outils de pré-analyse ou opérateurs de généralisation définis dans le paragraphe précédent est de construire des résumés et de générer des statistiques sur ces résumés. A ce stade de la formalisation, nous pouvons introduire des règles et des graphes, définir des structures hiérarchiques sur les variables, extraire des séquences temporelles et donc, constituer de nouveaux types de données en utilisant des méthodes de recherche d'ensembles fréquents ou des règles d'associations.

Ces méthodes ont été introduites en 1993 par R. Agrawal, T. Imielinski et A. Swami, chercheurs en bases de données au Centre de Recherche IBM d'Almaden. Elles sont aujourd'hui disponibles dans les logiciels du marché dits de « data mining » (Intelligent Miner d'IBM ou Entreprise Miner de SAS), essentiellement dans le domaine du commerce électronique.

Notre approche s'appuiera sur des travaux réalisées dans le domaine des opérateurs de généralisation et de construction de données agrégées. Ces résumés pourront être intégrés dans un mécanisme de recommandation pour l'aide à l'utilisateur.

Nous proposons d'adapter les méthodes de recherche d'ensembles fréquents ou des règles d'associations au Web Usage Mining. On pourra s'inspirer des méthodes utilisées dans le cadre du génome qui présente quelques similarités avec notre problématique. Si l'objectif de l'analyse peut se formuler dans un cadre décisionnel alors des classifieurs pourront identifier des groupes d'usage basés sur les règles extraites.

c) Découverte des motifs séquentiels

La connaissance de l'utilisateur permet une recherche des motifs séquentiels qui sont des règles d'associations entre sessions ordonnées dans le temps. Les résultats obtenus par les algorithmes d'extraction classiques ne sont pas suffisamment précis si l'on souhaite analyser de manière détaillée le comportement des utilisateurs ou des clients au cours du temps. Les possibilités offertes par l'analyse d'un log nous semblent dépasser le cadre de l'utilisation qui en est faire à l'heure actuelle. En effet nous pouvons envisager de travailler sur la qualité et la pertinence des résultats obtenus de différentes manières en prenant en compte la temporalité des résultats, en proposant une classification sur les résultats (pour mieux cibler les catégories de population) en considérant une information textuelle (pour filtrer avant d'analyser) ou encore en prenant en compte la structure du site lors de l'extraction de motifs.

d) Recherche des structures classificatoires

De plus l'intégration du niveau session utilisateur améliore la qualité de l'information à analyser et permet d'utiliser des méthodes de classification ayant une modélisation sous-jacente plus complexe. Partant de ces informations un découpage de notre population en groupes homogènes rend la modélisation de notre problème plus facile. L'objectif de cette classification est de pouvoir comparer les parcours des usagers dans le site de référence. L'extraction et l'interprétation de certains comportements types peut aider, d'une part le webmaster à restructurer son site et d'autre part les futurs usagers du site à rechercher une information.

En fonction des objectifs, nous proposons d'élaborer une méthode de classification bien adaptée. Cette adaptation sera exprimée sous la forme d'une optimisation d'un critère sous-jacent aux objectifs. Par exemple quand l'aide à la conception d'un site se résume en la mise en correspondance d'informations issues de l'architecture du site et de l'analyse des sessions d'usagers, alors la classification croisée peut être une bonne approche car elle permet de construire simultanément des classes de sessions et des classes de pages (rubriques).

Une étape de validation est nécessaire pour évaluer si la structure en classes déterminée par l'algorithme représente bien le jeu de données étudié. Il s'agit alors de tester si la valeur d'un critère d'adéquation entre la structure en classes obtenues et les données est significativement différente des valeurs prises par ce critère sur des jeux de données simulés sous une hypothèse d'absence de structure.

Une autre difficulté résulte de la taille de plus en plus conséquente de l'ensemble des données traitées. Dans ce cas, les techniques usuelles de la modélisation statistique ne peuvent être appliquées sans précaution, car sur un ensemble suffisamment grand d'indicateurs statistiques calculés pour un jeu de données sans structure, il est très probable que certains d'entre eux aient une valeur significative. Dans ce cas, notre approche consiste à réaliser une structuration de l'espace de représentation par un processus classificatoire puis de réaliser une modélisation sur chaque classe obtenue. Cette modélisation est d'autant plus facile que la classe est homogène. Cette recherche de classes homogènes est maintenant indispensable dans l'analyse de grands ensembles de données pour la production de métadonnées dont le rôle est, non seulement, de "qualifier" la donnée mais surtout de guider son traitement.

D'autre part, le modèle d'indexation de situations comportementales utilisé dans nos systèmes de recommandations nous permet, dans un site donné, d'extraire - soit on-line soit off-line à partir des logs - des comportements jugés intéressants par l'analyste puis de les indexer.

Ces travaux s'inscrivent dans une analyse off-line de l'usage et feront appel à des méthodes d'analyse exploratoire de données et des méthodes numériques de classification. Ceci peut prendre la forme d'une analyse statistique et d'une classification des sessions ou de profils utilisateurs, et mener à un mécanisme de recommandation afin d'aider l'utilisateur.

Nous proposons de développer une vaste famille de méthodes de classification afin de répondre aux problèmes de l'analyse de l'usage et d'introduire systématiquement dans ces méthodes une étape de validation afin de pouvoir avoir de bons indicateurs de comparaison. Nous nous proposons de fusionner les approches IA et AD dans le cadre supervisé afin de développer une boîte à outils contenant un ensemble de méthodes de classification dédiées à l'analyse de l'usage.

e) Réutilisation dans l'analyse de l'usage.

Ce thème vise à réutiliser un résultat d'analyse précédente dans l'analyse courante : nous envisageons à court terme un premier travail relatif à une approche incrémentale de découverte de motifs séquentiels et à plus long terme un deuxième relatif à une approche basée sur des techniques de raisonnement à partir de cas.

A l'heure actuelle des algorithmes très rapides ont été développés pour rechercher efficacement des dépendances entre attributs (algorithme de recherche de règles d'associations) ou des dépendances entre comportements (algorithme de recherche de motifs séquentiels) dans de grandes bases de données.

Malheureusement, même si ces algorithmes sont très efficaces, ils prennent, selon la taille de la base de données, entre plusieurs minutes et plusieurs jours pour extraire des informations pertinentes et utiles. Aussi, la variation des paramètres offerts à l'utilisateur (support minimal et confiance), nécessite de relancer les algorithmes sans tenir compte des résultats précédents. De la même manière lorsque de nouvelles données sont ajoutées ou supprimées de la base, il est souvent nécessaire de relancer le processus d'extraction pour maintenir la connaissance extraite. Etant donnée la taille des données manipulées il est alors indispensable de proposer une approche à la fois interactive (variation des paramètres) et incrémentale (variation des données de la base) pour répondre le plus rapidement possible aux besoins de l'utilisateur final. Cette problématique est à l'heure actuelle reconnue comme un problème de recherche ouvert dans le cadre du Data Mining et même si quelques propositions existent, elles ne sont malheureusement pas satisfaisantes car elles ne permettent que de répondre partiellement à la problématique.


previous
next