Mots clés : comportement utilisateur,
analyse des usages, sous-séquences fréquentes d'items,
navigation .
Participants : Doru Tanasa,
Brigitte Trousse.
Dans le cadre d'un stage de DEA [20], nous avons effectué des recherches sur
l'indexation de séquences temporelles en utilisant un arbre
des suffixes généralisé. Les séquences d'événements ont de
nombreuses applications. Citons les alarmes dans un réseau de
télécomunication, les données cliniques, les valeurs des
actions sur le marché boursier, les sessions des utilisateurs
d'un logiciel. Généralement on obtient ces séquences par
l'observation des valeurs de paramètres d'un processus
pendant une période de temps donnée.
Nos recherches sur l'indexation de séquences temporelles
s'intègrent dans nos celles sur les systèmes du type
Broadway. Pour une session de navigation d'un utilisateur
avec le système Broadway-Web par exemple, nous avons quatre
séquences temporelles (URL, contenu, évaluations explicite et
implicite). L'objectif de notre travail est de permettre une
recherche rapide de sessions similaires en termes de
sous-séquences fréquentes. Nous avons choisi d'indexer ces
sessions avec un arbre des suffixes généralisé qui permet la
recherche d'un patron en O(n) où n est la
longueur du patron recherché, structure principalement
utilisée pour l'indexation des chaînes de textes et des
séquences génétiques [Wei73,Gus97].
Nous avons implémenté un algorithme (appelé APRIORI-GST)
basé sur notre méthode d'indexation de sessions, n pour
l'extraction des patrons fréquents (sous-séquences fréquentes
d'items). La structure de base de l'algorithme est similaire
à celui d'Apriori [AS95]. L'originalité de notre approche
consiste dans l'utilisation de cet index (GST) pour
l'indexation des sessions de navigation Web. L'avantage de
cet index GST dans ce cas est double: 1) l'incrémentalité
qu'il apporte (on ne doit pas refaire l'index chaque fois que
la base de données des sessions change) et 2) lors de
l'extraction des patrons (par l'algorithme APRIORI-GST) on
utilise l'index pour calculer le support d'une séquence. Nous
avons présenté nos principaux résultats en [15,19].