Projet Verso

previous up next contents
Précédent : Présentation générale et objectifs Remonter : Projet VERSO, Bases de Données Suivant : Grands domaines d'application



Fondements scientifiques

Bases de données à objets, hétérogénéité et le Web

 Mots-clés : hétérogénéité, intégration, WWW, schémas, documents, semi-structure, langage de requêtes


Les systèmes de bases de données gèrent des données structurées conformément à un schéma donné par un administrateur. Cette forte structuration ne facilite pas les échanges. Jusqu'à ces dernières années, ces systèmes communiquaient peu et essentiellement entre eux via le standard SQL. Le World-Wide-Web a changé cela. Ouverture est maintenant le maître mot de la problématique liée à la recrudescence des échanges électroniques. Les éditeurs de logiciels de gestion de bases de données ont pour la plupart une équipe connectivité dont l'objectif est de permettre l'échange de données entre leur système et d'autres, aux modèles moins structurés et potentiellement très différents (par exemple, SGML pour le texte ou ASN.1 pour certaines données techniques).

Dans ce domaine, l'industrie est d'ailleurs plus rapide que la recherche. Cette rapidité a cependant un prix : de nombreux outils de connectivité disponibles actuellement sont construits de façon ad hoc. Ils n'offrent que peu ou pas de déclarativité. En d'autres termes, ces outils sont peu performants ou requièrent de l'utilisateur une grande maîtrise du système et des langages de programmation.

Le projet Verso a une longue expérience dans le domaine des outils déclaratifs et des techniques d'optimisation qui s'y attachent. Il est donc naturel que nous nous intéressions à cette nouvelle problématique.

Un exemple d'application devrait permettre de clarifier la thématique et de préciser les besoins auxquels les contributions de Verso répondent. L'information sur le Web est tellement distribuée qu'elle est paradoxalement difficilement accessible. Une solution largement préconisée pour accroître la lisibilité consiste à créer des serveurs d'informations thématiques dont l'architecture repose sur un système fédérateur, généralement un système de gestion de bases de données. Le rôle de ce système est de centraliser toutes les données (textes, données relationnelles, etc), soit de façon virtuelle (lien vers d'autres serveurs ou systèmes), soit de façon concrète (stockage des données). Une interface HTML permet ensuite d'interroger les données depuis un navigateur Web.

Pour construire ce type d'applications, deux approches sont possibles. L'une consiste à utiliser un système de gestion de bases de données existant pour centraliser l'information. Ceci implique que l'on adapte les données extérieures au modèle de représentation du système. La seconde approche préconise un modèle de représentation plus souple (on parle alors de données semi-structurées) qui facilite l'intégration. Elle implique l'implantation de nouveaux systèmes ou l'assouplissement d'un système existant.

Verso étudie les deux approches. L'une et l'autre sont riches de problèmes intéressants. Notamment, elles requièrent l'extension ou le développement de nouveaux langages d'interrogation et des techniques d'optimisation adaptées à l'hétérogénéité et à la distribution des données.

Données spatiales et temporelles

 Mots-clés : spatio-temporel, contrainte, topologie, cartographie


Les données spatiales et temporelles posent des problèmes fondamentaux aux systèmes de gestion de bases de données, non seulement à cause de la taille considérable et en croissance constante de ces données, mais aussi à cause de la complexité des relations géométriques et topologiques qu'entretiennent ces données entre elles.

Nous nous sommes plus spécifiquement intéressés dans le projet à la définition de modèles de données et de langages de requêtes de haut niveau d'abstraction pour le temps et l'espace. Le cas du temps seul diffère fortement de celui de l'espace, puisqu'il bénéficie d'une longue tradition de formalisation en logique.

Deux modèles de représentation du temps coexistent, suivant que le temps est explicitement représenté comme une donnée, ou qu'il est seulement implicitement déclaré à l'aide d'opérateurs modaux, comme avant, pendant, etc. Nous avons étudié les pouvoirs expressifs de ces deux modes d'interrogation pour les bases de données temporelles, pour les comparer entre eux et pour les améliorer, et nous avons résolu l'un des problèmes ouverts fondamentaux du domaine, à savoir la séparation de la logique du premier ordre avec temps explicite de la logique des transactions, TL.

Pour ce qui est de l'espace, nous étudions un modèle de données, qui permet de représenter explicitement des objets spatiaux, tels que les polygones, comme l'ensemble infini des points qu'ils contiennent. Ce modèle est basé sur l'approche par contraintes, dans laquelle un objet géométrique est représenté par une formule de la logique du premier ordre. Dans les systèmes d'information spatiale, il n'y a pas de couche logique qui permet à l'utilisateur d'avoir une vue des données indépendante de la représentation physique. Le modèle contraintes permet précisément de définir cette couche logique. Il permet aussi d'unifier le mode de représentation des données spatiales et des autres données alphanumériques. Dans les systèmes d'information spatiale ces deux types de données sont manipulés par des systèmes différents.

Nous avons étudié les propriétés formelles des langages de requête pour les données spatiales, et en particulier la complexité, et le pouvoir d'expression des primitives spatiales. Nous nous sommes intéressés à des langages pour la géométrie ainsi qu'à des langages restreints aux seules propriétés topologiques des données.

L'effort principal du projet dans ce domaine est aujourd'hui consacré à la réalisation d'un prototype de base de données spatiales, DEDALE implémenté sur le SGBD O2, en collaboration avec le CNAM. Le modèle de données est basé sur le modèle de bases de données avec contraintes. Les contraintes sont essentiellement restreintes aux contraintes linéaires sur les rationnels, ce qui suffit à la modélisation des données géographiques. Deux applications géographiques tournent déjà avec des données provenant de l'IGN et de Sequoia (un important jeu de données servant de référence pour les données géographiques). DEDALE permet aujourd'hui d'écrire des requêtes spatiales complexes dans un langage déclaratif. Certaines de ces requêtes sont difficilement exprimables dans les systèmes existants. Notre défi actuel est de réaliser l'optimisation de ces requêtes, qui sont exprimées indépendament de leur stratégie de calcul.

Systèmes de règles et workflow

Mots-clés : règles de production, base de données active, parallélisme, déduction, datalog, workflow, commerce électronique, calcul relationnel, non-déterminisme


Si les efforts principaux notamment en terme d'implémentation se situent autour des axes précédents, nous avons mené de front des travaux de nature plus exploratoire.

On notera qu'un nouvel axe du projet se dessine autour de la gestion des workflows dans des bases de données hétérogènes. Il s'agit d'abord de comprendre de manière générale quel support les bases de données peuvent apporter à la gestion de workflow. Plus concrètement, nous avons considéré une application particulière : le commerce électronique. Des aspects essentiels de ce domaine se situent dans un cadre bases de données traditionnel : accès à l'information, gestion de données distribuées, transactions, etc. D'autres aspects mettent en jeu plus directement des aspects workflow, c'est-à-dire, la gestion de tâches interdépendantes sur des systèmes hétérogènes, travaillant sur des données elles aussi hétérogènes. Des approches de type bases de données actives semblent prometteuses. Les règles de production de ces systèmes permettent de prendre en compte les aspects dynamiques des applications.

Il s'agit aussi, dans une certaine tradition de Verso, de travaux cherchant à mieux comprendre les mécanismes fondamentaux comme le parallélisme ou le non-déterminisme dans le cadre de la gestion de données. Ces travaux se situent à la confluence d'autres domaines comme la complexité ou la logique.



previous up next contents Précédent : Présentation générale et objectifs Remonter : Projet VERSO, Bases de Données Suivant : Grands domaines d'application