Mots clés : Web sémantique, typage,
documents semi-structurés, spécification, maintenance,
évolution, sites Web, sémantique formelle, génie logiciel
.
Concevoir et maintenir un système d'informations
hypertexte comme un site Web est une tâche difficile. Il est
beaucoup plus facile de trouver des informations
inconsistantes qu'un site bien maintenu sur Internet. Notre
but est d'étudier et de construire les outils nécessaires à
la conception, à la production et à la maintenance de sites
complexes et cohérents avec une approche pluri-diciplinaire
(GL et IA).
Il existe un très fort parallèle entre un document
structuré (tel qu'un site Web) et un programme, et le monde
du Web est un très bon utilisateur d'idées développées il y a
plusieurs années dans le monde du génie logiciel : la
notion de syntaxe abstraite se retrouve dans un langage tel
que XML et les DTD de même que l'idée de séparation entre
structure et présentation concrète.
Jusqu'à présent, le monde du Web s'est principalement
intéressé à la présentation des pages (HTML, CSS, XSL) et à
la structure syntaxique du contenu des pages (XML), mais très
peu à la sémantique des sites. Notons cependant les efforts
du consortium W3C autour du ``Web sémantique'' (XML, RDF et
``RDF schema'') ainsi que certains travaux de recherche issus
de l'IA basés sur une approche ontologique comme
WebMaster [HM99]. Notre approche diffère dans le
fait que nous voulons exploiter plus loin le parallèle entre
programmes et sites Web pour mieux aborder la sémantique
formelle des sites.
Il existe (au moins) deux sens au terme ``sémantique'' :
ce peut être l'étude scientifique du sens des unités
linguistiques, mais aussi l'étude de propositions d'une
théorie déductive du point de vue de leur vérité ou de leur
fausseté. C'est à cette dernière définition que nous voulons
nous référer en formalisant une partie du contenu des
systèmes d'information.
Nous pouvons d'ores et déjà distinguer les ``aspects
statiques'' d'un site qui peut être vu comme un ensemble
de contraintes globales (pas seulement syntaxiques, mais
aussi sémantiques et dépendantes du contexte) qui doivent
être vérifiées et la ``aspects dynamiques'' qui
prend en compte la navigation d'un utilisateur dans un site
et rejoint donc l'analyse des usages. Pour les aspects
dynamiques, nous pensons à moyen terme, formaliser les
notions de qualité et de fiabilité d'un site en faisant un
parallèle avec la notion de preuve de programme.