Précédent : Grands domaines d'application
Remonter : Action OPÉRA-Rennes, Outils pour l'édition
Suivant : Actions régionales, nationales et
internationales
Résumé : On applique des algorithmes de comparaison de chaînes conçus pour l'étude du génome humain à l'analyse comparative de textes littéraires.
Les algorithmes de comparaison de chaînes (string to string comparison) sont relativement anciens (Aho, Knuth, ...) [Ste94] et ont servi de base aux produits comme le diff d'Unix. Mais ce sont les travaux sur le génôme humains qui les ont remis d'actualité, le problème étant par exemple de trouver les plus longues séquences génétiques, au point de construire des machines systoliques dédiées à cette classe de problèmes [ACQ95]. Ces méthodes, notamment celle de Swith & Waterman [SW81], consistent à calculer la distance entre deux textes en considérant les opérations de base (omission, insertion, etc. de mots) nécessaires pour passer de l'une à l'autre. On calcule récursivement une matrice de similarité en fonction d'un coût de substitution des mots.
Nous étendons cette classe de problèmes pour un vocabulaire non plus très limité (la vingtaine de lettres des acides aminés) mais pratiquement infini (les mots, voire les phrases, d'une langue donnée) et pour des textes littéraires faisant l'objet d'études de critique génétique. La taille des textes comparés oblige par ailleurs à manipuler des matrices de très grandes tailles.
Nous nous attachons plus particulièrement à la présentation du résultat de la comparaison de deux textes que nous manipulons en créant et visualisant un troisième texte, balisé selon la DTD de SGML dite TEI Text Encoding Initiative[BSM96] : ce document de synthèse met en évidence les similitudes et différences des deux textes tout en maintenant des liens hypertextes avec les textes originaux.
Cet algorithme a été intégré à Thot et appliqué à des extraits des Évangiles et à des versions successives de Féérie pour une autre fois de Céline [5,7]
Lorsque l'on compare des manuscrits, il est important de se référer aux images des manuscrits eux-mêmes. Pour celà, des zones actives de forme quelconque permettent de désigner avec précision des passages manuscrits sur une image numérisée. Les corrections manuscrites (ratures, ajouts) peuvent être représentées par un graphe, associé à la retranscription en clair du texte original (dit « diplomatique »).
L'utilisation de feuilles de style (Style sheets) apparait actuellement comme une méthode très puissante permettant de présenter n'importe quel document électronique. Appliquées à des documents structurés, les feuilles de style permettent de spécifier la mise en page et la typographie de documents, indépendamment de leur contenu.
Un certain nombre de langages ont été proposés pour écrire ces feuilles de style : le langage P de Thot, DSSSL (Document Semantic Specification Language) pour les documents SGML, CSS (Cascading Style Sheet) pour les documents HTML et plus récemment XSL (eXtensible Style Language) proposé pour les futurs documents XML du Web. Ainsi, la création d'une feuille de style consiste à écrire une spécification en utilisant ces langages.
Outre que cette opération suppose une bonne maitrise des langages de spécification (procéduraux ou déclaratifs), elle requiert également une bonne compréhension des modèles de documents (structure logique ou DTD en SGML) et surtout une réelle intuition permettant de prévoir les effets visuels qui seront obtenus par de telles spécifications appliquées à un document par un processus de formattage.
Des méthodes de spécification interactives offrant une visualisation immédiate du document formatté sont donc bienvenues : le maquettiste peut ainsi se concentrer uniquement sur l'aspect visuel de son document et n'a pas à s'occuper de la programmation de la feuille de style. Notre objectif est de faciliter ce mode « direct » de spécification générique. Nous proposons donc une méthode interactive basée sur un éditeur-formatteur avec lequel il est possible de modifier les règles de style de n'importe quel élément d'un document.
La complexité du problème tient surtout à la transformation de règles typographiques spécifiques en règles génériques : le système d'édition déduit la règle de style générique en fonction du contexte dans lequel se trouve l'élément dont le style est modifié (règle spécifique). En cas d'ambiguïté, l'arbitrage de l'utilisateur est nécessaire.
La qualité d'un tel système repose sur le mécanisme de contrôle qui garantit que la feuille de style ainsi produite sera applicable à n'importe quel document de la même classe logique. Une première approche, basée sur le graphe de dépendance construit à partir des règles de style est en cours d'études. Une autre approche, basée sur une méthode de satisfaction de contraintes pourra ête envisagée.
Un prototype d'éditeur interactif de règles génériques (EDITP) est en cours d'expérimentation.