Précédent : Logiciels Remonter : Projet ALGO, Algorithmes Suivant :
Actions industrielles
Participants : Philippe Dumas , Philippe Flajolet ,
Xavier Gourdon , Michèle Soria
Un test en vrai
grandeur des méthodes de la combinatoire analytique (voir la
section ) portant sur certaines
des configurations de base de la géométrie Algorithmique a
été conduit en collaboration avec M. Noy (Barcelone). Il
fournit des résultats en distribution très précis pour toutes
les configurations qui sont ``sans croisement''. En d'autres
termes, la combinatoire analytique permet d'élaborer une
théorie très complète du comportement de graphes planaires
aléatoires. De même, ces méthodes ont été appliquées avec
succès à l'analyse de motifs dans l'important modèle des
arbres binaires de recherche aléatoires (Flajolet, Gourdon,
et Martinez de l'Université Polytechnique de Barcelone). Pour
la première fois a pu être obtenue, par exemple, une
quantification très précise de ces arbres dans un contexte de
pagination [8].
Ces méthodes s'appliquent aussi à de nombreuses heuristiques de l'optimisation combinatoires. Un exemple est fourni par le ``bin packing''; il est montré dans un travail commun avec E. Coffman (Bell Labs, Lucent Technology) et M. Hofri (Rice University) [22] qu'un principe très simple d'allocation conduit à un Algorithme à la fois efficace (quasi-linéaire) en temps et quasi-optimal en espace perdu.
La gestion de tables de hachage en place s'effectue classiquement par la méthode dite des essais linéaires (``linear probing hashing''). C'est là sans doute la méthode de hachage la plus utilisée dans le monde. Flajolet, Poblete (Chili) et Viola (Uruguay) [25] ont résolu une conjecture de Knuth datant du début des années 1990 et concernant la dispersion des coûts lors de la construction d'une telle table. L'analyse repose sur une équation fonctionnelle et aux dérivées partielles non-linéaire
une méthode de moments, et l'utilisation extensive des méthodes d'analyse de singularité issues du projet. Un phénomène délicat de transition de phase est décrit où l'on part d'une loi gaussienne des coûts à faible dispersion tant que le remplissage de la table reste faible pour parvenir à une ``prise en masse'' de la table caractérisée par une loi d'Airy, laquelle se manifeste également dans plusieurs domaines des structures aléatoires discrètes (connectivité des graphes, aire des chemins, longueur de cheminement dans les arbres, par exemple).
Les travaux d'analyse d'Algorithmes, tout en évoluant selon la logique interne à la discipline, interagissent étroitement avec la conception d'Algorithmes. Un exemple caractéristique est un problème issu de Elf-Sanofi à Montpellier. Il s'agit de détecter efficacement les plus proches voisins dans de grandes bases de données de molécules --de taille typiquement 100.000 et avec plus de 1000 coordonnées par point. Ce problème intervient dans le contexte de la conception de médicaments (``drug design'') où il s'agit d'extraire des paires voisines comme préliminaire à l'expérimentation pharmacologique. Les approches fondées sur les réseaux neuronaux ayant montré leurs limites sur ce problème, F. Cazals a développé des méthodes de filtrage efficaces fondées sur l'aléatoirisation et l'utilisation intensive de ``skip-lists'' qui sont des structures de données bien étudiées dans le projet. Certains des gains Algorithmiques en temps obtenus par F. Cazals sont voisins d'un facteur 50 avec en contrepartie une perte informationnelle faible.
Sur un autre registre, J. Clément (doctorant de l'Université de Caen associé au projet), P. Flajolet et B. Vallée (Caen) [21] ont pu quantifier très précisément le comportement des arbres digitaux hybrides (``hybrid tries'') dus à Bentley et Sedgewick. Par la concision de son code interne, cette structure généraliste est sans nul doute l'une des meilleures manières d'implanter la recherche dans de grands volumes de données textuelles. Ce fait est validé dans [21] à la fois par une modélisation probabiliste (reposant sur les méthodes symboliques, modèles poissonniens et transformation de Mellin) et par confrontation à des données réelles. Par exemple, il est établi, théoriquement et pratiquement, que de tels arbres présentent des gains d'efficacité de l'ordre de 3 en temps et 10 en mémoire par rapport à leurs concurrents immédiats.
Participants : Frédéric Chyzak , François Morain ,
Bruno Salvy
L'Algorithme de sommation de Zeilberger est implanté dans la plupart des systèmes de calcul formel. Il permet le calcul de sommes définies de suites hypergéométriques (c'est-à-dire de suites solutions d'une récurrence linéaire d'ordre 1), classe à laquelle appartiennent ou se ramènent nombre d'identités. F. Chyzak a développé cette année un nouvel Algorithme d'intégration et de sommation symbolique [16], qui généralise l'Algorithme classique de Zeilberger. Dans le cas hypergéométrique, on retombe exactement sur l'Algorithme de Zeilberger. Cependant, ce nouvel Algorithme s'applique aussi à des sommants solutions d'une récurrence linéaire d'ordre plus élevé. De plus, les objets manipulés sont des opérateurs linéaires assez généraux, dits polynômes de Ore, ce qui fait que ce même Algorithme donne aussi une méthode d'intégration définie dans le cas des solutions d'équations différentielles linéaires.
B. Salvy et J. Shackell (université de Canterbury, GB) ont poursuivi leur travail sur l'Algorithmisation des multiséries. Ces séries, introduites en calcul formel récemment, permettent de traiter à la fois le problème de la détermination de l'échelle asymptotique adaptée au calcul et le problème de l'annulation perpétuelle. L'an dernier, un travail commun de D. Richardson, B. Salvy, J. Shackell et J. Van der Hoeven avait produit un Algorithme calculant une multisérie pour toute fonction exp-log (fonction composée d'un nombre arbitraire d'exponentielles, de logarithmes et d'opérations d'additions, produit, division à partir d'une variable et des rationnels). Cette année, B. Salvy et J. Shackell ont mis au point un Algorithme permettant le calcul du comportement asymptotique de l'inverse fonctionnel de n'importe quelle fonction exp-log sous la forme d'une multisérie [30]. Cet Algorithme a notamment des applications dans les analyses reposant sur la méthode du col en asymptotique.
Une collaboration de B. Salvy avec l'équipe GAGE (École polytechnique) a porté ses premiers fruits [27]. Il s'agit de comprendre comment des développements récents sur l'Algorithmique des straight-line programs peuvent être interprétés de manière à produire des implantations efficaces pour des problèmes de nature géométrique dans des systèmes de calcul formel du type de MAPLE. L'approche consiste à éviter le plus possible de développer des polynômes, et à tester la nullité par des évaluations. Ceci permet d'éviter la croissance des expressions qui est source d'une bonne partie de la complexité des calculs fondés sur des bases de Gröbner. Les premiers résultats sont prometteurs, puisque l'implantation prototype en MAPLE permet de calculer la dimension de variétés projectives dans des cas où le meilleur programme de bases de Gröbner existant (Gb) ne parvient pas à terminer le calcul.
F. Morain a participé à l'Algorithmisation d'un des principaux problèmes liés aux courbes elliptiques, celui du calcul de la cardinalité d'une courbe dans un corps fini de grande caractéristique. Grâce à ces travaux, il est désormais possible de construire des cryptosystèmes basés sur des courbes elliptiques, et qui sont plus robustes que leurs équivalents classiques, à taille de clefs comparables.
Poursuivant et amplifiant les travaux de Schoof, Atkin et Elkies, F. Morain [34] a simplifié et optimisé les Algorithmes de calcul d'isogénies entre courbes elliptiques, qui sont au coeur des avancées récentes. Avec l'aide de J.-M. Couveignes (originellement travaillant à l'ENS, et maintenant à Bordeaux I), il a mis au point des raffinements de l'Algorithme qui l'ont conduit à battre le record du monde une première fois. D'autres techniques décrites dans [23] ont permis d'améliorer ces résultats.
Sur la lancée de ces travaux, F. Morain a encadré la thèse de R. Lercier (École polytechnique - LIX), qui lui s'intéresse aux mêmes problèmes, mais cette fois en petite caractéristique. Un de leurs premiers travaux conjoints a été le décorticage d'un Algorithme inventé par J.-M. Couveignes pour résoudre les problèmes spécifiques de la petite caractéristique. Le savoir faire accumulé dans ce domaine a fait l'objet de [33,34] et culmine dans la thèse de Lercier, soutenue en juin 1997.
F. Morain a profité de sa soutenance d'habilitation (octobre 1997) pour rédiger un mémoire [4] faisant le point sur les connaissances actuelles sur la théorie et la pratique des courbes elliptiques sur les corps finis.
Participants : Frédéric Chyzak , Philippe Dumas ,
Pierre Nicodème , Mireille Régnier
En association avec Mikhail Atallah de l'université de Purdue, F. Chyzak et Ph. Dumas, chercheur associé au projet Algorithmes, ont mis au point [19] un Algorithme randomisé de type Monte-Carlo pour la recherche de motifs avec erreurs. Cet Algorithme, qui repose sur le calcul de transformées de Fourier par FFT, améliore la borne de complexité connue pour ce problème dans le cas d'alphabets et motifs de tailles quelconques, et est applicable dans un cadre pratique pour des motifs de taille de quelques milliers de caractères et plus. Les applications envisagées comprennent la détection d'intrusion dans les systèmes informatiques, l'analyse d'image et la compression de données.
Dans l'étude des Algorithmes classiques du type Boyer-Moore, H. Mahmoud et M. Régnier ont montré l'existence presque sûre de points de renouvellement. Il s'ensuit que le coût, sur l'ensemble des textes possibles, a une distribution gaussienne. Des calculs combinatoires, utilisant les périodes du mot recherché permettent de caractériser la moyenne, la variance et la vitesse de convergence vers l'état stationnaire. Faits sous le modèle statistique dit de Bernoulli où chaque caractère possède une distribution indépendante des caractères qui le précèdent ou lui succèdent dans l'article [14], ils sont en cours de généralisation au cas markovien.
En 1997, M. Régnier a développé une méthode générale [36] afin de compter le nombre d'occurrences d'un motif donné [29] ou d'un ensemble de motifs [18], dans un texte. On se place dans un modèle markovien. Ceci ramène l'évaluation à des inversions de systèmes d'équations algébriques satisfaits par les séries génératrices. La généralisation au cas markovien est faite [29,36] sans augmenter la taille du système. La méthode apparaît générale car les modifications des contraintes imposées dans les diverses applications sur les ensembles de mots recherchés (distance minimale entre les mots, types de chevauchement autorisés, ...) sont aisément prises en compte (modification simple des équations de base, différentiation,...). M. Régnier a simplifié ou étendu ainsi certains résultats obtenus par des biologistes, et fourni des formules calculables, par exemple par un système de calcul formel.
De nombreux autres problèmes d'énumération se posent en biologie moléculaire. Dans [35], M. Régnier a étudié notamment la combinatoire de l'alignement des séquences et des structures secondaires.
La thèse de P. Nicodème, soutenue en Septembre 1997, sur la recherche de similarités entre protéines a été effectuée en collaboration avec l'INRA-Toulouse qui développe la base ProDom (Protein Domains), où les familles de protéines sont regroupées suivant leurs domaines fonctionnels. Une similarité entre deux protéines s'exprime au moyen d'une fonction de score. On peut de la même manière exprimer une similarité entre une protéine et une famille de protéines.
P. Nicodème utilise les formules de Karlin-Iglehart pour définir la pertinence probabiliste des scores obtenus par les Algorithmes de recherche de similarité du type Blast. Il a regroupé dans sa thèse les différents développements mathématiques permettant d'obtenir ces formules [28]. P. Nicodème utilise notamment les séries génératrices dans le cas d'un modèle de scores discret, qui est celui utilisé par les biologistes, ce qui simplifie beaucoup la démonstration des formules de Karlin à partir de l'identité de Spitzer, qui est un résultat classique sur les marches aléatoires.
Les calculs statistiques dans les séquences fournissent des formules exactes pour la probabilité d'occurrence d'un mot donné. Appliquées au DosDNA, petits motifs répétés qui sont la trace de l'instabilité génétique dans les séquences d'ADN, elles permettent de tester la signification statistique des répétitions. En effet, pour les tailles de séquences considérées, les formules obtenues dans [29,18,35] sont calculables grâce aux packages Maple Gfun et combstruct. Ils font l'objet d'une collaboration suivie avec le Laboratoire de Génétique de l'Université de Versailles (A. Hénaut, E. Coward).
Une autre application est la prédiction de structures secondaires, déterminées par l'appariement de mots avec leurs images inverses. On définit un seuil de pertinence pour de tels appariements qui représente la longueur au dessus de laquelle un appariement n'est plus un simple effet du hasard statistique. Choisi comme point d'ancrage, un tel appariement permet une approche "diviser pour régner" qui a donné de bons résultats sur l'ARN 16S et 23S présentés dans la thèse de F. Tahi sous la co-direction de M. Régnier, soutenue en janvier 1997.
Dans une collaboration avec l'INRA-Toulouse, P. Nicodème a développé le logiciel BlastMultAl qui permet des recherches de similarités entre une protéine et une famille de protéines. Il a calibré ce logiciel pour les domaines de ProDom33 en utilisant la méthode de clumping-declumping et d'approximations Poissonniennes de Waterman et Vingron.
Participants : Jean-François Dantzer , Vincent Dumas ,
Philippe Robert , Jean-Marc Wachter
Le cadre est celui d'un réseau de télécommunications; les appels réservent plusieurs liens pendant un temps aléatoire et si un des liens nécessaire à l'appel est déjà complet (i.e. à capacité maximale), l'appel est perdu. La renormalisation utilisée consiste à augmenter de façon conjointe la capacité des liens du réseau ainsi que le trafic. Cette normalisation diffère de celle utilisée dans [39] où l'espace d'état était indépendant de la normalisation, ce qui n'est pas le cas dans ce cadre. Hunt et Kurtz [40] ont montré la relative compacité des trajectoires renormalisées ainsi que certaines propriétés de leurs limites. Une étude générale détaillée semble, comme dans le cas des réseaux multi-classe, hors d'atteinte pour l'instant. L'objectif sera donc dans un premier temps d'étudier les questions de convergence sur des exemples assez simples et certaines topologies symétriques.
J.-M. Wachter a tout d'abord, montré que dans le cas d'un réseau avec un lien, quelque soit le point de départ, le système dynamique associé au processus renormalisé converge vers un unique point attractif. Dans le cas d'un réseau à deux liens, il a établi le même résultat si les trafics demandent la même capacité de service. Il a mis en évidence un phénomène inédit lorsque les trafics ont des taux de service différents : sur un sous-ensemble des paramètres, partant d'un état non saturé, le réseau sature progressivement un de ses liens puis converge vers son état d'équilibre pour lequel aucun des liens n'est saturé. Les phénomènes probabilistes à l'origine de ce comportement sont encore mal compris. J.-M Wachter a, en outre, étudié les problèmes de stabilité des systèmes dynamiques dans le cas d'un seul lien ; ce type d'étude nécessite une analyse, au niveau microscopique, de la saturation d'un lien.
Avec la normalisation mentionnée plus haut, C. Fricker (MEVAL), Ph. Robert et D. Tibi (Université de Paris VII), se sont intéressés aux problèmes d'estimation de la vitesse d'atteinte de l'équilibre de files d'attente à N serveurs et une file de capacité N . Le but général est de donner, s'il existe, l'estimation asymptotique de l'instant de cut-off : avant cet instant, le processus est très près de l'état initial et après celui-ci l'état stationnaire est atteint. La distance utilisée ici entre les distributions est celle de la convergence en variation totale. Une activité importante se dégage actuellement autour de ces questions (Diaconis, Salff-Coste, Stroock, ...). Les outils utilisés sont principalement géométriques (méthodes de chemins dans des graphes, inégalités de Poincaré, Cheeger, ...). La seule méthode connue dans le domaine des files d'attente consiste à calculer explicitement les transitoires des processus incriminés; ce n'est effectivement possible que pour de très rares cas. Cette année, nous avons terminé l'étude de ces questions pour ce modèle. Nous avons montré qu'une transition de phase, appelé cut-off dans la littérature, avait lieu dans la convergence à l'équilibre. À notre connaissance, c'est le premier exemple de cutoff, au sens de la définition de Diaconis, pour les files d'attente. Les méthodes utilisées sont principalement des techniques de martingales et de couplage. D'intéressantes relations avec les problèmes d'énumération de chemins sont apparues dans cette étude [32].
Nous nous intéressons ici à un modèle d'allocation de
ressources : divers types de trafic arrivent avec des
demandes de débit très différentes : il est toujours
possible par un mécanisme de réservation et en segmentant ces
trafics de leur allouer la totalité de la bande passante.
L'inconvénient de ce type de méthode réside dans le
post-traitement nécessaire pour recomposer les trafics
initiaux. Ces problèmes peuvent se formuler en terme de bin
packing dynamique : On se donne une boîte de
taille 1 (la capacité maximale du réseau) et des
arrivées de pièces dont la taille est , chaque
pièce demande à rester dans la boîte le temps de son service
(autrement dit demande une fraction de la bande passante).
Les questions naturelles qui se posent concernent le débit
maximal d'un tel système, ou encore la politique d'allocation
qui maximise celui-ci. Ce cadre avait été étudié, pour des
raisons très différentes, dans [41]; nous avions alors
calculé le débit maximal dans le cas où les temps de service
sont exponentiels, les tailles des pièces indépendantes
équidistribuées et la discipline de service "premier
arrivé-premier servi". Les problèmes d'allocation de bande
passante ont mis en valeur tout l'intérêt de ce type de
modèle, voir les travaux récents de Coffman et Stolyar.
J.-F. Danzter et Ph. Robert ont étudié le cas de la
discipline First Fit : sous les hypothèses probabilistes
mentionnées ci-dessus, un message est alloué si la place
résiduelle dans la boîte le permet et si aucun des messages
dans la file d'attente arrivés avant lui ne peut être alloué.
La difficulté de ce modèle vient du fait que la suite des
tailles des pièces dans la file d'attente n'est pas i.i.d. en
raison des prélèvements successifs à l'intérieur de celle-ci.
L'espace d'état décrivant le modèle est de dimension
dénombrable, donc délicat à manipuler. Les problèmes
techniques soulevés sont similaires à ceux, non résolus pour
l'instant, des réseaux de file d'attente multi-classe FIFO.
En utilisant des méthodes de renormalisation, nous avons
étudié le débit maximal d'une telle discipline dans le cas où
les pièces ont des tailles 1/4, 1/2, 3/4. Des formules
explicites ont été obtenues. Le travail à venir consistera à
dégager un cadre formel permettant de traiter plus facilement
ces questions.
Dans le cadre d'une collaboration avec F. Guillemin (CNET-Lannion), nous avons commencé à travailler sur une extension des résultats obtenus avec Kipnis. Il s'agit de montrer que, sous certaines conditions, la bande passante non utilisée est assez petite. Si cela est le cas, cela validerait une solution Algorithmique intéressante d'allocation de bande passante. Ce travail constitue le point de départ de la thèse de M. Haddani.
J.-F. Dantzer, I. Mitrani et Ph. Robert ont terminé l'étude d'un modèle où la capacité de service est variable au cours du temps, dépendant d'un paramètre N . Après avoir montré que l'état d'équilibre était continu en N , nous nous sommes intéressés au problème de "heavy traffic", i.e. lorsque le système est juste au dessous de la saturation. Nous avons montré qu'en renormalisant convenablement, l'état de la file est majoré asymptotiquement par un mouvement brownien réfléchi. Il semble plausible que l'état asymptotique soit précisément cette diffusion, c'est pour l'instant une conjecture.
Ph. Robert [37] a simplifié et étendu les résultats de Stadje [42] concernant les propriétés poissonniennes en temps et en espace de toute une classe de modèles de stockage. La méthode utilisée est élémentaire et met en évidence les phénomènes à l'origine de ces résultats.
Ph. Robert a rédigé le chapitre "Théorèmes limites" d'un
livre "Méthodes probabilistes pour l'étude des réseaux de
files d'attente" à venir chez Springer Verlag. Actuellement
douze chapitres sont rédigés.