previous up next contents
Précédent : Études d'applications Remonter : Études d'applications Suivant : Architectures programmables temps-réel

Architectures systoliques pour la comparaison de séquences biologiques

Mots clefs : architecture systolique, génome, biologie moléculaire Participants : Pascale Guerdoux , Dominique Lavenier , Charles Wagner

La comparaison de séquences biologiques, telle que l'exploration des banques génomiques, est un des traitements de base de la biologie moléculaire. Le volume de données et la complexité des algorithmes mis en jeu conduisent à des temps de calcul prohibitifs sur des calculateurs séquentiels classiques, et incitent à rechercher des solutions informatiques différentes : supercalculateurs parallèles, réseaux de calculateurs, ou architectures spécialisées.

Nous nous intéressons au dernier type d'architecture pour lequel deux approches ont été étudiées et ont donné lieu à des réalisations.

La première concerne le développement d'un filtre systolique pour la recherche rapide et précise de similitudes entre une séquence particulière (séquence test) et une banque de séquences. Ce filtre se connecte à une machine séquentielle standard et se comporte comme un co-processeur pour les calculs relatifs à la détection des similitudes. Les gains en vitesse par rapport à une exécution séquentielle vont de 10 à 400 suivant la précision demandée et la taille de la séquence test.

Ce filtre a été implémenté et testé sur une structure à base de FPGA , la carte PeRLe-1 de Dec PRL. Cette version du filtre comporte 128 processeurs et fonctionne à 10 MHz. L'intégration de ce système sur une seule puce conduirait à une taille de réseau supérieure (256 processeurs sur une surface inférieure à 1 cm) avec une fréquence d'horloge beaucoup plus élevée. Ce filtre a fait l'objet d'un dépôt de brevet.

La deuxième approche concerne la réalisation d'une machine expérimentale pour accélérer de plusieurs ordres de grandeur -- par rapport à une machine séquentielle -- un algorithme bien connu des biologistes, l'algorithme de Smith et Waterman, qui détermine très précisément des alignements entre deux séquences. Cet algorithme, qui semble donner d'excellents résultats, est très coûteux en temps de calcul et, par conséquent, rarement utilisé lorsqu'il s'agit de traiter d'importants volumes de données.

La machine Samba ( Systolic Accelerator for Molecular Biology Application), qui comporte dans sa version actuelle 128 processeurs sur mesure, a été spécialement étudiée pour réduire d'un facteur de 100 à 1000 les temps d'exécution, et ainsi proposer à des équipes de recherche en biologie les moyens d'expérimenter, dans des temps raisonnables, l'usage de cet algorithme sur des banques de séquences conséquentes.

Les méthodologies de conception de ces deux réalisations s'inspirent très largement des travaux décrits dans les sections précédentes. Outre leur intérêt pour la communauté biologique, elles se présentent comme d'excellents supports de test pour valider sérieusement les idées ou les concepts élaborés à travers les outils de conception d'architectures spécialisées.


previous up next contents
Précédent : Études d'applications Remonter : Études d'applications Suivant : Architectures programmables temps-réel