Team PARIS

Members
Overall Objectives
Scientific Foundations
Application Domains
Software
New Results
Contracts and Grants with Industry
Other Grants and Activities
Dissemination
Bibliography
Inria / Raweb 2002
Project: PARIS

Project : paris

Section: Scientific Foundations


Keywords : Disponibilité , tolérance aux fautes .

Haute disponibilité

« Un système informatique réparti est un système où la défaillance d'une machine dont vous ignoriez jusqu'à l'existence peut rendre votre propre machine inutilisable » (L. Lamport).

La disponibilité d'un système est définie comme étant la fraction de temps pendant laquelle il fournit le service pour lequel il a été conçu c'est-à-dire qu'il se comporte conformément à ses spécifications. On dit que le système est défaillant lorsqu'il ne se comporte pas selon ses spécifications. Une erreur est la manifestation d'une faute quand la partie fautive du système est activée. Elle peut conduire à la défaillance du système. En vue de fournir des systèmes à haute disponibilité, des techniques de tolérance aux fautes fondées sur de la redondance peuvent être mises en œuvre. Elles peuvent être décomposées en quatre étapes. La détection d'erreur est à la base de toute technique de tolérance aux fautes. Le traitement d'erreur a pour objectif d'éviter que l'erreur conduise à la défaillance du système. Le traitement de faute consiste à éviter que la faute soit réactivée. Deux classes de techniques de traitement de faute peuvent être employées : la réparation du système qui consiste à remplacer l'élément défectueux et la reconfiguration qui consiste à transférer la charge de l'élément défectueux sur les composants valides.

Le traitement d'erreur peut prendre deux formes : la compensation d'erreur ou le recouvrement d'erreur. La compensation d'erreur est fondée sur des techniques de redondance matérielle ou logicielle utilisées pour masquer l'erreur afin de permettre au système de continuer à fournir le service en dépit de l'erreur. Le recouvrement d'erreur consiste à rétablir un état sain à partir de l'état erroné. Ceci peut être fait par poursuite c'est-à-dire par transformation de l'état erroné en un état sain ou par reprise c'est-à-dire en substituant un état sain préalablement sauvegardé en mémoire stable, appelé point de reprise, à l'état erroné.

Une mémoire stable est un support de stockage qui garantit trois propriétés en présence de défaillances :

(i) non altérabilité :

Les données rangées en mémoire stable ne sont pas altérées par les défaillances.

(ii) accessibilité :

Les données rangées en mémoire stable restent accessibles en dépit des défaillances.

(iii) atomicité des mises à jour :

La mise à jour des données rangées en mémoire stable est une opération effectuée en tout ou rien. En cas de défaillance pendant la mise à jour d'un groupe de données rangées en mémoire stable, soit toutes les données restent dans leur état initial, soit elles prennent toutes leur nouvelle valeur.


previous
next