Précédent : Présentation générale et
objectifs Remonter : Rapport activite 1997 Suivant :
Grands
domaines d'application
Comme dit précédemment, les activités du projet se situent dans deux domaines complémentaires. Nous travaillons, d'une part sur l'évaluation de mesures de sûreté de fonctionnement, et d'autre part, dans le cadre des études de performances, et plus généralement, de qualité de service.
D'une manière transversale à ces deux domaines de recherche, nous nous intéressons à des sujets trouvant leur place à la fois dans les problèmes liés à l'évaluation des performances et à l'évaluation de la sûreté de fonctionnement. Il s'agit des processus de Markov d'une part, et des techniques d'évaluation de type Monte Carlo d'autre part.
Mots-clés :
disponibilité, fiabilité, performabilité, réseau de
communication, régime d'équilibre, réseaux maillés, régime
transitoire, sûreté de fonctionnement, système à événements
discrets, tolérance aux fautes, vulnérabilité
Sûreté de fonctionnement: propriété qui permet aux
utilisateurs d'un système de placer une confiance justifiée dans
le service qu'il leur délivre[Lap95].
Tolérance aux fautes: méthodes et techniques destinées
à fournir un service à même de remplir la, ou les fonctions du
système en dépit des fautes[Lap95].
Fiabilité: probabilité de bon fonctionnement pendant
une durée déterminée (mesure de la continuité d'un
service).
Disponibilité (ponctuelle): probabilité de bon
fonctionnement à un instant donné.
Disponibilité sur un intervalle: fraction de
l'intervalle de temps pendant lequel le système est
opérationnel.
Performabilité: concept englobant à la fois les notions
de sûreté de fonctionnement et de performance.
Réseau maillé: réseau de communication à topologie
irrégulière; c'est typiquement le cas des WAN (réseaux à large
étendue, dits aussi <<réseaux publics>>).
Résumé : Dans le domaine de la sûreté de fonctionnement, nos travaux concernent l'analyse prévisionnelle de différentes mesures qui visent à quantifier le comportement des systèmes vis-à-vis des défaillances et des éventuelles réparations, par l'utilisation de modèles de ces systèmes. Dans cette section nous décrivons brièvement ces mesures dans une perspective plutôt historique, et nous situons nos travaux de recherche.
D'une manière succincte, les principales innovations du projet se caractérisent d'une part par le développement de nouveaux algorithmes dédiés à l'évaluation de différentes mesures et, d'autre part, par l'étude et la résolution de modèles intervenant dans des systèmes particuliers. Les difficultés majeures dans le domaine se situent essentiellement au niveau de l'explosion combinatoire des espaces d'états.
Soit la
durée de vie d'un équipement, représentée dans les modèles comme
une variable aléatoire finie. La théorie classique de la
fiabilité se focalise sur l'étude de cette variable
aléatoire[Ger89] pour
laquelle la mesure fondamentale est la fiabilité à l'instant
, définie comme la probabilité
que le
système soit opérationnel jusqu'à l'instant
sachant qu'il
l'est à l'instant 0. L'espérance de
est le temps moyen de
fonctionnement noté
(de l'anglais mean time
to failure), qui s'exprime en fonction de la fiabilité
par
Nous considérons ici
des systèmes capables de retourner à un état opérationnel
(éventuellement dans un mode dégradé) après avoir subi une
défaillance[Ger89],[Lap95]. Si le système est toujours
réparé après une défaillance (ou si, pour les besoins de l'étude,
il est utile de le considérer ainsi), il est préférable de parler
d'une durée de vie infinie et de voir l'évolution du système
comme une suite alternée de périodes opérationnelles (le
système fonctionne) et de périodes non opérationnelles (le
système est en réparation). Il est fréquent de supposer que la
réparation remet le système à neuf, et que les durées successives
des périodes de bon fonctionnement, ainsi que les durées
successives des réparations, sont des variables aléatoires
indépendantes et de même loi. On utilise dans ce contexte la
variable aléatoire = durée de réparation et on
définit la maintenabilité à l'instant
comme la
probabilité
que le système soit réparé avant l'instant
,sachant que la réparation a commencé à l'instant 0. On
considère également la moyenne de ce temps, notée
(de l'anglais mean time to repair), donnée
par
Considérons maintenant une situation générale où le système
est représenté par un processus stochastique évoluant en
temps continu. On se donne une partition de l'espace d'états de
en deux sous-ensembles, celui des états dits
opérationnels, noté
, représentant le système
en état de bon fonctionnement (éventuellement dégradé par rapport
à son état initial), et les états non opérationnels, dont
l'ensemble est noté
,dans lesquels il n'est pas
possible de rendre un service conforme aux spécifications. Dans
ce dernier cas, le système peut être en réparation, par exemple
en essayant de retrouver un état opérationnel après une
défaillance à l'aide d'une procédure prévue de reconfiguration,
ou encore se trouver dans un état irréparable qu'il ne quittera
plus. On définit le processus indicateur des états opérationnels
par
Les aspects performance et sûreté de fonctionnement se
retrouvent bien entendu simultanément dans le comportement des
systèmes. Dans certains cas, leur étude séparée est trop
limitative, et il est souhaitable de pouvoir les considérer en
même temps pour résoudre plus efficacement des problèmes
d'analyse. Ceci est le but du concept de performabilité[Mey80]. L'exemple de base est le
suivant. Considérons toujours que le système est représenté par
un processus stochastique , et que nous avons associé à
chaque état
un réel
, appelé la récompense de
l'état
. Par exemple, s'il s'agit d'un modèle de système
multi-composants, on peut associer à l'état
le nombre de
composants opérationnels lorsque le modèle est dans l'état
. Prenons un tri-processeur tolérant les fautes et
considérons qu'il est opérationnel s'il y a au moins un
processeur opérationnel. Associons à l'état
du modèle le
nombre de processeurs opérationnels dans cet état. La mesure
précédemment discutée donne la fraction moyenne
de l'intervalle
pendant laquelle le système est en
opération. Mais pour l'utilisateur il y a une grande différence
entre un système opérationnel avec un seul processeur actif et le
système avec ses trois processeurs en état de marche. La
mesure
Bien souvent, les
analystes se contentent de représenter les systèmes par des
modèles statiques, i.e. des modèles dans lesquels le temps
ne joue pas de rôle explicite. Il s'agit presque toujours de
modèles de systèmes multi-composants à états binaires. Les
relations entre l'état des composants et celui du système
sont données sous la forme d'une fonction de structure
, de
variables binaires
. La
variable
représente l'état du
ème composant, avec la
convention 1 = composant opérationnel, 0 = composant défaillant.
La fonction de structure définit un critère de bon comportement
au niveau du système global (
signifie que le système global est opérationnel lorsque
les composants respectifs se trouvent dans les états
,
...,
). Des formalismes de description qui rentrent
dans ce cadre sont les diagrammes de fiabilité et les
arbres de défaillance. On se donne alors les fiabilités
élémentaires du système, c'est-à-dire, les nombres
si
est la variable aléatoire binaire
<<état du composant
>>, et on mesure la sûreté de
fonctionnement du système par le nombre
,
où
est le vecteur aléatoire
. Le
calcul de
est général un problème NP-difficile[Col87]. La combinatoire
impliquée est telle que seuls les modèles ayant quelques dizaines
d'éléments peuvent être analysés de façon exacte. Les techniques
de type Monte Carlo (voir
) permettent d'évaluer des modèles
de taille importante, le prix à payer étant la nature du résultat
(une réponse probabiliste - une estimation - au lieu de la valeur
numériquement exacte).
Nous nous intéressons aux techniques d'évaluation des différentes mesures de sûreté de fonctionnement. L'une des sources majeures de problèmes d'analyse est la taille souvent importante de l'espace d'états du modèle utilisé, conséquence de la nécessité de tenir compte de la complexité des systèmes étudiés. Une partie de notre effort de recherche dans le domaine a pour objectif le développement de techniques de résolution efficaces pour ce type de modèle. Efficacité signifie essentiellement des techniques moins gourmandes en ressources informatiques ou ayant un meilleur comportement vis-à-vis de problèmes de nature numérique (par exemple, la raideur des équations associées). Parfois, il faut chercher à mettre en évidence des nouvelles propriétés des objets utilisés dans ces études. En d'autres termes, l'état des connaissances dont nous disposons sur certains types de modèles suggère, dans certains cas, la réalisation d'études de nature plus théorique. Enfin, il arrive que les développements mathématiques réalisés dans les cadres précédemment décrits, conduisent à proposer des nouvelles mesures pour l'analyse de certaines classes de systèmes.
Dans le premier volet de nos activités de recherche dans le domaine, c'est-à-dire, au niveau de la méthodologie d'évaluation des modèles, nous trouvons des travaux tels que [1], ou [6]. Dans l'étude des propriétés des objets considérés, des exemples sont [4] ou [5]. Des travaux tels que [12] ou [13] illustrent le développement de nouvelles mesures ainsi que les moyens pour les évaluer.
Mots-clés : charge,
débit, modèle fluide, qualité de service, réseau de
communication, système à événements discrets, taux d'utilisation,
temps de réponse
Temps de réponse: délai séparant la sollicitation d'une
ressource et la fin de la délivrance du service demandé.
Taux d'utilisation: fraction d'un intervalle de temps
(éventuellement infini) pendant lequel une ressource est
utilisée.
Charge: nombre moyen de sollicitations d'une ressource
par unité de temps, divisé par la durée moyenne du
service.
Qualité de service: concept englobant les mesures de
performance classiques et des mesures plus récentes proposées
dans le monde des réseaux de communication.
Résumé : Au niveau de l'évaluation des performances, le projet s'intéresse essentiellement aux réseaux de communication. Dans ce contexte, la situation est un peu différente de celle rencontrée dans les études de sûreté de fonctionnement. L'évolution technologique et l'importance croissante des systèmes de communication entraînent des difficultés de nature nouvelle. Il ne s'agit pas seulement d'améliorer les outils d'évaluation existants pour faire face, par exemple, aux problèmes posés par la taille des modèles, mais aussi de trouver des outils d'analyse plus puissants.
En prenant comme référence le cadre des réseaux ATM, nous travaillons essentiellement à deux niveaux d'échelles de temps. À l'échelle de la cellule, qui est l'unité d'information de ce type de support de transmission, des problèmes génériques sont l'évaluation des probabilités de perte dans un commutateur ou l'analyse de différentes politiques d'admission. À un niveau plus élevé, on considère que les entités circulant sont des groupes de cellules appelés rafales. Ceci conduit souvent l'analyste à traiter des modèles à états continus. Nous menons des recherches ayant pour objectif l'étude de ce type de modèles.
L'évaluation des performances des réseaux haut débit [RMV95] donne lieu à de nombreux
problèmes nouveaux concernant des processus stochastiques en
régime stationnaire et en régime transitoire. Les premières
difficultés liées à ces problèmes d'évaluation concernent la
modélisation du trafic et du processus des arrivées aux
différents noeuds d'un réseau de communication. On distingue
généralement trois échelles de temps différentes pour la
modélisation du trafic, qui sont l'échelle des cellules (nous
empruntons la terminologie à celle de la technologie ATM), l'échelle des rafales et l'échelle des
appels.
Les échelles de trafic auxquelles nous nous intéressons plus particulièrement, pour le moment, sont l'échelle des cellules et l'échelle des rafales.
À cette échelle, le trafic consiste en des entités discrètes, les cellules, produites par chaque source. Les processus d'arrivée généralement utilisés dans ce contexte pour modéliser le trafic sont des processus d'arrivée par groupes markoviens, aussi notés BMAP (Batch Markovian Arrival Process).
Un BMAP est un processus de Markov bidimensionnel où la variable
compte le nombre
d'arrivées sur l'intervalle
et où la variable
représente la phase du processus. Le nombre de
phases du processus est en général fini. Le générateur
infinitésimal du processus est donné par la matrice
Les BMAP forment une classe très large. De nombreux processus
d'arrivée familiers peuvent être vus comme des BMAP particuliers.
Notamment, en prenant ,
et
pour
, on obtient un processus de
Poisson de taux
.Un processus de renouvellement de type
phase, de représentation
est un BMAP avec
,
et
pour
. Si
est diagonale, et
pour
, on obtient un processus de Poisson dont le taux
est modulé par un processus de Markov de générateur infinitésimal
. Ce dernier cas particulier de BMAP est aussi
appelé un MMPP (Markov Modulated Poisson Process). De plus, tout
processus ponctuel peut être approché par un BMAP. Enfin, il est
à noter que la superposition de
processus BMAP indépendants
est encore un processus BMAP. Cette propriété est
particulièrement intéressante pour la modélisation du
multiplexage statistique de sources dans les réseaux haut
débit.
À l'aide de ces processus BMAP, on peut par exemple modéliser le comportement d'un noeud d'un réseau de communication par une file d'attente BMAP/G/1 à capacité finie ou infinie dans le but d'évaluer des mesures de qualité de service comme la loi du nombre de clients en attente, la loi du temps d'attente ou la probabilité de perte de cellules dans le cas d'une capacité finie. Un tutoriel portant sur l'étude de cette file d'attente se trouve dans [Luc93]. Dans le cas d'une modélisation avec une échelle de temps discrète, on obtient de manière similaire au cas du temps continu, des processus d'arrivée, notés D-BMAP qui conduisent à l'étude de files d'attente discrètes du type D-BMAP/D/1. La fine granularité de l'échelle de temps des cellules pose le problème du grand nombre de paramètres à évaluer pour définir le processus des arrivées, et l'une des principales difficultés rencontrée lors de l'étude des files d'attente associées concernent le temps de calcul des mesures recherchées. En effet, les processus BMAP ou D-BMAP sont définis par un certain nombre de matrices dont la taille pose bien évidemment les problèmes classiques au niveau de la complexité des calculs.
A l'échelle de temps des rafales, le trafic est considéré comme continu, c'est pourquoi on parle de modèles fluides, et ce trafic est en général caractérisé par son taux instantané. Les plus connus de ces modèles sont les processus dits on/off et leurs superpositions. On dit que le trafic provenant d'une source est on/off s'il alterne entre des périodes d'activité (les périodes on) et des périodes de silence (les périodes off). Les taux de transmission sont supposés constants durant chaque période on. L'hypothèse de base est que ces processus sont des processus de renouvellements alternés. L'état de la source est alors décrit par un processus semi-markovien. Lorsque ces périodes suivent des lois de type phase, le processus devient markovien et le taux d'entrée devient modulé par un processus de Markov. Les deux grandes classes de modèles que l'on différencie sont les modèles avec buffer où l'information peut être momentanément stockée pour être émise lorsque le canal sera libre, et les modèles sans buffer où l'information arrivant est perdue si le canal est occupé.
On considère dans la première classe de modèles un buffer de
taille finie ou infinie dont les taux d'entrée et de sortie sont
fonctions de l'état d'un processus de Markov sur un espace d'état
, avec générateur
infinitésimal
. Si
désigne la quantité de
fluide dans le buffer à l'instant
et si
(resp.
) désigne le taux d'entrée (resp. de sortie) dans le
(resp. du) buffer lorsque le processus
est dans
l'état
, alors le couple
forme un
processus de Markov sur l'espace
. La loi du couple
est donnée par l'équation aux dérivées partielles
De nombreux travaux dans la littérature ont porté sur l'étude
du régime stationnaire. Si représente l'état
stationnaire du processus
et si
représente la quantité de fluide dans le buffer en régime
stationnaire, alors sous les hypothèses classiques de stabilité,
on a l'équation différentielle suivante:
Pour la deuxième classe de modèles, où l'information arrivant
est perdue si le canal de transmission est occupé, on s'intéresse
à des mesures de la qualité de service basées sur la congestion
du système. Dans [19],
on analyse l'évolution du processus
décrivant le débit sur un lien de transmission ATM supportant des rafales de données dans un schéma
de multiplexage statistique en boucle ouverte. Ce processus est
modélisé par l'intermédiaire d'une file M/M/
dans
[19] et d'une file
M/PH/
dans [11].
Ces files permettent d'analyser la superposition d'un grand
nombre de connexions de données sur un lien ATM. Dans ces modèles, l'information est transmise en
rafales de données arrivant au lien comme un processus de Poisson
et les durées des rafales sont distribuées selon une loi
exponentielle de moyenne
ou plus généralement selon une loi
PH de moyenne
. Les performances de ce multiplexage
statistique sont caractérisées par des mesures de qualité de
service transitoires en relation avec les excursions du processus
d'occupation
de la file considérée au-dessus
de la capacité
du lien de transmission. Étant donné qu'une
telle excursion représente une période de congestion pour le
système, les caractéristiques transitoires considérées sont la
durée
d'une période de congestion, l'aire
balayée par le processus
au-dessus de
durant une période de congestion (
représente le volume d'information perdue durant une période de
congestion) et le nombre
de rafales arrivant pendant une
période de congestion.
Mots-clés : explosion
combinatoire, méthode de Monte Carlo, méthode de quasi-Monte
Carlo, réduction de la variance
Méthode de Monte Carlo: famille de techniques destinées
à résoudre des problèmes déterministes (typiquement le calcul
d'une somme ou la recherche d'optimum) en utilisant le hasard
(voir [Fis96]).
Méthode de quasi-Monte Carlo: famille de techniques de
nature déterministe mais se présentant formellement d'une manière
similaire aux techniques de Monte Carlo. La différence principale
avec ces dernières est que le rôle des séquences de nombres
aléatoires (ou plutôt pseudo-aléatoires) est joué par des
séquences à discrépance faible (voir [Nie92]).
Discrépance: mesure de la <<bonne
répartition>> d'une suite de vecteurs dans un
domaine.
Suite à discrépance faible: suite dont la discrépance
des premiers termes tend vers 0 en
,
étant est la dimension de l'espace.
Résumé : La simulation de type Monte Carlo est l'une des techniques principales d'évaluation de modèles. Elle est de loin la méthode la plus flexible et celle qui a le spectre d'application le plus large. En contrepartie, elle fournit des estimations des mesures d'intérêt. Elle est incontournable dans le cas de grands espaces d'états ou dans le cas de modèles très complexes. Il s'agit d'une approche gourmande en ressources de calcul, ce qui ouvre le champ à des nombreux problèmes de recherche.
Notre groupe développe des méthodes de type Monte Carlo dans divers contextes. Il s'agit essentiellement de trouver des algorithmes plus efficaces, qui permettent d'analyser des modèles de plus en plus riches. Nous nous intéressons également à l'approche dite de quasi-Monte Carlo, formellement similaire mais de nature déterministe, très populaire en physique et dont l'objectif est le même que dans le cas de Monte Carlo. Cette approche bien que déjà assez ancienne, se trouve dans un état de développement beaucoup moins avancé que la première, donnant lieu à des nombreux problèmes de recherche.
Un modèle markovien à grand espace d'états (voire avec un espace
d'états infini) peut conduire à l'emploi de techniques de type
Monte Carlo pour son évaluation. Dans ce cas, une source
importante de problèmes est la <<rareté>> des
phénomènes que l'on souhaite étudier, comme par exemple, les
défaillances d'un système critique et ses conséquences. Ceci peut
conduire à travailler avec des techniques de type Monte Carlo
plus sophistiquées que la méthode de base, par exemple, des
techniques dites <<de réduction de la variance>>. Il
s'agit de proposer des estimateurs des mesures d'intérêt
possédant une variance inférieure à celle de l'estimateur
standard, de manière à obtenir une meilleure précision. Signalons
que ces approches sont également valables dans le cas de modèles
statiques (voir ); elles sont aujourd'hui les
seules capables d'évaluer les topologies de réseaux maillés
dépassant, disons, la centaine de composants. À ce sujet, nous
attirons l'attention sur le point suivant. Considérons
l'estimateur de Monte Carlo standard pour la fiabilité
d'un système multi-composants:
Il existe d'autre part une technique originale qui se
rapproche formellement de celle de Monte Carlo, appelée
<<méthode de quasi-Monte Carlo>>. Cette approche est
complètement déterministe et repose sur le concept de suite à
discrépance faible. Pour l'illustrer, supposons qu'on veuille
calculer