Projet Sigma2

previous up next contents
Précédent : Présentation générale et objectifs Remonter : Projet SIGMA2, Signaux, Modèles et Suivant : Grands domaines d'application



Fondements scientifiques

 

Résumé : Le projet s'intéresse aux techniques de modélisation, à partir de principes physiques, mais surtout à partir de données d'observation. Les problèmes centraux sont donc l'estimation et l'identification, mais aussi la validation de modèle, le test et le diagnostic, qui permettent de reconnaître et d'expliquer un désaccord entre modèle et mesures. Ces questions sont examinées sur différents types de modèles de systèmes dynamiques: linéaires, non-linéaires, et, plus récemment, hybrides. Nous avons choisi de détailler les deux points ci-après.


Identification et systèmes adaptatifs

  Mots-clés : identification, systèmes adaptatifs, approximations stochastiques, poursuite, paramétrique, non-paramétrique


Système adaptatif: Se dit d'un système capable de réajuster son comportement en réaction à des modifications graduelles de son environnement.

Paramétrique et non-paramétrique: On parle de modélisation paramétrique lorsque le modèle est caractérisable par un vecteur de dimension finie (et pas trop grande en pratique), et de modélisation non-paramétrique lorsque cela n'est pas le cas.

Résumé : On se donne une suite d'observations $(Y_k)_{k \gt 0}$ de loi caractérisée par un paramètre inconnu $\theta^*\in\Theta$.Le problème de l'identification paramétrique consiste à retrouver le paramètre inconnu $\theta^*$ à partir de la donnée d'une suite d'observations $(Y_k)_{k \gt 0}$ gouvernée par ce paramètre.

L'identification peut être ``hors-ligne'', ou ``non récursive''. Dans ce cas, on se donne un échantillon $(Y_k)_{0 < k \leq N}$ de longueur finie $N$, et on cherche à construire un estimateur $\widehat{\theta}_N$, c'est-à-dire une fonction de l'échantillon $(Y_k)_{0 < k\leq N}$ à valeurs dans $\Theta$. Les questions qui se posent sont alors: lorsque $N$ tend vers l'infini, 1) $\widehat{\theta}_N$ converge-t-il vers le vrai paramètre $\theta^*$, 2) si oui, à quelle vitesse? Existe-t-il une borne optimale pour cette vitesse, borne qui dépend du vrai paramètre $\theta^*$ inconnu, et qui permet de parler de l'optimalité d'un estimateur? Sait-on construire des estimateurs optimaux?

L'identification peut être ``en-ligne'', ou ``récursive''. Dans ce cas, on lit à la volée l'échantillon $(Y_n)_{n \gt 0}$, et l'on construit récursivement une suite d'estimateurs $\widehat{\theta}_n$. Cette suite est en général calculée incrémentalement, ce qui signifie que $\widehat{\theta}_n$ est calculé en fonction de $\widehat{\theta}_{n-1}$ et des nouvelles données reçues. On parle alors souvent d'approximation stochastique, ou de système adaptatif. Outre les questions précédentes, on se pose alors le problème de la poursuite: supposons que le vrai paramètre $\theta^*$, au lieu d'être fixe, soit ``lentement'' variable, est-il possible que la suite d'estimateurs $\widehat{\theta}_n$ poursuive les variations du vrai paramètre $\theta^*$? Nous avons au cours des dix dernières années, apporté diverses contributions sur l'ensemble de ces questions, et tout récemment sur le problème de la poursuite.

Parfois, le paramètre à estimer est un vecteur de grande dimension: dans ce cas, le point de vue précédent est inopérant et l'approche que nous avons considérée jusqu'à présent est plus spécifiquement celle de l'estimation non-paramétrique (ou estimation fonctionnelle); le nombre de paramètres à estimer étant infini, la classe de modèles envisageable est, d'un point de vue théorique, un espace de dimension infinie et des algorithmes différents doivent être mis en oeuvre, sur la base de considérations statistiques. Reliés à ce point de vue, on trouve également les réseaux de neurones et la logique floue. Nous avons, sur ces questions, apporté des contributions tant mathématiques que sous la forme de propositions d'algorithmes, en particulier dans le cas difficile où les observations sont elles-mêmes des vecteurs de grande dimension (on peut aller jusqu'à quelques milliers).


Le problème général de l'identification tel que nous l'approchons est le suivant: décrire au mieux une relation entrées/sorties, $u\longrightarrow y$,à partir de l'observation d'une séquence d'apprentissage $(u_1,y_1,u_2,y_2,\dots)$. La mesure de la qualité de la modélisation dépend de l'usage qui en est fait ensuite (surveillance, prédiction...).

L'approche paramétrique

Une phase de modélisation précède l'identification pour restreindre l'espace de recherche à un espace de dimension finie. Pour fixer les idées, partons du paradigme suivant: une classe de modèles assez large de la forme

\begin{eqnarray*}y_n=f(\theta,y_{n-1},u_n,u_{n-1})+e_n\end{eqnarray*}



$e_n$ est un bruit blanc et $f(\theta,.)$ une famille de fonctions paramétrées par $\theta$, déterminées à l'étape de modélisation. L'algorithme théoriquement le plus simple est le maximum de vraisemblance, qui estimera $\theta$ à partir de $N$ données, par la formule (on suppose $e_n$ gaussien et les $e_n$ indépendants)

\begin{eqnarray*}\hat{\theta}_N=\arg\min_\theta \sum_{n=1}^N (y_n-f(\theta,y_{n-1},u_n,u_{n-1}))^2.\end{eqnarray*}



Une approche de ce type, pour pouvoir s'adapter à de nombreuses applications, doit être améliorée dans les directions suivantes :

Une autre difficulté est la pauvre qualité de l'estimation lorsque le paramètre est de grande dimension, et les méthodes utilisées en non-paramétrique sont une source importante d'inspiration.

C'est la théorie de l'approximation stochastique, qui permet d'aborder de manière adéquate les problèmes de récursivité et d'adaptativité en identification dans un cadre statistique.

Approximation stochastique

L'usage des algorithmes stochastiques est très répandu, et recouvre des domaines tels que la commande adaptative, les systèmes de transmission, le filtrage adaptatif, certains algorithmes d'apprentissage en reconnaissance des formes... De nombreux exemples se trouvent dans [Sar74,LS83,BMP90].

Le but de ces algorithmes est l'estimation récursive d'un paramètre inconnu et invariant dans le temps (ou lentement variable) traditionnellement noté $\theta$. On suppose que les observations $Y_n$ reçues à chaque instant sont reliées au vrai paramètre $\theta^*$ par une relation du type

\begin{eqnarray*}E_\theta[H(\theta,Y_n)]=0,~~~\mbox{si}~~~~ \theta=\theta^*\end{eqnarray*}



$E_\theta$ désigne l'espérance selon la loi de $Y_n$, $H$ est une fonction connue, mais la distribution de $Y_n$est inconnue et peut dépendre de $\theta$ (d'où l'indice $\theta$ dans $E_\theta$) . Dans un grand nombre de situations, $H$ est le gradient d'une fonction à minimiser (erreur quadratique de prédiction,...). La structure générale de l'algorithme de minimisation sera alors

\begin{eqnarray*}\theta_{n} = \theta_{n-1}-\gamma_n H(\theta_{n-1},Y_n)\end{eqnarray*}



$\gamma_n$ est une suite décroissante, typiquement $1/n$ ou une constante, et $\theta_n$ est l'estimée de $\theta^*$ au temps $n$.

Par exemple, si $H(\theta,Y)=\theta-Y$, et $\gamma_n=1/n$, $\theta_n$ est simplement la moyenne arithmétique des $Y_n$.Une situation plus compliquée est celle des algorithmes de Robbins-Monro: on cherche à régler le paramètre $\theta$ (dosage de produits chimiques...) de sorte que l'effet mesuré par $Y$ (chaleur produite...) soit à un niveau moyen $\alpha$, et la règle du jeu est que $Y_n$ est le résultat d'une expérience faite avec $\theta_{n-1}$;dans cette situation $H(\theta,Y)=Y-\alpha$. Dans l'exemple du paragraphe précédent, on choisira typiquement d'estimer $\theta$ avec

\begin{eqnarray*}&&Y_n=(y_n,y_{n-1},u_n,u_{n-1}) \\ &&H(\theta,Y_n)=\partial_\theta (y_n-f(\theta,y_{n-1},u_n,u_{n-1}))^2.\end{eqnarray*}




L'étude théorique de ces algorithmes est généralement faite dans un cadre Markovien assez large donnant une forme explicite à la dépendance en $\theta$ de la loi du processus $Y_n$ [BMP90].

Si l'on s'intéresse aux gains en $1/n$, il est acquis [HH80,NK76,BMP90,KC78,Del96b] que sous certaines hypothèses, peu restrictives mais pas toujours faciles à vérifier, $\theta_n$converge presque sûrement vers $\theta^*$, et les variables $\sqrt{n}(\theta_n-\theta^*)$ convergent en loi vers une variable normale de variance $V$ satisfaisant une certaine équation de Lyapunov [Del96a]. On vérifie que $V$ peut être améliorée par l'introduction d'une matrice de gain $\Gamma$ dans l'algorithme:


\begin{eqnarray*}\theta_{n} &=& \theta_{n-1}-\gamma_n \Gamma H(\theta_{n-1},Y_n)\end{eqnarray*}



et que le choix optimal du gain permet d'atteindre la borne de Cramér-Rao. Malheureusement, cette matrice optimale est généralement inconnue. Cette difficulté peut être évitée par l'usage de l'algorithme de Polyak-Ruppert [Pol90,DJ95b]:

\begin{eqnarray*}\theta_{n} &=& \theta_{n-1}-\gamma_n H(\theta_{n-1},Y_n) \\ \b... ...ar{\theta}_{n-1} + \frac{1}{n}(\theta_{n-1}-\bar{\theta}_{n-1}).\end{eqnarray*}



avec un gain $\gamma_n$ typiquement d'ordre $n^{-2/3}$. On peut prouver l'optimalité de cet algorithme (convergence de $\bar{\theta}_n$ vers $\theta^*$ à même vitesse que $\theta_n$ dans le cas où $\Gamma$ est choisi au mieux) dans des circonstances assez générales.


Les algorithmes à gain constant ($\gamma_n=\gamma$) sont utilisés en revanche lorsque le vrai paramètre varie lentement dans le temps (situation de poursuite). Les études se concentrent dans ce cas sur une approche asymptotique où $\gamma$ et la vitesse de variation de $\theta^*$ sont petits. Un premier aspect est la convergence dans la période transitoire $(1\le n \le 1/\gamma)$, période pendant laquelle $\theta_n$ passe de la valeur initiale $\theta_0$ à un voisinage de $\theta^*$.Cette approche dite de l'équation différentielle moyenne est étudiée à fond dans [BMP90] et conduit à la conclusion suivante: si $\theta^*_n$ varie régulièrement à vitesse $v$, le gain doit être choisi d'ordre $v^{2/3}$, mais si $\theta^*_n$ suit une marche aléatoire, le gain doit être proportionnel à l'amplitude moyenne de $\vert\theta^*_{n+1}-\theta^*_n\vert$.Un deuxième angle d'attaque correspond à l'étude de la distribution limite de $\theta_n$ lorsque $\theta_n^*$ a une distribution donnée et $\gamma$ est fixé [DJ95a], et conduit au même type de conclusion.

Un problème ouvert est l'estimation directe d'un bon gain sans connaissance a priori sur les variations de $\theta^*$: la véritable adaptativité. Ceci correspond à des études en cours dans le projet. Elle a été déjà amorcée dans un cadre applicatif pour un problème d'analyse d'images météorologiques; il s'est agi d'utiliser une méthode statistique inspirée de la solution d'un problème d'estimation non-paramétrique dans un cadre min-max (voir le rapport du projet VISTA).

Un autre problème en cours de traitement est l'approximation stochastique pour les paramètres de grande dimension. L'idée, pour rendre le problème soluble, est de supposer que le vrai paramètre $\theta^*$ appartient à la boule unité de $l_1$. Cette contrainte réduit considérablement le volume de l'espace de recherche tout en restant réaliste pour les applications. Un avantage supplémentaire est qu'on aboutira à des estimées $\hat{\theta}$ parcimonieuses, au sens où la majorité des coefficients seront quasi-nuls. Dans ces circonstances, même en déterministe, les méthodes de gradient sont totalement inefficaces (puisque le gradient appartient au dual de l'espace d'origine, qui diffère maintenant de ce dernier). Il faut alors utiliser la méthode des algorithmes miroirs décrite dans [JN96].

Estimation non-paramétrique

Sous sa forme la plus traditionnelle, le problème de l'estimation non-paramétrique se pose ainsi: on observe des paires $(x_n,y_n)$ indépendantes où

\begin{eqnarray*}y_n=f(x_n)+e_n.\end{eqnarray*}



Les $e_n$ sont des variables gaussiennes i.i.d. (indépendantes identiquement distribuées) et $f$ est la fonction inconnue à estimer. L'erreur d'estimation considérée est le risque quadratique

\begin{eqnarray*}\int \vert\hat{f}(x)-f(x)\vert^2 p(dx)\end{eqnarray*}




$p(dx)$ est la distribution de $x_n$ et $\hat{f}$ est l'estimée de $f$.L'approche conceptuellement la plus simple consiste à supposer que $f$ appartient à un certain ensemble de fonctions ${\cal F}$qui doit être compact dans l'ensemble des fonctions continues (sinon on ne pourra jamais estimer $f$ en un sens raisonnable), par exemple,

\begin{eqnarray*}{\cal F}=\{f, \sup_x \vert f(x)\vert+\vert f'(x)\vert+\vert f''(x)\vert \le 1\}\end{eqnarray*}




et de réaliser le maximum de vraisemblance

\begin{eqnarray*}\hat{f}=\arg\min_{\cal F} \sum_{n=1}^N (y_n-f(x_n))^2.\end{eqnarray*}



Cet algorithme est asymptotiquement optimal dans de nombreuses situations (ce n'est cependant pas toujours le cas) et converge, en norme $L_2$, à une vitesse qui se rapproche de la vitesse paramétrique $1/\sqrt{N}$ lorsque la classe ${\cal F}$ se restreint à des fonctions de plus en plus régulières. Cet algorithme étant irréalisable en raison de sa complexité, des alternatives ont été proposées depuis longtemps[3]. Les méthodes les plus récentes font appel aux ondelettes et donnent lieu à des algorithmes, dits adaptatifs, car ils ne requièrent pas la connaissance exacte de ${\cal F}$;ils sont dûs à D. Donoho, I. Johnstone, G. Kerkyacharian et D. Picard [DJ96].

Les problèmes qui nous intéressent sont liés à la situation où l'on observe un système dynamique du type

\begin{eqnarray*}y_n=f(y_{n-1},u_n)+e_n.\end{eqnarray*}



Dans cette situation, la loi de $x_n=(y_{n-1},u_n)$ dépend elle-même de $f$,ce qui influe sur l'algorithme; de plus la suite $(x_n)$ n'est plus indépendante, ce qui ralentit l'approximation (en particulier si la variance de $e_n$ est petite!).

Surveillance et diagnostic par les techniques du traitement statistique du signal, cf. modules [*], [*]

 

Mots-clés : détection de panne, identification, approche locale, diagnostic de panne, alarmes intelligentes


Approche locale: Technique statistique permettant de comparer l'adéquation de deux modèles différents à un même échantillon de données, lorsque la taille de l'échantillon tend vers l'infini. Pour éviter alors des situations singulières, on renormalise l'écart entre ces deux modèles en le rendant proportionnel à $1/\sqrt{N}$$N$ est la longueur de l'échantillon. On obtient ainsi des théorèmes du type théorème-limite central pour la statistique permettant de décider de la comparaison entre ces modèles, ce qui permet de calibrer de manière fondée les divers seuils, en prenant en compte les incertitudes sur le modèle et les mesures.

Alarmes intelligentes: Indicateurs de panne, porteurs d'informations relatives au diagnostic, sous la forme des composants le plus probablement responsables de la panne détectée. Ces indicateurs réalisent automatiquement le compromis entre l'amplitude des changements détectés et la précision de l'identification du modèle de référence d'une part et, d'autre part, le niveau de bruit présent sur les mesures. Ces indicateurs sont peu coûteux, et peuvent donc être embarqués [GD91,BBGD$^{+}$93].

Résumé : Nous avons développé une méthode statistique de portée générale permettant de confronter un modèle à des données mesurées sur un procédé, et de détecter une éventuelle inadéquation entre modèle et mesures, même si celle-ci est imperceptible de prime abord. Décider de manière précise d'une telle inadéquation nécessite de comparer l'effet prédit dans le cas d'un changement du procédé avec les incertitudes que l'on a sur les mesures. L'approche dite ``asymptotique locale'' introduite dans les années $70$ par Le Cam [Rou72,Cam86], et que nous avons étendue et adaptée [BMP90,BN93], permet de fonder une telle démarche [19].


On se donne une suite d'observations $(Y_n)_{n \geq 0}$ de loi jointe $P_{\theta}$,où $P_{\theta}$ dépend d'un paramètre inconnu $\theta \in {\bf R}^p$. Par ailleurs, on dispose d'une valeur nominale $\theta_0$ pour le paramètre $\theta$.Cette valeur nominale $\theta_0$ peut, par exemple, représenter un comportement ``type'' normalisé pour le système considéré. Elle peut également avoir été obtenue par identification à l'aide de données de référence, provenant, par exemple, de mesures prises sur le système à surveiller en état nominal de fonctionnement.

Les questions que l'on se pose sont alors les suivantes:

1.
L'échantillon $(Y_n)_{n \geq 0}$ admet-il ${P}_{\theta_0}$ comme modèle? Il s'agit de savoir si l'échantillon observé est bien en conformité avec le modèle nominal.
2.
En cas de réponse négative, quelles sont les composantes de $\theta$ qui ont le plus changé? Il s'agit là d'effectuer un diagnostic sur la nature du changement de comportement. Dans le cas où le paramètre $\theta$ a une signification physique, on obtient ainsi un diagnostic sur l'origine du changement de comportement.

Supposons que l'on sache trouver une fonction $H(\theta,Y)$, dite fonction d'estimation, telle que  

\begin{eqnarray}E_\theta[H(\theta_0,Y_n)]=0&\mbox{si et seulement si}& \theta=\theta_0~.\end{eqnarray}



La condition ([*]) est par exemple satisfaite si $H(\theta,Y)$provient d'une méthode d'identification du paramètre $\theta$, cf. module [*]. Alors, répondre à la question [*] revient par conséquent à tester si, pour le nouvel échantillon observé $(Y_n)$, on a bien $H(\theta_0,Y_n)=0$ en moyenne. Ceci peut être réalisé de manière précise si l'on connait la loi, sous $P_{\theta}$, de la statistique $H(\theta_0,Y_n)$. C'est ce que l'approche asymptotique locale, introduite par Le Cam dans les années 70 pour les techniques de maximum de vraisemblance, permet d'obtenir.

L'idée est la suivante: étant donné un échantillon $(Y_n)_{1 \leq n \leq N}$ de longueur $N$, on cherche à approcher la loi de la statistique

\begin{displaymath}U_N(\theta_0) = \frac{1}{\sqrt{N}} \sum_{n=1}^{N} H(\theta_0,Y_n)\end{displaymath}




dans le cas où le vrai paramètre $\theta$ est :

\begin{displaymath}\theta = \theta_0 + \frac{\widetilde{\theta}}{\sqrt{N}}\end{displaymath}



ce qui signifie que le modèle nominal s'écarte du vrai modèle en $O(1/\sqrt{N})$ -- c'est là l'originalité de l'approche locale de Le Cam. Faisant un développement de Taylor autour de $\theta$, il vient  

\begin{equation}U_N(\theta_0) \approx U_N(\theta) - \frac{1}{N} \left(\sum_1^N... ...partial}{\partial \theta} H(\theta,Y_n)\right) \widetilde{\theta}\end{equation}



Par le théorème-limite central sous la loi $P_{\theta}$, $U_N(\theta)$ est asymptotiquement Gaussien centré, de covariance $\Sigma$ que l'on sait calculer et estimer. Tandis que, toujours sous $P_{\theta}$, la loi des grands nombres nous donne la convergence du second terme vers sa moyenne $-E_{\theta} \frac{\partial}{\partial \theta} H(\theta,Y_n)$. Ceci nous permet de décrire le comportement de la statistique $U_N(\theta_0)$ sous des hypothèses très générales, et de concevoir des tests permettant de décider si le modèle nominal $\theta_0$ est conforme ou non au nouvel enregistrement.

Mais on peut tirer de ([*]) d'autres enseignements. Le vrai paramètre $\theta$ étant toujours inconnu, on souhaite l'identifier en résolvant, avec $\theta_0$ cette fois comme inconnue, l'équation [MS88]  

\begin{equation}\widehat{\theta}_N ~=~ \arg_{\theta_0} \left\{U_N(\theta_0)=0\right\}\end{equation}



La valeur ainsi obtenue pour le paramètre $\theta_0$ sera notée $\widehat{\theta}_N$ pour indiquer qu'il s'agit d'un estimateur du paramètre $\theta$. Reportant la contrainte $U_N(\theta_0)=0$ dans ([*]), il vient alors

\begin{displaymath}\sqrt{N} (\widehat{\theta}_N-\theta) \approx -E_\theta \lef... ...artial}{\partial \theta} H(\theta,Y_n) \right]^{-1} U_N(\theta)\end{displaymath}



et il apparaît que l'on peut ainsi déduire le théorème-limite central pour l'estimateur ([*]) du théorème précédent concernant la statistique $U_N(\theta)$. Pour tout ceci, voir en particulier l'article [60].



previous up next contents Précédent : Présentation générale et objectifs Remonter : Projet SIGMA2, Signaux, Modèles et Suivant : Grands domaines d'application