Projet IS2

previous up next contents
Précédent : Grands domaines d'application Remonter : Projet IS2, Inférence statistique pour Suivant : Actions industrielles



Résultats nouveaux

Modèles linéaires généralisés et hétéroscédasticité



Participants : Christian Lavergne , Catherine Trottier , Yann Vernaz


La régression a pour objet la modélisation et l'étude de la relation entre une variable dite réponse et une ou plusieurs autres variables dites explicatives ou régresseurs. Dans ce cadre, choisir un estimateur revient à minimiser une distance entre un modèle et des observations.

À la base, il y a la régression linéaire et la méthode des moindres carrés. Cette notion classique s'appuie sur trois hypothèses fondamentales.

La première est le lien linéaire qui existe entre la variable réponse et les variables explicatives. La deuxième est dans la nature de la loi de probabilité des erreurs qui, dans le cas de la régression linéaire standard est la loi gaussienne. La troisième est ce qu'on nomme l'homoscédasticité du modèle: la variance des observations est indépendante des variables explicatives associées au modèle.

Afin de pallier deux des hypothèses fortes de la régression linéaire qui portent sur la loi des erreurs et l'homoscédasticité, les théories des modèles linéaires mixtes, celle des modèles linéaires généralisés ainsi que celle des modèles conditionnellement hétéroscédastiques se sont développées en parallèle. Nous nous attachons à l'étude de modèles qui combinent ces généralisations.

Modèles linéaires généralisés à effets aléatoires



Participants : Christian Lavergne , Catherine Trottier


L'incapacité des modèles linéaires classiques à permettre une analyse satisfaisante de certaines données comme les données binaires, a conduit à élargir l'ensemble des lois considérées et à définir les modèles linéaires généralisés (GLM). D'autre part, les modèles linéaires mixtes (L2M), dans lesquels les effets aléatoires sont venus compléter les effets fixes, ont aussi répondu à des nécessités pratiques de modélisation. La combinaison de ces deux extensions des modèles linéaires classiques aboutit à la définition des modèles linéaires généralisés mixtes (GL2M). L'étude de ces modèles est la base du travail de thèse de C. Trottier.


La majeure partie du travail a consisté à mettre en place des méthodes d'estimation des paramètres inconnus et plus particulièrement des composantes de la variance. À l'opposé de certains auteurs qui étudient ce problème en spécifiant la loi de probabilité et la fonction de lien afin d'en utiliser les particularités, nous avons ici pris le parti d'étudier ces modèles comme des modèles uniquement spécifiés par l'appartenance de la loi conditionnelle à la structure exponentielle. Les démarches proposées ont conduit à l'élaboration d'une sorte d'$\ll$échelle de déconditionnement$\gg$.

Partant d'une méthode d'estimation utilisant le modèle conditionnel [Sch91], nous avons proposé une méthode construite sur un modèle $\ll$non-conditionné$\gg$;ces deux méthodes s'inspirant à la fois de la théorie des GLM et des L2M. Un autre point de vue est de travailler sur le modèle marginal. C'est ce que Gilmour, Anderson et Rae [GAR85] ont proposé dans le cas de la loi binomiale avec la fonction de lien probit (inverse de la fonction de répartition d'une loi normale). C. Trottier a proposé une nouvelle lecture de cette méthode, qui permet de lever certaines hypothèses contraignantes. La méthode a donc été généralisée pour un plus grand nombre de situations classiques modélisées par les modèles linéaires généralisés (lois de probabilité et fonction de lien) en levant de plus l'hypothèse d'homogénéité des variances des variables sous-jacentes.

Le point de vue de l'$\ll$échelle de déconditionnement$\gg$ permet ainsi d'étudier tous les liens qui existent entre ces trois méthodes au travers des cas particuliers classiques.


Une autre partie de ce travail a été de s'intéresser à une nouvelle catégorie de modèles que sont les modèles linéaires généralisés mixtes à variances hétérogènes. Notre attention s'est focalisée dans un premier temps sur l'estimation des paramètres de variance des effets aléatoires.

L'originalité de ces modèles est liée à l'introduction de l'hétérogénéité. Cette notion d'hétérogénéité peut recouvrir des sens différents selon les auteurs et les contextes, et peut donner lieu à des modélisations variées. L'étude a porté sur une modélisation particulière répondant à de nombreuses situations pratiques rencontrées en génétique animale et a été élargie au cadre des modèles linéaires généralisés mixtes. La méthode d'estimation proposée est centrée sur l'utilisation de l'algorithme EM.

Modèles ARCH



Participants : Christian Lavergne , Yann Vernaz



La théorie des modèles ARCH (Auto-Régressifs Conditionnellement Hétéroscédastiques) introduite par Engel [Eng82] peut à juste titre être considérée comme un des développements les plus prometteurs de la décennie pour modéliser le comportement des cours boursiers. Cette classe de modèles non linéaires, caractérisés par une variance conditionnelle, permet de déceler des périodes de volatilité plus faible ou plus forte au cours du temps. Ces modèles permettent aussi d'intégrer des propriétés observées empiriquement sur les séries financières: la dépendance quadratique entre deux observations, la forte sensibilité des variations sur les variations futures, les distributions à queues lourdes (leptokurtisme) des rentabilités.

L'étude de ces modèles est la base du travail de la thèse que Y. Vernaz a démarrée en octobre 96. Dans la première partie de ce travail, nous avons mis en oeuvre une procédure itérative basée sur la méthode des moindres carrés (MCGi) pour l'estimation des paramètres d'un modèle ARCH. À présent nous travaillons sur l'estimation dans des modèles de régression avec erreurs ARCH ou GARCH (modèle ARCH généralisé [Bol86]). Les résultats théoriques montrent que la méthode MCGi a un bon comportement asymptotique, en particulier dans un cadre non gaussien, cas où la méthode habituelle du pseudo-maximum de vraisemblance (PMV) n'est plus performante. Nous avons effectué des simulations afin de comparer numériquement les estimateurs; dans un cadre gaussien la procédure MCGi est aussi performante que l'algorithme BHHH[BHHH74] classiquement utilisé pour calculer les estimations par PMV, et s'avère plus performante sinon. En outre, les avantages de la méthode MCGi sont sa simplicité de mise en oeuvre, sa rapidité et sa stabilité numérique. Nous avons poursuivi notre travail sur la relecture d'un processus ARCH sous la forme d'un modèle linéaire généralisé (GLM). Dans ce contexte il est alors possible de réaliser une inférence en ne retenant que les deux premiers moments et la fonction qui les relie, en utilisant la notion de quasi vraisemblance [MN89]. Enfin, nous étudions parallélement un estimateur de type adaptatif de meilleur comportement asymptotique dans le cas d'un modèle de régression avec des erreurs (G)ARCH[21].

Modèles GLM-ARCH



Participant : Christian Lavergne



Dans la théorie des modèles ARCH et l'analyse de rentabilités financières apparaît aussi bien d'un point de vue descriptif que théorique la loi gaussienne. En effet tout histogramme de rentabilités s'approche d'une courbe en cloche et de ce fait supposer la loi gaussienne sur les erreurs conditionnelles dans un modèle ARCH paraît assez naturel. On peut donc pour résumer dire que les modèles ARCH pour la finance, ainsi que ses dérivés s'appuient sur la loi gaussienne.

Pourquoi donc ne pas chercher une généralisation de ces modèles pour une famille de loi plus générale comme une famille exponentielle pour d'autres types de série chronologique ? C'est ce que nous proposons avec comme famille de lois, la famille exponentielle usuellement utilisée dans la théorie des modèles linéaires généralisés; avec comme cas usuel, l'étude de séries chronologiques où la loi de probabilité sous-jacente sera la loi de Poisson, la loi binomiale ou la loi exponentielle.

Nous introduisons donc une nouvelle classe de modèles appelé modèles ``GLM-ARCH'', pour des modèles de type modèles linéaires généralisés auto-régressif. L'appellation ``ARCH'' se justifiant par le fait que la variance conditionnelle ne sera pas constante et donc que le processus sera conditionnellement hétéroscédastique. Nous montrons qu'il est possible de donner des cas particuliers où le processus sera stationnaire au premier ordre et asymptotiquement stationnaire au second ordre. Nous avons étudié quelques exemples de ces modèles en commençant par des séries à loi exponentielle, puis des séries à loi de Poisson où l'on verifie de façon empirique, voire théorique dans certains cas, que l'on introduit par le biais de cette modélisation un phénomène de type $\ll$leptokurtique$\gg$.

Le principe de maximum d'entropie en modélisation statistique



Participants : Claudine Robert , Véronique Venditti , Gilles Celeux


Le principe de maximum d'entropie (PME) renverse la présentation classique de la modélisation statistique au sens où il impose de choisir en premier lieu les quantités statistiques que l'on juge essentielles pour résumer l'information apportée par un jeu de données. Le modèle, c'est-à-dire la loi de probabilité décrivant le phénomène aléatoire, n'apparaît, par application du PME, qu'après avoir imposé les contraintes mettant en jeu ces quantités.

Mise en oeuvre du PME

La loi de maximum d'entropie est obtenue par la maximisation d'une certaine fonctionnelle sur l'ensemble des lois pouvant servir de modèles. Nous avons choisi comme fonctionnelle l'entropie de Shannon, car elle seule permet d'atteindre une loi qui possède la propriété de concentrer les lois empiriques dans son voisinage [Rob90]. Nous avons montré que s'il existe un état de Gibbs

État de Gibbs: Loi de probabilité de la forme $\exp(- \sum_r \lambda_r \phi(x_r))$, $\lambda_r$ étant les paramètres du modèle, et $\phi$des fonctions des variables $x_r$ répondant aux contraintes.

celui-ci représente l'unique loi qui réalise le maximum de cette entropie. Cette propriété règle la question de l'obtention de la loi quelle que soit le type des variables en jeu. Nous avons, de plus, établi que dans la démarche classique consistant à partir d'une structure statistique donnée, les équations du maximum de vraisemblance sont exactement les équations du PME associées à une information empirique. Les deux principes (principe de maximum de vraisemblance et de maximum d'entropie) se renforcent alors mutuellement.

Pour l'application du PME à des fins de modélisation, nous avons défini deux stratégies permettant de bien cadrer, à notre sens, son utilisation. Nous nous sommes imposés d'une part d'utiliser un nombre de contraintes limité, quitte à les compléter par la suite (stratégie de parcimonie). D'autre part, les quantités statistiques tirées des données devront toujours être de nature suffisamment simple pour être interprétables (statégie de simplicité). Enfin, pour éviter toute contradiction entre l'échantillon et la distribution obtenue, nous ne considérerons que des informations empiriques déduites de l'échantillon.

PME et analyse discriminante

Nous avons montré que des informations élémentaires en nombre et en nature aboutissent en général à retrouver l'expression de modèles courants (modèles gaussiens, modèles log-linéaires, modèles graphiques, $\ldots$). Nous avons ensuite appliqué le PME dans une problématique d'analyse discriminante où il s'agit de prévoir l'appartenance à des groupes définis a priori à partir de la connaissance de variables explicatives. Nous avons montré que les modèles classiques d'analyse discriminante ([Cel90], [Ce94]) s'obtenaient par le PME à partir d'informations élémentaires.

Nous avons montré d'autre part que le PME permet d'envisager la procédure de régression logistique [Efr75] comme l'écriture naturelle d'une étude de régression où l'information apportée par un jeu de données (issu d'un échantillonnage de type quelconque) est résumée simplement par la loi empirique des variables explicatives, celle de la variable à expliquer définissant les groupes, et par les moyennes empiriques des liens entre chaque variable explicative et la variable à expliquer. Cette relecture évite d'avoir à justifier l'utilisation des équations issues de la maximisation d'une vraisemblance correspondant à un échantillonnage prospectif pour d'autres types de protocoles ([And82]).

Nous avons également montré qu'il est impossible d'utiliser dans un but décisionnel un modèle d'analyse discriminante obtenu par PME à partir d'une information qui ne fixe pas la loi de répartition des groupes a priori. Devant ce manque d'information, le PME aboutira en effet à un modèle qui définit une frontière de discrimination aberrante: par exemple, dans le cas d'une unique variable explicative réelle avec une information correspondant à l'analyse discriminante linéaire, on obtient comme frontière la droite $x=0$, quelles que soient les caractéristiques des groupes.

Algorithmes stochastiques



Participants : Gilles Celeux , Jean Diebolt , Anatoli Iouditski


Les termes algorithmes stochastiques regroupent ici deux types différents d'algorithmes.

Dans la première catégorie, on trouve des versions stochastiques de l'algorithme EM et les algorithmes dits MCMC (Markov Chain Monte Carlo) d'inférence bayésienne.

Algorithme EM: C'est un algorithme très populaire pour l'estimation du maximum de vraisemblance de modèles à structure de données incomplètes dont chaque itération comporte deux étapes. L'étape E (expectation) qui consiste à calculer l'espérance conditionnelle de la vraisemblance des données complètes et l'étape M (maximisation) qui consiste à maximiser cette espérance conditionnelle.

Les versions stochastiques de l'algorithme EM incorporent une étape de simulation des données manquantes pour pouvoir travailler sur des données complétées.

Définis dans un cadre bayésien et partant d'une loi a priori pour les paramètres, les algorithmes MCMC simulent une chaîne de Markov définie sur les valeurs possibles des paramètres qui a pour loi stationnaire la loi recherchée, à savoir la loi a posteriori des paramètres.

Estimation adaptative



Participants : Bernard Delyon , Anatoli Iouditski


Les algorithmes récursifs sont étudiés sous leur forme générale décrite dans [BMP90]:

\begin{displaymath}\theta_{n} =\theta_{n-1} + \gamma_{n} H( \theta_{n-1},Y_n)\end{displaymath}


dans un cadre stochastique, $\theta_n$ est ici l'estimée du vrai paramètre $\theta^*$ (inconnu) à l'itération $n$,$Y_n$ est l'observation, de caractère aléatoire stationnaire, et $\gamma_n$ est un gain décroissant ou constant. Le paramètre $\theta^*$ est solution de l'équation $E[H(\theta^*,Y_n)]=0$.

Les résultats de convergence obtenus récemment dans le projet SIGMA2 pour ce type d'algorithmes à gain décroissant ont permis d'étudier de nouveaux algorithmes d'estimation récursive de processus ARMA et de montrer le bon comportement d'algorithmes jusqu'ici inexplorés. Ils sont particulièrement efficaces quand on les couple avec la méthode de moyennisation de Polyak-Ruppert (la vitesse de convergence de $\theta_n$ vers $\theta^*$ est alors optimale). Si l'ordre du processus ARMA est surestimé, l'ensemble des points stationnaires (solutions $\theta^*$ de $E[H(\theta^*,Y_n)]=0$, i.e. les filtres qui minimisent l'erreur de prédiction) devient une variété différentielle, et des techniques particulières doivent être utilisées pour prouver la convergence de l'algorithme [16].

Nous menons par ailleurs une collaboration avec les projets SIGMA2 et VISTA (ex TéMIS) de l'IRISA, dans le cadre de la thèse de Mariette Maurizot, sur l'utilisation de méthodes statistiques pour les algorithmes d'estimation adaptatifs pour une application concernant l'analyse de mouvement fluide 2D. Cette étude illustre comment le problème de l'adaptativité est lié à celui de l'équilibrage du biais et de la variance des estimateurs, et propose une approche originale pour le résoudre. Nous renvoyons pour plus de détails au rapport d'activité du projet VISTA.

Estimation non paramétrique



Participants : Bernard Delyon, Anatoli Iouditski


Les algorithmes d'approximation stochastique dans le cas où le paramètre inconnu $\theta$ est de grande dimension sont également un sujet de préoccupation intéressant. L'analyse de ces méthodes permet de résoudre le problème de fusion fonctionnelle suivant, qui est un problème d'estimation non paramétrique: on possède $n$ observations $(y_1,...y_n)$ d'un processus satisfaisant

\begin{displaymath}y_k=f(y_{k-1},...y_{k-d})+b_k\end{displaymath}


$b_k$ est un bruit et $f$ est une fonction de ${\bf R}^d$ dans R; il s'agit de trouver le meilleur estimateur de $f$ comme combinaison convexe de $M$ fonctions $f_1,...,f_M$données à l'avance (typiquement $M$ est très grand et la famille $(f_i)$est fortement non orthogonale). Nous proposons un algorithme de type miroir qui donne des approximations de $f^*$ (la meilleure combinaison convexe) avec une vitesse $\ll$minimax$\gg$,qui ne peut être améliorée de façon significative.

Notons que la solution obtenue est parcimonieuse au sens où assez peu de fonctions interviennent dans la solution finale.

Les algorithmes d'estimation non paramétrique basés sur le triage adaptatif des estimées $\ll$algorithmes d'arbre$\gg$, développé depuis quelques années dans le projet SIGMA2, utilisent des polynômes locaux pour identifier des systèmes dont l'entrée est de dimension élevée; il conduit à la réalisation d'un algorithme de résolution de problèmes d'estimation non paramétrique s'inspirant des méthodes neuronales et de l'analyse de régression; sa mise en oeuvre prend en compte le caractère disséminé des observations, s'il y a lieu, pour réduire la complexité de calcul lié à la dimension de l'entrée. Actuellement, ces algorithmes sont intégrés dans le développement d'une boîte à outils pour l'identification non linéaire, conjointement mené avec le projet SIGMA2 et des collègues de l'université de Linköping (Suède).

Commande adaptative



Participant : Anatoli Iouditski


Une partie importante de la théorie de l'estimation statistique concerne l'établissement des limites intrinsèques de performances des algorithmes, et, par conséquent, fournissent une caractérisation pertinente du problème d'estimation en question; ils donnent ainsi une échelle absolue d'optimalité pour toutes les techniques qui sont proposées pour la résolution de ce problème. Par rapport aux problèmes classiques d'estimation stochastique, le problème de la commande adaptative est assez singulier: il possède un degré de liberté supplémentaire qui est la commande.

Dans le cadre du contrat INTAS 93-894 nous avons continué, en collaboration avec des chercheurs de l'IPU (Institute for Control Science) de Moscou, l'étude des algorithmes adaptatifs de commande pour des systèmes dynamiques non linéaires. Des nouveaux algorithmes de commande ont été proposés et leur efficacité a été établie [24], [23].

Contrôle des algorithmes MCMC



Participant : Jean Diebolt


Dans le contexte actuel de l'utilisation intensive en statistique des méthodes de Monte-Carlo par chaînes de Markov (MCMC), il est essentiel de s'assurer que les résultats proposés sont valides et précis. En collaboration avec Didier Chauveau (université de Marne-la-Vallée), Jean Diebolt travaille à mettre au point une nouvelle méthode de contrôle de la convergence vers la stationnarité des chaînes de Markov engendrées par les algorithmes MCMC, qui permet la construction de $\ll$régions de confiance$\gg$pour les ensembles de quantités à évaluer. Plus précisément, notre procédure de contrôle utilisent des chaînes simulées en parallèle, afin de déterminer au moyen d'approximations empiriques un nombre minimal d'itérations au-delà duquel l'utilisation du théorème de la limite centrale puisse être considérée comme justifiée, en vue de construire des intervalles de confiance pour les résultats fournis par l'algorithme. Ce travail [25] en cours devrait constituer un chapitre d'un Lecture Notes collectif du groupe MC.Cube (cf. [*]) consacré à ce thème.

Une nouvelle version de l'algorithme EM pour les mélanges



Participant : Gilles Celeux


En collaboration avec A. Mkhadri (université de Marrakech), nous avons d'une part justifié en toute généralité une présentation de l'algorithme EM comme un algorithme d'optimisation alternée d'un critère de vraisemblance pénalisée. Cette présentation était déjà connue mais n'avait été démontrée que dans le cas où la structure des données manquantes était discrète. Partant de cette propriété, nous avons proposé dans l'esprit de l'algorithme AEM récent[MD97], une nouvelle version de l'algorithme EM qui réalise les deux étapes E et M composant par composant au lieu de travailler globalement. Des simulations montrent un bon comportement de cet algorithme qui évite les situations de convergence lente de l'algorithme EM traditionnel. L'étude de ses propriétés théoriques reste à faire.

Le problème de l'étiquetage des modèles à structure cachée

 

Participant : Gilles Celeux


Dans les modèles à structure latente discrète, la numérotation des catégories cachées est arbitraire. Cela induit un inconvénient pour l'emploi d'algorithmes stochastiques, notamment les algorithmes MCMC. En effet de tels algorithmes peuvent produire, sans crier gare, de multiples changements d'étiquetage au cours de leur exécution rendant leur exploitation délicate.

Nous avons d'abord identifié des situations importantes où ce phénomène risquait de se produire souvent (le mélange de lois exponentielles, l'utilisation d'algorithmes MCMC à sauts réversibles, les modèles à risques multiples masqués,...). Puis, nous avons cerné les défauts de la méthode la plus naturelle qui consiste à imposer des contraintes sur l'espace des paramètres: biais des estimateurs en résultant, arbitraire des contraintes choisies. Enfin, nous avons proposé une solution très générale, non restreinte à un cadre bayésien, pour résoudre cette difficulté. Elle consiste à réaliser un rétablissement de la numérotation initiale des catégories par une version séquentielle de l'algorithme de classification des centres mobiles appliquée à la suite des itérés normalisés.

Évaluation de modèles



Participants : Henri Bertholon , Gilles Celeux , Jean Diebolt , Joseph Ngatchou Wandji


Le développement de moyens de calcul de plus en plus puissants et rapides pousse les statisticiens à envisager des modèles de plus en plus sophistiqués, donc de plus en plus complexes. Cette tendance mène parfois certains d'entre eux à faire preuve d'exigences démesurées au vu de la nature des observations dont ils disposent (voir par exemple les méthodes qui s'organisent autour de la Projection Pursuit). C'est dans ce contexte que s'inscrit le renouveau actuel des travaux sur le choix et la validation des modèles. Les tests d'adéquation non paramétriques constituent un outil de choix, à condition de considérer le résultat d'un tel test (la $p$-value) davantage comme une mesure, rapportée à une échelle ``universelle'' de probabilités, de distance entre le modèle testé et le ``modèle idéal'' ayant engendré les observations, que comme le support d'une règle d'acceptation ou de rejet.

Par ailleurs, dans de nombreuses situations pratiques, notamment en fiabilité, le nombre de données est faible, ce qui accroît la nécessité de sélectionner avec soin l'ordre de complexité d'un modèle dans un souci de parcimonie. Il s'agit en fait de trouver un compromis entre la justesse d'un modèle (plus un modèle est complexe, plus il a de chances d'être un reflet exact de la réalité) et sa précision (plus un modèle est simple, plus son identification produira des résultats stables).

Tests non paramétriques d'adéquation de modèles de régression et d'autorégression



Participants : Jean Diebolt , Joseph Ngatchou Wandji


À côté de la théorie des tests d'adéquation paramétriques de modèles de distributions se développe depuis plusieurs années une théorie parallèle des tests d'adéquation non paramétriques de modèles de fonctions de régression ou d'autorégression.

Nous nous fondons sur une procédure générale reposant sur des processus empiriques (pondérés) des résidus et les théorèmes limites fonctionnels et les principes d'invariance associés, pour tester des modèles d'ordre un (y compris les modèles de type bilinéaire). Nous sommes en train d'adapter les résultats obtenus dans nos travaux antérieurs[11] au cas plus général où les paramètres du modèle de fonction de régression à tester sont inconnus, et où l'on utilise, pour définir le processus empirique des résidus pondérés, des estimateurs de ces paramètres obtenus par la méthode des moindres carrés conditionnels. Nous avons obtenu de premiers résultats, dans lesquels nous montrons la convergence en distribution, sous l'hypothèse du modèle testé (dite hypothèse nulle), de ce processus des résidus vers un processus gaussien centré que nous savons caractériser [10]. Dans ce travail, afin d'éviter les inconvénients liés au choix d'une statistique de test similaire à celle de Kolmogorov-Smirnov ou de Cramér-von Mises, nous envisageons une nouvelle statistique de test, dont la construction repose directement sur le développement de Karhunen-Loève du processus gaussien limite, et dont le principe est aussi applicable aux familles de distributions. Il reste à expérimenter numériquement cette procédure. Nous sommes aussi en train d'étudier le problème de la contiguïté de l'hypothèse nulle et de suites d'alternatives locales en $n^{- 1/2}$, $n$ étant la taille de l'échantillon disponible, afin de comparer la puissance locale de ce nouveau test à celle d'autres tests ayant déjà été proposés.

Choix de modèles en fiabilité



Participants : Henri Bertholon , Gilles Celeux


Nous étudions dans un premier temps le problème classique de la discrimination entre un modèle exponentiel et un modèle de Weibull (qui ne diffère que par un paramètre de forme témoignant d'un éventuel vieillissement du matériel). Nous sommes surtout intéressés par le cas de petits échantillons très censurés et nous nous situons dans un cadre bayésien non informatif (i.e sans connaissance a priori sur les paramètres du modèle). Notre approche consiste à définir un rapport de vraisemblance après élimination du paramètre de nuisance (ici le paramètre d'échelle) et, à partir de sa loi a posteriori, à obtenir une nouvelle région critique.

Nous la comparons alors à la région critique optimale de Neyman-Pearson, au test classique du rapport de vraisemblance, aux critères AIC et BIC, ainsi qu'à différentes versions du facteur de Bayes. Nous pouvons d'ailleurs voir notre approche comme une tentative pour améliorer le facteur de Bayes qui a l'inconvénient d'être difficilement contrôlable dans le cas non informatif. Ceci est dû au fait qu'il peut être considéré comme un rapport de deux vraisemblances pondérées par la loi a priori et cette dernière est définie à une constante arbitraire près dans le cas où la loi a priori n'est pas une loi de probabilité comme c'est souvent le cas dans un cadre non informatif. Différentes méthodes ont été proposées pour résoudre ce problème; notamment ont été définis ces dernières années: le facteur de Bayes a posteriori (où les vraisemblances sont pondérées par la loi a posteriori et non par la loi a priori), le facteur de Bayes intrinsèque (qui est une moyenne de tous les facteurs de Bayes calculés en mettant de côté une partie de l'échantillon utilisée comme échantillon d'apprentissage pour permettre de définir une loi plus précise sur les paramètres) et le facteur de Bayes fractionnel (où une fraction de la vraisemblance est considérée comme correspondant à un échantillon d'apprentissage virtuel). Un des nos objectifs futurs sera de situer notre approche par rapport à ces approches concurrentes et à l'étendre à des problématiques plus complexes associées par exemple à des matériels fonctionnant en série (modèles à risques multiples).

Modèles de fiabilité industrielle



Participants : Mostafa Bacha , Gilles Celeux , Jean Diebolt , Mhamed El Aroui , Christian Lavergne , Joseph Ngatchou Wandji , Yann Vernaz


Cette recherche s'effectue essentiellement dans le cadre de conventions d'étude et de recherche avec les groupes $\ll$Retour d'expériences$\gg$ et $\ll$Fiabilité, Maintenance$\gg$de l'EDF-DER. On peut distinguer trois axes qui sont des modèles de durées de vie pour des systèmes fortement censurés, l'analyse bayésienne des défauts de cuves REP et l'estimation de queues de distributions. Un dénominateur commun à ces thèmes est qu'il concerne la modélisation d'événements rares.

Le logiciel Weibull



Participants : Mostafa Bacha , Gilles Celeux


Suite à la thèse de M. Bacha[Bac96] et dans le cadre de notre collaboration avec le groupe $\ll$Fiabilité, Maintenance$\gg$de l'EDF-DER, nous avons programmé un logiciel interactif, interne à EDF et intitulé WEIBULL qui réalise l'estimation par le maximum de vraisemblance ou par inférence bayésienne des modèles suivants:

Ce logiciel est destiné aux ingénieurs EDF. Pour éviter la spécification trop technique des paramètres nécessaires à la construction des lois a priori, nous avons conçu un questionnaire à partir duquel nous attribuons des valeurs à ces paramètres. Par ailleurs, dans le cadre d'un stage de DEA (A. Laachir, université de Marne-la-Vallée) et d'un stage de fin d'études Ensimag (H. Safir), nous avons étudié le cas particulier des lois exponentielles où il est parfois possible d'avoir des solutions explicites si la cause de la défaillance n'est pas systématiquement inconnue.

Ce travail va donner lieu à une monographie aux éditions Eyrolles dans la collection $\ll$Études et recherche EDF$\gg$.

Cette année nous allons améliorer, dans le cadre d'une nouvelle CERD, le logiciel WEIBULL en incorporant des calculs d'intervalles de confiance pour les paramètres estimés et en résolvant, pour les systèmes à risques masqués le problème de renversement d'étiquetage par notre technique de classification présentée en [*]. Dans sa version actuelle, ce problème entâche la solution proposée dans les cas où l'information a priori est faible.

Modélisation et estimation de queues de distributions



Participants : Jean Diebolt , Mhamed-Ali El Aroui


Nous étudions, dans le cadre d'une convention d'étude et de recherche avec le groupe $\ll$Retour d'expériences$\gg$ de EDF-DER, le problème d'estimation des probabilités d'événements rares, ou queues de distribution. Plus précisément, si $X$ est une variable aléatoire, le problème peut se résumer en l'estimation du quantile $q_m$ défini par: \begin{displaymath}P(X \gt q_m) = \frac{1}{m} \mbox{\hspace{0.2 cm} } m \mbox{ étant un réel positif} \gt\gt 1.\end{displaymath}


Partant d'un échantillon $X_{1}, \ldots, X_{n}$ et d'un seuil $u$, les estimateurs du quantile $q_{m}$ par les méthodes non paramétriques ET (Exponential Tail), des excès, ou de l'estimateur de Hill généralisé reposent sur une approximation de la loi des excès $X - u$ sachant que $X \gt u$ respectivement par une loi exponentielle, une loi de Pareto généralisée (théorème de Pickands), ou une loi de Pareto.

Nous avons proposé et commencé à expérimenter le contrôle de la validité de ces méthodes en testant l'adéquation de chacune de ces familles de lois (exponentielle pour ET, Pareto généralisée pour les excès, Pareto pour Hill) à la distribution empirique des excès $X_{i} - u$ conditionnellement à $X_{i} \gt u$. De tels tests d'adéquation de bonne qualité ne sont pas disponibles dans le cas des lois de Pareto généralisées, ou peu utilisables dans le cas des lois de Pareto avec paramètre de position. Cela nous a donc conduits à reprendre la théorie de ces tests. Nous cherchons donc à en construire de nouveaux, à la fois puissants et commodément utilisables.

Autre travail de recherche en cours: nous essayons d'utiliser une forme de bootstrap afin de former des intervalles de confiance pour les estimateurs obtenus par les méthodes ET, QT (Quadratic Tail), des excès, et de l'estimateur de Hill généralisé. En recoupant ces intervalles de confiance avec ceux que l'on obtient en partant de telle ou telle forme paramétrée (lois de Student, lognormale, gamma, de Weibull, de Gumbel, etc.), nous espérons parvenir à sélectionner celle de ces formes paramétrées qui s'ajuste le mieux du point de vue de la queue de distribution, donc en vue des calculs de quantiles extrêmes.

Modélisation bayésienne des défauts de cuves REP

 

Participants : Gilles Celeux , Joseph Ngatchou Wandji


Cette recherche s'est effectuée dans le cadre d'une convention d'étude et de recherche avec le groupe $\ll$Retour d'expériences$\gg$ de EDF-DER, en collaboration avec la société EUROPSTAT. Elle concernait la modélisation de la taille et du nombre de défauts des cuves de réacteur à eau pressurisée (REP). Il s'agissait de construire un modèle décrivant la répartition et l'importance des défauts à partir des inspections réalisées sur le parc nucléaire français.

Jusque là, seules des solutions de type maximum de vraisemblance avaient été proposées. Elles induisaient des hypothèses simplificatrices très peu réalistes et étaient d'autant moins satisfaisantes que le nombre de défauts recensés est très faible. Par ailleurs, les tentatives de modélisation bayésienne restaient très parcellaires.

Nous avons mis au point une modélisation bayésienne assez complexe prenant simultanément en compte la taille et le nombre de défauts, la loi de la taille des défauts pouvant être une loi exponentielle, une loi de Weibull ou une loi log-normale. L'une des difficultés que nous avons eue à résoudre est la prise en compte du fait que les défauts présents ne sont pas détectés de manière certaine et que, en conséquence, le nombre de défauts sur une cuve est inconnu. Nous avons modélisé ce nombre par une loi binomiale. Notre modèle a été identifié par l'échantillonnage de Gibbs.

Échantillonnage de Gibbs: il s'agit d'un algorithme MCMC où les paramètres du modèle sont successivement simulés selon leur loi conditionnelle sachant tous les autres.

De plus, notre modèle prend en compte séquentiellement l'évolution de la connaissance des défauts au fur et à mesure qu'ils sont découverts et permet également la prise en compte de l'évolution des moyens de contrôle.

Statistique biomédicale



Participants : Jean-Luc Bosson , Christine Cans , Gilles Celeux , Christian Lavergne , Claudine Robert


Il s'agit d'un domaine de notre recherche qui est guidé par les applications que nous traitons. Les modèles que nous mettons en oeuvre dépendent bien sûr du contexte, mais nous sommes souvent amenés à privilégier les méthodes suivantes: les modèles de mélange pour la recherche de structure latente (cf. [*]), les modèles linéaires généralisés pour la recherche de facteurs de risque (cf. [*]) et les méthodes d'induction par arbre et d'analyse des données dans une phase exploratoire et pour faciliter l'interprétation de nos résultats par les médecins.

Modélisation des durées de séjour en gériatrie

 

Participants : Jean-Luc Bosson , Gilles Celeux


La classification administrative hospitalière distingue trois types de séjours dans les services de gériatrie: la médecine gériatrique, les soins de suite et de réadaptation et les soins de longue durée. Actuellement, les cliniciens pensent que les durées de séjour (DS) ne se structurent pas exactement de cette manière et cela entraîne des problèmes de gestion hôtelière et hospitalière.

L'objectif de cette étude, menée dans le cadre du stage de DEA de Cécile Delhumeau sur des données du CHU de Grenoble, était de proposer un modèle statistique d'interprétation aisée et induisant simplement une classification des DS à confronter à la classification administrative.

Sans tenir compte de la classification administrative, nous avons ajusté un modèle de mélange de lois exponentielles dont les paramètres ont été estimés par l'algoritme EM. Nous avons montré avec netteté qu'un mélange de deux lois exponentielles ajustait le mieux les DS et permettait une structuration des DS en deux groupes (un premier groupe de ``court-moyen'' séjour avec une DS moyenne de 27 jours (96% des patients) et un deuxième groupe de ``long'' séjour avec une DS moyenne de 144 jours (4% des patients). Chaque groupe a pu être interprété simplement à l'aide de modèles linéaires généralisés portant sur des variables explicatives médicales et sociologiques. On a ainsi mis en évidence une structure latente des DS ([26]) en deux groupes et non en trois (classification administrative), dont la prise en compte permettrait une meilleure gestion hôtelière et hospitalière des services de gériatrie.

Facteurs associés à la mortalité néonatale

 

Participants : Christine Cans , Christian Lavergne


Une enquête rétrospective de type ``cas-témoins'' a été réalisée en Isère dans le but de préciser les facteurs de risque de décès néonatal et d'analyser leur évolution sur la période 1980-1992. Elle a porté sur 404 cas et 802 témoins. Ce type de données se traite classiquement par la régression logistique. Mais, l'emploi directe de cette méthode ne tient pas compte du protocole d'échantillonnage. Nous avons donc utilisé des procédures de régression logistique conditionnelle. L'étude, dans le cadre du stage de DEA de R. G. Sanz (université de sciences et techniques du Languedoc de Montpellier), a permis de décrire quelles étaient pour le médecin les différences significatives sur les résultats obtenus par la procédure classique et la procédure conditionnelle: les différences dans le choix des facteurs pertinents retenus ainsi que les différences dans l'interprétation des risques relatifs estimés (odd-ratios).

Évaluation



Participant : Claudine Robert


C. Robert fait partie d'un gros projet européen, Spark, sur l'évaluation de la neurochirurgie pour la maladie de Parkinson. D'autre part, elle travaille en liaison avec le docteur P. François (CHU de Grenoble) sur l'évaluation de la perception de la qualité des soins au CHU de Grenoble. Ces deux activités sont dans leur phase préliminaire.



previous up next contents Précédent : Grands domaines d'application Remonter : Projet IS2, Inférence statistique pour Suivant : Actions industrielles