Précédent : Grands domaines d'application
Remonter : Projet IS2, Inférence statistique pour
Suivant : Actions industrielles
Participants : Christian Lavergne , Catherine Trottier ,
Yann Vernaz
La régression a pour objet la modélisation et l'étude de la relation entre une variable dite réponse et une ou plusieurs autres variables dites explicatives ou régresseurs. Dans ce cadre, choisir un estimateur revient à minimiser une distance entre un modèle et des observations.
À la base, il y a la régression linéaire et la méthode des moindres carrés. Cette notion classique s'appuie sur trois hypothèses fondamentales.
La première est le lien linéaire qui existe entre la variable réponse et les variables explicatives. La deuxième est dans la nature de la loi de probabilité des erreurs qui, dans le cas de la régression linéaire standard est la loi gaussienne. La troisième est ce qu'on nomme l'homoscédasticité du modèle: la variance des observations est indépendante des variables explicatives associées au modèle.
Afin de pallier deux des hypothèses fortes de la régression linéaire qui portent sur la loi des erreurs et l'homoscédasticité, les théories des modèles linéaires mixtes, celle des modèles linéaires généralisés ainsi que celle des modèles conditionnellement hétéroscédastiques se sont développées en parallèle. Nous nous attachons à l'étude de modèles qui combinent ces généralisations.
Participants : Christian Lavergne , Catherine Trottier
L'incapacité des modèles linéaires classiques à permettre une analyse satisfaisante de certaines données comme les données binaires, a conduit à élargir l'ensemble des lois considérées et à définir les modèles linéaires généralisés (GLM). D'autre part, les modèles linéaires mixtes (L2M), dans lesquels les effets aléatoires sont venus compléter les effets fixes, ont aussi répondu à des nécessités pratiques de modélisation. La combinaison de ces deux extensions des modèles linéaires classiques aboutit à la définition des modèles linéaires généralisés mixtes (GL2M). L'étude de ces modèles est la base du travail de thèse de C. Trottier.
La majeure partie du travail a consisté à mettre en place des
méthodes d'estimation des paramètres inconnus et plus
particulièrement des composantes de la variance. À l'opposé de
certains auteurs qui étudient ce problème en spécifiant la loi de
probabilité et la fonction de lien afin d'en utiliser les
particularités, nous avons ici pris le parti d'étudier ces
modèles comme des modèles uniquement spécifiés par l'appartenance
de la loi conditionnelle à la structure exponentielle. Les
démarches proposées ont conduit à l'élaboration d'une sorte
d'échelle de déconditionnement
.
Partant d'une méthode d'estimation utilisant le modèle
conditionnel [Sch91], nous
avons proposé une méthode construite sur un modèle non-conditionné
;ces deux méthodes s'inspirant à
la fois de la théorie des GLM et des L2M. Un autre point de vue
est de travailler sur le modèle marginal. C'est ce que Gilmour,
Anderson et Rae [GAR85] ont
proposé dans le cas de la loi binomiale avec la fonction de lien
probit (inverse de la fonction de répartition d'une loi
normale). C. Trottier a proposé une nouvelle lecture de
cette méthode, qui permet de lever certaines hypothèses
contraignantes. La méthode a donc été généralisée pour un plus
grand nombre de situations classiques modélisées par les modèles
linéaires généralisés (lois de probabilité et fonction de lien)
en levant de plus l'hypothèse d'homogénéité des variances des
variables sous-jacentes.
Le point de vue de l'échelle de
déconditionnement
permet ainsi d'étudier tous les liens
qui existent entre ces trois méthodes au travers des cas
particuliers classiques.
Une autre partie de ce travail a été de s'intéresser à une nouvelle catégorie de modèles que sont les modèles linéaires généralisés mixtes à variances hétérogènes. Notre attention s'est focalisée dans un premier temps sur l'estimation des paramètres de variance des effets aléatoires.
L'originalité de ces modèles est liée à l'introduction de l'hétérogénéité. Cette notion d'hétérogénéité peut recouvrir des sens différents selon les auteurs et les contextes, et peut donner lieu à des modélisations variées. L'étude a porté sur une modélisation particulière répondant à de nombreuses situations pratiques rencontrées en génétique animale et a été élargie au cadre des modèles linéaires généralisés mixtes. La méthode d'estimation proposée est centrée sur l'utilisation de l'algorithme EM.
Participants : Christian Lavergne , Yann Vernaz
La théorie des modèles ARCH (Auto-Régressifs Conditionnellement Hétéroscédastiques) introduite par Engel [Eng82] peut à juste titre être considérée comme un des développements les plus prometteurs de la décennie pour modéliser le comportement des cours boursiers. Cette classe de modèles non linéaires, caractérisés par une variance conditionnelle, permet de déceler des périodes de volatilité plus faible ou plus forte au cours du temps. Ces modèles permettent aussi d'intégrer des propriétés observées empiriquement sur les séries financières: la dépendance quadratique entre deux observations, la forte sensibilité des variations sur les variations futures, les distributions à queues lourdes (leptokurtisme) des rentabilités.
L'étude de ces modèles est la base du travail de la thèse que Y. Vernaz a démarrée en octobre 96. Dans la première partie de ce travail, nous avons mis en oeuvre une procédure itérative basée sur la méthode des moindres carrés (MCGi) pour l'estimation des paramètres d'un modèle ARCH. À présent nous travaillons sur l'estimation dans des modèles de régression avec erreurs ARCH ou GARCH (modèle ARCH généralisé [Bol86]). Les résultats théoriques montrent que la méthode MCGi a un bon comportement asymptotique, en particulier dans un cadre non gaussien, cas où la méthode habituelle du pseudo-maximum de vraisemblance (PMV) n'est plus performante. Nous avons effectué des simulations afin de comparer numériquement les estimateurs; dans un cadre gaussien la procédure MCGi est aussi performante que l'algorithme BHHH[BHHH74] classiquement utilisé pour calculer les estimations par PMV, et s'avère plus performante sinon. En outre, les avantages de la méthode MCGi sont sa simplicité de mise en oeuvre, sa rapidité et sa stabilité numérique. Nous avons poursuivi notre travail sur la relecture d'un processus ARCH sous la forme d'un modèle linéaire généralisé (GLM). Dans ce contexte il est alors possible de réaliser une inférence en ne retenant que les deux premiers moments et la fonction qui les relie, en utilisant la notion de quasi vraisemblance [MN89]. Enfin, nous étudions parallélement un estimateur de type adaptatif de meilleur comportement asymptotique dans le cas d'un modèle de régression avec des erreurs (G)ARCH[21].
Participant : Christian Lavergne
Dans la théorie des modèles ARCH et l'analyse de rentabilités financières apparaît aussi bien d'un point de vue descriptif que théorique la loi gaussienne. En effet tout histogramme de rentabilités s'approche d'une courbe en cloche et de ce fait supposer la loi gaussienne sur les erreurs conditionnelles dans un modèle ARCH paraît assez naturel. On peut donc pour résumer dire que les modèles ARCH pour la finance, ainsi que ses dérivés s'appuient sur la loi gaussienne.
Pourquoi donc ne pas chercher une généralisation de ces modèles pour une famille de loi plus générale comme une famille exponentielle pour d'autres types de série chronologique ? C'est ce que nous proposons avec comme famille de lois, la famille exponentielle usuellement utilisée dans la théorie des modèles linéaires généralisés; avec comme cas usuel, l'étude de séries chronologiques où la loi de probabilité sous-jacente sera la loi de Poisson, la loi binomiale ou la loi exponentielle.
Nous introduisons donc une nouvelle classe de modèles appelé
modèles ``GLM-ARCH'', pour des modèles de type modèles linéaires
généralisés auto-régressif. L'appellation ``ARCH'' se justifiant
par le fait que la variance conditionnelle ne sera pas constante
et donc que le processus sera conditionnellement
hétéroscédastique. Nous montrons qu'il est possible de donner des
cas particuliers où le processus sera stationnaire au premier
ordre et asymptotiquement stationnaire au second ordre. Nous
avons étudié quelques exemples de ces modèles en commençant par
des séries à loi exponentielle, puis des séries à loi de Poisson
où l'on verifie de façon empirique, voire théorique dans certains
cas, que l'on introduit par le biais de cette modélisation un
phénomène de type leptokurtique
.
Participants : Claudine Robert , Véronique Venditti ,
Gilles Celeux
Le principe de maximum d'entropie (PME) renverse la présentation classique de la modélisation statistique au sens où il impose de choisir en premier lieu les quantités statistiques que l'on juge essentielles pour résumer l'information apportée par un jeu de données. Le modèle, c'est-à-dire la loi de probabilité décrivant le phénomène aléatoire, n'apparaît, par application du PME, qu'après avoir imposé les contraintes mettant en jeu ces quantités.
La loi de maximum d'entropie est obtenue par la maximisation d'une certaine fonctionnelle sur l'ensemble des lois pouvant servir de modèles. Nous avons choisi comme fonctionnelle l'entropie de Shannon, car elle seule permet d'atteindre une loi qui possède la propriété de concentrer les lois empiriques dans son voisinage [Rob90]. Nous avons montré que s'il existe un état de Gibbs
État de Gibbs: Loi de probabilité de la forme ,
étant les
paramètres du modèle, et
des fonctions des variables
répondant aux contraintes.
celui-ci représente l'unique loi qui réalise le maximum de cette entropie. Cette propriété règle la question de l'obtention de la loi quelle que soit le type des variables en jeu. Nous avons, de plus, établi que dans la démarche classique consistant à partir d'une structure statistique donnée, les équations du maximum de vraisemblance sont exactement les équations du PME associées à une information empirique. Les deux principes (principe de maximum de vraisemblance et de maximum d'entropie) se renforcent alors mutuellement.
Pour l'application du PME à des fins de modélisation, nous avons défini deux stratégies permettant de bien cadrer, à notre sens, son utilisation. Nous nous sommes imposés d'une part d'utiliser un nombre de contraintes limité, quitte à les compléter par la suite (stratégie de parcimonie). D'autre part, les quantités statistiques tirées des données devront toujours être de nature suffisamment simple pour être interprétables (statégie de simplicité). Enfin, pour éviter toute contradiction entre l'échantillon et la distribution obtenue, nous ne considérerons que des informations empiriques déduites de l'échantillon.
Nous avons montré que des informations élémentaires en nombre
et en nature aboutissent en général à retrouver l'expression de
modèles courants (modèles gaussiens, modèles log-linéaires,
modèles graphiques, ). Nous avons ensuite appliqué le
PME dans une problématique d'analyse discriminante où il s'agit
de prévoir l'appartenance à des groupes définis a priori à partir
de la connaissance de variables explicatives. Nous avons montré
que les modèles classiques d'analyse discriminante ([Cel90], [Ce94]) s'obtenaient par le PME à
partir d'informations élémentaires.
Nous avons montré d'autre part que le PME permet d'envisager la procédure de régression logistique [Efr75] comme l'écriture naturelle d'une étude de régression où l'information apportée par un jeu de données (issu d'un échantillonnage de type quelconque) est résumée simplement par la loi empirique des variables explicatives, celle de la variable à expliquer définissant les groupes, et par les moyennes empiriques des liens entre chaque variable explicative et la variable à expliquer. Cette relecture évite d'avoir à justifier l'utilisation des équations issues de la maximisation d'une vraisemblance correspondant à un échantillonnage prospectif pour d'autres types de protocoles ([And82]).
Nous avons également montré qu'il est impossible d'utiliser
dans un but décisionnel un modèle d'analyse discriminante obtenu
par PME à partir d'une information qui ne fixe pas la loi de
répartition des groupes a priori. Devant ce manque d'information,
le PME aboutira en effet à un modèle qui définit une frontière de
discrimination aberrante: par exemple, dans le cas d'une unique
variable explicative réelle avec une information correspondant à
l'analyse discriminante linéaire, on obtient comme frontière la
droite , quelles que soient les caractéristiques des
groupes.
Participants : Gilles Celeux , Jean Diebolt , Anatoli
Iouditski
Les termes algorithmes stochastiques regroupent ici deux types différents d'algorithmes.
Dans la première catégorie, on trouve des versions stochastiques de l'algorithme EM et les algorithmes dits MCMC (Markov Chain Monte Carlo) d'inférence bayésienne.
Algorithme EM: C'est un algorithme très populaire pour
l'estimation du maximum de vraisemblance de modèles à structure
de données incomplètes dont chaque itération comporte deux
étapes. L'étape E (expectation) qui consiste à calculer
l'espérance conditionnelle de la vraisemblance des données
complètes et l'étape M (maximisation) qui consiste à
maximiser cette espérance conditionnelle.
Les versions stochastiques de l'algorithme EM incorporent une étape de simulation des données manquantes pour pouvoir travailler sur des données complétées.
Définis dans un cadre bayésien et partant d'une loi a priori pour les paramètres, les algorithmes MCMC simulent une chaîne de Markov définie sur les valeurs possibles des paramètres qui a pour loi stationnaire la loi recherchée, à savoir la loi a posteriori des paramètres.
Participants : Bernard Delyon , Anatoli Iouditski
Les algorithmes récursifs sont étudiés sous leur forme
générale décrite dans [BMP90]:
Les résultats de convergence obtenus récemment dans le projet
SIGMA2 pour ce type d'algorithmes à gain
décroissant ont permis d'étudier de nouveaux algorithmes
d'estimation récursive de processus ARMA et de montrer le bon
comportement d'algorithmes jusqu'ici inexplorés. Ils sont
particulièrement efficaces quand on les couple avec la méthode de
moyennisation de Polyak-Ruppert (la vitesse de convergence de
vers
est alors optimale). Si
l'ordre du processus ARMA est surestimé, l'ensemble des points
stationnaires (solutions
de
, i.e. les filtres qui minimisent l'erreur de
prédiction) devient une variété différentielle, et des techniques
particulières doivent être utilisées pour prouver la convergence
de l'algorithme [16].
Nous menons par ailleurs une collaboration avec les projets SIGMA2 et VISTA (ex TéMIS) de l'IRISA, dans le cadre de la thèse de Mariette Maurizot, sur l'utilisation de méthodes statistiques pour les algorithmes d'estimation adaptatifs pour une application concernant l'analyse de mouvement fluide 2D. Cette étude illustre comment le problème de l'adaptativité est lié à celui de l'équilibrage du biais et de la variance des estimateurs, et propose une approche originale pour le résoudre. Nous renvoyons pour plus de détails au rapport d'activité du projet VISTA.
Participants : Bernard Delyon, Anatoli Iouditski
Les algorithmes d'approximation stochastique dans le cas où le
paramètre inconnu est de grande dimension sont
également un sujet de préoccupation intéressant. L'analyse de ces
méthodes permet de résoudre le problème de fusion fonctionnelle
suivant, qui est un problème d'estimation non paramétrique: on
possède
observations
d'un
processus satisfaisant
Notons que la solution obtenue est parcimonieuse au sens où assez peu de fonctions interviennent dans la solution finale.
Les algorithmes d'estimation non paramétrique basés sur le
triage adaptatif des estimées algorithmes
d'arbre
, développé depuis quelques années dans le
projet SIGMA2, utilisent des polynômes locaux pour identifier des
systèmes dont l'entrée est de dimension élevée; il conduit à la
réalisation d'un algorithme de résolution de problèmes
d'estimation non paramétrique s'inspirant des méthodes
neuronales et de l'analyse de régression; sa mise en oeuvre prend
en compte le caractère disséminé des observations, s'il y a lieu,
pour réduire la complexité de calcul lié à la dimension de
l'entrée. Actuellement, ces algorithmes sont intégrés dans le
développement d'une boîte à outils pour l'identification non
linéaire, conjointement mené avec le projet SIGMA2 et des collègues de l'université de Linköping
(Suède).
Participant : Anatoli Iouditski
Une partie importante de la théorie de l'estimation statistique concerne l'établissement des limites intrinsèques de performances des algorithmes, et, par conséquent, fournissent une caractérisation pertinente du problème d'estimation en question; ils donnent ainsi une échelle absolue d'optimalité pour toutes les techniques qui sont proposées pour la résolution de ce problème. Par rapport aux problèmes classiques d'estimation stochastique, le problème de la commande adaptative est assez singulier: il possède un degré de liberté supplémentaire qui est la commande.
Dans le cadre du contrat INTAS 93-894 nous avons continué, en collaboration avec des chercheurs de l'IPU (Institute for Control Science) de Moscou, l'étude des algorithmes adaptatifs de commande pour des systèmes dynamiques non linéaires. Des nouveaux algorithmes de commande ont été proposés et leur efficacité a été établie [24], [23].
Participant : Jean Diebolt
Dans le contexte actuel de l'utilisation intensive en
statistique des méthodes de Monte-Carlo par chaînes de Markov
(MCMC), il est essentiel de s'assurer que les résultats proposés
sont valides et précis. En collaboration avec Didier Chauveau
(université de Marne-la-Vallée), Jean Diebolt travaille à mettre
au point une nouvelle méthode de contrôle de la convergence vers
la stationnarité des chaînes de Markov engendrées par les
algorithmes MCMC, qui permet la construction de régions de confiance
pour les ensembles de
quantités à évaluer. Plus précisément, notre procédure de
contrôle utilisent des chaînes simulées en parallèle, afin de
déterminer au moyen d'approximations empiriques un nombre minimal
d'itérations au-delà duquel l'utilisation du théorème de la
limite centrale puisse être considérée comme justifiée, en vue de
construire des intervalles de confiance pour les résultats
fournis par l'algorithme. Ce travail [25] en cours devrait constituer un
chapitre d'un Lecture Notes collectif du groupe MC.Cube
(cf.
) consacré à ce thème.
Participant : Gilles Celeux
En collaboration avec A. Mkhadri (université de Marrakech), nous avons d'une part justifié en toute généralité une présentation de l'algorithme EM comme un algorithme d'optimisation alternée d'un critère de vraisemblance pénalisée. Cette présentation était déjà connue mais n'avait été démontrée que dans le cas où la structure des données manquantes était discrète. Partant de cette propriété, nous avons proposé dans l'esprit de l'algorithme AEM récent[MD97], une nouvelle version de l'algorithme EM qui réalise les deux étapes E et M composant par composant au lieu de travailler globalement. Des simulations montrent un bon comportement de cet algorithme qui évite les situations de convergence lente de l'algorithme EM traditionnel. L'étude de ses propriétés théoriques reste à faire.
Dans les modèles à structure latente discrète, la numérotation des catégories cachées est arbitraire. Cela induit un inconvénient pour l'emploi d'algorithmes stochastiques, notamment les algorithmes MCMC. En effet de tels algorithmes peuvent produire, sans crier gare, de multiples changements d'étiquetage au cours de leur exécution rendant leur exploitation délicate.
Nous avons d'abord identifié des situations importantes où ce phénomène risquait de se produire souvent (le mélange de lois exponentielles, l'utilisation d'algorithmes MCMC à sauts réversibles, les modèles à risques multiples masqués,...). Puis, nous avons cerné les défauts de la méthode la plus naturelle qui consiste à imposer des contraintes sur l'espace des paramètres: biais des estimateurs en résultant, arbitraire des contraintes choisies. Enfin, nous avons proposé une solution très générale, non restreinte à un cadre bayésien, pour résoudre cette difficulté. Elle consiste à réaliser un rétablissement de la numérotation initiale des catégories par une version séquentielle de l'algorithme de classification des centres mobiles appliquée à la suite des itérés normalisés.
Participants : Henri Bertholon , Gilles Celeux , Jean
Diebolt , Joseph Ngatchou Wandji
Le développement de moyens de calcul de plus en plus puissants
et rapides pousse les statisticiens à envisager des modèles de
plus en plus sophistiqués, donc de plus en plus complexes. Cette
tendance mène parfois certains d'entre eux à faire preuve
d'exigences démesurées au vu de la nature des observations dont
ils disposent (voir par exemple les méthodes qui s'organisent
autour de la Projection Pursuit). C'est dans ce contexte
que s'inscrit le renouveau actuel des travaux sur le choix et la
validation des modèles. Les tests d'adéquation non paramétriques
constituent un outil de choix, à condition de considérer le
résultat d'un tel test (la -value) davantage comme une
mesure, rapportée à une échelle ``universelle'' de probabilités,
de distance entre le modèle testé et le ``modèle idéal'' ayant
engendré les observations, que comme le support d'une règle
d'acceptation ou de rejet.
Par ailleurs, dans de nombreuses situations pratiques, notamment en fiabilité, le nombre de données est faible, ce qui accroît la nécessité de sélectionner avec soin l'ordre de complexité d'un modèle dans un souci de parcimonie. Il s'agit en fait de trouver un compromis entre la justesse d'un modèle (plus un modèle est complexe, plus il a de chances d'être un reflet exact de la réalité) et sa précision (plus un modèle est simple, plus son identification produira des résultats stables).
Participants : Jean Diebolt , Joseph Ngatchou Wandji
À côté de la théorie des tests d'adéquation paramétriques de modèles de distributions se développe depuis plusieurs années une théorie parallèle des tests d'adéquation non paramétriques de modèles de fonctions de régression ou d'autorégression.
Nous nous fondons sur une procédure générale reposant sur des
processus empiriques (pondérés) des résidus et les théorèmes
limites fonctionnels et les principes d'invariance associés, pour
tester des modèles d'ordre un (y compris les modèles de type
bilinéaire). Nous sommes en train d'adapter les résultats obtenus
dans nos travaux antérieurs[11] au cas plus général où les
paramètres du modèle de fonction de régression à tester sont
inconnus, et où l'on utilise, pour définir le processus empirique
des résidus pondérés, des estimateurs de ces paramètres obtenus
par la méthode des moindres carrés conditionnels. Nous avons
obtenu de premiers résultats, dans lesquels nous montrons la
convergence en distribution, sous l'hypothèse du modèle testé
(dite hypothèse nulle), de ce processus des résidus vers
un processus gaussien centré que nous savons caractériser
[10]. Dans ce travail, afin
d'éviter les inconvénients liés au choix d'une statistique de
test similaire à celle de Kolmogorov-Smirnov ou de Cramér-von
Mises, nous envisageons une nouvelle statistique de test, dont la
construction repose directement sur le développement de
Karhunen-Loève du processus gaussien limite, et dont le principe
est aussi applicable aux familles de distributions. Il reste à
expérimenter numériquement cette procédure. Nous sommes aussi en
train d'étudier le problème de la contiguïté de l'hypothèse nulle
et de suites d'alternatives locales en ,
étant
la taille de l'échantillon disponible, afin de comparer la
puissance locale de ce nouveau test à celle d'autres tests ayant
déjà été proposés.
Participants : Henri Bertholon , Gilles Celeux
Nous étudions dans un premier temps le problème classique de la discrimination entre un modèle exponentiel et un modèle de Weibull (qui ne diffère que par un paramètre de forme témoignant d'un éventuel vieillissement du matériel). Nous sommes surtout intéressés par le cas de petits échantillons très censurés et nous nous situons dans un cadre bayésien non informatif (i.e sans connaissance a priori sur les paramètres du modèle). Notre approche consiste à définir un rapport de vraisemblance après élimination du paramètre de nuisance (ici le paramètre d'échelle) et, à partir de sa loi a posteriori, à obtenir une nouvelle région critique.
Nous la comparons alors à la région critique optimale de Neyman-Pearson, au test classique du rapport de vraisemblance, aux critères AIC et BIC, ainsi qu'à différentes versions du facteur de Bayes. Nous pouvons d'ailleurs voir notre approche comme une tentative pour améliorer le facteur de Bayes qui a l'inconvénient d'être difficilement contrôlable dans le cas non informatif. Ceci est dû au fait qu'il peut être considéré comme un rapport de deux vraisemblances pondérées par la loi a priori et cette dernière est définie à une constante arbitraire près dans le cas où la loi a priori n'est pas une loi de probabilité comme c'est souvent le cas dans un cadre non informatif. Différentes méthodes ont été proposées pour résoudre ce problème; notamment ont été définis ces dernières années: le facteur de Bayes a posteriori (où les vraisemblances sont pondérées par la loi a posteriori et non par la loi a priori), le facteur de Bayes intrinsèque (qui est une moyenne de tous les facteurs de Bayes calculés en mettant de côté une partie de l'échantillon utilisée comme échantillon d'apprentissage pour permettre de définir une loi plus précise sur les paramètres) et le facteur de Bayes fractionnel (où une fraction de la vraisemblance est considérée comme correspondant à un échantillon d'apprentissage virtuel). Un des nos objectifs futurs sera de situer notre approche par rapport à ces approches concurrentes et à l'étendre à des problématiques plus complexes associées par exemple à des matériels fonctionnant en série (modèles à risques multiples).
Participants : Mostafa Bacha , Gilles Celeux , Jean
Diebolt , Mhamed El Aroui , Christian Lavergne , Joseph Ngatchou
Wandji , Yann Vernaz
Cette recherche s'effectue essentiellement dans le cadre de
conventions d'étude et de recherche avec les groupes Retour d'expériences
et
Fiabilité,
Maintenance
de l'EDF-DER. On peut distinguer trois axes
qui sont des modèles de durées de vie pour des systèmes fortement
censurés, l'analyse bayésienne des défauts de cuves REP et
l'estimation de queues de distributions. Un dénominateur commun à
ces thèmes est qu'il concerne la modélisation d'événements
rares.
Participants : Mostafa Bacha , Gilles Celeux
Suite à la thèse de M. Bacha[Bac96] et dans le cadre de notre
collaboration avec le groupe Fiabilité,
Maintenance
de l'EDF-DER, nous avons programmé un
logiciel interactif, interne à EDF et intitulé WEIBULL qui réalise l'estimation par le maximum de
vraisemblance ou par inférence bayésienne des modèles
suivants:
Ce logiciel est destiné aux ingénieurs EDF. Pour éviter la spécification trop technique des paramètres nécessaires à la construction des lois a priori, nous avons conçu un questionnaire à partir duquel nous attribuons des valeurs à ces paramètres. Par ailleurs, dans le cadre d'un stage de DEA (A. Laachir, université de Marne-la-Vallée) et d'un stage de fin d'études Ensimag (H. Safir), nous avons étudié le cas particulier des lois exponentielles où il est parfois possible d'avoir des solutions explicites si la cause de la défaillance n'est pas systématiquement inconnue.
Ce travail va donner lieu à une monographie aux éditions
Eyrolles dans la collection Études et recherche
EDF
.
Cette année nous allons améliorer, dans le cadre d'une
nouvelle CERD, le logiciel WEIBULL en
incorporant des calculs d'intervalles de confiance pour les
paramètres estimés et en résolvant, pour les systèmes à risques
masqués le problème de renversement d'étiquetage par notre
technique de classification présentée en . Dans sa version actuelle, ce
problème entâche la solution proposée dans les cas où
l'information a priori est faible.
Participants : Jean Diebolt , Mhamed-Ali El Aroui
Nous étudions, dans le cadre d'une convention d'étude et de
recherche avec le groupe Retour d'expériences
de
EDF-DER, le problème d'estimation des probabilités d'événements
rares, ou queues de distribution. Plus précisément, si
est
une variable aléatoire, le problème peut se résumer en
l'estimation du quantile
défini par:
Partant d'un échantillon
et d'un seuil
, les estimateurs du quantile
par les méthodes non paramétriques ET (Exponential Tail),
des excès, ou de l'estimateur de Hill généralisé reposent sur une
approximation de la loi des excès
sachant que
respectivement par une loi exponentielle, une loi
de Pareto généralisée (théorème de Pickands), ou une loi de
Pareto.
Nous avons proposé et commencé à expérimenter le contrôle de
la validité de ces méthodes en testant l'adéquation de chacune de
ces familles de lois (exponentielle pour ET, Pareto généralisée
pour les excès, Pareto pour Hill) à la distribution empirique des
excès conditionnellement à
. De
tels tests d'adéquation de bonne qualité ne sont pas disponibles
dans le cas des lois de Pareto généralisées, ou peu utilisables
dans le cas des lois de Pareto avec paramètre de position. Cela
nous a donc conduits à reprendre la théorie de ces tests. Nous
cherchons donc à en construire de nouveaux, à la fois puissants
et commodément utilisables.
Autre travail de recherche en cours: nous essayons d'utiliser une forme de bootstrap afin de former des intervalles de confiance pour les estimateurs obtenus par les méthodes ET, QT (Quadratic Tail), des excès, et de l'estimateur de Hill généralisé. En recoupant ces intervalles de confiance avec ceux que l'on obtient en partant de telle ou telle forme paramétrée (lois de Student, lognormale, gamma, de Weibull, de Gumbel, etc.), nous espérons parvenir à sélectionner celle de ces formes paramétrées qui s'ajuste le mieux du point de vue de la queue de distribution, donc en vue des calculs de quantiles extrêmes.
Participants : Gilles Celeux , Joseph Ngatchou Wandji
Cette recherche s'est effectuée dans le cadre d'une convention
d'étude et de recherche avec le groupe Retour
d'expériences
de EDF-DER, en collaboration avec la société
EUROPSTAT. Elle concernait la modélisation de la taille et du
nombre de défauts des cuves de réacteur à eau pressurisée (REP).
Il s'agissait de construire un modèle décrivant la répartition et
l'importance des défauts à partir des inspections réalisées sur
le parc nucléaire français.
Jusque là, seules des solutions de type maximum de vraisemblance avaient été proposées. Elles induisaient des hypothèses simplificatrices très peu réalistes et étaient d'autant moins satisfaisantes que le nombre de défauts recensés est très faible. Par ailleurs, les tentatives de modélisation bayésienne restaient très parcellaires.
Nous avons mis au point une modélisation bayésienne assez complexe prenant simultanément en compte la taille et le nombre de défauts, la loi de la taille des défauts pouvant être une loi exponentielle, une loi de Weibull ou une loi log-normale. L'une des difficultés que nous avons eue à résoudre est la prise en compte du fait que les défauts présents ne sont pas détectés de manière certaine et que, en conséquence, le nombre de défauts sur une cuve est inconnu. Nous avons modélisé ce nombre par une loi binomiale. Notre modèle a été identifié par l'échantillonnage de Gibbs.
Échantillonnage de Gibbs: il s'agit d'un algorithme
MCMC où les paramètres du modèle sont successivement simulés
selon leur loi conditionnelle sachant tous les autres.
De plus, notre modèle prend en compte séquentiellement l'évolution de la connaissance des défauts au fur et à mesure qu'ils sont découverts et permet également la prise en compte de l'évolution des moyens de contrôle.
Participants : Jean-Luc Bosson , Christine Cans , Gilles
Celeux , Christian Lavergne , Claudine Robert
Il s'agit d'un domaine de notre recherche qui est guidé par
les applications que nous traitons. Les modèles que nous mettons
en oeuvre dépendent bien sûr du contexte, mais nous sommes
souvent amenés à privilégier les méthodes suivantes: les modèles
de mélange pour la recherche de structure latente (cf. ), les modèles linéaires
généralisés pour la recherche de facteurs de risque (cf.
) et les méthodes d'induction par
arbre et d'analyse des données dans une phase exploratoire et
pour faciliter l'interprétation de nos résultats par les
médecins.
Participants : Jean-Luc Bosson , Gilles Celeux
La classification administrative hospitalière distingue trois types de séjours dans les services de gériatrie: la médecine gériatrique, les soins de suite et de réadaptation et les soins de longue durée. Actuellement, les cliniciens pensent que les durées de séjour (DS) ne se structurent pas exactement de cette manière et cela entraîne des problèmes de gestion hôtelière et hospitalière.
L'objectif de cette étude, menée dans le cadre du stage de DEA de Cécile Delhumeau sur des données du CHU de Grenoble, était de proposer un modèle statistique d'interprétation aisée et induisant simplement une classification des DS à confronter à la classification administrative.
Sans tenir compte de la classification administrative, nous avons ajusté un modèle de mélange de lois exponentielles dont les paramètres ont été estimés par l'algoritme EM. Nous avons montré avec netteté qu'un mélange de deux lois exponentielles ajustait le mieux les DS et permettait une structuration des DS en deux groupes (un premier groupe de ``court-moyen'' séjour avec une DS moyenne de 27 jours (96% des patients) et un deuxième groupe de ``long'' séjour avec une DS moyenne de 144 jours (4% des patients). Chaque groupe a pu être interprété simplement à l'aide de modèles linéaires généralisés portant sur des variables explicatives médicales et sociologiques. On a ainsi mis en évidence une structure latente des DS ([26]) en deux groupes et non en trois (classification administrative), dont la prise en compte permettrait une meilleure gestion hôtelière et hospitalière des services de gériatrie.
Participants : Christine Cans , Christian Lavergne
Une enquête rétrospective de type ``cas-témoins'' a été réalisée en Isère dans le but de préciser les facteurs de risque de décès néonatal et d'analyser leur évolution sur la période 1980-1992. Elle a porté sur 404 cas et 802 témoins. Ce type de données se traite classiquement par la régression logistique. Mais, l'emploi directe de cette méthode ne tient pas compte du protocole d'échantillonnage. Nous avons donc utilisé des procédures de régression logistique conditionnelle. L'étude, dans le cadre du stage de DEA de R. G. Sanz (université de sciences et techniques du Languedoc de Montpellier), a permis de décrire quelles étaient pour le médecin les différences significatives sur les résultats obtenus par la procédure classique et la procédure conditionnelle: les différences dans le choix des facteurs pertinents retenus ainsi que les différences dans l'interprétation des risques relatifs estimés (odd-ratios).
Participant : Claudine Robert
C. Robert fait partie d'un gros projet européen, Spark, sur l'évaluation de la neurochirurgie pour la maladie de Parkinson. D'autre part, elle travaille en liaison avec le docteur P. François (CHU de Grenoble) sur l'évaluation de la perception de la qualité des soins au CHU de Grenoble. Ces deux activités sont dans leur phase préliminaire.