Précédent : Présentation
générale et objectifs Remonter : Projet ROBOTVIS, Robotique et Vision
Suivant : Logiciels
Participants : Sylvain Bougnoux , Rachid Deriche , Olivier
Faugeras , Diane Lingrand , Théodore Papadopoulo , Luc Robert ,
Alfons Salden , Robert Stahr , Thierry Viéville , Zhengyou Zhang
, Imad Zoghlami .
Mots-clés : géométrie projective, géométrie affine,
géométrie euclidienne, étalonnage de caméras, stéréoscopie
multivue, suivi dans des séquences stéréoscopiques, synthèse de
vues à partir d'images
Une des questions centrales de la vision par ordinateur est celle
du calcul, à partir d'un certain nombre de vues d'une même scène
supposée statique dans un premier temps, d'une description
géométrique tridimensionnelle de celle-ci. Lorsqu'on pense
description géométrique, on pense en général description
euclidienne, c'est-à-dire que l'on s'attend à pouvoir mesurer
dans la scène des invariants du groupe des similitudes, voire des
déplacements, c.à.d. des angles et des rapports de longueur,
voire des longueurs.
Or ceci ne va pas de soi pour les raisons suivantes. Un appareil photographique, une caméra vidéo, une caméra, produisent des images qui, géométriquement, sont des projections sur une surface plane ou à peu près plane (que nous appelons dans la suite la rétine) telle qu'un film ou un ensemble de photodétecteurs et, photométriquement, sont le résultat d'une interaction complexe entre les sources de lumière, les objets observés, au travers de leur forme géométrique et de leurs propriétés de réflectance, et les capteurs eux-mêmes, au travers de leur sensibilité spectrale, temporelle, etc.
De tout ceci découle d'abord le fait bien connu que l'on perd une dimension d'espace (la distance à la caméra) en acquérant une image. Un regard plus attentif sur la géométrie de la formation des images montre dans un deuxième temps que le cadre naturel pour analyser l'opération de projection est plutôt celui de la géométrie projective que celui de la géométrie euclidienne : en l'absence d'information supplémentaire, la seule information géométrique à laquelle on puisse avoir accès à partir des images brutes est une information projective. De manière plus précise, on dit que l'on sait reconstruire la scène modulo une transformation projective tridimensionnelle quelconque et non pas, comme on l'espérait au départ, modulo une transformation euclidienne ou une similitude. Ce résultat a été obtenu en 1992 [8].
Cependant, même pour une reconstruction projective, il est
nécessaire de disposer de plusieurs vues prises simultanément, on
parle alors de stéréo ou de séquence spatiale, ou bien d'une
séquence temporelle. Pour obtenir cette reconstruction, il est
nécessaire de commencer par extraire des primitives images qui
soient précises, robustes au bruit et qui se caractérisent par
des attributs très discriminants afin de pouvoir établir des
correspondances. Les approches décrites dans [3] touchent à la
détection des singularités de contours de type points anguleux ou
jonctions multiples, qui sont des primitives images très
pertinentes et très discriminantes. De manière complémentaire,
les approches par modèles décrites dans [1][21] permettent la détection avec
des précisions sous-pixelliques de primitives images de type
contours, points anguleux ou jonctions multiples. D'une manière
très générale, l'appariement entre les diverses primitives images
s'obtient ainsi en calculant, à l'aide d'opérateurs locaux dans
l'image et dans le temps, des attributs. Ces attributs doivent
être, autant que faire se peut, invariants à des
transformations sur les images qui ne changent pas leur contenu,
par exemple à des transformations monotones sur les intensités ou
bien encore à des transformations géométriques induites par le
changement de point de vue. Nous reviendrons plus loin sur cet
aspect (voir Section ). Ces attributs, qui sont donc
attachés à un élément d'image, ou pixel, sont ensuite comparés
entre eux. Par exemple, si l'on dispose de deux images (c'est le
cas de la stéréoscopie classique), on compare les attributs
calculés en deux pixels dans chaque image. Si les deux pixels en
question peuvent se situer n'importe où dans les deux images, le
nombre de possibilités d'appariements est égal au produit
des nombres de pixels.
Une analyse élémentaire de la géométrie d'une paire de caméras montre qu'il n'en est rien et que deux pixels ne peuvent être appariés que si chacun se trouve sur une droite déterminée par l'autre. Cette droite s'appelle une droite épipolaire. La correspondance entre un pixel et sa droite épipolaire est une relation projective, c'est-à-dire un morphisme de rang 2 entre la rétine modélisée comme un plan projectif P2, et son dual P*2,ensemble des droites de l'autre rétine. Dans la pratique, ce morphisme est représenté par une matrice 3x3, baptisée matrice fondamentale, de rang 2, et dont les propriétés ont été mises en évidence et étudiées par l'équipe [12]. Le problème de l'estimation de cette matrice à partir de correspondances est un problème difficile que nous n'avons résolu de manière satisfaisante que récemment [15]. Algébriquement, ceci se traduit par l'existence d'une contrainte algébrique de degré deux entre les coordonnées de deux pixels appariables.
Plus généralement, lorsque l'on a affaire à plus de deux images, le problème de la complexité de l'obtention des appariements se pose de manière encore plus aiguë. Cependant, la géométrie projective permet encore, comme dans le cas de deux images, de simplifier considérablement le processus d'appariement. Si l'on considère le cas de trois images, on montre que les points appariables satisfont des contraintes algébriques de degré trois [Har97,Sha95]. Celles-ci sont issues d'une application bilinéaire de P*2xP*2dans P*2qui donne, étant donné deux droites dans deux images, la droite dans la troisième vue qui est l'image de la même droite tridimensionnelle que celle qui a donné lieu aux deux premières. Cette application a été baptisée le tenseur trifocal. De même que les matrices fondamentales sont de rang inférieur ou égal à deux, c'est-à-dire constituent une sous-variété algébrique de l'espace projectif P8, les tenseurs trilinéaires constituent une variété algébrique de l'espace projectif P26dont les équations ont été établies [46]. Comme dans le cas de la matrice fondamentale, l'estimation du tenseur trifocal à partir de correspondances dans trois images est un problème ardu, à cause des contraintes algébriques qui existent entre ses coefficients, et n'a été résolu dans sa généralité que récemment [68].
Si l'on passe maintenant à quatre images et plus, il se passe un phénomène curieux. Tout d'abord pour quatre images, on a démontré que les contraintes algébriques de degré quatre qui existent entre les coordonnées de quadruplets de points appariables sont en fait algébriquement dépendantes des contraintes d'ordre deux et trois qui existent entre les paires et les triplets de points. Ensuite, l'introduction d'une cinquième, puis d'une sixième image, etc. n'apporte en fait rien de plus : les contraintes d'ordre trois sont suffisantes [7]. On a donc aujourd'hui une idée assez précise de la manière dont la géométrie de N vues d'une même scène peut être décrite et estimée dans un cadre projectif et comment les contraintes correspondantes peuvent être utilisées pour concevoir des algorithmes de stéréoscopie.
Nous mentionnions plus haut l'importance pratique d'obtenir une description d'une scène qui soit non pas projective mais affine ou euclidienne. Ceci nécessite de connaître non seulement les tenseurs trifocaux qui sont des êtres projectifs mais aussi le plan à l'infini pour le cas affine et les paramètres internes des caméras dans le cas euclidien. L'estimation de ces derniers a préoccupé et préoccupe encore la communauté de photogrammétrie [Zel52,Sla80] ainsi que celle de vision par ordinateur qui toutes deux ont utilisé l'idée que cette estimation passait par l'utilisation de points d'amer situés dans la scène observée et dont les coordonnées cartésiennes sont connues. En vision robotique ces points constituent ce qu'on appelle une mire d'étalonnage.
L'une des découvertes importantes de l'équipe est d'avoir
démontré que ces points d'amer étaient en fait inutiles et que
les paramètres internes des caméras pouvaient être obtenus en
utilisant l'invariance de la conique absolue, ou ombilic, par le
groupe des similitudes. L'analyse géométrique sous-jacente
consiste à considérer l'espace euclidien habituel comme un
sous-espace affine d'un espace projectif ambiant dans lequel on
identifie un hyperplan particulier comme le plan à l'infini (en
pratique les points situés très loin de la caméra) et dans cet
hyperplan un cercle imaginaire de rayon . À cette
stratification de l'espace en projectif, en espace affine
et euclidien correspond une stratification du groupe de
transformations géométriques opérant sur la scène en groupe
projectif des homographies, groupe affine (le sous groupe du
précédent qui laisse le plan à l'infini globalement invariant) et
le sous groupe des similitudes (le sous groupe du groupe affine
qui laisse l'ombilic globalement invariante) [10,14]. On remarque ensuite que
puisque la conique imaginaire image de l'ombilic dans une caméra
doit être invariante aux mouvements de celle-ci, les coefficients
de son équation doivent être des fonctions des paramètres
internes de la caméra mais ne doivent pas dépendre de sa position
et de son orientation dans l'espace [13]. Il ne reste plus
alors qu'à développer les algorithmes qui, à partir de
correspondances entre images, calculent les paramètres internes
pour aboutir à des procédures de calibration qui ne nécessitent
plus l'utilisation de points d'amer dans la scène d'où une
beaucoup plus grande flexibilité d'application [6,11,12].
Participants : Rachid Deriche , Olivier Faugeras , José
Gomes , Renaud Keriven , Pierre Kornprobst , Laurence Lucido ,
Nikos Paragios .
Mots-clés : équation aux dérivées partielles, méthode de
niveaux, restauration et amélioration d'images, stéréoscopie,
suivi dans des séquences d'images
Dans la section précédente nous
avons mentionné deux points sur lesquels nous ne nous sommes pas
appesantis. Le premier est celui des attributs d'images qu'il est
nécessaire de calculer afin d'établir des correspondances entre
points d'images. Le second est celui de l'invariance de certains
éléments attachés aux images, par exemple celle des attributs
précédents à des transformations monotones de l'intensité de
l'image ou encore à des changements de point de vue. Nous avons
aussi mentionné l'invariance du plan à l'infini par le groupe des
transformations affines et celle de l'ombilic par celui des
similitudes.
Ces deux remarques ont constitué le point de départ d'un ensemble de travaux de l'équipe dans lesquels nous avons essayé de reprendre les problèmes d'extraction d'attributs d'images de deux points de vue différents. Nous nous sommes tout d'abord efforcés de nous placer soit dans un cadre variationnel pour analyser les phénomènes dits de vision précoce, dont l'extraction d'attributs est un exemple, soit directement dans un cadre différentiel. Nous nous sommes aussi efforcés de développer des représentations invariantes de ces phénomènes. Notons tout d'abord que cette approche n'est pas révolutionnaire. Pour se limiter à quelques exemples, l'approche invariante est au coeur de la Morphologie Mathématique proposée par Serra et Matheron [Mat75,Ser82] et l'approche invariante et l'approche variationnelle/différentielle sont l'une des principales sources d'inspiration des travaux dits du Cérémade [AGLM92] ou des travaux sur l'évolution invariante des courbes [GH86,Gra87,ST93].
Nos apports ont été de plusieurs types. Après un état de l'art sur l'utilisation des méthodes à base d'EDP en Image et Vision par Ordinateur [2], qui nous a permis de présenter un formalisme unifié pour les méthodes de restauration d'images et de commencer à appliquer ces méthodes au problème de l'estimation de solutions discontinues en stéréo et flot optique [RD96,DKA95] nous avons étudié le problème de l'évolution projectivement invariante des courbes planes [4]. Cette étude était motivée par le désir de généraliser les travaux de Sapiro et Tannenbaum [ST93] ainsi que ceux d'Alvarez, Guichard, Lions et Morel [AGLM92] au cas projectif, étant donné que c'est plutôt l'invariance projective que l'invariance affine qui est pertinente en vision, comme nous l'avons dit dans la section précédente. Ceci nous a permis au passage de développer une méthode originale de calcul de la courbure affine d'une courbe plane (un invariant différentiel d'ordre 4) [FK95] et de nous familiariser avec la méthode dite des lignes de niveau pour résoudre les équations aux dérivées partielles issues des problèmes d'évolution de fronts, des problèmes de conservation hyperbolique, et des équations de Hamilton-Jacobi [Set96b].
Partant de là, nous avons exploré deux grands aspects de la vision par ordinateur précoce, la stéréoscopie et le suivi de mouvement dans des séquences d'images. En stéréoscopie, nous nous sommes attachés à formuler (formaliser ?) le problème sous forme variationnelle. L'idée de base est de considérer la scène comme un volume occupé par des objets dont on cherche les surfaces, observées par des caméras. Partant d'une surface arbitraire, on cherche à la déformer de telle manière qu'elle vienne se coller à la surface des objets présents sous l'influence de forces générées par les mesures issues des caméras. On est exactement dans un cas où les méthodes de niveau s'appliquent bien : la surface en question est le passage par 0 d'une fonction définie en chaque point du volume de la scène (en pratique, la distance algébrique du point à la surface) et son évolution est régie par une équation aux dérivées partielles (edp) déduite des équations d'Euler-Lagrange issues de la formulation variationnelle du problème.
Nous avons d'abord traité le cas particulier où l'on ne dispose que de deux caméras et où l'on intersecte la scène par un plan arbitraire : ce plan coupe les surfaces des objets selon un ensemble de courbes qu'il s'agit de calculer au moyen des images. On exploite alors un résultat qui veut qu'un plan de l'espace induise une transformation homographique entre deux images, c.à.d. que les images d'un point du plan se correspondent par une transformation du groupe projectif de P2qui ne dépend que des positions relatives du plan et des deux caméras. L'homographie étant connue, les courbes précédentes sont obtenues en minimisant une fonctionnelle prenant en compte cette homographie et les mesures images. La minimisation se fait à partir des équations d'Euler-Lagrange qui sont résolues par une méthode de lignes de niveaux 2D, c'est-à-dire correspondant à l'évolution d'une surface de R3dont les passages par zéro sont les courbes cherchées [42].
Nous avons ensuite traité le cas général où l'on dispose d'un nombre arbitraire de caméras et où l'on cherche à reconstruire les surfaces entièrement. Nous avons établi les équations d'Euler-Lagrange d'une vaste classe de fonctionnelles qui décrivent le problème de la stéréoscopie. Ces équations sont intéressantes car, d'une part nous les avons formulées de manière intrinsèque, c'est-à-dire indépendamment de la façon dont on paramètre les surfaces des objets, et d'autre part elles font apparaître de manière très simple (mais que nous ne comprenons pas encore complètement) la première et deuxième forme fondamentale de ces surfaces c'est-à-dire, bien sûr, la géométrie intrinsèque de celles-ci [5,25].
Le second aspect mentionné plus haut est celui du suivi de mouvement dans des séquences d'images. L'idée de base de l'approche est, comme dans le cas de la stéréoscopie, de formuler le problème de la détection et du suivi des objets comme celui de la minimisation d'une certaine fonctionnelle qui prend en compte à la fois le champ des vitesses image et le gradient de l'intensité. Là encore, les équations d'Euler-Lagrange du critère conduisent à une EDP qui est résolue par la méthode des lignes de niveau, dont le gros avantage pour cette application est la possibilité qu'elle offre de gérer de manière automatique les changements de topologie des objets suivis [54,56].
Une autre direction de recherche connexe à la précédente consiste à exprimer sous forme variationnelle des problèmes où l'on calcule une image à partir d'une autre image et à étudier et résoudre l'EDP issue des équations d'Euler-Lagrange. La méthode des lignes de niveau, qui s'appliquait bien dans les cas de la stéréoscopie et du suivi de contours, s'impose moins ici mais la démarche générale demeure identique.
Nous avons traité deux problèmes de ce type. Le premier est celui de la restauration non-linéaire d'images bruitées et, éventuellement, floues. Le second, celui du calcul du champ des vitesses image. Dans le premier cas, on part d'une image bruitée et dégradée par un flou inconnu et on cherche à calculer une image débruitée et plus contrastée. L'approche variationnelle est très pertinente et, tout en nous ayant permis d'unifier un grand nombre de méthodes apparues de manière indépendantes dans la littérature récente, elle nous a aussi, et surtout, conduit à des résultats spectaculaires [49,48,50]. L'extension à des séquences d'images bruitées est naturelle et permettrait de coupler détection d'objets en mouvement et restauration. Elle est en cours.
Dans le second cas, le calcul du champ des vitesses, on part d'une séquence d'images et on cherche à calculer une nouvelle séquence d'images vectorielles où le vecteur calculé en chaque pixel représente sa vitesse. Le problème dans ce cas est que, d'une part, on ne peut mesurer en chaque pixel que la vitesse dans la direction du gradient, et que, d'autre part, on cherche à préserver au mieux les discontinuités du champ des vitesses car elles correspondent souvent à des changement d'objet dans la scène. L'approche variationnelle est ici encore très pertinente [DKA95].
Toutes ces tentatives définissent donc à notre avis un domaine de recherche très riche en applications et qui reste en grande partie inexploré : établir, analyser et résoudre numériquement de manière efficace et précise les équations aux dérivées partielles qui régissent la vision précoce, voilà un beau défi à relever !