Projet Robotvis

previous up next contents
Précédent : Présentation générale et objectifs Remonter : Projet ROBOTVIS, Robotique et Vision Suivant : Logiciels



Fondements scientifiques

Géométrie d'un ensemble de vues

 

Participants : Sylvain Bougnoux , Rachid Deriche , Olivier Faugeras , Diane Lingrand , Théodore Papadopoulo , Luc Robert , Alfons Salden , Robert Stahr , Thierry Viéville , Zhengyou Zhang , Imad Zoghlami .


Mots-clés : géométrie projective, géométrie affine, géométrie euclidienne, étalonnage de caméras, stéréoscopie multivue, suivi dans des séquences stéréoscopiques, synthèse de vues à partir d'images


Une des questions centrales de la vision par ordinateur est celle du calcul, à partir d'un certain nombre de vues d'une même scène supposée statique dans un premier temps, d'une description géométrique tridimensionnelle de celle-ci. Lorsqu'on pense description géométrique, on pense en général description euclidienne, c'est-à-dire que l'on s'attend à pouvoir mesurer dans la scène des invariants du groupe des similitudes, voire des déplacements, c.à.d. des angles et des rapports de longueur, voire des longueurs.

Or ceci ne va pas de soi pour les raisons suivantes. Un appareil photographique, une caméra vidéo, une caméra, produisent des images qui, géométriquement, sont des projections sur une surface plane ou à peu près plane (que nous appelons dans la suite la rétine) telle qu'un film ou un ensemble de photodétecteurs et, photométriquement, sont le résultat d'une interaction complexe entre les sources de lumière, les objets observés, au travers de leur forme géométrique et de leurs propriétés de réflectance, et les capteurs eux-mêmes, au travers de leur sensibilité spectrale, temporelle, etc.

De tout ceci découle d'abord le fait bien connu que l'on perd une dimension d'espace (la distance à la caméra) en acquérant une image. Un regard plus attentif sur la géométrie de la formation des images montre dans un deuxième temps que le cadre naturel pour analyser l'opération de projection est plutôt celui de la géométrie projective que celui de la géométrie euclidienne : en l'absence d'information supplémentaire, la seule information géométrique à laquelle on puisse avoir accès à partir des images brutes est une information projective. De manière plus précise, on dit que l'on sait reconstruire la scène modulo une transformation projective tridimensionnelle quelconque et non pas, comme on l'espérait au départ, modulo une transformation euclidienne ou une similitude. Ce résultat a été obtenu en 1992 [8].

Cependant, même pour une reconstruction projective, il est nécessaire de disposer de plusieurs vues prises simultanément, on parle alors de stéréo ou de séquence spatiale, ou bien d'une séquence temporelle. Pour obtenir cette reconstruction, il est nécessaire de commencer par extraire des primitives images qui soient précises, robustes au bruit et qui se caractérisent par des attributs très discriminants afin de pouvoir établir des correspondances. Les approches décrites dans  [3] touchent à la détection des singularités de contours de type points anguleux ou jonctions multiples, qui sont des primitives images très pertinentes et très discriminantes. De manière complémentaire, les approches par modèles décrites dans  [1][21] permettent la détection avec des précisions sous-pixelliques de primitives images de type contours, points anguleux ou jonctions multiples. D'une manière très générale, l'appariement entre les diverses primitives images s'obtient ainsi en calculant, à l'aide d'opérateurs locaux dans l'image et dans le temps, des attributs. Ces attributs doivent être, autant que faire se peut, invariants à des transformations sur les images qui ne changent pas leur contenu, par exemple à des transformations monotones sur les intensités ou bien encore à des transformations géométriques induites par le changement de point de vue. Nous reviendrons plus loin sur cet aspect (voir Section [*]). Ces attributs, qui sont donc attachés à un élément d'image, ou pixel, sont ensuite comparés entre eux. Par exemple, si l'on dispose de deux images (c'est le cas de la stéréoscopie classique), on compare les attributs calculés en deux pixels dans chaque image. Si les deux pixels en question peuvent se situer n'importe où dans les deux images, le nombre de possibilités d'appariements est égal au produit des nombres de pixels.

Une analyse élémentaire de la géométrie d'une paire de caméras montre qu'il n'en est rien et que deux pixels ne peuvent être appariés que si chacun se trouve sur une droite déterminée par l'autre. Cette droite s'appelle une droite épipolaire. La correspondance entre un pixel et sa droite épipolaire est une relation projective, c'est-à-dire un morphisme de rang 2 entre la rétine modélisée comme un plan projectif P2, et son dual P*2,ensemble des droites de l'autre rétine. Dans la pratique, ce morphisme est représenté par une matrice 3x3, baptisée matrice fondamentale, de rang 2, et dont les propriétés ont été mises en évidence et étudiées par l'équipe [12]. Le problème de l'estimation de cette matrice à partir de correspondances est un problème difficile que nous n'avons résolu de manière satisfaisante que récemment [15]. Algébriquement, ceci se traduit par l'existence d'une contrainte algébrique de degré deux entre les coordonnées de deux pixels appariables.

Plus généralement, lorsque l'on a affaire à plus de deux images, le problème de la complexité de l'obtention des appariements se pose de manière encore plus aiguë. Cependant, la géométrie projective permet encore, comme dans le cas de deux images, de simplifier considérablement le processus d'appariement. Si l'on considère le cas de trois images, on montre que les points appariables satisfont des contraintes algébriques de degré trois [Har97,Sha95]. Celles-ci sont issues d'une application bilinéaire de P*2xP*2dans P*2qui donne, étant donné deux droites dans deux images, la droite dans la troisième vue qui est l'image de la même droite tridimensionnelle que celle qui a donné lieu aux deux premières. Cette application a été baptisée le tenseur trifocal. De même que les matrices fondamentales sont de rang inférieur ou égal à deux, c'est-à-dire constituent une sous-variété algébrique de l'espace projectif P8, les tenseurs trilinéaires constituent une variété algébrique de l'espace projectif P26dont les équations ont été établies [46]. Comme dans le cas de la matrice fondamentale, l'estimation du tenseur trifocal à partir de correspondances dans trois images est un problème ardu, à cause des contraintes algébriques qui existent entre ses coefficients, et n'a été résolu dans sa généralité que récemment [68].

Si l'on passe maintenant à quatre images et plus, il se passe un phénomène curieux. Tout d'abord pour quatre images, on a démontré que les contraintes algébriques de degré quatre qui existent entre les coordonnées de quadruplets de points appariables sont en fait algébriquement dépendantes des contraintes d'ordre deux et trois qui existent entre les paires et les triplets de points. Ensuite, l'introduction d'une cinquième, puis d'une sixième image, etc. n'apporte en fait rien de plus : les contraintes d'ordre trois sont suffisantes [7]. On a donc aujourd'hui une idée assez précise de la manière dont la géométrie de N vues d'une même scène peut être décrite et estimée dans un cadre projectif et comment les contraintes correspondantes peuvent être utilisées pour concevoir des algorithmes de stéréoscopie.

Nous mentionnions plus haut l'importance pratique d'obtenir une description d'une scène qui soit non pas projective mais affine ou euclidienne. Ceci nécessite de connaître non seulement les tenseurs trifocaux qui sont des êtres projectifs mais aussi le plan à l'infini pour le cas affine et les paramètres internes des caméras dans le cas euclidien. L'estimation de ces derniers a préoccupé et préoccupe encore la communauté de photogrammétrie [Zel52,Sla80] ainsi que celle de vision par ordinateur qui toutes deux ont utilisé l'idée que cette estimation passait par l'utilisation de points d'amer situés dans la scène observée et dont les coordonnées cartésiennes sont connues. En vision robotique ces points constituent ce qu'on appelle une mire d'étalonnage.

L'une des découvertes importantes de l'équipe est d'avoir démontré que ces points d'amer étaient en fait inutiles et que les paramètres internes des caméras pouvaient être obtenus en utilisant l'invariance de la conique absolue, ou ombilic, par le groupe des similitudes. L'analyse géométrique sous-jacente consiste à considérer l'espace euclidien habituel comme un sous-espace affine d'un espace projectif ambiant dans lequel on identifie un hyperplan particulier comme le plan à l'infini (en pratique les points situés très loin de la caméra) et dans cet hyperplan un cercle imaginaire de rayon $i=\sqrt{-1}$. À cette stratification de l'espace en projectif, en espace affine et euclidien correspond une stratification du groupe de transformations géométriques opérant sur la scène en groupe projectif des homographies, groupe affine (le sous groupe du précédent qui laisse le plan à l'infini globalement invariant) et le sous groupe des similitudes (le sous groupe du groupe affine qui laisse l'ombilic globalement invariante) [10,14]. On remarque ensuite que puisque la conique imaginaire image de l'ombilic dans une caméra doit être invariante aux mouvements de celle-ci, les coefficients de son équation doivent être des fonctions des paramètres internes de la caméra mais ne doivent pas dépendre de sa position et de son orientation dans l'espace [13]. Il ne reste plus alors qu'à développer les algorithmes qui, à partir de correspondances entre images, calculent les paramètres internes pour aboutir à des procédures de calibration qui ne nécessitent plus l'utilisation de points d'amer dans la scène d'où une beaucoup plus grande flexibilité d'application [6,11,12].

Équations aux dérivées partielles et vision précoce

 

Participants : Rachid Deriche , Olivier Faugeras , José Gomes , Renaud Keriven , Pierre Kornprobst , Laurence Lucido , Nikos Paragios .


Mots-clés : équation aux dérivées partielles, méthode de niveaux, restauration et amélioration d'images, stéréoscopie, suivi dans des séquences d'images


 Dans la section précédente nous avons mentionné deux points sur lesquels nous ne nous sommes pas appesantis. Le premier est celui des attributs d'images qu'il est nécessaire de calculer afin d'établir des correspondances entre points d'images. Le second est celui de l'invariance de certains éléments attachés aux images, par exemple celle des attributs précédents à des transformations monotones de l'intensité de l'image ou encore à des changements de point de vue. Nous avons aussi mentionné l'invariance du plan à l'infini par le groupe des transformations affines et celle de l'ombilic par celui des similitudes.

Ces deux remarques ont constitué le point de départ d'un ensemble de travaux de l'équipe dans lesquels nous avons essayé de reprendre les problèmes d'extraction d'attributs d'images de deux points de vue différents. Nous nous sommes tout d'abord efforcés de nous placer soit dans un cadre variationnel pour analyser les phénomènes dits de vision précoce, dont l'extraction d'attributs est un exemple, soit directement dans un cadre différentiel. Nous nous sommes aussi efforcés de développer des représentations invariantes de ces phénomènes. Notons tout d'abord que cette approche n'est pas révolutionnaire. Pour se limiter à quelques exemples, l'approche invariante est au coeur de la Morphologie Mathématique proposée par Serra et Matheron [Mat75,Ser82] et l'approche invariante et l'approche variationnelle/différentielle sont l'une des principales sources d'inspiration des travaux dits du Cérémade [AGLM92] ou des travaux sur l'évolution invariante des courbes [GH86,Gra87,ST93].

Nos apports ont été de plusieurs types. Après un état de l'art sur l'utilisation des méthodes à base d'EDP en Image et Vision par Ordinateur  [2], qui nous a permis de présenter un formalisme unifié pour les méthodes de restauration d'images et de commencer à appliquer ces méthodes au problème de l'estimation de solutions discontinues en stéréo et flot optique  [RD96,DKA95] nous avons étudié le problème de l'évolution projectivement invariante des courbes planes [4]. Cette étude était motivée par le désir de généraliser les travaux de Sapiro et Tannenbaum [ST93] ainsi que ceux d'Alvarez, Guichard, Lions et Morel [AGLM92] au cas projectif, étant donné que c'est plutôt l'invariance projective que l'invariance affine qui est pertinente en vision, comme nous l'avons dit dans la section précédente. Ceci nous a permis au passage de développer une méthode originale de calcul de la courbure affine d'une courbe plane (un invariant différentiel d'ordre 4) [FK95] et de nous familiariser avec la méthode dite des lignes de niveau pour résoudre les équations aux dérivées partielles issues des problèmes d'évolution de fronts, des problèmes de conservation hyperbolique, et des équations de Hamilton-Jacobi [Set96b].

Partant de là, nous avons exploré deux grands aspects de la vision par ordinateur précoce, la stéréoscopie et le suivi de mouvement dans des séquences d'images. En stéréoscopie, nous nous sommes attachés à formuler (formaliser ?) le problème sous forme variationnelle. L'idée de base est de considérer la scène comme un volume occupé par des objets dont on cherche les surfaces, observées par des caméras. Partant d'une surface arbitraire, on cherche à la déformer de telle manière qu'elle vienne se coller à la surface des objets présents sous l'influence de forces générées par les mesures issues des caméras. On est exactement dans un cas où les méthodes de niveau s'appliquent bien : la surface en question est le passage par 0 d'une fonction définie en chaque point du volume de la scène (en pratique, la distance algébrique du point à la surface) et son évolution est régie par une équation aux dérivées partielles (edp) déduite des équations d'Euler-Lagrange issues de la formulation variationnelle du problème.

Nous avons d'abord traité le cas particulier où l'on ne dispose que de deux caméras et où l'on intersecte la scène par un plan arbitraire : ce plan coupe les surfaces des objets selon un ensemble de courbes qu'il s'agit de calculer au moyen des images. On exploite alors un résultat qui veut qu'un plan de l'espace induise une transformation homographique entre deux images, c.à.d. que les images d'un point du plan se correspondent par une transformation du groupe projectif de P2qui ne dépend que des positions relatives du plan et des deux caméras. L'homographie étant connue, les courbes précédentes sont obtenues en minimisant une fonctionnelle prenant en compte cette homographie et les mesures images. La minimisation se fait à partir des équations d'Euler-Lagrange qui sont résolues par une méthode de lignes de niveaux 2D, c'est-à-dire correspondant à l'évolution d'une surface de R3dont les passages par zéro sont les courbes cherchées [42].

Nous avons ensuite traité le cas général où l'on dispose d'un nombre arbitraire de caméras et où l'on cherche à reconstruire les surfaces entièrement. Nous avons établi les équations d'Euler-Lagrange d'une vaste classe de fonctionnelles qui décrivent le problème de la stéréoscopie. Ces équations sont intéressantes car, d'une part nous les avons formulées de manière intrinsèque, c'est-à-dire indépendamment de la façon dont on paramètre les surfaces des objets, et d'autre part elles font apparaître de manière très simple (mais que nous ne comprenons pas encore complètement) la première et deuxième forme fondamentale de ces surfaces c'est-à-dire, bien sûr, la géométrie intrinsèque de celles-ci [5,25].

Le second aspect mentionné plus haut est celui du suivi de mouvement dans des séquences d'images. L'idée de base de l'approche est, comme dans le cas de la stéréoscopie, de formuler le problème de la détection et du suivi des objets comme celui de la minimisation d'une certaine fonctionnelle qui prend en compte à la fois le champ des vitesses image et le gradient de l'intensité. Là encore, les équations d'Euler-Lagrange du critère conduisent à une EDP qui est résolue par la méthode des lignes de niveau, dont le gros avantage pour cette application est la possibilité qu'elle offre de gérer de manière automatique les changements de topologie des objets suivis [54,56].

Une autre direction de recherche connexe à la précédente consiste à exprimer sous forme variationnelle des problèmes où l'on calcule une image à partir d'une autre image et à étudier et résoudre l'EDP issue des équations d'Euler-Lagrange. La méthode des lignes de niveau, qui s'appliquait bien dans les cas de la stéréoscopie et du suivi de contours, s'impose moins ici mais la démarche générale demeure identique.

Nous avons traité deux problèmes de ce type. Le premier est celui de la restauration non-linéaire d'images bruitées et, éventuellement, floues. Le second, celui du calcul du champ des vitesses image. Dans le premier cas, on part d'une image bruitée et dégradée par un flou inconnu et on cherche à calculer une image débruitée et plus contrastée. L'approche variationnelle est très pertinente et, tout en nous ayant permis d'unifier un grand nombre de méthodes apparues de manière indépendantes dans la littérature récente, elle nous a aussi, et surtout, conduit à des résultats spectaculaires [49,48,50]. L'extension à des séquences d'images bruitées est naturelle et permettrait de coupler détection d'objets en mouvement et restauration. Elle est en cours.

Dans le second cas, le calcul du champ des vitesses, on part d'une séquence d'images et on cherche à calculer une nouvelle séquence d'images vectorielles où le vecteur calculé en chaque pixel représente sa vitesse. Le problème dans ce cas est que, d'une part, on ne peut mesurer en chaque pixel que la vitesse dans la direction du gradient, et que, d'autre part, on cherche à préserver au mieux les discontinuités du champ des vitesses car elles correspondent souvent à des changement d'objet dans la scène. L'approche variationnelle est ici encore très pertinente  [DKA95].

Toutes ces tentatives définissent donc à notre avis un domaine de recherche très riche en applications et qui reste en grande partie inexploré : établir, analyser et résoudre numériquement de manière efficace et précise les équations aux dérivées partielles qui régissent la vision précoce, voilà un beau défi à relever !



previous up next contents Précédent : Présentation générale et objectifs Remonter : Projet ROBOTVIS, Robotique et Vision Suivant : Logiciels