Projet Robotvis

previous up next contents
Précédent : Logiciels Remonter : Projet ROBOTVIS, Robotique et Vision Suivant : Actions régionales, nationales et internationales



Résultats nouveaux

Géométrie d'un système de caméras et applications

Mots-clés : géométrie projective, géométrie affine, géométrie euclidienne, étalonnage de caméras, stéréoscopie multivue, polynôme, variété algébrique, ensemble caractéristique, algèbre double, relation de Plücker


 

Singularités au service du mouvement et de la calibration



Participants : Diane Lingrand , Thierry Viéville .


Cette étude s'insère dans un programme de travail relatif à l'analyse des propriétés géométriques et cinématiques des scènes, des modèles de caméra et des mouvements au sein de séquences monoculaires non calibrées, dans le but d'obtenir le plus d'informations possibles sur l'auto-calibration, le mouvement et la scène (objets géométriques, relations, structure 3D).

Cette année nous avons généralisé l'étude de l'an dernier, qui concernait quelques cas particuliers, à l'ensemble des cas pouvant nous intéresser et relatif aussi bien au modèle de projection qu'aux paramètres intrinsèques et extrinsèques, tout en prévoyant l'ajout de tout autre type de contrainte (structure de la scène, ...). Le nombre de cas particuliers pour ces modèles étant de l'ordre de 220, nous avons été amenés à établir un cadre de traitement automatique de génération et de traitement de chacun des cas. Cette étude a été validée sur une plate-forme expérimentale Argès, à l'aide de différents outils disponibles dans le projet (algorithmes de suivi de points, de minimisation, ...) ou à l'extérieur (Maple, Java et C). Nous avons ainsi pu établir que la précision est meilleure que celle obtenue avec les équations générales lorsque celles-ci sont solubles et que dans certains cas, nous obtenons des informations supplémentaires. Nous envisageons par la suite d'examiner nos cas plus «intelligemment» en exhibant les cas intéressants, c'est-à-dire ceux qui nous fournissent effectivement plus d'informations que le cas général, et d'établir un algorithme de reconstruction hiérarchique d'une scène.

L'intérêt immédiat de ce travail est de permettre de recueillir plus d'informations sur la caméra, la scène et les déplacements. On peut ensuite envisager de se placer volontairement et successivement dans des cas particuliers pour obtenir un maximum d'informations et une reconstruction «hiérarchique». Le robot effectue dans chaque cas un déplacement particulier pour déterminer le ou les paramètres souhaités. Un autre déplacement permet de reconstruire la scène.

Le zoom comme outil de calibration affine d'une caméra



Participants : François Gaspard , Thierry Viéville .


Contrairement aux premiers travaux sur l'analyse du mouvement dans le cadre de séquences d'images monoculaires non calibrées, nous ne pouvons plus supposer que les paramètres de calibration sont connus ni même interpolés. En effet, ils peuvent varier de manière complexe entre deux images, si bien que l'estimation des paramètres de calibration devient partie intégrante du problème. Ainsi l'estimation de ces paramètres devient délicate pour des systèmes visuels actifs, où la focale, la vergence et le zoom, sont utilisés, ce qui justifie ce sujet.

Nous avons développé une méthode permettant la calibration affine du système visuel dans le cas particulier du zoom ou dans un cas plus général d'une translation avec variation de la focale. Nous utilisons des appariements ainsi qu'une modélisation discrète pour le mouvement rigide. D'autre part, certains auteurs considèrent des informations a priori sur la scène telles que des lignes parallèles pour estimer la calibration affine, ce que nous intégrons aussi.

Nous profitons du fait que l'on observe très souvent des points à l'infini et que nous avons estimé un ensemble de collinéations (dont l'horizon) correspondant aux points coplanaires de la scène. En effet, nous pouvons, par une méthode d'estimation robuste et par tirage aléatoire, obtenir des ensembles de points coplanaires correspondant aux différents plans de la scène. Nous effectuons alors des reconstructions affines en utilisant des déplacements de type zoom. Nous proposons une méthode pour identifier la collinéation du plan à l'infini parmi toutes les structures planaires de la scène en utilisant des informations supplémentaires données par le sytème de vision.

Nous analysons également le cas de la reconstruction utilisant un plan fronto-parallèle quelconque et présentons des résultats sur les données synthétiques et des résultats préliminaires sur des données réelles [47] (figure [*]). Nous complétons actuellement ces résultats pour obtenir des reconstructions à une transformation affine près, à partir de zoom et de translations avec variation des paramètres intrinsèques. De telles reconstructions peuvent servir en particulier à la navigation visuelle de robots mobiles ainsi que pour des tâches robotiques nécessitant la perception de la position relative d'un point par rapport à un plan (situer un objet par rapport à une table, ...).


   Figure: Exemple de détection de structures planaires, avec analyse d'un mouvement singulier lors d'un suivi de points.

\begin{figure} \centerline{\includegraphics[height=6cm,width=6cm]{Figures/Thier... ...~ \includegraphics[height=6cm,width=6cm]{Figures/Thierry_res_2.ps}}\end{figure}


Étude des critères d'optimisation utilisés dans l'analyse de mouvement entre deux images



Participant : Zhengyou Zhang .


Nous avons étudié les trois critères d'optimisation les plus connus utilisés dans l'analyse du mouvement entre deux images [73,66]. Ils sont respectivement basés sur les distances entre les points et leurs droites épipolaires, les erreurs épipolaires pondérées par le gradient, et les distances entre les points observés et les reprojections des points 3D reconstruits. Le dernier critère a une meilleure interprétation statistique, mais le calcul est beaucoup plus lent que les deux premiers. Nous avons montré, théoriquement et expérimentalement, que les deux derniers sont équivalents quand les épipoles sont à l'infini, et qu'ils ne diffèrent que légèrement, même si les épipoles sont dans l'image. Les deux premiers critères sont équivalents seulement quand les épipoles sont à l'infini et que l'objet observé a la même échelle dans les deux images. Ceci suggère que le deuxième critère est suffisant en pratique à cause de l'efficacité en calcul. Le résultat est valide pour les images calibrées ou non.

Autoétalonnage de N caméras



Participant : Sylvain Bougnoux


Les travaux de cette année ont porté sur la construction d'un modèle d'environnement à partir d'images de celui-ci. Les techniques utilisées mettent en jeu des méthodes d'auto-calibration où l'on essaye à la fois de retrouver les paramètres de prise de vue des caméras et les informations tridimensionnelles de la scène. Ces méthodes sont basées sur la mise en correspondance dans les images des primitives visualisées de la scène. Malheureusement, elles dépendent fortement du choix de celles-ci ainsi que de la précision de leur visualisation. Ce cahier des charges rendant très difficile l'utilisation de méthodes automatiques pour la mise en correspondance, nous nous sommes tournés vers des méthodes semi-automatiques enfin d'éviter les fastidieuses méthodes manuelles. TOTALCALIB, un système interfacé de calibration assistée par ordinateur a été développé (voir section Logiciel et figure [*]), rendant possible de faire en quelques dizaines de minutes ce qui restait jadis improbable après de longues heures de mises en correspondance manuelles.

De plus, l'auto-calibration a pu être étendue au cas des paramètres intrinsèques variables s'affranchissant ainsi de ces anciennes contraintes, très restrictives en pratique. Cette dernière méthode fait l'objet d'un article qui sera présenté à ICCV 98 [41]. Néanmoins, nous avons aussi démontré que les mécanismes d'auto-calibration sont intrinsèquement instables, car de légères modifications de l'interprétation Euclidienne de la scène entraînent d'importantes modifications sur la calibration. C'est pourquoi, même si les modèles obtenus sont très proches du modèle réel, l'ajout d'informations Euclidiennes sur la scène paraît indispensable, et de nouveaux travaux sont nécessaires pour mieux comprendre les phénomènes impliqués.


   Figure: Exemple de l'utilisation de TotalCalib : les images utilisées (en haut) pour obtenir la reconstruction euclidienne tridimensionnelle (en bas)

\begin{figure}\centerline{\includegraphics[height=2in]{Figures/sylvain_total.ps... ...enterline{\includegraphics[height=1.7in]{Figures/sylvain_recons.ps}}\end{figure}


Paramétrisation et estimation du tenseur trifocal



Participants : Olivier Faugeras , Théodore Papadopoulo .


Le tenseur trifocal est un objet fondamental introduit par [Sha94,Har94] qui décrit la géométrie d'un système de 3 caméras d'un point de vue projectif : c'est en quelque sorte une généralisation de la matrice fondamentale (définie pour 2 caméras). Ce tenseur permet de prédire simplement la position de la projection d'une primitive (point ou droite) dans une image, uniquement à partir de la connaissance des positions de ses projections dans les deux autres. Un tel tenseur peut être facilement décrit par l'ensemble de ses 27 coefficients. Cependant, il est prouvé que les systèmes de 3 caméras ne possèdent que 18 degrés de liberté [29]. Les 27 coefficients du tenseur ne sont donc pas libres et doivent donc satisfaire un ensemble de contraintes.

Nous avons étudié les tenseurs trifocaux à l'aide du formalisme des algèbres de Grassmann-Cayley, qui a permis de donner une interprétation géométrique à bon nombre de leurs propriétés. Par ailleurs, dans la continuité des travaux décrits dans [FM95], le catalogue des contraintes satisfaites par les coefficients du tenseur a été enrichi et les dépendances algébriques entre celles-ci ont été étudiées. Ceci a notamment permis une réduction considérable de la complexité du système de contraintes qui caractérise la variété algébrique $\cal{T}$ des tenseurs trifocaux.

D'un point de vue pratique, ces études ont permis la programmation d'une méthode permettant l'estimation d'un tenseur trifocal respectant les contraintes algébriques décrites ci-dessus à partir d'un ensemble d'appariements de primitives sur les 3 images. Cette approche suit une méthodologie similaire à celle employée dans le cas de la matrice fondamentale : à partir d'une première estimée ne respectant pas les contraintes (fournie par exemple par une méthode linéaire), on se projette sur la variété $\cal{T}$, puis à l'aide d'une paramétrisation de celle-ci, on se déplace sur $\cal{T}$ pour minimiser au mieux un critère d'erreur prenant en compte de manière symétrique sur les 3 images la distance entre les primitives prédites et observées. Cette technique produit des estimées du tenseur trifocal qui non seulement sont plus exactes d'un point de vue mathématique mais aussi qui réduisent (parfois de manière spectaculaire) les erreurs résiduelles moyennes et maximales entre primitives prédites et observées.

Pour plus de détails, on pourra se reporter aux publications [69,68,46].

Preuves automatiques



Participants : Didier Bondyfalat , Olivier Faugeras , Bernard Mourrain (Projet Safir) , Théodore Papadopoulo .


Ce travail est effectué en commun avec Bernard Mourrain du projet Safir qui dirige la thèse de Didier Bondyfalat.

Vérification d'un théorème

L'aspect vérification d'un théorème est un sujet qui a déjà fait l'objet de recherche. Wu Wen-Tsün, en 1978, établit, à partir des ensembles caractéristiques, un algorithme permettant de décider si une propriété est conséquence d'un ensemble d'hypothèses. Cette méthode s'appuie sur les correspondances entre propriétés géométriques et polynômes de coordonnées et entre théorèmes et polynômes s'annulant sur une variété algébrique. Les difficultés liées au choix du repère et à l'extraction des conditions de non-dégénérescence du théorème ont conduit à la recherche de techniques n'utilisant pas de système de coordonnées. Privilégiant les aspects intrinsèques de la géométrie, invariants, algèbre double et algèbre de déterminants, ces méthodes ont l'avantage de présenter des preuves plus simples et plus rapides. Par contre, elles nécessitent des connaissances sur la construction de la figure ou sont sensibles aux différentes façons de donner les hypothèses. Dans tous les cas, elles semblent avoir des difficultés avec la géométrie euclidienne et souffrent d'un manque d'expérience dans la géométrie de l'espace.

Nous sommes en train d'élaborer une <<nouvelle>> technique, qui regroupe l'approche ensemble caractéristique et l'approche géométrique. Nous nous plaçons dans les algèbres de déterminants modulo les relations de Plücker, en exploitant la correspondance (non bijective) entre polynômes de déterminants et propriétés géométriques.

Génération de théorèmes à partir d'un ensemble d'hypothèses

Cette voie n'est certainement pas inexplorée, mais ne possède pas de références. L'idée est de construire toutes les propriétés d'une figure à partir d'un ensemble d'hypothèses. Pour la géométrie du plan, nous avons élaboré une technique. Elle est fondée sur la pseudo-réduction, par un ensemble caractéristique d'hypothèses, de polynômes de déterminants génériques et homogènes par rapport aux points. Le nombre de composantes génériques homogènes est en croissance polynômiale par rapport au nombre de points de la figure, d'où un temps de calcul élevé. Par contre l'indépendance de ces composantes permet facilement une parallélisation du calcul. La généralisation de cet algorithme à la géométrie de l'espace est rendue difficile par l'interprétation des polynômes de déterminants en terme de propriétés géométriques.

Approches variationnelles et à base d'invariants



Participants : Quentin Delamarre , Rachid Deriche , Olivier Faugeras , Cyrille Gauclin , Renaud Keriven , Pierre Kornprobst , Laurence Lucido , Luc Robert , Imad Zoghlami


Mots-clés : stéréoscopie, équation aux dérivées partielles, méthode de niveaux, théorie des invariants, espace étale, théorie des noeuds, morphologie mathématique


 

Équations fondamentales de la stéréoscopie et applications



Participants : Renaud Keriven , José Gomes , Olivier Faugeras


Nous avons poursuivi l'effort commencé l'année dernière sur la formalisation de la stéréoscopie pour un nombre arbitraire de caméras par une méthode variationnelle.

L'idée est de représenter les objets de la scène comme les passages par zéro d'une fonction $\hat{u}\,:\\mathbf{R}^3 \to \mathbf{R}$ supposée $C^2$. Les coordonnées $(x,y,z)$des points de la scène situés à la surface des objets sont donc définies par l'équation $\hat{u}(x,y,z)=0$.

On considère ensuite une famille de surfaces régulières $S\ :\ (v,w,t) \to {\bfS}(v,w,t)$$(v,w)$ paramétrisent la surface et $t$ représente le temps. Les objets de la scène correspondent à une surface $\hat{\bf S}(v,w)$et notre but est, étant donné une surface initiale ${\bf S}_0(v,w)$,d'établir une équation différentielle  \begin{equation}{\bf S}_t=\beta {\bf N},\end{equation}



dans laquelle ${\bf N}$ est un vecteur unitaire normal à la surface. L'espoir est que, en résolvant cette équation à partir de conditions initiales ${\bf S}(v,w,0)={\bf S}_0(v,w)$, on obtiendra une solution approximant $\hat{\bf S}(v,w)$. La fonction $\beta$ est déterminée par la fonctionnelle qui décrit les appariements stéréoscopiques.

Un point intéressant de cette approche est que l'on peut résoudre l'équation ([*]) par la méthode des niveaux [Set96b] ce qui a l'avantage de pouvoir traiter automatiquement le cas de plusieurs objets. En détail, les surfaces ${\bf S}$ sont à chaque instant les passages par zéro d'une fonction $u\, : \mathbf{R}^4 \to \mathbf{R}$ :

\begin{displaymath}u({\bf S},t)=0\end{displaymath}


En dérivant par rapport à $u,\,v,\,t$, on obtient aisément l'équation d'évolution de $u$ :  \begin{equation}u_t=\beta \mid \nabla u \mid\end{equation}


La fonctionnelle que l'on cherche à minimiser est inspirée des techniques classiques de stéréoscopie binoculaire. On se donne $n\geq 2$ images $I_i(m_i)$ d'une même scène, dans lesquelles le pixel $m_i$ est l'image d'un point 3D $S$ situé sur la surface ${\bf S}$. Pour chaque point $S$, on considère ses $n$ images $m_i$ et on peut calculer les scores de corrélation $C_{ij}$ qui dépendent de ${\bf S}$, de la normale ${\bf N}$ à la surface et, à travers eux, des paramètres $(v,\,w)$. Le score de corrélation étant compris entre $-1$et 1, on considère $D_{ij}=1-C_{ij}$ et on définit le critère :  
\begin{equation}C({\bf S},{\bf N})=\sum_{i,j=1,i\neq j}^n \int \int D_{ij} d\sigma=\int \int \Phi({\bf S},{\bf N},v,w)d\sigma\end{equation}




L'intégration se fait par rapport à l'élément d'aire $d\sigma=\mid {\bf S}_v \times {\bf S}_w \mid dvdw$ de la surface $\bf S$.Ceci présente les avantages de,

1.
régulariser le problème variationnel correspondant comme dans l'approche des «snakes geodesiques» [CKS95] et de
2.
poser le problème de manière intrinsèque, c'est-à-dire indépendamment de la paramétrisation $(v,\,w)$.

Notons que cette approche permet de prendre en compte la visibilité des points.

Nous avons montré dans [FK96][5,25] que la vitesse $\beta$ dans ([*]) s'exprimait de manière intrinsèque en fonction de la géométrie de la surface $S$ et en fonction des dérivées première et seconde de la fonctionnelle $\Phi$ par rapport à ses deux premiers arguments :  

\begin{equation}\beta=-\Phi_{\bf X}{\bf N}+2H(\Phi-\Phi_{\bf Y}{\bfN})-Trace((\Phi_{\bf XY})_{T_S}+d{\bf N} \circ (\Phi_{\bf YY})_{T_S})\end{equation}




Dans cette équation, toutes les quantités sont évaluées au point ${\bf S}$ de normale ${\bf N}$ de la surface. $T_S$ est le plan tangent, $d{\bf N}$ est la différentielle de l'application de Gauss, $H$ est sa courbure moyenne. $\Phi_{\bf XY}$ et $\Phi_{\bf YY}$ sont les dérivées du second ordre de $\Phi$, $(\Phi_{\bf XY})_{T_S}$ et $(\Phi_{\bf YY})_{T_S}$ leurs restrictions au plan tangent $T_S$.

L'équation d'évolution correspondante pour $u$ s'écrit :  
\begin{eqnarray}u_t\;=\; \mid \nabla u \mid div(\Phi \frac{\nabla u}{\mid \nabl... ...XY})_{T_S}+d{\bf N} \circ (\Phi_{\bf YY})_{T_S})\mid\nabla u \mid\end{eqnarray}




A chaque point $(x,y,z)$, le plan tangent $T_{S}$ est celui de la surface de niveau $u=constante$ passant par ce point. L'opérateur $\nabla$ calcule les dérivées par rapport aux variables d'espace $(x,y,z)$, $\nabla_1$ calcule les dérivées par rapport aux composantes de la normale.

L'année dernière, nous disposions d'une implémentation bidimensionnelle de l'équation ([*]). L'implémentation de la version tridimensionnelle pose des problèmes délicats et nous n'en avons encore réalisé qu'une partie, en négligeant notamment tous les termes du deuxième ordre. Malgré cette approximation, les résultats obtenus sont très encourageants. Nous en présentons deux.

Le premier exemple est synthétique et est destiné à montrer comment la méthode des niveaux peut effectivement traiter de manière automatique des changements de topologie non triviaux. La figure [*] montre quelques images de deux tores, la figure [*] montre la surface $S$ initiale (une sphère) sur laquelle sont reprojetées les images et divers stades de son évolution jusqu'à la convergence.
   Figure: Quelques images de deux tores.

\begin{figure} \centerline{ \includegraphics[width=8cm]{Figures/tores-photos.ps}}\end{figure}



   Figure: Quelques étapes de l'évolution de la surface $S$.

\begin{figure} \centerline{\includegraphics[width=8cm]{Figures/tores0.ps}\hspac... ...es2.ps}\hspace{0.3cm}\includegraphics[width=8cm]{Figures/tores3.ps}}\end{figure}


Le second exemple a été obtenu à partir d'images réelles de deux visages de manequins. La présentation des résultats est la même que dans le cas des tores.


   Figure: Quelques images de deux visages.

\begin{figure} \centerline{ \includegraphics[width=8cm]{Figures/adam-photos.ps}}\end{figure}



   Figure: Quelques étapes de l'évolution de la surface $S$.

\begin{figure} \centerline{\includegraphics[width=8cm]{Figures/adam0.ps}\hspace... ...dam2.ps}\hspace{0.3cm}\includegraphics[width=8cm]{Figures/adam3.ps}}\end{figure}


EDP et ensembles de niveau pour la détection et le suivi d'objets en mouvements



Participants : Nikos Paragios , Rachid Deriche


Dans le cadre d'une thèse financée au travers du réseau TMR VIRGO
(http://www.ics.forth.gr/virgo/ ), nous avons développé une nouvelle méthode de résolution du problème de la détection et du suivi d'objets en mouvement dans une séquence monoculaire d'images. Une approche variationnelle permettant de reformuler le problème de la détection et du suivi comme un problème de propagation de front est à la base de cette nouvelle méthode. Une énergie à minimiser est associée au principe variationnel que doivent respecter les contours des objets en mouvement. Suivant les travaux de Caselles et al  [CKS95] et de Malladi et al  [MSV95,MSV93], l'équation d'Euler-Lagrange, déduite de la minimisation de cette énergie, est alors utilisée afin de déformer les contours initiaux, considérés comme des contours actifs géodésiques qui vont se déplacer vers les objets en mouvement. La résolution de l'EDP par la méthode des courbes de niveau  [Set96b], permet ensuite de mettre en oeuvre de manière efficace le processus d'évolution des contours tout en gérant automatiquement d'éventuels problèmes de changement de topologie durant la déformation. Cela permet de traiter correctement les configurations singulières de type fusion d'objets multiples et/ou scission d'objets en plusieurs parties, qui peuvent apparaître au cours du suivi. Afin de réduire la complexité d'une mise en oeuvre directe, une nouvelle méthode exploitant les aspects les plus positifs des approches rapides connues sous le nom de Narrow Band  [AS95] et Fast Marching  [Set96a] a été proposée, mise en oeuvre et comparée favorablement à ces deux techniques. Une approche multiéchelle a aussi été considérée. Plusieurs résultats expérimentaux, obtenus à partir de séquences d'images réelles, illustrent les très bonnes performances obtenues par cette nouvelle méthode dont les différentes parties sont développées dans  [72,56,54,55]. Il est à noter qu'une plateforme logicielle, à base d'Ilog Views, a été réalisé afin d'intégrer toutes ces parties, et permettre l'interactivité nécessaire dans le cadre de telles applications (voir figure [*])
   Figure: Détection et suivi d'objets en mouvement par contours actifs géodésiques.

\begin{figure} \centerline{ \includegraphics[height=3cm] {Figures/nikos_auto.... ...auto.6.ps} \includegraphics[height=3cm] {Figures/nikos_auto.7.ps}}\end{figure}



   Figure: L'interface pour la détection et le suivi d'objets en mouvement

\begin{figure} \centerline{ \includegraphics[height=6cm]{Figures/nikos_tarif.ps}}.\end{figure}


EDP et Restauration d'images



Participants : Pierre Kornprobst , Rachid Deriche , Gilles Aubert


Dans le cadre du projet Européen LTR 23.515 Improofs
(http://www.esat.kuleuven.ac.be/konijn/improofs.html ) dont une des trois tâches de recherche est dédiée aux méthodes à base d'EDP non-linéaires pour la restauration d'images et de séquences d'images, nous avons axé nos efforts sur les parties suivantes, dont certaines ont commencé à être intégrées au sein d'une plateforme logicielle sous Target Jr à des fins de tests pour l'utilisation future par nos partenaires utilisateurs finaux.

EDP et appariement multiéchelle



Participants : Laurence Lucido , Rachid Deriche , Zhengyou Zhang


Ces travaux, qui concernent le problème de la mise en correspondance de cartes multiéchelle pour la navigation autonome des engins sous-marins, sont effectués dans le cadre d'une collaboration avec le Laboratoire de Robotique et d'Intelligence Artificielle (DITI - SM - RIA) d'IFREMER (Centre de Toulon).

Dans le scénario envisagé, on dispose d'un Modèle Numérique de Terrain de référence, couvrant la zone de mission ; le véhicule est équipé d'un sonar bathymétrique et sa position est estimée par mise en correspondance de la carte locale acquise à bord de l'engin dans le MNT de référence. La seule donnée cartographique du terrain permet de résoudre le problème de la localisation de l'engin dans son environnement : nous parlons de navigation référencée terrain.

Les grandes lignes de ce travail et les contributions associées sont :

Nous avons expérimenté le système en utilisant le Modèle Numérique de Terrain réel du Canyon du Var. Les cartes locales sont issues d'un simulateur de sonar bathymétrique. Les exemples proposés permettent de valider le système complet de navigation référencée terrain, exploitant uniquement la donnée cartographique. Pour plus d'information, on trouvera dans les références  [52,70,71], les détails sur les différentes parties de ce travail.

Analyse d'images : un point de vue géométrique



Participant : Alfons Salden


Nous avons poursuivi une étude qui a déjà fait l'objet d'une thèse soutenue en novembre 1996 [Sal96] à l'université d'Utrecht aux Pays-Bas. L'idée de cette thèse et le contenu de notre travail cette année consistent à fournir des méthodes théoriques de traitement et d'analyse d'images qui produisent des descriptions d'images reproductibles et stables. Cela signifie que les traitements, les analyses et par conséquent les résultats obtenus sont invariants ou peu influencés par certains groupes de transformations. Ces groupes de transformations concernent des groupes classiques comme le groupe Euclidien, le groupe affine (modulaire), le groupe projectif et des combinaisons des groupes galiléen ou lorentzien, mais aussi des groupes de (difféo)morphismes qui incluent des anamorphoses (transformations de contraste), des transformations de jauge et des transformations dues aux bruits. Ainsi le type d'image importe peu ; si l'image est stationnaire, spatio-temporelle, monoculaire ou binoculaire, cela se manifeste seulement dans un certain choix de géométrie sur l'image. Les traitements et analyses adaptés à ce choix ont pour but un lissage (ou mieux une redistribution) et quantification des images ou leur formation à plusieurs échelles en termes de géométrie et de topologie. Les méthodes mathématiques et physiques utilisées pour dériver ces traitements et analyses sont la théorie des invariants, la géométrie, la théorie des défauts, la théorie des champs de jauge, la théorie des noeuds.

Ainsi, les images qui sont des transformations Euclidiennes d'elles-mêmes peuvent être complètement décrites par un ensemble d'invariants irréductibles locaux et multilocaux d'un espace échelle Euclidien [Sal98]. Il est facile d'étendre cette analyse à d'autres géométries.

L'autre technique d'analyse mathématique que nous avons appliquée est la géométrie. Géométrie différentielle et géométrie intégrale permettent de retrouver et de quantifier des courants géométriques et topologiques pour la construction d'images [StHRV95,StHRV96a][58,57]. Ces règles peuvent être formulées en termes d'équivalences locales et globales des CW-complexes, c'est-à-dire d'objets physiques qui séparent des parties d'images caractérisées par différents morphismes.

Ces équivalences sont alors utilisées pour construire une fonction de partition statistique. La géométrie, et par conséquent ces équivalences, définissent de nouveaux traitements non-linéaires et multiéchelles des images ou leur formation [StHRV95,Sal96], [74]. Les traitements dans ces cas sont basés sur certaines conditions d'invariance et des principes d'échange de quanta géométriques et topologiques. Par rapport à ces équivalences il est intéressant de conserver des invariants géométriques et topologiques qui sont liés, par exemple, à des noeuds [StHRV96b]. Nous avons prouvé que notre paradigme d'espace échelle peut aussi généraliser des espaces échelle morphologiques particulièrement dans le cas où l'on exige l'invariance par des groupes de difféomorphismes [74].

Traitement des séquences spatiales et temporelles

Mots-clés : mosaïques, chromaKey, mouvement de la main, synthèse de vues, stéréoscopie multivue


 

Un algorithme de stéréoscopie multicaméra



Participants : Cyrille Gauclin , Luc Robert , Rachid Deriche .


 Les méthodes de corrélation classiques procèdent généralement en déplaçant une fenêtre rectangulaire dans une image et en cherchant la position la plus probable de cette fenêtre dans une deuxième image par comparaison des intensités des pixels. La fonction de comparaison est généralement une SSD (Sum of Squared Differences) ou une corrélation croisée (CC). L'ensemble des déplacements (variation d'abscisse dans le cas d'images rectifiées) ainsi obtenu forme alors la carte de disparité de la paire stéréo étudiée. Des améliorations ont été apportées à la formulation classique utilisant, par exemple, non plus une seule mais plusieurs fenêtres de corrélation de tailles variables, ou alors en combinant l'information apportée par plusieurs images à la place d'une seule paire. Nous proposons une nouvelle formulation qui, fondée sur la linéarité du critère de corrélation, intègre de manière efficace les notions précédentes, à savoir, la taille variable des fenêtres, le nombre variable des images mais aussi l'utilisation de critères de corrélation pondérés. Notre méthode consiste en l'utilisation de filtres à réponse impulsionnelle continue, comme les filtres gaussiens ou exponentiels, dont une implémentation récursive rend les calculs plus efficaces. La figure [*] montre un exemple réalisé à partir d'images réelles. On peut constater l'amélioration apportée par la corrélation utilisant le filtrage en remarquant la disparition de nombreuses «zones blanches» correspondant aux pixels non appariés.
   Figure: En haut, deux images réelles rectifiées. En bas et de gauche à droite, les cartes de disparité obtenues (a) par corrélation classique, (b) à l'aide d'un filtre de Deriche de largeur $\alpha=0,4$ (c) à l'aide de deux filtres de Deriche de largeurs $\alpha_{1}=0,4$ et $\alpha_{2}=1,7$

\begin{figure} \centerline{ \includegraphics[height=4cm]{Figures/cyrille_Herve... ...s} \includegraphics[height=4cm,angle=90]{Figures/cyrille_HBN.ps} }\end{figure}


Une étude mathématique du problème du flot optique



Participants : Pierre Kornprobst , Rachid Deriche , Gilles Aubert .


Étant donné une séquence d'images $I(x,y,t)$, on considère le problème de l'estimation du flot optique $V=(u,v)^T$, comme la minimisation de la fonctionnelle suivante :
\begin{displaymath}\inf_{V\in BV(\Omega)} \underbrace{\int_\Omega \vert V\cdot\... ...\vert V\vert^2dx}_{\mbox{\small R{\'e}gions non textur{\'e}es}}\end{displaymath}


$\phi$ est une fonction à croissance linéaire permettant de retrouver un flot optique discontinu et $c(x)$ une fonction dans $[0,1]$, qui est petite dans les régions texturées ($\nabla I$ grand). L'espace adéquat pour minimiser une telle fonctionnelle est l'espace des fonctions à variations bornées (noté $BV(\Omega)$) qui permet de retrouver des fonctions discontinues. Une étude mathématique du problème de l'estimation du flot optique dans l'espace $BV(\Omega)$ a été entreprise en collaboration avec Gilles Aubert, professeur à l'université de Nice. Nous avons montré que la fonctionnelle a minimiser n'est pas semi continue inférieurement pour la topologie faible de $BV(\Omega)$, ce qui nous a conduit à considérer le problème régularisé (relaxé) pour lequel l'existence a été démontrée. D'autre part, nous avons proposé un algorithme de minimisation basé sur le principe de minimisation semi-quadratique. Sa convergence vers la solution de notre problème a été démontrée sous l'hypothèse d'une donnée plus régulière et en utilisant des résultats de $\Gamma$-convergence. Ce travail a été soumis au journal SIAM.

Une théorie de la stéréo non calibrée unifiant les modèles de projection perspective et affine



Participant : Zhengyou Zhang .


Classiquement, la géométrie de caméras multiples a été formulée séparément pour le modèle de projection perspective et pour celui de projection affine. Dans le cas «perspective», il est supposé que la première sous-matrice $3\times 3$ est inversible, donc la formule n'est pas applicable au cas «affine». Dans le cas «affine» (y compris projection orthographique et perspective-faible), comme c'est une approximation linéaire du modèle de projection perspective, la formule n'est pas applicable au cas «perspective». Nous avons reformulé la géométrie de caméras multiples en utilisant la pseudo-inverse de la matrice de projection. Le résultat est que nous avons une expression qui est valide pour les deux modèles de projection perspective et affine. Ceci a été fait pour deux caméras dans [62], puis étendu au cas de caméras multiples dans [34]. De plus, la reconstruction affine peut se faire exactement comme la reconstruction projective dans une base canonique ; il suffit ensuite d'appliquer une transformation projective spéciale pour obtenir la structure affine.

Synthèse d'images réalistes à partir d'autres images

Mosaïques d'images



Participants : Imad Zoghlami , Olivier Faugeras , Rachid Deriche .


 

Si nous observons une scène statique avec une caméra en rotation pure autour de son centre optique, nous obtenons des images qui sont deux à deux en correspondance homographique. Cette propriété est aussi valable lorsqu'on observe une surface plane depuis plusieurs points de vue.

Le problème principal de la construction d'une mosaïque est le calcul des homographies entre les images. Deux cas sont à distinguer. Le premier correspond au cas où la transformation entre les images est principalement une translation (i.e. la rotation autour de l'axe optique et le zoom sont très faibles). Le second cas est le cas général (quand la rotation autour de l'axe optique et le zoom sont quelconques). Plusieurs méthodes existent pour résoudre le premier cas, mais très peu de méthodes existent pour résoudre le cas général, et celles qui existent sont très limitées (elles exigent un recouvrement très élevé (de l'ordre de 80%), une rotation faible (de l'ordre de 30 degrés) autour du centre optique, et un zoom très faible, avec des temps de calcul de plusieurs minutes voire plusieurs dizaines de minutes). Nous avons développé une méthode basée sur les modèles de coins, totalement automatique et avec des temps de calcul de quelques secondes pour des rotations quelconques et des zooms de facteur deux et des recouvrements faibles (jusqu'a 20%) [67].

La figure [*] montre un exemple où la deuxième image est à l'envers (i.e. rotation de 180 degrés) et la mosaïque des deux images.


   Figure: (En haut) A gauche une image d'une scène réelle, à droite une image de la même scène avec une rotation de 180 degrés et un recouvrement de 50 %, (En bas) La mosaïque obtenue.

\begin{figure} \centerline{ \includegraphics[height=3cm]{Figures/ima1.ps} \in... ...nterline{ \includegraphics[height=3cm]{Figures/imad_mosaic.ima.ps}}\end{figure}


Traitement des ombres pour un chromaKey biluminance



Participants : Imad Zoghlami , Rachid Deriche .


 Ce travail est effectué dans le cadre du projet Européen HPCN Epsis. La méthode de chromaKey consiste à mettre un fond bleu derrière des objets en premier plan pour pouvoir extraire ces objets et insérer un arrière plan quelconque. Cette méthode est très utilisée dans le monde de l'audiovisuel (i.e. météo, studios virtuels, et trucage cinéma). L'extraction du premier plan avec cette méthode est très efficace sur un fond bleu uniforme ou même un fond avec plusieurs bleus. Dans ce cas, il n'est par contre pas possible d'extraire l'ombre de l'objet qui se trouve en premier plan. Comme il est très difficile pour l'acteur de jouer dans une scène uniformément bleue, par manque de repères, la plupart des studios sont fait de plusieurs bleus. Mais la perte des ombres diminue le réalisme des scènes truquées. Nous avons développé une méthode basée sur le chromaKey et les distributions gaussiennes pour extraire l'ombre d'un objet en premier plan sur un fond avec plusieurs bleus.

La figure [*] montre un exemple avec une main devant deux bleus (un clair et l'autre sombre).


   Figure: (En haut) l'image originale, (En bas) L'image avec un autre fond

\begin{figure} \centerline{ \includegraphics[height=6cm]{Figures/imad_two.050.ps} }\end{figure}


Détection et suivi de cibles sur une durée indéterminée.



Participants : Cyril De Murcia , Michael Niemaz , Thierry Viéville .


Le but de ce travail est de développer et mettre en oeuvre une plate-forme robotique de démonstration de suivi de cibles. Cette plate-forme robotique, nommée «Argès», est dotée d'un capteur visuel actif qui possède des degrés de liberté minimaux pour effectuer de la vision 3D.

Concrètement, il s'agit d'implémenter une application permettant la détection et le suivi d'objets en mouvement sur une durée indéterminée, avec caractérisation de données géométriques, telles que la taille, la distance, la profondeur, etc., ou cinématique telle que la vitesse des cibles poursuivies. Des options telles que la sélection de cibles à poursuivre, la sauvegarde de séquences d'images, la calibration automatique du robot, ou le passage en commande manuelle sont à envisager.

L'objectif est donc de réaliser un système à contraintes temps réel capable non seulement de réagir aux événements extérieurs et de les interpréter de manière intelligente (figure [*]), mais aussi de s'adapter à la dynamique de l'objet traqué en jouant notamment sur la fréquence d'acquisition des images. Pour satisfaire cet objectif, la priorité est donnée à l'implémentation temps-réel de nos algorithmes de vision, tels que le lissage ou le seuillage. Notre contribution consiste à en proposer une utilisation fonctionnelle et optimale.

Une interface graphique met à disposition de tout utilisateur les fonctions opérationnelles de cette application. Ce travail n'est pas anodin, car il montre que les systèmes de vision actuels doivent être interactifs et non simplement des boîtes noires à entrée-sortie.

Ce travail a donc permis de développer une application mettant en oeuvre un système de vision active (figure [*]) capable de surveiller de manière autonome un lieu (une pièce ...) pendant une durée indéterminée. Cette surveillance a pour objectif de saisir et analyser les différents événements survenus durant l'expérience et de construire des séquences vidéos minimales de ceux-ci [53].


   Figure: Détection et suivi de cibles complexes en temps-réel en vue de leur analyse 3D.

\begin{figure} \centerline{\includegraphics[height=6cm,width=6cm]{Figures/Thier... ...~~ \includegraphics[height=6cm,width=6cm]{Figures/Thierry_segm.ps}}\end{figure}



   Figure: Exemple de suivi de cibles en 3D avec localisation sur le plan du sol du sujet.

\begin{figure} \centerline{\includegraphics[height=6cm,width=6cm]{Figures/Thier... ... \includegraphics[height=6cm,width=6cm]{Figures/Thierry_traject.ps}}\end{figure}


Formalisation de la conception des modules perceptifs pour les systèmes de vision réactifs.



Participants : Soraya Arias , Ève Coste-Manière , Gérard Giraudon , Thierry Viéville .


Fruit d'une collaboration inter-projets, cette étude vise à mettre en place une méthodologie de programmation des systèmes de vision permettant d'associer un contrôle aux algorithmes de traitement utilisés.

L'expérience actuelle acquise à travers différentes applications (l'interprétation en imagerie aérienne, la robotique mobile ou la reconnaissance d'objets sur séquence d'images), permet de faire une analyse générique plus pertinente quant aux contraintes qu'un système de vision doit respecter pour être valide.

Plus précisément, deux entités principales sont proposées afin de spécifier de manière hiérarchique et structurée un système de vision :

(1) L'action de vision élémentaire qui constitue la brique de base de notre méthodologie. Elle se caractérise par un traitement sur une structure de données et par un comportement logique associé à ce traitement. Ce comportement est rythmé par les évènements qui indiquent la satisfaction de conditions de démarrage, de fin ou de dysfonctionnement du traitement algorithmique associé.

(2) L'ensemble ordonné des actions élémentaires qui se caractérise par leur enchaînement logique afin d'aboutir à la spécification complète d'un système de vision.

Ces problèmes inhérents à la formalisation des actions de vision sont analysés et illustrés à travers une application effective de suivi de mouvements. Cette analyse nous permet de proposer et justifier une définition formelle des actions de vision et une méthodologie pour leur programmation [39].

Analyse des mouvements de la main dans des séquences d'images stéréoscopiques



Participants : Quentin Delamarre , Olivier Faugeras .


 
   Figure: A gauche: modèle 3D articulé d'une main. A droite: un modèle 3D d'un doigt attiré vers une reconstruction 3D simulée du même doigt.

\begin{figure}\begin{center}\includegraphics[scale=0.7]{Figures/quentin_ra97.2.ps}\end{center}\end{figure}



   Figure: Paire d'images vidéo founie par notre caméra à miroirs

\begin{figure}\begin{center} \includegraphics[scale=1.0]{Figures/quentin_paire.eps}\end{center}\end{figure}



   Figure: Superposition du modèle 3D d'un doigt avec la carte de profondeur obtenue par notre algorithme de stéréocorrélation sur la paire d'images. Le modèle 3D a convergé vers une position très proche de la position réelle du doigt de l'utilisateur (voir fig. [*]).

\begin{figure}\begin{center}\includegraphics[scale=1.2]{Figures/quentin_cvgreal.eps}\end{center}\end{figure}


Détecter et estimer la position d'une main dans une séquence d'images est un problème difficile. Pour y parvenir, nous nous servons d'un modèle 3D (voir fig. [*] à gauche et [Reh95]), puis exécutons les étapes suivantes :

Ces forces sont de deux types : ICP (voir [Zha92,Zha94]) et démons de Maxwell (voir [Thi95,Thi96]). Les équations du mouvement sont calculées en O(N) par une technique développée dans [RS88].

Le fait que la main soit un objet articulé rend complexe son étude. C'est pourquoi nous supposons dans un premier temps que nous connaissons la position de la main dans les premières images de la séquence.

Utiliser la vision par ordinateur permet d'éviter à l'utilisateur de mettre un gant recouvert de capteurs de position, donc fragile. Cela permet aussi de travailler sur des séquences d'images prises à l'avance.

L'avantage de la stéréocorrélation est que deux images de la main de l'utilisateur fournissent des informations sur la profondeur des objets observés. On évite ainsi les erreurs dues à l'arrière-plan et aux occultations.

Les applications d'un tel système sont nombreuses : reconnaissance automatique et transcription en mots du langage des sourds-muets, interface homme-machine améliorée («souris» 3D), manipulation d'objets à distance, etc. On peut imaginer étendre ce système à d'autres objets connus (piétons, bras manipulateurs,...).

Modélisation de la structure géométrique et de la variation d'illumination d'une scène à partir d'images réelles



Participant : Zhengyou Zhang .


Ce travail a été motivé par deux domaines d'applications : reconnaissance d'objets et synthèse d'images. Les techniques actuelles de la reconnaissance d'objets sont très sensibles aux conditions d'illumination. Dans la synthèse d'images, pendant la création d'un environnement virtuel dynamique, la variation d'illumination doit être prise en compte car elle a un effet très important sur la personne naviguant dans cet environnement.

Nous avons développé un système qui construit automatiquement, à partir d'images réelles, un modèle de scène contenant à la fois l'information géométrique tridimensionnelle et l'information photométrique de la scène sous des conditions d'illumination diverses [64]. La structure géométrique est retrouvée à partir d'images prises de points de vue distincts. Des techniques de vision par ordinateur sont utilisées pour établir les correspondances de pixels entre les images et puis reconstruire la scène dans l'espace tridimensionnel. La propriété photométrique est extraite d'images prises sous des conditions d'illumination différentes (orientation, position et intensité des sources de lumière). Elle est obtenue en calculant un sous-espace linéaire de faible dimension du volume de spatio-illumination, et est en conséquence représentée par un ensemble d'images de base. Le modèle ainsi construit peut être utilisé de créer des rendus réalistes pour des points de vue et/ou conditions d'illumination différents, utile pour des applications comme réalité virtuelle ou publicité de produits sur l'Internet.

Synthèse d'images de visage à partir d'images non calibrées avec la connaissance du domaine



Participant : Zhengyou Zhang .


L'utilisation d'images non calibrées permet d'avoir beaucoup plus de flexibilité dans le modélisation de scènes/objets : les paramètres de caméras peuvent être changés accidentellement ou volontairement ; les images peuvent être prises par des caméras différentes, etc. Elle a trouvé beaucoup d'applications à la synthèse d'images. Or, à cause du manque d'informations métriques, il n'est pas facile de spécifier la position de l'image virtuelle que l'on veut dans l'espace projectif ou affine. Pour d'autres applications comme la réalité virtuelle, l'information métrique est nécessaire car un être humain est habitué à l'environnement euclidien. Dans [60], nous proposons d'utiliser la connaissance du domaine pour recouvrer une description quasi-euclidienne de la scène à partir d'images non calibrées.

La connaissance dont nous disposons est souvent celle d'une catégorie d'objets, qui n'est pas précise pour un objet particulier en considération. La variation est modélisée comme une variable gaussienne. Six types de connaissance comme les distances et les angles ont été utilisés. L'obtention de la structure euclidienne consiste alors à estimer la transformation projective/affine en minimisant une somme de distances de Mahalanobis. Une fois la description euclidienne obtenue, la tâche de spécifier la position souhaitable devient triviale. La technique proposée a été appliquée à la synthèse d'images de visage. Deux modèles génériques, un pour les hommes l'autre pour les femmes, ont été construits à travers l'analyse statistique de données 3D de 36 têtes féminines et de 31 têtes masculines. Un exemple est montré en figure [*] et en figure [*].


   Figure: Deux images réelles de visage d'une femme

\begin{figure} \centerline{ {\includegraphics[width=6.7cm]{Figures/F2006-0.ps}} \hspace{0.3cm}{\includegraphics[width=6.7cm]{Figures/F2006-L20.ps}}}\end{figure}



   Figure: Quelques images de synthèse. Chaque image est générée selon $(\theta, \phi)$$\theta$ est l'angle de rotation autour de l'axe horizontal et $\phi$, autour de l'axe verticale.

\begin{figure} \centerline{ {\includegraphics[width=4.4cm]{Figures/syn-x0-y-10... ...ace{0.2cm}{\includegraphics[width=4.4cm]{Figures/syn-x10-y10.ps}} }\end{figure}


Synthèse de changement de lumière



Participants : Robert Stahr , Olivier Faugeras .


Étant donné une image $I$ d'une personne et la connaissance de la direction $d_{\mbox{\scriptsize avant}}$ de la lumière dans la scène, nous souhaitons créer une image de la même personne pour laquelle la lumière vient d'une autre direction $d_{\mbox{\scriptsize apr{\`e}s}}$. Ceci est accompli en trois étapes en utilisant une base de données de photos d'un même visage sous différentes illuminations.


   Figure: Le visage sur lequel nous souhaitons changer l'éclairage. (a) La photo donnée. (b) Le résultat obtenu par la méthode. (c) Une photo réellement prise avec la direction de lumière cherchée

\begin{figure}\centering\subfigure[]{\includegraphics[width=.3\textwidth]{Figu... ...re[]{\includegraphics[width=.3\textwidth]{Figures/rstahr_zimad3.ps}}\end{figure}



   Figure: Photos du visage qui se trouve dans la base de données

\begin{figure}\centering\subfigure{\includegraphics[width=.3\textwidth]{Figure... ...igure{\includegraphics[width=.3\textwidth]{Figures/rstahr_jose2.ps}}\end{figure}


Les figures [*] et [*] montrent un exemple. Soit l'image de la figure [*](a) pour laquelle la lumière vient de la gauche. On souhaite obtenir cette même image avec une lumière venant d'en haut à gauche. On utilise donc les deux images de la figure [*] pour obtenir le résultat de la figure [*](b). Pour comparaison, nous avons mis une image du même visage avec l'éclairage en haut à gauche (figure [*](c)). Même si le résultat n'est pas parfait, on peut constater que l'effet obtenu est proche de celui souhaité.



previous up next contents Précédent : Logiciels Remonter : Projet ROBOTVIS, Robotique et Vision Suivant : Actions régionales, nationales et internationales