Précédent : Logiciels Remonter : Projet ROBOTVIS, Robotique et
Vision Suivant : Actions régionales, nationales et
internationales
Mots-clés : géométrie projective, géométrie affine,
géométrie euclidienne, étalonnage de caméras, stéréoscopie
multivue, polynôme, variété algébrique, ensemble caractéristique,
algèbre double, relation de Plücker
Participants : Diane Lingrand , Thierry Viéville .
Cette étude s'insère dans un programme de travail relatif à
l'analyse des propriétés géométriques et cinématiques des scènes,
des modèles de caméra et des mouvements au sein de séquences
monoculaires non calibrées, dans le but d'obtenir le plus
d'informations possibles sur l'auto-calibration, le mouvement et
la scène (objets géométriques, relations, structure 3D).
Cette année nous avons généralisé l'étude de l'an dernier, qui concernait quelques cas particuliers, à l'ensemble des cas pouvant nous intéresser et relatif aussi bien au modèle de projection qu'aux paramètres intrinsèques et extrinsèques, tout en prévoyant l'ajout de tout autre type de contrainte (structure de la scène, ...). Le nombre de cas particuliers pour ces modèles étant de l'ordre de 220, nous avons été amenés à établir un cadre de traitement automatique de génération et de traitement de chacun des cas. Cette étude a été validée sur une plate-forme expérimentale Argès, à l'aide de différents outils disponibles dans le projet (algorithmes de suivi de points, de minimisation, ...) ou à l'extérieur (Maple, Java et C). Nous avons ainsi pu établir que la précision est meilleure que celle obtenue avec les équations générales lorsque celles-ci sont solubles et que dans certains cas, nous obtenons des informations supplémentaires. Nous envisageons par la suite d'examiner nos cas plus «intelligemment» en exhibant les cas intéressants, c'est-à-dire ceux qui nous fournissent effectivement plus d'informations que le cas général, et d'établir un algorithme de reconstruction hiérarchique d'une scène.
L'intérêt immédiat de ce travail est de permettre de recueillir plus d'informations sur la caméra, la scène et les déplacements. On peut ensuite envisager de se placer volontairement et successivement dans des cas particuliers pour obtenir un maximum d'informations et une reconstruction «hiérarchique». Le robot effectue dans chaque cas un déplacement particulier pour déterminer le ou les paramètres souhaités. Un autre déplacement permet de reconstruire la scène.
Participants : François Gaspard , Thierry Viéville .
Contrairement aux premiers travaux sur l'analyse du mouvement dans le cadre de séquences d'images monoculaires non calibrées, nous ne pouvons plus supposer que les paramètres de calibration sont connus ni même interpolés. En effet, ils peuvent varier de manière complexe entre deux images, si bien que l'estimation des paramètres de calibration devient partie intégrante du problème. Ainsi l'estimation de ces paramètres devient délicate pour des systèmes visuels actifs, où la focale, la vergence et le zoom, sont utilisés, ce qui justifie ce sujet.
Nous avons développé une méthode permettant la calibration affine du système visuel dans le cas particulier du zoom ou dans un cas plus général d'une translation avec variation de la focale. Nous utilisons des appariements ainsi qu'une modélisation discrète pour le mouvement rigide. D'autre part, certains auteurs considèrent des informations a priori sur la scène telles que des lignes parallèles pour estimer la calibration affine, ce que nous intégrons aussi.
Nous profitons du fait que l'on observe très souvent des points à l'infini et que nous avons estimé un ensemble de collinéations (dont l'horizon) correspondant aux points coplanaires de la scène. En effet, nous pouvons, par une méthode d'estimation robuste et par tirage aléatoire, obtenir des ensembles de points coplanaires correspondant aux différents plans de la scène. Nous effectuons alors des reconstructions affines en utilisant des déplacements de type zoom. Nous proposons une méthode pour identifier la collinéation du plan à l'infini parmi toutes les structures planaires de la scène en utilisant des informations supplémentaires données par le sytème de vision.
Nous analysons également le cas de la reconstruction utilisant
un plan fronto-parallèle quelconque et présentons des résultats
sur les données synthétiques et des résultats préliminaires sur
des données réelles [47]
(figure ). Nous complétons actuellement ces
résultats pour obtenir des reconstructions à une transformation
affine près, à partir de zoom et de translations avec variation
des paramètres intrinsèques. De telles reconstructions peuvent
servir en particulier à la navigation visuelle de robots mobiles
ainsi que pour des tâches robotiques nécessitant la perception de
la position relative d'un point par rapport à un plan (situer un
objet par rapport à une table, ...).
Figure: Exemple de détection de
structures planaires, avec analyse d'un mouvement singulier lors
d'un suivi de points.
Participant : Zhengyou Zhang .
Nous avons étudié les trois critères d'optimisation les plus
connus utilisés dans l'analyse du mouvement entre deux
images [73,66]. Ils sont respectivement
basés sur les distances entre les points et leurs droites
épipolaires, les erreurs épipolaires pondérées par le gradient,
et les distances entre les points observés et les reprojections
des points 3D reconstruits. Le dernier critère a une meilleure
interprétation statistique, mais le calcul est beaucoup plus lent
que les deux premiers. Nous avons montré, théoriquement et
expérimentalement, que les deux derniers sont équivalents quand
les épipoles sont à l'infini, et qu'ils ne diffèrent que
légèrement, même si les épipoles sont dans l'image. Les deux
premiers critères sont équivalents seulement quand les épipoles
sont à l'infini et que l'objet observé a la même échelle dans les
deux images. Ceci suggère que le deuxième critère est suffisant
en pratique à cause de l'efficacité en calcul. Le résultat est
valide pour les images calibrées ou non.
Participant : Sylvain Bougnoux
Les travaux de cette année ont porté sur la construction d'un
modèle d'environnement à partir d'images de celui-ci. Les
techniques utilisées mettent en jeu des méthodes
d'auto-calibration où l'on essaye à la fois de retrouver les
paramètres de prise de vue des caméras et les informations
tridimensionnelles de la scène. Ces méthodes sont basées sur la
mise en correspondance dans les images des primitives visualisées
de la scène. Malheureusement, elles dépendent fortement du choix
de celles-ci ainsi que de la précision de leur visualisation. Ce
cahier des charges rendant très difficile l'utilisation de
méthodes automatiques pour la mise en correspondance, nous nous
sommes tournés vers des méthodes semi-automatiques enfin d'éviter
les fastidieuses méthodes manuelles. TOTALCALIB, un système
interfacé de calibration assistée par ordinateur a été développé
(voir section Logiciel et figure ), rendant possible de faire en
quelques dizaines de minutes ce qui restait jadis improbable
après de longues heures de mises en correspondance manuelles.
De plus, l'auto-calibration a pu être étendue au cas des paramètres intrinsèques variables s'affranchissant ainsi de ces anciennes contraintes, très restrictives en pratique. Cette dernière méthode fait l'objet d'un article qui sera présenté à ICCV 98 [41]. Néanmoins, nous avons aussi démontré que les mécanismes d'auto-calibration sont intrinsèquement instables, car de légères modifications de l'interprétation Euclidienne de la scène entraînent d'importantes modifications sur la calibration. C'est pourquoi, même si les modèles obtenus sont très proches du modèle réel, l'ajout d'informations Euclidiennes sur la scène paraît indispensable, et de nouveaux travaux sont nécessaires pour mieux comprendre les phénomènes impliqués.
Figure: Exemple de l'utilisation de
TotalCalib : les images utilisées (en haut) pour obtenir la
reconstruction euclidienne tridimensionnelle (en bas)
Participants : Olivier Faugeras , Théodore Papadopoulo
.
Le tenseur trifocal est un objet fondamental introduit par
[Sha94,Har94] qui décrit la géométrie
d'un système de 3 caméras d'un point de vue projectif :
c'est en quelque sorte une généralisation de la matrice
fondamentale (définie pour 2 caméras). Ce tenseur permet de
prédire simplement la position de la projection d'une primitive
(point ou droite) dans une image, uniquement à partir de la
connaissance des positions de ses projections dans les deux
autres. Un tel tenseur peut être facilement décrit par l'ensemble
de ses 27 coefficients. Cependant, il est prouvé que les systèmes
de 3 caméras ne possèdent que 18 degrés de liberté [29]. Les 27 coefficients
du tenseur ne sont donc pas libres et doivent donc satisfaire un
ensemble de contraintes.
Nous avons étudié les tenseurs trifocaux à l'aide du
formalisme des algèbres de Grassmann-Cayley, qui a permis de
donner une interprétation géométrique à bon nombre de leurs
propriétés. Par ailleurs, dans la continuité des travaux décrits
dans [FM95],
le catalogue des contraintes satisfaites par les coefficients du
tenseur a été enrichi et les dépendances algébriques entre
celles-ci ont été étudiées. Ceci a notamment permis une réduction
considérable de la complexité du système de contraintes qui
caractérise la variété algébrique des tenseurs
trifocaux.
D'un point de vue pratique, ces études ont permis la
programmation d'une méthode permettant l'estimation d'un tenseur
trifocal respectant les contraintes algébriques décrites
ci-dessus à partir d'un ensemble d'appariements de primitives sur
les 3 images. Cette approche suit une méthodologie similaire à
celle employée dans le cas de la matrice fondamentale : à
partir d'une première estimée ne respectant pas les contraintes
(fournie par exemple par une méthode linéaire), on se projette
sur la variété , puis à l'aide d'une paramétrisation
de celle-ci, on se déplace sur
pour minimiser
au mieux un critère d'erreur prenant en compte de manière
symétrique sur les 3 images la distance entre les primitives
prédites et observées. Cette technique produit des estimées du
tenseur trifocal qui non seulement sont plus exactes d'un point
de vue mathématique mais aussi qui réduisent (parfois de manière
spectaculaire) les erreurs résiduelles moyennes et maximales
entre primitives prédites et observées.
Pour plus de détails, on pourra se reporter aux publications [69,68,46].
Participants : Didier Bondyfalat , Olivier Faugeras ,
Bernard Mourrain (Projet Safir) , Théodore Papadopoulo .
Ce travail est effectué en commun avec Bernard Mourrain du projet
Safir qui dirige la thèse de Didier Bondyfalat.
L'aspect vérification d'un théorème est un sujet qui a déjà
fait l'objet de recherche. Wu Wen-Tsün, en 1978, établit, à
partir des ensembles caractéristiques, un algorithme permettant
de décider si une propriété est conséquence d'un ensemble
d'hypothèses. Cette méthode s'appuie sur les correspondances
entre propriétés géométriques et polynômes de coordonnées et
entre théorèmes et polynômes s'annulant sur une variété
algébrique. Les difficultés liées au choix du repère et à
l'extraction des conditions de non-dégénérescence du théorème ont
conduit à la recherche de techniques n'utilisant pas de système
de coordonnées. Privilégiant les aspects intrinsèques de la
géométrie, invariants, algèbre double et algèbre de déterminants,
ces méthodes ont l'avantage de présenter des preuves plus simples
et plus rapides. Par contre, elles nécessitent des connaissances
sur la construction de la figure ou sont sensibles aux
différentes façons de donner les hypothèses. Dans tous les cas,
elles semblent avoir des difficultés avec la géométrie
euclidienne et souffrent d'un manque d'expérience dans la
géométrie de l'espace.
Nous sommes en train d'élaborer une <<nouvelle>> technique, qui regroupe l'approche ensemble caractéristique et l'approche géométrique. Nous nous plaçons dans les algèbres de déterminants modulo les relations de Plücker, en exploitant la correspondance (non bijective) entre polynômes de déterminants et propriétés géométriques.
Cette voie n'est certainement pas inexplorée, mais ne possède pas de références. L'idée est de construire toutes les propriétés d'une figure à partir d'un ensemble d'hypothèses. Pour la géométrie du plan, nous avons élaboré une technique. Elle est fondée sur la pseudo-réduction, par un ensemble caractéristique d'hypothèses, de polynômes de déterminants génériques et homogènes par rapport aux points. Le nombre de composantes génériques homogènes est en croissance polynômiale par rapport au nombre de points de la figure, d'où un temps de calcul élevé. Par contre l'indépendance de ces composantes permet facilement une parallélisation du calcul. La généralisation de cet algorithme à la géométrie de l'espace est rendue difficile par l'interprétation des polynômes de déterminants en terme de propriétés géométriques.
Participants : Quentin Delamarre , Rachid Deriche ,
Olivier Faugeras , Cyrille Gauclin , Renaud Keriven , Pierre
Kornprobst , Laurence Lucido , Luc Robert , Imad Zoghlami
Mots-clés : stéréoscopie, équation aux dérivées
partielles, méthode de niveaux, théorie des invariants, espace
étale, théorie des noeuds, morphologie mathématique
Participants : Renaud Keriven , José Gomes , Olivier
Faugeras
Nous avons poursuivi l'effort commencé l'année dernière sur la
formalisation de la stéréoscopie pour un nombre arbitraire de
caméras par une méthode variationnelle.
L'idée est de représenter les objets de la scène comme les
passages par zéro d'une fonction supposée
. Les coordonnées
des points de la scène situés à la surface des objets
sont donc définies par l'équation
.
On considère ensuite une famille de surfaces régulières
où
paramétrisent la surface et
représente le temps. Les
objets de la scène correspondent à une surface
et notre but est, étant donné une surface initiale
,d'établir une équation différentielle
dans laquelle est un vecteur unitaire normal à la
surface. L'espoir est que, en résolvant cette équation à partir
de conditions initiales
, on obtiendra une solution approximant
. La fonction
est déterminée par la
fonctionnelle qui décrit les appariements stéréoscopiques.
Un point intéressant de cette approche est que l'on peut
résoudre l'équation () par la méthode des niveaux
[Set96b] ce qui a
l'avantage de pouvoir traiter automatiquement le cas de plusieurs
objets. En détail, les surfaces
sont à chaque
instant les passages par zéro d'une fonction
:
La fonctionnelle que l'on cherche à minimiser est inspirée des
techniques classiques de stéréoscopie binoculaire. On se donne
images
d'une même scène, dans
lesquelles le pixel
est l'image d'un point 3D
situé
sur la surface
. Pour chaque point
, on considère ses
images
et on peut calculer les scores de
corrélation
qui dépendent de
, de la
normale
à la surface et, à travers eux, des
paramètres
. Le score de corrélation étant compris
entre
et 1, on considère
et on
définit le critère :
L'intégration se fait par rapport à l'élément d'aire de la surface
.Ceci présente
les avantages de,
Notons que cette approche permet de prendre en compte la visibilité des points.
Nous avons montré dans [FK96][5,25] que la vitesse
dans (
) s'exprimait de manière
intrinsèque en fonction de la géométrie de la surface
et en
fonction des dérivées première et seconde de la fonctionnelle
par rapport à ses deux premiers arguments :
Dans cette équation, toutes les quantités sont évaluées au point
de normale
de la surface.
est le plan tangent,
est la différentielle de
l'application de Gauss,
est sa courbure moyenne.
et
sont les dérivées du
second ordre de
,
et
leurs restrictions au plan tangent
.
L'équation d'évolution correspondante pour
s'écrit :
A chaque point , le plan tangent
est celui de
la surface de niveau
passant par ce point.
L'opérateur
calcule les dérivées par rapport aux
variables d'espace
,
calcule les
dérivées par rapport aux composantes de la normale.
L'année dernière, nous disposions d'une implémentation
bidimensionnelle de l'équation (). L'implémentation de la version
tridimensionnelle pose des problèmes délicats et nous n'en avons
encore réalisé qu'une partie, en négligeant notamment tous les
termes du deuxième ordre. Malgré cette approximation, les
résultats obtenus sont très encourageants. Nous en présentons
deux.
Le premier exemple est synthétique et est destiné à montrer
comment la méthode des niveaux peut effectivement traiter de
manière automatique des changements de topologie non triviaux. La
figure montre quelques images de deux
tores, la figure
montre la surface
initiale (une sphère) sur laquelle sont reprojetées les images et
divers stades de son évolution jusqu'à la convergence.
Figure: Quelques images de deux tores.
Figure: Quelques étapes de l'évolution de la surface
.
Le second exemple a été obtenu à partir d'images réelles de deux visages de manequins. La présentation des résultats est la même que dans le cas des tores.
Figure: Quelques images de deux
visages.
Figure: Quelques étapes de l'évolution de la surface
.
Participants : Nikos Paragios , Rachid Deriche
Dans le cadre d'une thèse financée au travers du réseau TMR
VIRGO
(http://www.ics.forth.gr/virgo/ ), nous avons
développé une nouvelle méthode de résolution du problème de la
détection et du suivi d'objets en mouvement dans une séquence
monoculaire d'images. Une approche variationnelle permettant de
reformuler le problème de la détection et du suivi comme un
problème de propagation de front est à la base de cette nouvelle
méthode. Une énergie à minimiser est associée au principe
variationnel que doivent respecter les contours des objets en
mouvement. Suivant les travaux de Caselles et al [CKS95] et de
Malladi et al [MSV95,MSV93], l'équation
d'Euler-Lagrange, déduite de la minimisation de cette énergie,
est alors utilisée afin de déformer les contours initiaux,
considérés comme des contours actifs géodésiques qui vont se
déplacer vers les objets en mouvement. La résolution de l'EDP par
la méthode des courbes de niveau [Set96b], permet ensuite de
mettre en oeuvre de manière efficace le processus d'évolution des
contours tout en gérant automatiquement d'éventuels problèmes de
changement de topologie durant la déformation. Cela permet de
traiter correctement les configurations singulières de type
fusion d'objets multiples et/ou scission d'objets en plusieurs
parties, qui peuvent apparaître au cours du suivi. Afin de
réduire la complexité d'une mise en oeuvre directe, une nouvelle
méthode exploitant les aspects les plus positifs des approches
rapides connues sous le nom de Narrow Band [AS95] et Fast
Marching [Set96a]
a été proposée, mise en oeuvre et comparée favorablement à ces
deux techniques. Une approche multiéchelle a aussi été
considérée. Plusieurs résultats expérimentaux, obtenus à partir
de séquences d'images réelles, illustrent les très bonnes
performances obtenues par cette nouvelle méthode dont les
différentes parties sont développées dans [72,56,54,55]. Il est à noter
qu'une plateforme logicielle, à base d'Ilog Views, a été réalisé
afin d'intégrer toutes ces parties, et permettre l'interactivité
nécessaire dans le cadre de telles applications (voir
figure )
Figure: Détection et suivi d'objets en
mouvement par contours actifs géodésiques.
Figure: L'interface pour la détection et
le suivi d'objets en mouvement
Participants : Pierre Kornprobst , Rachid Deriche , Gilles
Aubert
Dans le cadre du projet Européen LTR 23.515
Improofs
(http://www.esat.kuleuven.ac.be/konijn/improofs.html
) dont une des trois tâches de recherche est dédiée aux méthodes
à base d'EDP non-linéaires pour la restauration d'images et de
séquences d'images, nous avons axé nos efforts sur les parties
suivantes, dont certaines ont commencé à être intégrées au sein
d'une plateforme logicielle sous Target Jr à des fins de
tests pour l'utilisation future par nos partenaires utilisateurs
finaux.
où ,
, et
où
et
sont des coefficents
dépendant de la méthode considérée. L'intérêt majeur d'un tel
formalisme réside dans la possibilité qu'il offre de
caractériser et d'interpréter les propriétés de chaque
méthode. Ceci nous a permis de distinguer plusieurs classes
d'opérateurs, et de les comparer qualitativement et
quantitativement sur diverses images synthétiques et réelles.
On trouvera dans les articles [49,50] le
développement et les résultats expérimentaux liés à cette
partie.
où indique l'opération de convolution
par un opérateur Gaussien et
si
, 0 sinon. Parmi les différents termes
que comprend l'EDP proposée, on peut noter le terme de
couplage aux données qui assure la convergence de
l'algorithme, un terme local de réaction pour le
rehaussement, ainsi qu'un terme de diffusion anisotropique,
bien adapté au problème considéré [48,50]
Un exemple de restauration sur une image réelle est donné
figure .
Figure: Gauche: image initiale
Milieu: image restorée Droite fonction
Participants : Laurence Lucido , Rachid Deriche , Zhengyou
Zhang
Ces travaux, qui concernent le problème de la mise en
correspondance de cartes multiéchelle pour la navigation autonome
des engins sous-marins, sont effectués dans le cadre d'une
collaboration avec le Laboratoire de Robotique et d'Intelligence
Artificielle (DITI - SM - RIA) d'IFREMER (Centre de Toulon).
Dans le scénario envisagé, on dispose d'un Modèle Numérique de Terrain de référence, couvrant la zone de mission ; le véhicule est équipé d'un sonar bathymétrique et sa position est estimée par mise en correspondance de la carte locale acquise à bord de l'engin dans le MNT de référence. La seule donnée cartographique du terrain permet de résoudre le problème de la localisation de l'engin dans son environnement : nous parlons de navigation référencée terrain.
Les grandes lignes de ce travail et les contributions associées sont :
Nous avons expérimenté le système en utilisant le Modèle Numérique de Terrain réel du Canyon du Var. Les cartes locales sont issues d'un simulateur de sonar bathymétrique. Les exemples proposés permettent de valider le système complet de navigation référencée terrain, exploitant uniquement la donnée cartographique. Pour plus d'information, on trouvera dans les références [52,70,71], les détails sur les différentes parties de ce travail.
Participant : Alfons Salden
Nous avons poursuivi une étude qui a déjà fait l'objet d'une
thèse soutenue en novembre 1996 [Sal96] à l'université d'Utrecht aux
Pays-Bas. L'idée de cette thèse et le contenu de notre travail
cette année consistent à fournir des méthodes théoriques de
traitement et d'analyse d'images qui produisent des descriptions
d'images reproductibles et stables. Cela signifie que les
traitements, les analyses et par conséquent les résultats obtenus
sont invariants ou peu influencés par certains groupes de
transformations. Ces groupes de transformations concernent des
groupes classiques comme le groupe Euclidien, le groupe affine
(modulaire), le groupe projectif et des combinaisons des groupes
galiléen ou lorentzien, mais aussi des groupes de
(difféo)morphismes qui incluent des anamorphoses (transformations
de contraste), des transformations de jauge et des
transformations dues aux bruits. Ainsi le type d'image importe
peu ; si l'image est stationnaire, spatio-temporelle, monoculaire
ou binoculaire, cela se manifeste seulement dans un certain choix
de géométrie sur l'image. Les traitements et analyses adaptés à
ce choix ont pour but un lissage (ou mieux une redistribution) et
quantification des images ou leur formation à plusieurs échelles
en termes de géométrie et de topologie. Les méthodes
mathématiques et physiques utilisées pour dériver ces traitements
et analyses sont la théorie des invariants, la géométrie, la
théorie des défauts, la théorie des champs de jauge, la théorie
des noeuds.
Ainsi, les images qui sont des transformations Euclidiennes d'elles-mêmes peuvent être complètement décrites par un ensemble d'invariants irréductibles locaux et multilocaux d'un espace échelle Euclidien [Sal98]. Il est facile d'étendre cette analyse à d'autres géométries.
L'autre technique d'analyse mathématique que nous avons appliquée est la géométrie. Géométrie différentielle et géométrie intégrale permettent de retrouver et de quantifier des courants géométriques et topologiques pour la construction d'images [StHRV95,StHRV96a][58,57]. Ces règles peuvent être formulées en termes d'équivalences locales et globales des CW-complexes, c'est-à-dire d'objets physiques qui séparent des parties d'images caractérisées par différents morphismes.
Ces équivalences sont alors utilisées pour construire une fonction de partition statistique. La géométrie, et par conséquent ces équivalences, définissent de nouveaux traitements non-linéaires et multiéchelles des images ou leur formation [StHRV95,Sal96], [74]. Les traitements dans ces cas sont basés sur certaines conditions d'invariance et des principes d'échange de quanta géométriques et topologiques. Par rapport à ces équivalences il est intéressant de conserver des invariants géométriques et topologiques qui sont liés, par exemple, à des noeuds [StHRV96b]. Nous avons prouvé que notre paradigme d'espace échelle peut aussi généraliser des espaces échelle morphologiques particulièrement dans le cas où l'on exige l'invariance par des groupes de difféomorphismes [74].
Mots-clés : mosaïques, chromaKey, mouvement de la main,
synthèse de vues, stéréoscopie multivue
Participants : Cyrille Gauclin , Luc Robert , Rachid
Deriche .
Les méthodes de
corrélation classiques procèdent généralement en déplaçant une
fenêtre rectangulaire dans une image et en cherchant la position
la plus probable de cette fenêtre dans une deuxième image par
comparaison des intensités des pixels. La fonction de comparaison
est généralement une SSD (Sum of Squared Differences) ou une
corrélation croisée (CC). L'ensemble des déplacements (variation
d'abscisse dans le cas d'images rectifiées) ainsi obtenu forme
alors la carte de disparité de la paire stéréo étudiée. Des
améliorations ont été apportées à la formulation classique
utilisant, par exemple, non plus une seule mais plusieurs
fenêtres de corrélation de tailles variables, ou alors en
combinant l'information apportée par plusieurs images à la place
d'une seule paire. Nous proposons une nouvelle formulation qui,
fondée sur la linéarité du critère de corrélation, intègre de
manière efficace les notions précédentes, à savoir, la taille
variable des fenêtres, le nombre variable des images mais aussi
l'utilisation de critères de corrélation pondérés. Notre méthode
consiste en l'utilisation de filtres à réponse impulsionnelle
continue, comme les filtres gaussiens ou exponentiels, dont une
implémentation récursive rend les calculs plus efficaces. La
figure montre un exemple réalisé à partir
d'images réelles. On peut constater l'amélioration apportée par
la corrélation utilisant le filtrage en remarquant la disparition
de nombreuses «zones blanches» correspondant aux pixels non
appariés.
Figure: En haut, deux images réelles rectifiées. En bas et
de gauche à droite, les cartes de disparité obtenues (a) par
corrélation classique, (b) à l'aide d'un filtre de Deriche de
largeur (c) à l'aide de deux filtres de
Deriche de largeurs
et
Participants : Pierre Kornprobst , Rachid Deriche , Gilles
Aubert .
Étant donné une séquence d'images , on considère
le problème de l'estimation du flot optique
, comme
la minimisation de la fonctionnelle suivante :
où est une fonction à croissance linéaire permettant
de retrouver un flot optique discontinu et
une fonction
dans
, qui est petite dans les régions texturées
(
grand). L'espace adéquat pour minimiser une telle
fonctionnelle est l'espace des fonctions à variations bornées
(noté
) qui permet de retrouver des fonctions
discontinues. Une étude mathématique du problème de l'estimation
du flot optique dans l'espace
a été
entreprise en collaboration avec Gilles Aubert, professeur à
l'université de Nice. Nous avons montré que la fonctionnelle a
minimiser n'est pas semi continue inférieurement pour la
topologie faible de
, ce qui nous a conduit à
considérer le problème régularisé (relaxé) pour lequel
l'existence a été démontrée. D'autre part, nous avons proposé un
algorithme de minimisation basé sur le principe de minimisation
semi-quadratique. Sa convergence vers la solution de notre
problème a été démontrée sous l'hypothèse d'une donnée plus
régulière et en utilisant des résultats de
-convergence.
Ce travail a été soumis au journal SIAM.
Participant : Zhengyou Zhang .
Classiquement, la géométrie de caméras multiples a été formulée
séparément pour le modèle de projection perspective et pour celui
de projection affine. Dans le cas «perspective», il est supposé
que la première sous-matrice est
inversible, donc la formule n'est pas applicable au cas «affine».
Dans le cas «affine» (y compris projection orthographique et
perspective-faible), comme c'est une approximation linéaire du
modèle de projection perspective, la formule n'est pas applicable
au cas «perspective». Nous avons reformulé la géométrie de
caméras multiples en utilisant la pseudo-inverse de la matrice de
projection. Le résultat est que nous avons une expression qui est
valide pour les deux modèles de projection perspective et affine.
Ceci a été fait pour deux caméras dans [62], puis étendu au cas de
caméras multiples dans [34]. De plus, la
reconstruction affine peut se faire exactement comme la
reconstruction projective dans une base canonique ; il suffit
ensuite d'appliquer une transformation projective spéciale pour
obtenir la structure affine.
Participants : Imad Zoghlami , Olivier Faugeras , Rachid
Deriche .
Si nous observons une scène statique avec une caméra en rotation pure autour de son centre optique, nous obtenons des images qui sont deux à deux en correspondance homographique. Cette propriété est aussi valable lorsqu'on observe une surface plane depuis plusieurs points de vue.
Le problème principal de la construction d'une mosaïque est le calcul des homographies entre les images. Deux cas sont à distinguer. Le premier correspond au cas où la transformation entre les images est principalement une translation (i.e. la rotation autour de l'axe optique et le zoom sont très faibles). Le second cas est le cas général (quand la rotation autour de l'axe optique et le zoom sont quelconques). Plusieurs méthodes existent pour résoudre le premier cas, mais très peu de méthodes existent pour résoudre le cas général, et celles qui existent sont très limitées (elles exigent un recouvrement très élevé (de l'ordre de 80%), une rotation faible (de l'ordre de 30 degrés) autour du centre optique, et un zoom très faible, avec des temps de calcul de plusieurs minutes voire plusieurs dizaines de minutes). Nous avons développé une méthode basée sur les modèles de coins, totalement automatique et avec des temps de calcul de quelques secondes pour des rotations quelconques et des zooms de facteur deux et des recouvrements faibles (jusqu'a 20%) [67].
La figure montre un exemple où la deuxième
image est à l'envers (i.e. rotation de 180 degrés) et la mosaïque
des deux images.
Figure: (En haut) A gauche une image
d'une scène réelle, à droite une image de la même scène avec une
rotation de 180 degrés et un recouvrement de 50 %, (En bas) La
mosaïque obtenue.
Participants : Imad Zoghlami , Rachid Deriche .
Ce travail est
effectué dans le cadre du projet Européen HPCN Epsis. La
méthode de chromaKey consiste à mettre un fond bleu derrière des
objets en premier plan pour pouvoir extraire ces objets et
insérer un arrière plan quelconque. Cette méthode est très
utilisée dans le monde de l'audiovisuel (i.e. météo, studios
virtuels, et trucage cinéma). L'extraction du premier plan avec
cette méthode est très efficace sur un fond bleu uniforme ou même
un fond avec plusieurs bleus. Dans ce cas, il n'est par contre
pas possible d'extraire l'ombre de l'objet qui se trouve en
premier plan. Comme il est très difficile pour l'acteur de jouer
dans une scène uniformément bleue, par manque de repères, la
plupart des studios sont fait de plusieurs bleus. Mais la perte
des ombres diminue le réalisme des scènes truquées. Nous avons
développé une méthode basée sur le chromaKey et les distributions
gaussiennes pour extraire l'ombre d'un objet en premier plan sur
un fond avec plusieurs bleus.
La figure montre un exemple avec une main
devant deux bleus (un clair et l'autre sombre).
Figure: (En haut) l'image originale, (En
bas) L'image avec un autre fond
Participants : Cyril De Murcia , Michael Niemaz , Thierry
Viéville .
Le but de ce travail est de développer et mettre en oeuvre une
plate-forme robotique de démonstration de suivi de cibles. Cette
plate-forme robotique, nommée «Argès», est dotée d'un capteur
visuel actif qui possède des degrés de liberté minimaux pour
effectuer de la vision 3D.
Concrètement, il s'agit d'implémenter une application permettant la détection et le suivi d'objets en mouvement sur une durée indéterminée, avec caractérisation de données géométriques, telles que la taille, la distance, la profondeur, etc., ou cinématique telle que la vitesse des cibles poursuivies. Des options telles que la sélection de cibles à poursuivre, la sauvegarde de séquences d'images, la calibration automatique du robot, ou le passage en commande manuelle sont à envisager.
L'objectif est donc de réaliser un système à contraintes temps
réel capable non seulement de réagir aux événements extérieurs et
de les interpréter de manière intelligente (figure ), mais aussi de s'adapter à la
dynamique de l'objet traqué en jouant notamment sur la fréquence
d'acquisition des images. Pour satisfaire cet objectif, la
priorité est donnée à l'implémentation temps-réel de nos
algorithmes de vision, tels que le lissage ou le seuillage. Notre
contribution consiste à en proposer une utilisation fonctionnelle
et optimale.
Une interface graphique met à disposition de tout utilisateur les fonctions opérationnelles de cette application. Ce travail n'est pas anodin, car il montre que les systèmes de vision actuels doivent être interactifs et non simplement des boîtes noires à entrée-sortie.
Ce travail a donc permis de développer une application mettant
en oeuvre un système de vision active (figure ) capable de surveiller de manière
autonome un lieu (une pièce ...) pendant une durée indéterminée.
Cette surveillance a pour objectif de saisir et analyser les
différents événements survenus durant l'expérience et de
construire des séquences vidéos minimales de ceux-ci [53].
Figure: Détection et suivi de cibles
complexes en temps-réel en vue de leur analyse 3D.
Figure: Exemple de suivi de cibles en 3D
avec localisation sur le plan du sol du sujet.
Participants : Soraya Arias , Ève Coste-Manière , Gérard
Giraudon , Thierry Viéville .
Fruit d'une collaboration inter-projets, cette étude vise à
mettre en place une méthodologie de programmation des systèmes de
vision permettant d'associer un contrôle aux algorithmes de
traitement utilisés.
L'expérience actuelle acquise à travers différentes applications (l'interprétation en imagerie aérienne, la robotique mobile ou la reconnaissance d'objets sur séquence d'images), permet de faire une analyse générique plus pertinente quant aux contraintes qu'un système de vision doit respecter pour être valide.
Plus précisément, deux entités principales sont proposées afin de spécifier de manière hiérarchique et structurée un système de vision :
(1) L'action de vision élémentaire qui constitue la brique de base de notre méthodologie. Elle se caractérise par un traitement sur une structure de données et par un comportement logique associé à ce traitement. Ce comportement est rythmé par les évènements qui indiquent la satisfaction de conditions de démarrage, de fin ou de dysfonctionnement du traitement algorithmique associé.
(2) L'ensemble ordonné des actions élémentaires qui se caractérise par leur enchaînement logique afin d'aboutir à la spécification complète d'un système de vision.
Ces problèmes inhérents à la formalisation des actions de vision sont analysés et illustrés à travers une application effective de suivi de mouvements. Cette analyse nous permet de proposer et justifier une définition formelle des actions de vision et une méthodologie pour leur programmation [39].
Participants : Quentin Delamarre , Olivier Faugeras .
Figure: A gauche: modèle 3D articulé
d'une main. A droite: un modèle 3D d'un doigt attiré vers une
reconstruction 3D simulée du même doigt.
Figure: Paire d'images vidéo founie par
notre caméra à miroirs
Figure: Superposition du modèle 3D d'un
doigt avec la carte de profondeur obtenue par notre algorithme de
stéréocorrélation sur la paire d'images. Le modèle 3D a convergé
vers une position très proche de la position réelle du doigt de
l'utilisateur (voir fig. ).
Détecter et estimer la position d'une main dans une séquence
d'images est un problème difficile. Pour y parvenir, nous nous
servons d'un modèle 3D (voir fig. à gauche et [Reh95]), puis exécutons les étapes
suivantes :
Ces forces sont de deux types : ICP (voir [Zha92,Zha94]) et démons de Maxwell (voir [Thi95,Thi96]). Les équations du mouvement sont calculées en O(N) par une technique développée dans [RS88].
Le fait que la main soit un objet articulé rend complexe son étude. C'est pourquoi nous supposons dans un premier temps que nous connaissons la position de la main dans les premières images de la séquence.
Utiliser la vision par ordinateur permet d'éviter à l'utilisateur de mettre un gant recouvert de capteurs de position, donc fragile. Cela permet aussi de travailler sur des séquences d'images prises à l'avance.
L'avantage de la stéréocorrélation est que deux images de la main de l'utilisateur fournissent des informations sur la profondeur des objets observés. On évite ainsi les erreurs dues à l'arrière-plan et aux occultations.
Les applications d'un tel système sont nombreuses : reconnaissance automatique et transcription en mots du langage des sourds-muets, interface homme-machine améliorée («souris» 3D), manipulation d'objets à distance, etc. On peut imaginer étendre ce système à d'autres objets connus (piétons, bras manipulateurs,...).
Participant : Zhengyou Zhang .
Ce travail a été motivé par deux domaines d'applications :
reconnaissance d'objets et synthèse d'images. Les techniques
actuelles de la reconnaissance d'objets sont très sensibles aux
conditions d'illumination. Dans la synthèse d'images, pendant la
création d'un environnement virtuel dynamique, la variation
d'illumination doit être prise en compte car elle a un effet très
important sur la personne naviguant dans cet environnement.
Nous avons développé un système qui construit automatiquement, à partir d'images réelles, un modèle de scène contenant à la fois l'information géométrique tridimensionnelle et l'information photométrique de la scène sous des conditions d'illumination diverses [64]. La structure géométrique est retrouvée à partir d'images prises de points de vue distincts. Des techniques de vision par ordinateur sont utilisées pour établir les correspondances de pixels entre les images et puis reconstruire la scène dans l'espace tridimensionnel. La propriété photométrique est extraite d'images prises sous des conditions d'illumination différentes (orientation, position et intensité des sources de lumière). Elle est obtenue en calculant un sous-espace linéaire de faible dimension du volume de spatio-illumination, et est en conséquence représentée par un ensemble d'images de base. Le modèle ainsi construit peut être utilisé de créer des rendus réalistes pour des points de vue et/ou conditions d'illumination différents, utile pour des applications comme réalité virtuelle ou publicité de produits sur l'Internet.
Participant : Zhengyou Zhang .
L'utilisation d'images non calibrées permet d'avoir beaucoup plus
de flexibilité dans le modélisation de scènes/objets : les
paramètres de caméras peuvent être changés accidentellement ou
volontairement ; les images peuvent être prises par des
caméras différentes, etc. Elle a trouvé beaucoup d'applications à
la synthèse d'images. Or, à cause du manque d'informations
métriques, il n'est pas facile de spécifier la position de
l'image virtuelle que l'on veut dans l'espace projectif ou
affine. Pour d'autres applications comme la réalité virtuelle,
l'information métrique est nécessaire car un être humain est
habitué à l'environnement euclidien. Dans [60], nous proposons
d'utiliser la connaissance du domaine pour recouvrer une
description quasi-euclidienne de la scène à partir d'images non
calibrées.
La connaissance dont nous disposons est souvent celle d'une
catégorie d'objets, qui n'est pas précise pour un objet
particulier en considération. La variation est modélisée comme
une variable gaussienne. Six types de connaissance comme les
distances et les angles ont été utilisés. L'obtention de la
structure euclidienne consiste alors à estimer la transformation
projective/affine en minimisant une somme de distances de
Mahalanobis. Une fois la description euclidienne obtenue, la
tâche de spécifier la position souhaitable devient triviale. La
technique proposée a été appliquée à la synthèse d'images de
visage. Deux modèles génériques, un pour les hommes l'autre pour
les femmes, ont été construits à travers l'analyse statistique de
données 3D de 36 têtes féminines et de 31 têtes masculines. Un
exemple est montré en figure et en figure
.
Figure: Deux images réelles de visage
d'une femme
Figure: Quelques images de synthèse.
Chaque image est générée selon où
est l'angle de rotation autour de l'axe horizontal et
, autour de l'axe verticale.
Participants : Robert Stahr , Olivier Faugeras .
Étant donné une image d'une personne et la connaissance de la
direction
de la lumière dans la scène, nous souhaitons créer une
image de la même personne pour laquelle la lumière vient d'une
autre direction
. Ceci est accompli en trois étapes en utilisant
une base de données de photos d'un même visage sous différentes
illuminations.
Figure: Le visage sur lequel nous
souhaitons changer l'éclairage. (a) La photo donnée. (b) Le
résultat obtenu par la méthode. (c) Une photo réellement prise
avec la direction de lumière cherchée
Figure: Photos du visage qui se trouve
dans la base de données
Les figures
et
montrent un exemple. Soit l'image de la figure
(a) pour laquelle la lumière vient de la gauche. On
souhaite obtenir cette même image avec une lumière venant d'en
haut à gauche. On utilise donc les deux images de la figure
pour obtenir le résultat de la figure
(b). Pour comparaison, nous avons mis une image du
même visage avec l'éclairage en haut à gauche (figure
(c)). Même si le résultat n'est pas parfait, on peut
constater que l'effet obtenu est proche de celui souhaité.