Précédent : Grands domaines d'application
Remonter : Projet MOVI, Modélisation pour la
Suivant : Actions industrielles
Participants : Roger Mohr , Long Quan , Peter Sturm ,
William Triggs
Mots-clés : géométrie, étalonnage, reconstruction
3D, vision 3D, séquence d'images
Résumé : Nous avons été présents depuis plus de cinq ans dans les études sur l'utilisation de la géométrie projective pour la vision tridimensionnelle. L'avantage essentiel de cette approche est de permettre de s'affranchir de l'étalonnage des systèmes de vision, offrant ainsi un cadre de calcul rigoureux et exact lorsque les paramètres des systèmes de vision ne sont que partiellement connus.
Le projet Esprit LTR 21914 LTR CUMULI (Computational Understanding of Multiple Images) fixe nos orientations dans le domaine (voir
).
Nous avons développé un nouvel algorithme linéaire pour la reconstruction affine à partir des correspondances de segments de droites observés dans 3 images avec une caméra affine [7]. Cet algorithme a besoin d'au moins 7 correspondances de droites dans 3 images, et ces données sont minimales. L'élégance de la solution tient dans l'introduction d'une caméra projective de dimension un. Cela permet de convertir une reconstruction affine des << droites >> en une reconstruction projective des << points >> dans une dimension inférieure. Nous avons aussi démontré que la reconstruction affine des droites est ambiguë à deux solutions près [31,32]. Les résultats expérimentaux sur des images réelles ont validé la robustesse et la précision de l'algorithme.
L'auto-étalonnage d'une caméra en mouvement consiste à déterminer les paramètres intrinsèques de la caméra en n'utilisant que les correspondances des primitives à travers les images. C'est une tâche délicate. Une raison majeure des mauvais résultats généralement obtenus est le fait que beaucoup de mouvements typiques de caméras sont singuliers pour cet auto-étalonnage.
Nous avons continué à étudier ce problème en fournissant de nouveaux résultats pour les différents modèles de caméra utilisés pour l'auto-étalonnage. La caractérisation algébrique et géométrique des mouvements singuliers pour le cas du modèle de caméra avec focale variable, le cas avec le rapport d'aspect constant, le cas de caméras affines et le cas de caméras linéaires.
Ce thème théorique, abordé depuis 1995, a déjà mené à des résultats pratiques et importants, en particulier à la reconstruction projective par factorisation [10] et par « clôture ». Cette année, nous avons raffiné la méthode par « clôture », mais le travail le plus significatif est une consolidation de l'approche tensorielle pour les points et les droites, et sa généralisation vers les courbes quadriques. Le résultat le plus important est une reformulation du problème d'auto-étalonnage d'une caméra se déplaçant avec un mouvement inconnu dans une scène inconnue, qui a menée à une méthode numérique d'auto-étalonnage plus stable et plus applicable que les autres méthodes connues de la littérature [39].
Cette année a débuté une étude des méthodes de calcul numérique pour la vision, car l'utilisation de méthodes numériques mal adaptées est une source importante des problèmes (instabilités, biais, faux minima, temps de calcul importants...). Un premier travail dans ce cadre est une nouvelle méthode d'ajustement sous contraintes géométriques, qui peut être utilisé pour l'estimation des modèles 2D ou 3D (courbes, surfaces...), mais aussi pour l'estimation des contraintes d'appariement (matrice fondamentale, tenseur trifocal...) dont les paramètres à estimer sont eux-mêmes contraints. Les avantages principaux de cette méthode sont sa convergence rapide, le fait qu'elle peut gérer des contraintes très complexes, et le fait qu'elle ne donne pas seulement une estimation des paramètres de la courbe, surface, etc., mais aussi des points sous-jacents « de-bruités » qui vérifient exactement ces contraintes. Par exemple, elle fournit des algorithmes nettement plus efficaces que les méthodes existantes pour l'estimation des matrices fondamentales et des tenseurs trifocaux.
Nous avons mis au point un nouvel algorithme de pose à partir de correspondances 2-D/3-D de droites [22]. Cet algorithme calcule une pose affine qu'il modifie d'une façon itérative pour converger vers une pose perspective. Le nombre minimal de droites requises par la méthode est de 4 dans le cas général et de 3 lorsque les droites se trouvent dans un plan. On montre également que la seule situation dégénérée est celle de droites formant un faisceau.
Le calcul de pose par des méthodes linéaires à partir de plus que 4 points a aussi été développé. Ces méthodes donnent la solution unique de la pose quand les points en considération ne sont pas sur une surface critique.
Participants : Radu Horaud , Nicolas Andreff , Katja
Daumueller-Claudel , Andreas Ruf
Mots-clés : asservissement visuel, auto-étalonnage,
étalonnage caméra-pince
Résumé : Les approches classiques en asservissement visuel considèrent le cas d'une caméra étalonnée intervenant dans la boucle d'asservissement d'un robot. Nos travaux, menés en collaboration avec le projet BIP, s'intéressent au cas de caméras non-étalonnées et on pose la question suivante : peut-on faire de l'asservissement visuel sans un étalonnage préalable de la caméra et/ou de la relation caméra-pince. On étudie également l'élargisssement du paradigme ``asservissement visuel'' au cas de deux caméras liées rigidement (couple stéréoscopique). L'expérimentation est menée en utilisant un robot portique (cf. figure
).
Les techniques classiques d'étalonnage caméra-pince utilisent une mire d'étalonnage et des mouvements spécifiques de la pince afin que les rotations associées à ces mouvements soient bien conditionnées. Lorsque l'on veut intégrer cette étalonnage dans le processus boucle-fermée de l'asservissement, on ne dispose ni d'une mire ni de la possibilité de choisir les mouvements de la pince. Nous avons intégré la reconstruction 3-D dans le processus d'auto-étalonnage et nous avons développé une méthode qui accepte de faibles déplacements. L'implémentation de cette méthode sur la plate-forme expérimentale du projet est en cours.
Nous avons entrepris d'analyser dans le détail la convergence de l'asservissement lorsque deux caméras sont présentes dans la boucle. La reconstruction 3-D fournit alors, en ligne, le modèle de la scène à un facteur d'échelle près. Il s'agit d'analyser l'influence sur le convergence de tous les paramètres intervenant dans un système stéréo. Les résultats préliminaires semblent révéler que la convergence la plus robuste est obtenue en considérant les deux caméras indépendamment comme si on effectuait deux asservissements monoculaires.
On étudie en détail les propriétés algébriques associées à l'observation d'un mouvement rigide (tel que le mouvement de la pince d'un robot) par un système stéréo non-étalonné. Ces propriétés algébriques permettent de paramétrer l'homographie reliant deux reconstructions projectives obtenues avant et après un mouvement rigide et d'extraire des propriétés euclidiennes dans le cas d'un mouvement général ou planaire et des propriétés affines dans le cas d'un mouvement de translation. Ces travaux sont fortement liés aux travaux fondamentaux dans le domaine de la géométrie pour la vision.
Participants : Alberto Aguado , Jérôme Blanc ,
ZhongDan Lan , Maxime Lhuillier , Roger Mohr , Gustavo
Olague
Mots-clés : mise en correspondance, facettisation,
modélisation tridimensionnelle, photogrammétrie, synthèse
d'images
Résumé : La mise en correspondance d'images permets d'obtenir une perception tridimensionnelle à travers plusieurs images. Nous avons exploré ces aspects en évaluant les techniques de mise en correspondance, en déterminant des placements optimaux de caméras. Lorsque les mises en correspondance sont effectuées, les scènes peuvent être triangulées de façon à permettre le meilleur rendu visuel pour resynthétiser de nouvelles images.
http://www.inrialpes.fr/movi/people/Blanc/demo.html
Nous avons poursuivi l'évaluation des techniques de mises en
correspondance dense pour images.
Les résultats montrent que les techniques simples de
corrélation fournissent des résultats de qualité. Si l'on
désire des résultats de précision supérieure au pixel, une
technique utilisant un développement au premier ordre du
signal image permet d'avoir une amélioration sensible,
supérieure aux autres techniques directes, et n'étant battue
que par des techniques itératives gourmandes en temps de
calcul [27] [11].
Des cartes de profondeur ainsi obtenues, on peut directement opérer une projection dans des images correspondant à de nouveaux points de vues. Cette façon de procéder gomme les erreurs dues à de mauvais appariements, mais donne un rendu visuel peu dense. Nous avons donc exploré la facettisation des cartes de profondeur, en veillant à respecter les contours visuels qui doivent être préservés lors des reprojections [21]. Cette première étape sera étendue l'an prochain.
Dans le cas d'utilisation des caméras pour faire des mesures tridimensionnelles, un problème ouvert est celui du positionnement des caméras pour ces mesures. En nous mettant dans l'hypothèse de l'observation de cibles pour lesquelles nous sommes capables de modéliser l'erreur de localisation dans les images, nous avons développé un modèle d'erreur de la reconstruction 3D qu'il faut alors minimiser. Le problème de minimisation se heurte à des aspects combinatoires liés aux occultations des cibles. Un algorithme génétique s'est avéré capable de résoudre en quelques minutes le placement d'une vingtaine de caméras. Les résultats obtenus sont confirmés par le savoir-faire expérimental des photogrammètres [30].
Participants : Pascal Bertolino , Patrick Gros , Bart
Lamiroy , Zhong-Dan Lan , Roger Mohr , Sylvaine Picard ,
Cordelia Schmid
Mots-clés : base multimédia, classification,
indexation d'images, interprétation d'images, invariant
géométrique et photométrique, mise en correspondance
d'images, reconnaissance d'objets, vision par ordinateur
Résumé : L'appariement et l'indexation des images sont l'un des axes importants de recherche du projet. Cette activité s'est poursuivie selon trois directions. Tout d'abord l'intégration de diverses approches dans un cadre unifié, menant à des résultats de complexité généraux et à des développements pratiques. Ensuite, la recherche de nouveaux descripteurs locaux pour caractériser le signal des niveaux de gris dans certaines régions des images. Enfin, la prise en compte de la dimension couleur dans les images.
Les travaux en appariement et indexation se sont tout d'abord poursuivi à propos du cas des images structurées, c'est-à-dire celles pour lesquelles l'extraction de contours sous forme de segments est pertinente. La prise en compte d'invariants locaux calculés à partir de configurations de segments plus complexes, et la prise en compte d'une information photométrique par orientation des segments approchant les contours permet de réduire nettement la complexité et de traiter des images plus difficiles, comme des images de moteurs de voiture.
Les techniques utilisant directement le signal en niveaux de gris ont clairement démontré leur puissance, mais elles apparaissent en fait complémentaires aux techniques pour images structurées, pour le type des images qu'elles peuvent considérer. Des travaux ont été entrepris pour combiner ces deux approches, par emplois de techniques géométriques communes. En particulier, l'emploi d'un espace de Hough pour représenter les transformations géométriques entre images s'avère être un outil précieux pour faire collaborer des invariants de types très différents.
Dans ce premier axe de recherche, nous nous sommes aussi intéressés au problème général de la complexité de l'indexation et de la reconnaissance utilisant des descripteurs locaux. De nouveaux résultats ont été obtenus, qui remettent en cause diverses habitudes. Dans des espaces de grande dimension, lorsque les données sont bruitées, l'utilisation de structures linéaires peut être plus efficace que celle de structures arborescentes pour la recherche de clés.
Les travaux initiaux que nous avions menés sur les invariants photométriques avaient montré leur puissance. Avec une base de plus d'un millier d'images, le taux de reconnaissance d'images n'appartenant pas à la base est supérieur à 99%. Cela dit, avec les images aériennes, certaines ambiguïtés apparaissent. Elles ont tout d'abord été éliminées en utilisant une contrainte semi-locale. Cela montre que de meilleurs invariants sont nécessaires si l'on veut obtenir d'aussi bons résultats avec des bases plus grandes.
Nous avons tout d'abord essayé d'utiliser une information statistique sur les invariants, information liée à la probabilité d'apparition de ces invariants dans une image. Point de vue résultats, cette approche s'avère équivalente à la contrainte semi-locale utilisée précédemment, mais en conservant un cadre complètement local, ce qui peut être pratique dans certaines applications.
D'autre part, nous avons essayé d'utiliser des configurations plus riches, du type paire de points, pour obtenir des invariants plus riches. La principale difficulté vient de l'augmentation de la taille de l'espace des invariants, qui pose de délicats problèmes algorithmiques. Cette question va être spécifiquement travaillée dans le futur.
Enfin, nous avons exploré la voie de la recherche d'invariants robustes. Une famille de 800 invariants a été trouvée et testée sur des images aériennes. Les résultats sont bons, mais il faut maintenant réduire cette famille pour obtenir des calculs et des données à conserver de taille raisonnable dans la pratique.
Puisque le signal des niveaux de gris se montre très informatif, on peut se demander s'il ne vaudrait pas mieux passer à la couleur. Dans une image en couleur, on dispose de trois quantités par pixel au lieu d'une seule. On peut donc, tout d'abord, traiter une telle image comme trois images superposées. Mais la couleur apporte aussi d'autres informations utilisables.
Notre travail a tout d'abord consisté à étudier divers modèles décrivant comment la couleur d'un pixel varie lorsque l'on change l'intensité ou la couleur de la source de lumière. Un modèle diagonal avec translation s'avère offrir le meilleur ratio précision / complexité. À partir de cela, nous avons tout d'abord développé un procédé de normalisation d'images, qui permet de s'affranchir des variations d'illumination de la scène. D'autre part, nous avons proposé des invariants utilisables de la même façon que les invariants en niveaux de gris pour l'appariement et l'indexation.
Les images en couleur présentent divers aspects intéressants. Tout d'abord, augmentant la taille des invariants calculés, elles permettent une meilleure discrimination. Cela se paye par des espaces à manipuler de plus grande dimension, ce qui pose des problèmes algorithmiques déjà signalés. Mais ces invariants permettent aussi, liés à des techniques de normalisation locale, de s'abstraire du déplacement de la source de lumière, et donc des ombres, ce qui n'est guère possible avec des images en niveaux de gris seulement.
Si l'indexation des images fixes correspond à une claire demande industrielle, par exemple des agences de photographies, de nombreuses autres entreprises aimeraient pouvoir indexer des documents multimédias. Nous avons donc mis sur place diverses collaborations avec des équipes spécialistes de domaines complémentaires du nôtre.
Dans le cadre d'une action incitative INRIA avec le projet TEMIS, et en collaboration avec Alcatel Alsthom Recherche, nous étudions l'indexation des images animées, en nous basant à la fois sur notre savoir faire pour les images fixes, et sur l'étude du mouvement dont est spécialiste TEMIS. Au delà de l'image, nous avons monté un projet plus large pour prendre en compte les médias son et texte.