Projet Temics

previous up next contents
Précédent : Logiciels Remonter : Projet TEMICS, TraitEment, Modélisation d'Images Suivant : Actions industrielles



Résultats nouveaux

Les objets vidéo

Etude de segmentation optimale pour le codage vidéo orienté-régions



Participants : Stéphane Pateux , Henri Nicolas , Claude Labit


Mots-clés : segmentation, analyse de mouvement, théorie MDL, mosaïque vidéo, VOP, MPEG-4


Dans un schéma de codage orienté-régions de séquences vidéo, le choix de la segmentation à utiliser pour le codage est un sujet d'études essentiel. Les travaux précédement menés au sein du projet étaient issus de phases d'analyse du mouvement $2D+t$ qui n'avaient pas été forcément adaptées en terme d'efficacité de codage. Nous avons alors entrepris d'étudier les différents coûts intervenant dans un schéma de codage orienté-régions et d'effectuer une optimisation globale du coût de description à l'aide d'un formalisme MDL (Minimum Description Length) (travaux de thèse de S. Pateux).

Une première phase d'étude a porté sur la simplification d'une carte de segmentation par l'utilisation de diverses méthodes d'approximation des contours des régions. Une seconde phase a ensuite porté sur un algorithme de segmentation basé sur le formalisme MDL afin de trouver la carte de segmentation optimale à des fins de codage. Cet algorithme est initialisé à partir de la segmentation spatiale d'une image, puis les différentes régions sont ensuite fusionnées (sur une base mouvement par exemple) afin de diminuer le coût (MDL) de description globale. Le schéma de segmentation peut aussi être optimisé par rapport à la technique utilisée pour coder les erreurs résiduelles (codage par DCT, filtrage morphologique, ...).

Les futures études portent sur l'extension des schémas de codage orienté-régions vers des schémas de type codage orienté-objets afin de pouvoir répondre aux besoins futurs pour le codage vidéo (codage hiérarchique, codage avec plusieurs niveaux de qualité, plus grande robustesse par rapport aux erreurs de transmissions, ...).


   Figure: Segmentation de l'image 37 de la séquence stefan. a) segmentation spatiale initiale. b) segmentation spatio-temporelle optimale obtenue après fusions des régions spatiales.

\begin{figure} \centerline{ a. \psfig {figure=stefan37.segSpace.eps,width=5cm... ...e {1cm} b. \psfig {figure=stefan37.segFusionMDL.eps,width=5cm} }\end{figure}



   Figure: Comparaison de segmentation spatio-temporelle. a) segmentation issue de précédents travaux (30 régions). b) segmentation spatio-temporelle optimale (8 régions).

\begin{figure} \centerline{ a. \psfig {figure=inter11.seg0.ps,width=5cm} \hspace {1cm} b. \psfig {figure=inter11.segMDL.eps,width=5cm} }\end{figure}


Compression et interpolation orientées objets



Participants : Laurent Bonnaud , Claude Labit


Mots-clés : segmentation, analyse du mouvement, suivi temporel, trajectoires multiples, contours actifs


Notre étude vise la conception d'algorithmes de suivi d'objets multiples - avec gestion d'occultations spatio-temporelles éventuelles - dans une séquence vidéo. Ce thème conduit naturellement à l'exploration de techniques d'interpolation temporelle utilisant les trajectoires de ces objets. La difficulté essentielle réside en la gestion des trajectoires multiples et le suivi des objets tout au long de la séquence en assurant une bonne localisation spatiale de leurs frontières. Ceci doit s'accompagner d'une gestion locale des zones de découvrement et de recouvrement multiples qui apparaissent lors du suivi temporel des objets vidéo.

Cette étude s'est poursuivie cette année par la définition d'une représentation de segmentation spatio-temporelle adaptée à la prise en compte d'objets multiples et de leurs interactions générant des zones d'occultation et des zones de découvrement, ainsi que d'un algorithme de suivi temporel associé. Cette représentation est aussi adaptée à d'autres modalités d'interpolation nécessitant la transmission de moins d'informations.

La représentation de la segmentation que nous avons adoptée n'est plus constituée comme précédemment des contours fermés des régions définis par des splines, mais de frontières ouvertes entre régions, approximées polygonalement. Elle est composée par l'ensemble des points multiples de la carte de segmentation (points où trois régions ou plus sont adjacentes) ainsi que par l'ensemble des frontières reliant ces points multiples et des frontières fermées (boucles isolées). Cette nouvelle représentation est non redondante et plus efficace, car chaque frontière est stockée et ajustée une seule fois au lieu de deux. Une arborescence permet de traiter le cas des régions incluses dans une autre (région à trous).

L'algorithme de suivi temporel reprend les grandes lignes de celui developpé lors des années précédentes (prédiction et ajustement des mouvements de la texture des régions et des frontières), tout en ayant été adapté à notre nouvelle représentation. La prédiction du mouvement des régions est inchangée (filtrage de Kalman), par contre son ajustement se fait par une estimation robuste du mouvement. Les plus grands changements interviennent pour les frontières. La prédiction d'une frontière entre deux régions se fait grâce au mouvement de la texture de l'une de ces deux régions. Le choix de la bonne région se fait selon un critère de mouvement reposant sur l'erreur de reconstruction sur la partie de l'image balayée par le mouvement supposé de la frontière, critère qui est différent selon qu'il s'agit d'une occultation ou d'un découvrement. L'ajustement global d'une frontière se fait toujours par un mouvement affine frontière par frontière, par contre son ajustement local prend en compte les interactions entre frontières au niveau des points multiples.

Par l'emploi de ces techniques, nous observons une bonne précision de la localisation des frontières des régions sur les contours des images et la grande stabilité temporelle des régions extraites, caractéristiques importantes pour l'interpolation. Les résultats concernant le codage interpolatif de séquences montrent un gain significatif de l'ordre de 15% en débit par rapport à un codage causal (prédiction à partir de la seule image précédente) à qualité égale (mesurée par le PSNR).


   Figure: Illustration du suivi temporel de frontières de régions. Segmentation initiale sur la 1ère image et segmentation obtenue par suivi temporel : image 33 pour la séquence Miss America et image 20 pour la séquence Interview . Les points multiples sont représentés par des croix noires et les sommets de l'approximation polygonale par des points noirs.

\begin{figure}\small\begin{minipage}[h]{12cm}\begin{displaymath}\begin{arra... ...tinuité - (d) : champ de disparité final}\end{minipage}\normalsize\end{figure}



Géométrie projective et compression/reconstruction d'images



Participants : Luce Morin , Lionel Oisel , Claude Labit


Mots-clés : géométrie projective, géométrie épipolaire, mouvement, disparité, reconstruction, objets vidéo


Dans le cadre des applications multimédia liées à la TV3D (télévision en relief), nous avons poursuivi (en liaison avec les thèmes d'études évoquées au sein de l'action européenne Cost-230) des activités sur la reconstruction de vues, originales ou intermédiaires, à partir de séquences vidéo monoculaires ou stéréoscopiques. Ces sources d'images contiennent une forte redondance spatiale, entre les deux images d'une même paire stéréo, ou temporelle, entre deux images successives, permettant une compression ou une manipulation des images. Nous proposons d'utiliser les relations géométriques induites par le modèle de projection perspective des caméras pour exprimer ces redondances entre images.

L'étude actuelle en reconstruction d'objets vidéo par géométrie projective (thèse de Lionel Oisel) se déroule dans le cadre d'une action CTI-Cnet, (en association avec le projet Syntim de l'Inria Rocquencourt et l'équipe Sim de l'INT). Ce travail algorithmique se décompose en deux phases distinctes. La première phase porte sur l'estimation d'un champ de mouvement dense respectant la contrainte épipolaire. Cette dernière est identifiée par l'extraction de points singuliers, suivie d'une mise en correspondance et une estimation robuste de la matrice fondamentale. L'estimation du champ de mouvement s'appuie sur les approches robustes différentielles développées par P. Pérez et E. Mémin (Projet Vista) pour l'obtention d'un champ régularisé avec respect des discontinuités. L'algorithme fournit ainsi un indice réel de discontinuité en chaque point du champ. L'incompatibilité de l'approche différentielle avec le traitement de points de vues éloignés (nécessaire pour une bonne estimation de la matrice fondamentale) est résolue par une approche multi-résolution.

Une deuxième phase d'étude consiste à approximer la scène observée par un ensemble de régions planes. Deux images d'une même région sont alors liées par une homographie. Ceci permet d'exprimer une image relativement à l'autre à partir de la segmentation en régions obtenue et de la seule connaissance de la matrice de l'homographie associée à chaque région. Une possiblité explorée cette année est la segmentation par un maillage triangulaire dont les sommets correspondent aux points singuliers. L'homographie associée à chaque facette triangulaire est alors définie par le mouvement des trois points sommets et par la matrice fondamentale. Un affinage du maillage devra être mis en oeuvre pour assurer que les facettes correspondent à des régions planes.


  Figure: Géométrie projective et compression/reconstruction d'images. Estimation du champ de disparité sous contrainte épipolaire

\begin{figure}\small\begin{minipage}[h]{12cm}\begin{displaymath}\begin{arra... ...tinuité - (d) : champ de disparité final}\end{minipage}\normalsize\end{figure}


Objets vidéo déformables et codage



Participants : Charles Kervrann , Claude Labit , Gwénaëlle Marquant , Henri Nicolas


Mots-clés : déformation, analyse modale, maillages actifs, SNHC


Ce thème d'étude explore différents cadres de modélisation d'objets déformables (2D ou 3D) permettant un recalage aisé entre les modèles d'objets et les observations vidéo; ceci est utile pour des reconstructions par synthèse après analyse et codage (approche SNHC: ``Synthetic-Natural Hybrid Coding'') ou en tant qu'outil de post-traitement et de manipulation vidéo après codage. Ce thème a pris son essor dans le cadre du projet européen VIDAS. Il s'étend désormais aux modélisations par maillages actifs posés sur les objets déformables de la scène visualisée.

Dans le cadre du projet européen VIDAS, nous avons proposé des méthodes statistiques permettant de détecter et de réaliser le suivi du visage du locuteur dans des séquences d'images visiophoniques (20 Kbit/s à 5Hz). L'outil algorithmique a été intégré dans un système opérationnel de post-traitements visant à générer une séquence synthétique de 25Hz sur la base du contenu des images codées et de la bande son. (cf RA 1996).

Notre recherche porte désormais sur la définition d'un cadre méthodologique permettant de recaler automatiquement un modèle déformable 3D sur le visage du locuteur. Le modèle maillé conçu intègre, par apprentissage statistique, des connaissances a priori sur la géométrie, la texture et les expressions du visage. Un critère robuste de recalagereposant sur un rapport de vraisemblance généralisé est optimisé par mise en oeuvre d'algorithmes stochastiques. Les outils algorithmiques définis doivent s'intégrer in fine dans une chaîne de compression d'images multimodales (audio/vidéo) de type analyse/synthèse, compatible avec la (future) norme de codage MPEG-4/SYNTHETIC NATURAL HYBRID CODING.

La thèse qu'entreprend Gwénaëlle Marquant a pour but d'intégrer les notions d'échantillonnage irrégulier (voir thèse d'H. Lefloch) dans la définition, le contrôle et le suivi de maillages actifs 2D ou 3D.


  Figure: Détection de visages dans des images visiophoniques (projet VIDAS)




Insertion d'objets réels dans une séquence synthétique



Participants : Jean Motsch , Henri Nicolas


Mots-clés : Réalité augmentée, mixage images réelles et synthétiques, trajectoire 2D et 3D, suivi


L'objectif de cette étude consiste à immerger dans un environnement synthétique des objets vidéos représentant des personnages humains en mouvement. L'introduction de tels objets dans une scène synthétique nécessite la connaissance de leurs trajectoires 3D, de manière à permettre un positionnement correct et réaliste de ces objets dans la scène synthétique. Pour cela, des méthodes basées sur l'estimation et le suivi du mouvement 2D de la tête du personnage considéré ont été développées. Cette information de mouvement 2D ainsi que des connaissances a priori sur les dimensions moyennes d'une tête permettent alors de remonter à la trajectoire 3D de l'objet avec une seule caméra et sans aucune calibration.

Des techniques utiliseant cette estimation de la trajectoire 3D réelle de l'objet sont en cours de développement dans le but d'animer l'objet dans la scène synthétique en tenant compte des effets d'occultation et de collision avec les objets synthétiques. La thèse de Jean Motsch se situe dans le cadre de cette étude.


  Figure: Principe de l'insertion de personnage dans une séquence synthétique.

\begin{figure} \centerline{ \psfig {figure=principe.eps,angle=-90,width=12cm}} \end{figure}



  Figure: Résultats de la détection de la tête à l'aide d'un contour paramétrique elliptique sur une séquence réelle.

\begin{figure} \centerline{ \mbox{\psfig {figure=resu30.pgm-retaille.ps,width... ...}}~ \mbox{\psfig {figure=resu50.pgm-retaille.ps,width=2.8cm}}} \end{figure}


Manipulation vidéo pour la post-production vidéo



Participant : Henri Nicolas


Mots-clés : Edition vidéo, manipulation d'images, mosaïque, post-production, algorithmes semi-automatiques


Dans ce contexte, nous avons développé des méthodes permettant la création d'images de panorama représentant l'arrière plan fixe de l'image (dans le cas d'une caméra mobile). Ces images panoramiques sont utilisées pour mettre en oeuvre différents traitements sur la séquence d'images originales tels que la suppression d'un objet ou l'asservissement virtuel de la position de la caméra de manière à garder, par exemple, un objet en mouvement constamment au centre de l'image.

Dans un contexte de post-production vidéo, une très haute qualité est nécessaire. En pratique, il n'est pas réaliste d'espérer obtenir d'une manière purement automatique une qualité suffisante dans tous les cas. De plus, dans le contexte de la post-production vidéo, il n'y a pas de contraintes temps-réels. L'intervention d'un opérateur est donc envisageable pour ce type d'application. Pour minimiser cette intervention humaine, il est nécessaire de mettre en oeuvre des critères permettant de détecter automatiquement les cas pour lesquels la qualité obtenue par l'algorithme n'est pas suffisante, et de définir une manière efficace et simple d'intervention de l'opérateur pour améliorer les résultats.

Cette étude est menée dans le cadre du projet européen Nemesis (cf. section suivante).


  Figure: Illustration de la création d'une image panoramique à partir d'une séquence d'images originales.

\begin{figure} \centerline{ \mbox{\psfig {figure=panoramaUpdate200_290.ps,width=12cm}}} \end{figure}


La scalabilité vidéo

Echantillonnage irrégulier pour l'interpolation d'images ou de champs de mouvement



Participants : Hervé Lefloch , Claude Labit


Mots-clés : Echantillonnage irrégulier, treillis actifs, mouvement, interpolation


L'objectif de ce travail est la spécification de techniques de sous-échantillonnage permettant à la fois d'appréhender les problèmes de représentation (et de codage) d'images fixes mais aussi de traiter les problèmes d'estimation et de compensation du mouvement dans les schémas de codage de séquences d'images.

En ce qui concerne les images fixes, nous avons continué à perfectionner les outils développés l'année précédente. Deux algorithmes d'interpolation sont utilisés pour reconstruire une image à partir des données échantillonnées. Le premier est une méthode d'interpolation par pondération d'interpolants polynomiaux locaux, et le second est une méthode d'interpolation par éléments finis triangulaires. Des schémas de sous-échantillonnage à partir de ces algorithmes d'interpolation sont proposés. Ils permettent l'optimisation des valeurs et des positions des échantillons mais aussi l'optimisation du domaine d'influence ou des valeurs de dérivées partielles d'intensité en chaque échantillon. Certains schémas de sous-échantillonnage permettent de générer un sous-échantillonnage constitué de 4200 échantillons et conduisant sur l'image Lenna 512x512, à un PSNR de reconstruction de 32.2 dB. Une évaluation complète du coût de codage de ce type de représentation a aussi été faite.

Des travaux concernant l'intégration de schémas d'interpolation polynomiaux locaux dans le contexte de l'estimation et de la compensation du mouvement dans les séquences d'images ont aussi été menés. Des schémas de positionnement de vecteurs de déplacement adapté au contenu de l'image, de suivi de ces même vecteurs au cours d'une séquence d'images ou d'optimisation des paramètres des vecteurs (valeur du vecteur, influence du vecteur ou valeurs de dérivées partielles) ont été proposés. Parallèlement, l'étude de récents schémas d'estimation et de compensation du mouvement par treillis actifs triangulaires a été menée. Cette étude a permis d'établir une comparaison entre la modélisation du mouvement (cette modélisation est liée à la technique d'interpolation utilisée) que nous utilisons et la modélisation du mouvement par treillis actifs triangulaires (cf. mémoire de thèse de H. Lefloch).


     Figure: Compression d'images numériques par adaptation d'un maillage : maillage obtenu et image reconstruite : 3200 noeuds (95.1 $\%$ des échantillons sont éliminés)





Figure: Compression d'images numériques par sous-échantillonnage (image des positions des échantillons (3200 échantillons : 95.1 $\%$ des échantillons sont éliminés) et image reconstruite par interpolation)

\begin{figure}\begin{center}\begin{minipage}[t]{12cm}\centerline{\psfig {f... ...gure=shepard_recons_3200.ps,width=5.5cm}}\end{minipage}\end{center}\end{figure}


Compression hiérarchique et réseaux à débit variable



Participants : Nicolas De Maistre , Claude Labit


Mots-clés : progressivité, scalabilité, GOP, MPEG, ondelettes, quantification emboîtee


Deux activités liées à la transmission des images sur réseaux ont recours au codage hiérarchique d'images :

Le codage progressif d'images numériques, fixes ou animées, consiste à offrir des reconstructions de ces images à différents niveaux de qualité, de telle sorte que les trains de bits associés à ces reconstructions successives, soient emboités les uns dans les autres. Ainsi, les données transmises pour reconstruire l'image ou la séquence d'images, assez grossièrement, sont réutilisées pour obtenir une version de qualité supérieure. Dans la mesure du possible, afin que le nombre de ces découpes intermédiaires en débit de transmission n'affecte pas (ou peu) les performances en compression au niveau de qualité de reconstruction maximal, le schéma du codeur considéré est choisi "hiérarchique".

Sur images fixes, des schémas de transmission progressive ont été proposés, étendant aux décompositions par paquets d'ondelettes, modulables, différentes techniques de compression hiérarchique développées dans le cadre des décompositions multirésolutions par ondelettes.

La mise en oeuvre de la restitution progressive de séquences d'images, ou scalabilité, se heurte au caractère non hiérarchique du schéma de codage prédictif par compensation de mouvement. Or celui-ci est repris dans la plupart des schémas de compression inter-images. Différentes solutions ont été apportées à ce problème, telles que la décomposition en sous-bandes spatio-temporelles 3D d'un groupe d'images: le filtrage temporel s'effectue alors sur des images recalées par compensation de mouvement. De tels schémas sont parfaitement scalables, mais nécessitent de mémoriser un nombre conséquent d'images, ou montrent une efficacité moindre dans l'élimination de la redondance temporelle.

Dans un premier temps, nous avons donc choisi de conserver la boucle de prédiction par compensation de mouvement et d'explorer son utilisation sur une séquence de pyramides d'images multirésolutions, en la plaçant à différents niveaux de résolution et sur différents regroupements de sous-bandes fréquentielles. Dans un second temps, une implantation de l'approche temporelle de la scalabilité par hiérarchisation "IPB" des trames a été expérimentée à différents niveaux de résolution. En particulier, un schéma de type "PB" alterne prédiction et interpolation bi-directionnelle des trames sur les hautes résolutions: la construction de chaque trame "B" exploite alors la connaissance de sa version basse résolution et de trames "P" haute résolution.

Ce travail s'inscrit dans le cadre du projet IMMEDIAT (projet CPER ``Autoroutes de l'information'') qui concerne la transmission d'images médicales sur réseaux ATM. Nous visons la diffusion de séquences d'images par une adaptation de la source hiérarchique des images au modèle de réseau et à ses capacités instantanées en termes de débit ou de priorités de services définies sur celui-ci.

Le couplage source-canal ou source-réseau



Participants : Christine Guillemot , Claude Labit , Delphine Leguen , Fabrice Leléannec , François Toutain


Les actions engagées sur ce thème n'ont pris véritablement leur essor qu'à partir de l'automne 1997 pour une bonne part. Elles concernent les études suivantes :



previous up next contents Précédent : Logiciels Remonter : Projet TEMICS, TraitEment, Modélisation d'Images Suivant : Actions industrielles