Дисертації з теми "Traitement des vidéos faciales"

Щоб переглянути інші типи публікацій з цієї теми, перейдіть за посиланням: Traitement des vidéos faciales.

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся з топ-50 дисертацій для дослідження на тему "Traitement des vidéos faciales".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Переглядайте дисертації для різних дисциплін та оформлюйте правильно вашу бібліографію.

1

Ouzar, Yassine. "Reconnaissance automatique sans contact de l'état affectif de la personne par fusion physio-visuelle à partir de vidéo du visage." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0076.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La reconnaissance automatique de l'état affectif reste un sujet difficile en raison de la complexité des émotions / stress, qui impliquent des éléments expérientiels, comportementaux et physiologiques. Comme il est difficile de décrire l'état affectif de la personne de manière exhaustive en termes de modalités uniques, des études récentes se sont concentrées sur des stratégies de fusion afin d'exploiter la complémentarité des signaux multimodaux. L'objectif principal de cette thèse consiste à étudier la faisabilité d'une fusion physio-visuelle pour la reconnaissance automatique de l'état affectif de la personne (émotions / stress) à partir des vidéos du visage. La fusion des expressions faciales et des signaux physiologiques permet de tirer les avantages de chaque modalité. Les expressions faciales sont simple à acquérir et permettent d'avoir une vision externe de l'état affectif, tandis que les signaux physiologiques permettent d'améliorer la fiabilité et relever le problème des expressions faciales contrefaites. Les recherches développées dans cette thèse se situent à l'intersection de l'intelligence artificielle, l'informatique affective ainsi que l'ingénierie biomédicale. Notre contribution s'axe sur deux aspects. Nous proposons en premier lieu une nouvelle approche bout-en-bout permettant d'estimer la fréquence cardiaque à partir d'enregistrements vidéo du visage à l'aide du principe de photopléthysmographie par imagerie (iPPG). La méthode repose sur un réseau spatio-temporel profond (X-iPPGNet) qui apprend le concept d'iPPG à partir de zéro, sans incorporer de connaissances préalables ni passer par l'extraction manuelle des signaux iPPG. Le seconde aspect porte sur une chaine de traitement physio-visuelle pour la reconnaissance automatique des émotions spontanées et du stress à partir des vidéos du visage. Le modèle proposé comprend deux étages permettant d'extraire les caractéristiques de chaque modalité. Le pipeline physiologique est commun au système de reconnaissance d'émotion et celui du stress. Il est basé sur MTTS-CAN, une méthode récente d'estimation du signal iPPG. Deux modèles neuronaux distincts ont été utilisés pour prédire les émotions et le stress de la personne à partir des informations visuelles contenues dans la vidéo (e.g. expressions faciales) : un réseau spatio-temporel combinant le module Squeeze-Excitation et l'architecture Xception pour estimer l'état émotionnel et une approche d'apprentissage par transfert pour l'estimation du niveau de stress. Cette approche a été privilégiée afin de réduire les efforts de développement et surmonter le problème du manque de données. Une fusion des caractéristiques physiologiques et des expressions faciales est ensuite effectuée pour prédire les états émotionnels ou de stress
Human affective state recognition remains a challenging topic due to the complexity of emotions, which involves experiential, behavioral, and physiological elements. Since it is difficult to comprehensively describe emotion in terms of single modalities, recent studies have focused on artificial intelligence approaches and fusion strategy to exploit the complementarity of multimodal signals using artificial intelligence approaches. The main objective is to study the feasibility of a physio-visual fusion for the recognition of the affective state of the person (emotions/stress) from facial videos. The fusion of facial expressions and physiological signals allows to take advantage of each modality. Facial expressions are easy to acquire and provide an external view of the affective state, while physiological signals improve reliability and address the problem of falsified facial expressions. The research developed in this thesis lies at the intersection of artificial intelligence, affective computing, and biomedical engineering. Our contribution focuses on two points. First, we propose a new end-to-end approach for instantaneous pulse rate estimation directly from facial video recordings using the principle of imaging photoplethysmography (iPPG). This method is based on a deep spatio-temporal network (X-iPPGNet) that learns the iPPG concept from scratch, without incorporating prior knowledge or going through manual iPPG signal extraction. The second contribution focuses on a physio-visual fusion for spontaneous emotions and stress recognition from facial videos. The proposed model includes two pipelines to extract the features of each modality. The physiological pipeline is common to both the emotion and stress recognition systems. It is based on MTTS-CAN, a recent method for estimating the iPPG signal, while two distinct neural models were used to predict the person's emotions and stress from the visual information contained in the video (e.g. facial expressions): a spatio-temporal network combining the Squeeze-Excitation module and the Xception architecture for estimating the emotional state and a transfer learning approach for estimating the stress level. This approach reduces development effort and overcomes the lack of data. A fusion of physiological and facial features is then performed to predict the emotional or stress states
2

Guerrero, Isabelle. "Évaluation économique du protocole de traitement des fentes faciales." Montpellier 1, 1986. http://www.theses.fr/1986MON10053.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le protocole de traitement des fentes faciales peut etre considere comme un bien dont la valeur economique depend d'une part de son aptitude a satisfaire un besoin complexe et d'autre part de l'efficience de l'unite qui le produit: l'hopital. L'etude empirique menee au centre hospitalier regional de montpellier sur 166 enfants traites pour des fentes faciales montre que la production medicale est economiquement rationnelle car adaptee au besoin de traitement. Cependant, la structure hospitaliere ne semble pas fonctionner dans des conditions d'optimum economique. Les resultats obtenus ne corroborent pas la demarche du p. M. S. I. Qui tend a faire du cout par groupe homogene de malades, la base de tarification des hopitaux
Cleft lip and palate treatment may be considered as a good which economic value depends on its ability to satisfy a need and on the efficency of the unit where it is produced : the hospital. From the research carried out at the regional hospital of montpellier on 166 children treated for cleft, it appears that the clinical production is adapted to the need for treatment. Nevertheless, the hospital as a whole does not seem to function in the best economic way. The results obtained do not confirm the case-mix analysis by which the cost by d. R. G. Should be used as the new basis of hospital tariffs
3

Precioso, Frédéric. "Contours actifs paramétriques pour la segmentation d'images et vidéos." Nice, 2004. http://www.theses.fr/2004NICE4078.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse s’inscrit dans le cadre des modèles de contours actifs. Il s’agit de méthodes dynamiques appliquées à la segmentation d’image, en image fixe et vidéo. L’image est représentée par des descripteurs régions et/ou contours. La segmentation est traitée comme un problème de minimisation d’une fonctionnelle. La recherche du minimum se fait via la propagation d’un contour actif di basé régions. L’efficacité de ces méthodes réside surtout dans leur robustesse et leur rapidité. L’objectif de cette thèse est triple : le développement (i) d’une représentation paramétrique de courbes respectant certaines contraintes de régularités, (ii) les conditions nécessaires à une évolution stable de ces courbes et (iii) la réduction des coûts de calcul afin de proposer une méthode adaptée aux applications nécessitant une réponse en temps réel. Nous nous intéressons principalement aux contraintes de rigidité autorisant une plus grande robustesse vis-à-vis du bruit. Concernant l’évolution des contours actifs, nous étudions les problèmes d’application de la force de propagation, de la gestion de la topologie et des conditions de convergence. Nous avons fait le choix des courbes splines cubiques. Cette famille de courbes offre d’intéressantes propriétés de régularité, autorise le calcul exact des grandeurs différentielles qui interviennent dans la fonctionnelle et réduit considérablement le volume de données à traiter. En outre, nous avons étendu le modèle classique des splines d’interpolation à un modèle de splines d’approximation, dites smoothin splines. Ce dernier met en balance la contrainte de régularité et l’erreur d’interpolation sur les points d’échantillonnage du contour. Cette flexibilité permet ainsi de privilégier la précision ou la robustesse. L’implémentation de ces modèles de splines a prouvé son efficacité dans diverses applications de segmentation
Active contour modelling represents the main framework of this thesis. Active contours are dynamic methods applied to segmentation of till images and video. The goal is to extract regions corresponding to semantic objects. Image and video segmentation can be cast in a minimization framework by choosing a criterion which includes region and boundary functional. The minimization is achieved through the propagation of a region-based active contour. The efficiency of these methods lies in their robustness and their accuracy. The aim of this thesis is triple : to develop (i) a model of parametric curve providing a smooth active contour, to precise (ii) conditions of stable evolution for such curves, and to reduce (iii) the computation cost of our algorithm in order to provide an efficient solution for real time applications. We mainly consider constraints on contour regularity providing a better robustness regarding to noisy data. In the framework of active contour, we focus on stability of the propagation force, on handling topology changes and convergence conditions. We chose cubic splines curves. Such curves provide great properties of regularity allow an exact computation for analytic expressions involved in the functional and reduce highly the coputation cost. Furthermore, we extended the well-known model-based on interpolating splines to an approximating model based smoothing splines. This latter converts the interpolation error into increased smoothness, smaller energy of the second derivative. The flexibility of this new model provides a tunable balance between accuracy and robustness. The efficiency of implementating such parametric active contour spline-based models has been illustrated for several applications of segmentation process
4

Francis, Danny. "Représentations sémantiques d'images et de vidéos." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS605.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Des travaux de recherche récents en apprentissage profond ont permis d’améliorer significativement les performances des modèles multimédias : avec la création de grands jeux de données d’images ou de vidéos annotées, les réseaux de neurones profonds ont surpassé les modèles précédemment utilisés dans la plupart des cas. Dans cette thèse, nous avons développé de nouveaux modèles neuronaux profonds permettant de générer des représentations sémantiques d’images et de vidéos. Nous nous sommes intéressés à deux tâches principales : l’appariement d’images ou de vidéos et de textes, et la génération automatique de légendes. La tâche d’appariement peut être réalisée par le biais d’un espace multimodal commun permettant de comparer images ou vidéos et textes. Nous avons pour cela défini deux types de modèles d’appariement en nous inspirant des travaux récents sur les réseaux de capsules. La génération automatique de légendes textuelles est une tâche ardue, puisqu’elle demande à analyser un objet visuel, et à le transcrire en une description en langage naturel. Pour cela, nous proposons deux méthodes d’apprentissage par curriculum. Par ailleurs, nous avons défini une méthode permettant à un modèle de génération de légendes de vidéos de combiner des informations spatiales et temporelles. Des expériences ont permis de prouver l’intérêt de nos propositions par rapport aux travaux existants
Recent research in Deep Learning has sent the quality of results in multimedia tasks rocketing: thanks to new big datasets of annotated images and videos, Deep Neural Networks (DNN) have outperformed other models in most cases. In this thesis, we aim at developing DNN models for automatically deriving semantic representations of images and videos. In particular we focus on two main tasks : vision-text matching and image/video automatic captioning. Addressing the matching task can be done by comparing visual objects and texts in a visual space, a textual space or a multimodal space. Based on recent works on capsule networks, we define two novel models to address the vision-text matching problem: Recurrent Capsule Networks and Gated Recurrent Capsules. In image and video captioning, we have to tackle a challenging task where a visual object has to be analyzed, and translated into a textual description in natural language. For that purpose, we propose two novel curriculum learning methods. Moreover regarding video captioning, analyzing videos requires not only to parse still images, but also to draw correspondences through time. We propose a novel Learned Spatio-Temporal Adaptive Pooling method for video captioning that combines spatial and temporal analysis. Extensive experiments on standard datasets assess the interest of our models and methods with respect to existing works
5

Hugard, Daniel. "Prévention et traitement des lésions maxillo-faciales dues aux radiations ionisantes." Montpellier 1, 1988. http://www.theses.fr/1988MON11001.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Khalid, Musaab. "Analyse de vidéos de cours d'eau pour l'estimation de la vitesse surfacique." Thesis, Rennes 1, 2018. http://www.theses.fr/2018REN1S019/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans cette thèse, on s’intéresse à l’application du domaine de la vision par ordinateur à la vélocimétrie de surface des rivières. Les hydrauliciens utilisent déjà plusieurs routines de traitement d’images pour traiter des vidéos de rivières. Le but ultime est d’estimer la vitesse surfacique d’un cours d’eau par une méthode sans contact. Cela permet aux chercheurs d’éviter les risques liés au jaugeage intrusif des rivières, notamment en période de crue. Dans ce but, deux enjeux sont à prendre en compte. Tout d’abord, le mouvement apparent de la rivière dans l’espace image doit être estimé. Ensuite, ce mouvement, estimé en pixels par unité de temps, doit être transformé en une vitesse réelle exprimée en mètres par seconde par exemple. Jusqu’au présent, les méthodes de vélocimétrie par images imposent quelques contraintes sur les séquences pour qu’elles soient exploitables (notamment une caméra fixe et le besoin de la présence physique des équipes hydrauliques au site de jaugeage avant ou après l’événement). Dans cette thèse, on vise à élargir ce périmètre en incluant les vidéos prises par des amateurs (c’est à dire de paramètres inconnus, et avec un mouvement potentiel de la caméra) tout en présentant de meilleures solutions pour les enjeux précédemment mentionnés
This thesis is an application of computer vision findings to river velocimetry research. Hydraulic research scientists already use various image processing techniques to process image sequences of rivers. The ultimate goal is to estimate free surface velocity of rivers remotely. As such, many risks related to intrusive river gauging techniques could be avoided. Towards this goal, there are two major issues need be addressed. Firstly, the motion of the river in image space need to be estimated. The second issue is related to how to transform this image velocity to real world velocity. Until recently, imagebased velocimetry methods impose many requirements on images and still need considerable amount of field work to be able to estimate rivers velocity with good accuracy. We extend the perimeter of this field by including amateur videos of rivers and we provide better solutions for the aforementioned issues. We propose a motion estimation model that is based on the so-called optical flow, which is a well developed method for rigid motion estimation in image sequences. Contrary to conventional techniques used before, optical flow formulation is flexible enough to incorporate physics equations that govern rivers motion. Our optical flow is based on the scalar transport equation and is augmented with a weighted diffusion term to compensate for small scale (non-captured) contributions. Additionally, since there is no ground truth data for such type of image sequences, we present a new evaluation method to assess the results. It is based on trajectory reconstruction of few Lagrangian particles of interest and a direct comparison against their manually-reconstructed trajectories. The new motion estimation technique outperformed traditional methods in image space. Finally, we propose a specialized geometric modeling of river sites that allows complete and accurate passage from 2D velocity to world velocity, under mild assumptions. This modeling considerably reduces the field work needed before to deploy Ground Reference Points (GRPs). We proceed to show the results of two case studies in which world velocity is estimated from raw videos
7

Kijak, Ewa. "Structuration multimodale des vidéos de sports par modèles stochastiques." Rennes 1, 2003. https://tel.archives-ouvertes.fr/tel-00532944.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette étude présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. La structure de la vidéo est représentée par un modèle de Markov caché hiérarchique, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. L'approche est validée dans le cadre des vidéos de tennis, celles-ci présentant une structure intrinsèque hiérarchique bien définie. En résultat de l'analyse de l'entrelacement temporel des différents types de plans, des scènes caractéristiques du tennis sont identifiées. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées de la structure globale de la vidéo peuvent être utilisées pour la création de résumés vidéo ou pour permettre une navigation non linéaire dans le document.
8

Naturel, Xavier. "Structuration automatique de flux vidéos de télévision." Phd thesis, Université Rennes 1, 2007. http://tel.archives-ouvertes.fr/tel-00524584.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La structuration automatique de flux de télévision est un nouveau sujet de recherche, dont l'apparition est liée à l'augmentation de volume des archives de vidéos numériques de télévision. Cette thèse propose une chaîne complète de structuration, qui permet de segmenter et d'étiqueter automatiquement un flux télévisé. Les travaux présentés se divisent en quatre parties : la définition d'outils, la segmentation, l'étiquetage, et la mise à jour. Un flux de télévision est intrinsèquement répétitif. L'une des idées directrices de la thèse est de considérer les répétitions comme une aide essentielle pour la structuration, en particulier pour réaliser la distinction entre les programmes et les inter-programmes. Une méthode rapide de détection des répétitions dans des flux vidéos est proposée, permettant de gérer d'importants volumes vidéos, à partir d'une base de vidéos de référence, étiquetée manuellement. Grâce à un outil, ainsi qu'à la détection des séparations entre publicités, une segmentation en programmes/inter-programmes est réalisée. Les segments sont alors étiquetés à partir du guide des programmes, en réalisant un alignement global par dynamic time warping. Enfin, une étape de mise à jour permet de réduire la dépendance à une base de Référence manuelle, ainsi que de réduire la baisse de qualité des résultats de structuration au cours du temps.
9

Lefebvre-Albaret, François. "Traitement automatique de vidéos en LSF : modélisation et exploitation des contraintes phonologiques du mouvement." Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00608768.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans le domaine du Traitement Automatique des Langues Naturelles, l'exploitation d'énoncés en langues des signes occupe une place à part. En raison des spécificités propres à la Langue des Signes Française (LSF) comme la simultanéité de plusieurs paramètres, le fort rôle de l'expression du visage, le recours massif à des unités gestuelles iconiques et l'utilisation de l'espace pour structurer l'énoncé, de nouvelles méthodes de traitement doivent être adaptées à cette langue. Nous exposons d'abord une méthode de suivi basée sur un filtre particulaire, permettant de déterminer à tout moment la position de la tête, des coudes, du buste et des mains d'un signeur dans une vidéo mono-vue. Cette méthode a été adaptée à la LSF pour la rendre plus robuste aux occultations, aux sorties de cadre et aux inversions des mains du signeur. Ensuite, l'analyse de données issues de capture de mouvement nous permet d'aboutir à une catégorisation de différents mouvements fréquemment utilisés dans la production de signes. Nous en proposons un modèle paramétrique que nous utilisons dans le cadre de la recherche de signes dans une vidéo, à partir d'un exemple vidéo de signe. Ces modèles de mouvement sont enfin réutilisés dans des applications permettant d'assister un utilisateur dans la création d'images de signe et la segmentation d'une vidéo en signes.
10

Denoulet, Julien. "Architectures massivement parallèles de systèmes sur circuits (SoC) pour le traitement de flux vidéos." Paris 11, 2004. http://www.theses.fr/2004PA112223.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette these porte sur l'evolution d'une architecture simd massivement parallele, reconfigurable et partiellement asynchrone dediee a l'analyse d'images, la maille associative. Cette architecture est tiree d'un modele de calcul theorique appele reseaux associatifs, qui permet d'implementer de faÇon efficace un grand nombre d'algorithme de traitements d'images. Dans l'optique d'une integration materielle sur une plate-forme de type system on chip (soc), cette etude presente les diverses possibilites d'evolution de l'architecture, en evalue les couts materiels et les repercussions sur les performances du circuit, dans une problematique d'adequation algorithme architecture. Nous montrons qu'une reorganisation de la structure fondee sur la virtualisation de ses processeurs elementaires permet de reduire de faÇon substantielle la surface du circuit, et ouvre de nouvelles perspectives de calcul ou de gestion de la memoire. A l'aide d'un environnement de programmation et d'evaluation bati autour d'une bibliotheque de simulation des reseaux associatifs et d'une description parametrable de l'architecture en langage system c, nous montrons que la maille associative virtualisee permet de soutenir des cadences de traitement temps-reel pour un grand nombre d'algorithmes d'analyse d'images : operations de pretraitements (filtrage par convolution, operations statistiques ou de morphologie mathematique), segmentations par decoupe ou fusion de voronoï et ligne de partage des eaux, detection de mouvements par relaxation markovienne
This thesis describes the evolution of the associative mesh, a massively parallel simd architecture dedicated to image processing. This design is drawn from a theoretical model called associative nets, which implements a large number of image processing algorithms in an efficient way. In the prospect of a system on chip (soc) implementation of the associative mesh, this study presents the various possibilities of evolution for this architecture, and evaluates their consequences in terms of hardware costs and algorithmic performances. We show that a reorganisation of the structure based on the virtualisation of its elementary processors allows to reduce the design's area in substantial proportions, and opens new prospects in terms of calculation or memory management. Using an evaluation environment based on a programming library of associative nets and a parameterized description of the architecture using the system c language, we show that a virtualised associative mesh achieves real-time treatments for a great number of algorithms: low-level operations such as convolution filters, statistical statistical algorithms or mathematical morphology, and more complex treatments such as a split & merge segmentation, watershed segmentation, and motion detection using markovian relaxation
11

Dellandréa, Emmanuel. "Analyse de signaux vidéos et sonores : application à l'étude de signaux médicaux." Tours, 2003. http://www.theses.fr/2003TOUR4031.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La problématique considérée concerne l'étude de séquences multimédia constituées d'images et de sons dont il s'agit d'étudier les corrélations de manière à aider à la compréhension de l'origine des bruits. L'analyse des séquences d'images consiste à suivre les objets en mouvement de manière à permettre leur étude. Une méthode générique, reposant sur une combinaison de suivi de régions et de contours, et une méthode adaptée aux objets homogènes, reposant sur la théorie des ensembles de niveaux, sont proposées. L'analyse des données sonores consiste en l'élaboration d'un système d'identification reposant sur des données sonores consiste en l'élaboration d'un système d'identification reposant sur l'étude de la structure des signaux grâce à des codages adaptés et à leur modélisation par les lois de Zipf. Ces méthodes ont été évaluées sur des séquences acoustico-radiologiques dans le cadre de l'étude de la pathologie du reflux gastro-oesophagien, en collaboration avec l'équipe Acoustique et Motricité Digestive de l'Université de Tours
The work deals with the study of multimedia sequences containing images and sounds. The analysis of images sequences consists in the tracking of moving objects in order to allow the study of their properties. The investigations have to enable the understanding of sounds when correlated to events in the image sequence. One generic method, based on the combination of regions and contours tracking, and one method adapted to homogeneous objects, based on level set theory, are proposed. The analysis of audio data consists in the development of an identification system based on the study of the structure of signals thanks to their coding and Zipf laws modeling. These methods have been evaluated on medical sequences within the framework of the gastro-oesophageal reflux pathology study, in collaboration with the Acoustique et Motricité Digestive research team of the University of Tours
12

Boltz, Sylvain. "Un cadre statistique en traitement d'images et vidéos par approche variationnelle avec modélisation haute dimension." Phd thesis, Université de Nice Sophia-Antipolis, 2008. http://tel.archives-ouvertes.fr/tel-00507488.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse aborde le traitement d'images et de vidéos sous l'angle variationnel, c'est-à-dire sous forme d'une énergie dont le minimum est atteint pour la solution. La modélisation adoptée pour formaliser le problème et obtenir ces énergies peut être déterministe ou stochastique. Il est connu que la première approche est équivalente à la classe paramétrique de la seconde. Ce constat nous a amené à faire le choix de la seconde approche a priori plus générale si l'on se débarrasse de l'hypothèse paramétrique. En contrepartie, il s'agit d'être capable d'exprimer et d'estimer une énergie en fonction des données alors interprétées comme des échantillons d'une variable aléatoire. Ce premier obstacle est classiquement surmonté par l'emploi de méthodes à noyau fixe sur des lois marginales, autrement dit, en supposant les canaux de données indépendants entre eux. Or cet obstacle en cache deux autres : l'inhomogénéité de la répartition des échantillons dans leur espace d'appartenance et leur faible densité dans cet espace. Ces difficultés, ainsi que l'hypothèse d'indépendance mentionnée plus haut, sont d'autant plus pénalisantes que le modèle proposé pour les données est de grande dimension (canaux couleur, mais aussi ajouts d'autres canaux pour prendre en compte les structures locales des images). Au fondement d'estimateurs de mesures statistiques telle que l'entropie, l'idée du kième plus proche voisin permet de résoudre les difficultés évoquées en s'adaptant à la densité locale des données, en considérant les canaux conjointement, et ce quelle que soit leur nombre. Dans ce contexte, nous proposons une approche statistique générale inspirée de la théorie de l'information, dédiée aux approches variationnelles car estimant efficacement des énergies en haute dimension, permettant le calcul de leur dérivée et pouvant estimer localement des probabilités. Ce cadre est appliqué aux trois problèmes de traitement d'images ou de vidéos que sont l'estimation de flot optique, le suivi d'objets vidéos et la segmentation. Ce point de vue, en permettant de limiter sinon de s'affranchir du problème de la dimension des données, autorise la définition de nouvelles mesures et lois de probabilités plus adaptées aux images naturelles. Certains travaux en suivi d'objets et en segmentation ont conduit à des implémentations industrielles.
13

Lu, Hua. "Video Analysis for Micro- Expression Spotting and Recognition." Thesis, Rennes, INSA, 2018. http://www.theses.fr/2018ISAR0005/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les principales contributions de cette these, en analyse d'image, portent sur l’etude des caracteristiques de reperage et de reconnaissance des micro-expressions. les approches d’analyse d’expressions faciales dans le domaine de la vision par ordinateur consistent a les detecter et a les classer dans des videos. par rapport a la macro-expression, une micro-expression induit dans une partie du visage un changement rapide durant moins d'une demi-seconde. de plus, cette subtile apparition dans une partie du visage rend difficile sa detection et sa reconnaissance. ces dernieres annees ont connu un interet croissant pour des algorithmes d’extraction automatique de micro-expressions faciales. cela a ete motive par des applications dans des contextes a enjeux eleves tels les enquetes criminelles, les points de controle des aeroports et des transports en commun, le contre-terrorisme, … le choix de caracteristiques faciales efficaces joue un role crucial dans l’analyse des micro-expressions.ce travail se concentre sur la partie d’extraction de caracteristiques, en proposant diverses methodes pour les taches de detection et de reconnaissance de micro-expression.la detection constitue la premiere etape dans l'analyse des micro-expressions. les methodes de detection existantes basees sur des caracteristiques, tels les motifs binaires locaux (lbp), l’histogramme de gradients orientes (hog), le flux optique, souffrent de complexite de mise en œuvre entrainant un probleme d'implementation en temps reel. ainsi, dans cette these, une methode de detection basee sur la projection integrale est proposee pour resoudre ce probleme. cependant, toutes les caracteristiques ci-dessus sont extraites des visages recadres et rognees ; ce qui cause, generalement, un decalage residuel entre les images. pour resoudre ce probleme, est proposee une autre methode de detection basee sur des caracteristiques geometriques. cette derniere exploite les distances geometriques entre des points cles du visage sans necessite de recadrer l'image. ceci permet de capturer des deplacements geometriques subtils le long des sequences et s’avere approprie pour differentes taches d’analyse faciale qui requierent une grande vitesse de calcul.parmi les caracteristiques de reconnaissance de micro-expressions existantes, celles de mouvement basees sur le flux optique presentent des avantages dans la caracterisation de mouvements subtils sur le visage. toutefois, il reste difficile de determiner les emplacements precis de chaque mappage de traits du visage entre les differentes trames par flux optique, meme si les images ont ete alignees. un tel probleme peut donner lieu a une mauvaise estimation, a la fois, de l'orientation et de l’amplitude associees au flux optique. pour y pallier, nous proposons une nouvelle approche (dite fmbh) basee sur les histogrammes de frontiere de mouvement (mbh). elle permet de supprimer les mouvements inattendus causes par un mauvais recalage residuel apparaissant entre les images recadrees tout en capturant le mouvement relatif caracterisant la micro-expression. cette caracteristique est generee en combinant les composantes horizontales et verticales du differentiel de flux optique.les differents developpements de ce travail ont conduit a des etudes comparatives avec des approches de l'etat de l'art sur des bases de donnees bien connues et exploitees par la communaute du domaine. les resultats experimentaux, ainsi obtenues, montrent l'efficacite de nos contributions
Recent years, there has been an increasing interest in the computer vision in automatic facial micro-expression algorithms. this has been driven by applications in high-stakes contexts such as criminal investigations, airport and mass transit checkpoints, counter terrorism, and so on. micro-expression approaches in computer vision area consist of detecting and classifying them from videos. compared to macro-expression, a micro-expression involves a rapid change which lasts less than a half of second, and moreover, its subtle appearance in part of the face makes detection and recognition difficult to achieve. effective facial features play a crucial role for micro-expression analysis. this thesis focuses on the feature extraction parts, by developing various feature extraction methods for types of micro-expression detection and recognition tasks.the detection of micro-expressions is the first step for its analysis. this thesis aims to spot micro-expressions from videos. existing detection methods based on features, such as the local binary patterns, the histogram of gradient, the optical flow suffer difficulties in computation consuming leading to real-time implementation problem. thus, in this thesis, the spotting method based on integral projection to address this problem. however, all the above features are extracted from cropped faces which usually cause residual mis-registration that appears between images. in order to deal with this issue, another detection method based on geometrical feature is proposed. it involves the geometrical distances between facial key-points without the need of cropping face. this captures subtle geometric displacements along sequences and is proved to be suitable for different facial analysis tasks that require high computational speed. for micro-expression recognition, motion features based on the optical flow have advantages in characterizing subtle movements on face among the existing recognition features. it is still a difficult problem for optical flow to determine the accurate locations of each facial feature mappings between different images even though the face images have been aligned. such an issue may give rise to wrong orientation and magnitude estimation associated to the optical flow field. in order to address this problem, the motion boundary histograms are considered. it can remove unexpected motions caused by residual mis-registration that appears between images cropped from different frames. nevertheless, the relative motion can be captured. based on the the motion boundary, a new descriptor the fusion motion boundary histograms is introduced. this feature is generated by combing both the horizontal and the vertical components of the differential of optical flow as inspired from the motion boundary histograms. the main contributions of this thesis lie at the study of features for micro-expressions spotting and recognition. experiments on the micro-expression databases show the effectiveness of the presented contributions
14

Barland, Rémi. "Évaluation objective sans référence de la qualité perçue : applications aux images et vidéos compressées." Nantes, 2007. http://www.theses.fr/2007NANT2028.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le passage au tout numérique et le développement des communications multimédias engendrent une circulation de l’information de plus en plus dense. Cet accroissement massif de la quantité de données échangées génère une saturation progressive des réseaux de transmission. Pour remédier à cette situation, les standards de compression cherchent à exploiter davantage la corrélation spatiale et/ou temporelle pour réduire les débits. La réduction d’information résultante génère des artéfacts visuels qui peuvent altérer le contenu visuel de la scène et donc provoquer une gêne chez l’utilisateur final. Afin de proposer le meilleur service de diffusion possible, la mesure de la qualité perçue est alors nécessaire. Les tests subjectifs qui représentent la méthode de référence pour quantifier la perception des dégradations, sont coûteux, lourds à mettre en œuvre et demeurent inappropriés pour une mesure de la qualité en ligne. Dans cette thèse, nous nous sommes intéressés aux standards de compression (image et vidéo) les plus usuels et avons élaboré des métriques de qualité sans référence basées sur l’exploitation des artéfacts visuels les plus gênants, tels que les effets de blocs, de flou et de ringing. L’approche proposée est modulaire et s’adapte au codeur considéré et au rapport complexité/performance recherché. Pour une faible complexité, la métrique quantifie les dégradations spécifiques au codeur considéré, en exploitant uniquement les propriétés du signal image. Pour atteindre de meilleures performances, au détriment d’une certaine complexité, celle-ci intègre en plus des modèles cognitifs simulant les mécanismes de l’attention visuelle. Les cartes de saillance générées par ces modélisations sont alors utilisées pour affiner les mesures de dégradations purement signal proposées
The conversion to the all-digital and the development of multimedia communications produce an ever-increasing flow of information. This massive increase in the quantity of data exchanged generates a progressive saturation of the transmission networks. To deal with this situation, the compression standards seek to exploit more and more the spatial and/or temporal correlation to reduce the bit rate. The reduction of the resulting information creates visual artefacts which can deteriorate the visual content of the scene and thus cause troubles for the end-user. In order to propose the best broadcasting service, the assessment of the perceived quality is then necessary. The subjective tests which represent the reference method to quantify the perception of distortions are expensive, difficult to implement and remain inappropriate for an on-line quality assessment. In this thesis, we are interested in the most used compression standards (image or video) and have designed no-reference quality metrics based on the exploitation of the most annoying visual artefacts, such as the blocking, blurring and ringing effects. The proposed approach is modular and adapts to the considered coder and to the required ratio between computational cost and performance. For a low complexity, the metric quantifies the distortions specific to the considered coder, only exploiting the properties of the image signal. To improve the performance, to the detriment of a certain complexity, this one integrates in addition, cognitive models simulating the mechanisms of the visual attention. The saliency maps generated are then used to refine the proposed distortion measures purely based on the image signal
15

Precioso, Frédéric. "Contours actifs paramétriques pour la segmentationd'images et vidéos." Phd thesis, Université de Nice Sophia-Antipolis, 2004. http://tel.archives-ouvertes.fr/tel-00327411.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse s'inscrit dans le cadre des modèles de contours actifs. Il s'agit de méthodes dynamiquesappliquées à la segmentation d'image, en image fixe et vidéo. L'image est représentée par desdescripteurs régions et/ou contours. La segmentation est traitée comme un problème deminimisationd'une fonctionnelle. La recherche du minimum se fait via la propagation d'un contour actif dit basérégions. L'efficacité de ces méthodes réside surtout dans leur robustesse et leur rapidité. L'objectifde cette thèse est triple : le développement (i) d'une représentation paramétrique de courbes respectantcertaines contraintes de régularités, (ii) les conditions nécessaires à une évolution stable de cescourbes et (iii) la réduction des coûts calcul afin de proposer une méthode adaptée aux applicationsnécessitant une réponse en temps réel.Nous nous intéressons principalement aux contraintes de rigidité autorisant une plus granderobustesse vis-à-vis du bruit. Concernant l'évolution des contours actifs, nous étudions les problèmesd'application de la force de propagation, de la gestion de la topologie et des conditionsde convergence. Nous avons fait le choix des courbes splines cubiques. Cette famille de courbesoffre d'intéressantes propriétés de régularité, autorise le calcul exact des grandeurs différentiellesqui interviennent dans la fonctionnelle et réduit considérablement le volume de données à traiter.En outre, nous avons étendu le modèle classique des splines d'interpolation à un modèle de splinesd'approximation, dites smoothing splines. Ce dernier met en balance la contrainte de régularité etl'erreur d'interpolation sur les points d'échantillonnage du contour. Cette flexibilité permet ainsi deprivilégier la précision ou la robustesse.L'implémentation de ces modèles de splines a prouvé son efficacité dans diverses applicationsde segmentation.
16

Soladié, Catherine. "Représentation Invariante des Expressions Faciales." Phd thesis, Université Rennes 1, 2013. http://tel.archives-ouvertes.fr/tel-00935973.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
De plus en plus d'applications ont pour objectif d'automatiser l'analyse des comportements humains afin d'aider ou de remplacer les experts qui réalisent actuellement ces analyses. Cette thèse traite de l'analyse des expressions faciales qui fournissent des informations clefs sur ces comportements. Les travaux réalisés portent sur une solution innovante permettant de définir efficacement une expression d'un visage, indépendamment de la morphologie du sujet. Pour s'affranchir des différences de morphologies entre les personnes, nous utilisons des modèles d'apparence spécifiques à la personne. Nous proposons une solution qui permet à la fois de tenir compte de l'aspect continu de l'espace des expressions et de la cohérence des différentes parties du visage entre elles. Pour ce faire, nous proposons une approche originale basée sur l'organisation des expressions. Nous montrons que l'organisation des expressions, telle que définie, est universelle et qu'elle peut être efficacement utilisée pour définir de façon unique une expression : une expression est caractérisée par son intensité et sa position relative par rapport aux autres expressions. La solution est comparée aux méthodes classiques basées sur l'apparence et montre une augmentation significative des résultats de reconnaissance sur 14 expressions non basiques. La méthode a été étendue à des sujets inconnus. L'idée principale est de créer un espace d'apparence plausible spécifique à la personne inconnue en synthétisant ses expressions basiques à partir de déformations apprises sur d'autres sujets et appliquées sur le neutre du sujet inconnu. La solution est aussi mise à l'épreuve dans un environnement multimodal plus complet dont l'objectif est la reconnaissance d'émotions lors de conversations spontanées. Les résultats montrent que la solution est efficace sur des données réelles et qu'elle permet l'extraction d'informations essentielles à l'analyse des émotions. Notre méthode a été mise en œuvre dans le cadre du challenge international AVEC 2012 (Audio/Visual Emotion Challenge) où nous avons fini 2nd, avec des taux de reconnaissance très proches de ceux obtenus par les vainqueurs. La comparaison des deux méthodes (la nôtre et celles des vainqueurs) semble montrer que l'extraction des caractéristiques pertinentes est la clef de tels systèmes.
17

LIOZON, PATRICK. "Une nouvelle technique de traitement chirurgical des paralysies faciales : la retension du muscle de horner." Limoges, 1989. http://www.theses.fr/1989LIMO0185.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
18

Chan-Hon-Tong, Adrien. "Segmentation supervisée d'actions à partir de primitives haut niveau dans des flux vidéos." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066226/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse porte sur la segmentation supervisée de flux vidéo dans un contexte applicatif lié à la reconnaissance d'actions de la vie courante.La méthode de segmentation proposée est dérivée la méthode des modèles de formes implicites (Implicit Shape Model) et s'obtient en optimisant les votes présents dans cette méthode d'élection.Nous démontrons que cette optimisation (dans un contexte de fenêtre temporelle glissante) peut être exprimée de manière équivalente dans le formalisme des SVM en imposant une contrainte de cohérence temporelle à l'apprentissage, ou, en représentant la fenêtre glissante selon une décomposition pyramidale dense.Tout ce processus est validé expérimentalement sur un jeu de données de la littérature de segmentation supervisée.Il y surpasse les autres méthodes de type modèles de formes implicites et le SVM linéaire standard.La méthode proposée est ensuite mise en œuvre dans le cadre de la segmentation supervisée d'actions.Pour cela, des primitives dédiées sont extraites des données squelette de la personne d'intérêt obtenues grâce à des logiciels standards.Ces primitives sont ensuite quantifiées puis utilisées par la méthode d'élection.Ce système de segmentation d'actions obtient les meilleurs scores de l'état de l'art sur un jeu de données de la littérature de reconnaissance d'actions, ce qui valide cette combinaison des primitives et de la méthode d'élection
This thesis focuses on the supervised segmentation of video streams within the application context of daily action recognition.A segmentation algorithm is obtained from Implicit Shape Model by optimising the votes existing in this polling method.We prove that this optimisation can be linked to the sliding windows plus SVM framework and more precisely is equivalent with a standard training by adding temporal constraint, or, by encoding the data through a dense pyramidal decomposition. This algorithm is evaluated on a public database of segmentation where it outperforms other Implicit Shape Model like methods and the standard linear SVM.This algorithm is then integrated into a action segmentation system.Specific features are extracted from skeleton obtained from the video by standard software.These features are then clustered and given to the polling method.This system, combining our feature and our algorithm, obtains the best published performance on a human daily action segmentation dataset
19

Brangoulo, Sébastien. "Codage d'images fixes et de vidéos par ondelette de seconde génération : théorie et applications." Rennes 1, 2005. http://www.theses.fr/2005REN1S003.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans le cadre de cette thèse, nous nous sommes intéressés au problème d'adaptation des ondelettes de seconde génération (ou ondelettes géométriques),afin d'analyser les images et les vidéos numériques. Nous exposons dans un premier temps une introduction ainsi que la problématique que nous nous sommes fixée dans cette thèse. Nous présentons ensuite quelques éléments sur les ondelettes de première génération afin de motiver nos recherches et d'en montrer les limites. Nous exposons ensuite les différents travaux théoriques des ondelettes de seconde génération et des maillages. Après l'étude relative aux différents états de l'art issus des deux types d'ondelettes, nous proposons d'introduire différents codecs vidéos usant des caractéristiques ondelettes et blocs. Ces analyses nous permettent d'introduire une version hybride du codec H264 comprenant une brique de compression JPEG2000 afin de coder les images d'erreur. Considérant ceci, nous élaborons une chaîne complète d'encodage (mise en forme de l'information, analyse des données pertinentes, quantification et compression, création du flux scalable ) et de décodage par ondelettes de seconde génération pour les images fixes. Cette étude est suivie par une analyse fine des différentes caractéristiques intrinsèques aux ondelettes afin de choisir efficacement un type d'ondelettes donné en fonction des régions d'intérêts des images à encoder. Nous traitons enfin de l'intégration de notre processus dans un schéma de codage H. 264 et d'une étude comparative des performances de notre encodeur face aux standards actuels. Des outils permettant de meilleures performances sont proposés, et certains d'entre eux sont testés. Enfin, nous concluons et exposons les perspectives pour des travaux futurs.
20

Léonard, Isabelle. "Reconnaissance des objets manufacturés dans des vidéos sous-marines." Phd thesis, Université de Bretagne occidentale - Brest, 2012. http://tel.archives-ouvertes.fr/tel-00780647.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les mines sous marines sont très utilisées dans les conflits. Pour contrer cette menace, les marines s'équipent de moyens de lutte anti-mine autonomes afin d'éviter l'intervention humaine. Une mission de guerre des mines se découpe en quatre étapes distinctes : la détection des objets, la classification et l'identification puis la neutralisation. Cette thèse propose des solutions algorithmiques pour l'étape d'identification par caméra vidéo. Le drone d'identification connaît la position approximative de l'objet à identifier. La première mission de ce drone est de re-détecter l'objet avant de le classifier et de l'identifier. Le milieu sous-marin perturbe les images acquises par la caméra (absorption, diffusion). Pour faciliter la détection et la reconnaissance (classification et identification), nous avons prétraité les images. Nous avons proposé deux méthodes de détection des objets. Tout d'abord nous modifions le spectre de l'image afin d'obtenir une image dans laquelle il est possible de détecter les contours des objets. Une seconde méthode a été développée à partir de la soustraction du fond, appris en début de séquence vidéo. Les résultats obtenus avec cette seconde méthode ont été comparés à une méthode existante. Lorsqu'il y a une détection, nous cherchons à reconnaître l'objet. Pour cela, nous utilisons la corrélation. Les images de référence ont été obtenues à partir d'images de synthèse 3D des mines. Pour les différentes méthodes utilisées, nous avons optimisés les résultats en utilisant les informations de navigation. En effet, selon les déplacements du drone, nous pouvons fixer des contraintes qui vont améliorer la détection et réduire le temps de calcul nécessaire à l'identification.
21

Hervieu, Alexandre. "Analyse de trajectoires vidéos à l'aide de modélisations markoviennes pour l'interprétation de contenus." Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/hervieu.pdf.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse traite de l'utilisation de trajectoires issues de vidéos. La méthode est invariante aux translations, aux rotations ainsi qu'aux facteurs d'échelle tout en prenant en compte des informations de dynamiques et de formes. Un Modèle de Markov caché (MMC) est proposé afin de supporter le manque d'observations, toutes les sélections de paramètres étant considérées. Une mesure de similarité entre MMC est utilisée pour des tâches de reconnaissance de contenu vidéo: la classification, le clustering de plans vidéo et la détection d'évènements rares. Des chaînes semi-markoviennes sont ensuite développées afin de traiter les interactions entre trajectoires. Celles-ci sont utilisées afin de reconnaître les phase d'activités observées. La méthode a été utilisée sur des vidéos de squash et de handball. Ces modèles ont été étendus à la reconnaissance de gestes et d'actions 3D. Les résultats montrent l'intérêt de la prise en compte des interactions pour de telles applications
This thesis deals with the use of trajectories extracted from videos. The approach is invariant to translation, to rotation and to scaling and takes into account both shape and dynamics-related information on the trajectories. A hidden Markov model (HMM) is proposed to handle lack of observations and parameters are properly estimated. A similarity measure between HMM is used to tackle three dynamic video content understanding tasks: recognition, clustering and detection of unexpected events. Hierarchical semi-Markov chains are developed to process interacting trajectories. The interactions between trajectories are taken into used to recognize activity phases. Our method has been evaluated on sets of trajectories extracted from squash and handball video. Applications of such interaction-based models have also been extended to 3D gesture and action recognition and clustering. The results show that taking into account the interactions may be of great interest for such applications
22

Mahboubi, Amal Kheira. "Méthodes d'extraction, de suivi temporel et de caractérisation des objets dans les vidéos basées sur des modèles polygonaux et triangulés." Nantes, 2003. http://www.theses.fr/2003NANT2036.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La diversification des services multimédias et l'émergence du standatd MPEG4 au milieu des années 1990 a mis en évidence la nécessité de recherches approfondies sur les méthodes d'analyse de la vidéo numérique en vue de la représentation de son contenu. Cette thèse s'inscrit dans ce contexte. Nous cherchons à concevoir un système complet de représentation du contenu vidéo en prenant en compte ses aspects spatial et temporel. A cet effet, dans cette thèse nous présentons plusieurs méthodes pour le suivi des objets contenus dans des séquences vidéo génériques. Chaque objet plan noté 'VOP' (Video Object Plane) est représenté par un maillage triangulaire associé à un modèle polygonal hiérarchique et articulé. La segmentation, fondée sur des régions polygonales, permet de maintenir un découpage cohérent au cours du temps d'un VOP en zones à mouvements homogènes. . .
23

Landais, Rémi. "Compréhension de systèmes d'extraction d'objets dans la vidéo sous l'angle de l'adaptation." Lyon, INSA, 2006. http://theses.insa-lyon.fr/publication/2006ISAL0019/these.pdf.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
A l'Institut National de l'Audiovisuel, l'extraction d'objets dans les flux audiovisuels est une tâche importante dans le cadre de l'aide à la documentation. La diversité des objets est telle qu'une adaptation des systèmes d'extraction est nécessaire pour maintenir un égal niveau de performances, quel que soit le document sur lequel ceux-ci sont appliqués. Cette thèse présente une méthodologie d'adaptation de ces systèmes dite "autonome", c'est à dire ne reposant pas sur l'utilisation de connaissances a priori sur le mode de fonctionnement de ceux-ci. La méthodologie construite repose sur deux analyses : la première isole les comportements du système, et la seconde, appelée "diagnostic de responsabilité", a pour objectif de déterminer, pour un comportement insuffisant donné (une erreur particulière), le module du système responsable de l'erreur, dont il conviendra d'ajuster les paramètres. Les expérimentations menées au cours de ces travaux portent sur l'objet "texte vidéo"
At the French “Institut National de l’Audiovisuel”, extracting meaningful objects, such as texts or faces, from video streams is a task of great importance so as to automate the documentation process. These objects may take many different forms and such variations impose to adapt extraction systems to maintain their performances over different documents. This PhD presents an autonomous adaptation methodology of these systems: it does not require the acquisition of any expert knowledge concerning the functioning of the system. The methodology is then based on the fusion of two analyses: the first one extracts the different categories of performances obtained by the system and especially, the different types of errors it produces; the second analysis, called “diagnosis of responsibility”, aims at determining automatically which module of the system is responsible of each error category, in order to tune its parameters. Experimentations have been carried out on the text object
24

Ravaut, Frédéric. "Analyse automatique des manifestations faciales cliniques par techniques de traitement d'images : application aux manifestations de l'épilepsie." Paris 5, 1999. http://www.theses.fr/1999PA05S027.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'objectif de cette thèse est d'apporter la précision du traitement numérique d'images et l'automatisation de certaines taches dans le processus médical d'étude des maladies paroxystiques dont les manifestations sont observables au niveau du visage. A ce titre, nous nous sommes particulièrement intéressés à certaines formes d'épilepsie. Approche totalement innovante dans la démarche diagnostique actuelle, l'analyse automatique des mouvements prend place aux cotes de l'examen clinique et electroencephalographique du patient. Elle exploite les enregistrements vidéo de crises réalisés en milieu hospitalier et utilises par les médecins à des fins d'illustration et de classification des types de crise et des syndromes épileptiques. La démarche méthodologique adoptée consiste à exploiter les séquences d'images numériques pour y étudier le mouvement apparent et réaliser une caractérisation topologique et morphologique des parties significatives du visage. L'ordonnancement des mouvements observables durant la crise, étudié par analyse de différences inter-images, est la traduction du cheminement de l'activité cérébrale anormale liée à la période critique et permet d'en retrouver la source avant propagation : le foyer epileptogene. Cette zone du cerveau focalisera alors plus particulièrement l'attention des médecins dans l'élaboration d'une solution thérapeutique. La caractérisation, qui exploite des techniques de segmentation par approche région puis la définition de paramètres mesures sur les zones segmentées, permet une quantification précise des phénomènes observes là ou n'était réalisée qu'une analyse visuelle. Cette quantification participe au début de l'évaluation chiffrée des manifestations cliniques liées a certaines formes d'épilepsie et a d'autres maladies à caractère paroxystique. Elle permettra, dans les perspectives d'évolution du système potentiellement déclenché par la détection de grapho-elements significatifs dans le tracé electroencephalographique, une reconnaissance automatique du type de crise.
25

Dollion, Nicolas. "Le traitement des expressions faciales au cours de la première année : développement et rôle de l'olfaction." Thesis, Dijon, 2015. http://www.theses.fr/2015DIJOS085/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La première année de vie constitue une étape critique dans le développement des capacités de traitement des expressions faciales. Olfaction et expressions sont toutes deux étroitement liées, et il est reconnu que dès la naissance les enfants sont capables d’intégrer leur environnement de façon multi-sensorielle. Toutefois, la plupart des travaux sur le traitement multimodal des visages et des expressions se sont restreints à l’étude des interactions audio-visuelles.Dans ce travail de thèse, nous avons en premier lieu levé différentes ambiguïtés concernant l’ontogenèse des capacités de traitement des expressions. Les résultats obtenus ont permis de spécifier l’évolution des stratégies d’exploration visuelle des émotions au cours de la première année, et de démontrer la présence d’une distinction progressive des expressions selon leur signification émotionnelle. Au moyen de l’EEG, nous avons aussi précisé la nature et le décours temporel de la distinction des expressions chez les nourrissons de 3 mois.Le second objectif de nos travaux a été d’approfondir les connaissances sur le traitement multi-sensoriel des expressions, en nous intéressant spécifiquement aux interactions olfacto-visuelles. Nos expériences en potentiels évoqués ont permis de préciser le décours de l’intégration cérébrale de l’odeur dans le traitement des expressions chez l’adulte, et de démontrer la présence d’interactions similaires chez l’enfant de 3 mois. Nous avons également démontré qu’à 7 mois, les odeurs déclenchent une recherche d’expression spécifique. Il ressort de ces travaux que l’olfaction pourrait contribuer à l’établissement des capacités de traitement des expressions faciales
The first year of life is critical for the development of the abilities to process facial expressions. Olfaction and expressions are both strongly linked to each other, and it is well known that infants are able to multisensorially integrate their environment as early as birth. However, most of the studies interested in multisensory processing of facial expressions are restricted to the investigation of audio-visual interactions.In this thesis, we firstly aimed to resolve different issues concerning the ontogenesis of infants’ ability to process facial expressions. Our results allowed to specify the development of visual exploratory strategies of facial emotions along the first year of life, and to demonstrate that a progressive distinction of expressions according to their emotional meaning is present. Using the EEG, we were also able to specify the nature and the time course of facial expressions distinction in 3-month-old infants.The second objective of our studies was to expand the knowledge concerning the multisensory processing of facial expressions. More specifically we wanted to investigate the influence of olfacto-visual interactions on this processing. Our event-related potentials experiments allowed to specify the time course of the cerebral integration of olfaction in the visual processing of emotional faces in adults, and to demonstrate that similar interactions are present in infants as young as 3 month-old. We also demonstrated that at 7 months of age odors trigger the search for specific facial expressions. Our results suggest that olfaction might contribute to the development of infants’ ability to process facially displayed emotions
26

Baccouche, Moez. "Apprentissage neuronal de caractéristiques spatio-temporelles pour la classification automatique de séquences vidéo." Phd thesis, INSA de Lyon, 2013. http://tel.archives-ouvertes.fr/tel-00932662.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse s'intéresse à la problématique de la classification automatique des séquences vidéo. L'idée est de se démarquer de la méthodologie dominante qui se base sur l'utilisation de caractéristiques conçues manuellement, et de proposer des modèles qui soient les plus génériques possibles et indépendants du domaine. Ceci est fait en automatisant la phase d'extraction des caractéristiques, qui sont dans notre cas générées par apprentissage à partir d'exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modèles neuronaux pour la reconnaissance d'objets dans les images fixes, et nous étudions leur extension au cas de la vidéo. Plus concrètement, nous proposons deux modèles d'apprentissage des caractéristiques spatio-temporelles pour la classification vidéo : (i) Un modèle d'apprentissage supervisé profond, qui peut être vu comme une extension des modèles ConvNets au cas de la vidéo, et (ii) Un modèle d'apprentissage non supervisé, qui se base sur un schéma d'auto-encodage, et sur une représentation parcimonieuse sur-complète des données. Outre les originalités liées à chacune de ces deux approches, une contribution supplémentaire de cette thèse est une étude comparative entre plusieurs modèles de classification de séquences parmi les plus populaires de l'état de l'art. Cette étude a été réalisée en se basant sur des caractéristiques manuelles adaptées à la problématique de la reconnaissance d'actions dans les vidéos de football. Ceci a permis d'identifier le modèle de classification le plus performant (un réseau de neurone récurrent bidirectionnel à longue mémoire à court-terme -BLSTM-), et de justifier son utilisation pour le reste des expérimentations. Enfin, afin de valider la généricité des deux modèles proposés, ceux-ci ont été évalués sur deux problématiques différentes, à savoir la reconnaissance d'actions humaines (sur la base KTH), et la reconnaissance d'expressions faciales (sur la base GEMEP-FERA). L'étude des résultats a permis de valider les approches, et de montrer qu'elles obtiennent des performances parmi les meilleures de l'état de l'art (avec 95,83% de bonne reconnaissance pour la base KTH, et 87,57% pour la base GEMEP-FERA).
27

Guilmart, Christophe. "Filtrage de segments informatifs dans des vidéos." Phd thesis, École normale supérieure de Cachan - ENS Cachan, 2011. http://tel.archives-ouvertes.fr/tel-00668307.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les travaux réalisés dans le cadre de cette thèse ont pour objectif d'extraire les différents segments informatifs au sein de séquences vidéo, plus particulièrement aériennes. L'interprétation manuelle de telles vidéos dans une optique de renseignement se heurte en effet au volume des données disponibles. Une assistance algorithmique fondée sur diverses modalités d'indexation est donc envisagée, dans l'objectif de repérer les "segments d'intérêt" et éviter un parcours intégral de la vidéo. Deux approches particulières ont été retenues et respectivement développées au sein de chaque partie. La partie 1 propose une utilisation des conditions de prise de vue (CPDV) comme modalités d'indexation. Une évaluation de la qualité image permet ainsi de filtrer les segments temporels de mauvaise qualité et donc inexploitables. La classification du mouvement image apparent directement lié au mouvement caméra, fournit une indexation de séquences vidéo en soulignant notamment les segments potentiels d'intérêt ou au contraire les segments difficiles présentant un mouvement très rapide ou oscillant. La partie 2 explore le contenu dynamique de la séquence vidéo, plus précisément la présence d'objets en mouvement. Une première approche locale en temps est présentée. Elle filtre les résultats d'une première classification par apprentissage supervisé en exploitant les informations de contexte, spatial puis sémantique. Différentes approches globales en temps sont par la suite explorées. De telles approches permettent de garantir la cohérence temporelle des résultats et réduire les fausses alarmes.
28

Chan, wai tim Stefen. "Apprentissage supervisé d’une représentation multi-couches à base de dictionnaires pour la classification d’images et de vidéos." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAT089/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ces dernières années, de nombreux travaux ont été publiés sur l'encodage parcimonieux et l'apprentissage de dictionnaires. Leur utilisation s'est initialement développée dans des applications de reconstruction et de restauration d'images. Plus récemment, des recherches ont été réalisées sur l'utilisation des dictionnaires pour des tâches de classification en raison de la capacité de ces méthodes à chercher des motifs sous-jacents dans les images et de bons résultats ont été obtenus dans certaines conditions : objet d'intérêt centré, de même taille, même point de vue. Cependant, hors de ce cadre restrictif, les résultats sont plus mitigés. Dans cette thèse, nous nous intéressons à la recherche de dictionnaires adaptés à la classification. Les méthodes d'apprentissage classiquement utilisées pour les dictionnaires s'appuient sur des algorithmes d'apprentissage non supervisé. Nous allons étudier ici un moyen d'effectuer l'apprentissage de dictionnaires de manière supervisée. Dans l'objectif de pousser encore plus loin le caractère discriminant des codes obtenus par les dictionnaires proposés, nous introduisons également une architecture multicouche de dictionnaires. L'architecture proposée s'appuie sur la description locale d'une image en entrée et sa transformation grâce à une succession d'encodage et de traitements, et fournit en sortie un ensemble de descripteurs adaptés à la classification. La méthode d'apprentissage que nous avons développé est basée sur l'algorithme de rétro-propagation du gradient permettant un apprentissage coordonné des différents dictionnaires et une optimisation uniquement par rapport à un coût de classification. L’architecture proposée a été testée sur les bases de données d’images MNIST, CIFAR-10 et STL-10 avec de bons résultats par rapport aux autres méthodes basées sur l’utilisation de dictionnaires. La structure proposée peut être étendue à l’analyse de vidéos
In the recent years, numerous works have been published on dictionary learning and sparse coding. They were initially used in image reconstruction and image restoration tasks. Recently, researches were interested in the use of dictionaries for classification tasks because of their capability to represent underlying patterns in images. Good results have been obtained in specific conditions: centered objects of interest, homogeneous sizes and points of view.However, without these constraints, the performances are dropping.In this thesis, we are interested in finding good dictionaries for classification.The learning methods classically used for dictionaries rely on unsupervised learning. Here, we are going to study how to perform supervised dictionary learning.In order to push the performances further, we introduce a multilayer architecture for dictionaries. The proposed architecture is based on the local description of an input image and its transformation thanks to a succession of encoding and processing steps. It outputs a vector of features effective for classification.The learning method we developed is based on the backpropagation algorithm which allows a joint learning of the different dictionaries and an optimization solely with respect to the classification cost.The proposed architecture has been tested on MNIST, CIFAR-10 and STL-10 datasets with good results compared to other dicitonary-based methods. The proposed architecture can be extended to video analysis
29

Matta, Federico. "Video person recognition strategies using head motion and facial appearance." Nice, 2008. http://www.theses.fr/2008NICE4038.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
In this doctoral dissertation, we principally explore the use of the temporal information available in video sequences for person and gender recognition; in particular, we focus on the analysis of head and facial motion, and their potential application as biometric identifiers. We also investigate how to exploit as much video information as possible for the automatic recognition; more precisely, we examine the possibility of integrating the head and mouth motion information with facial appearance into a multimodal biometric system, and we study the extraction of novel spatio-temporal facial features for recognition. We initially present a person recognition system that exploits the unconstrained head motion information, extracted by tracking a few facial landmarks in the image plane. In particular, we detail how each video sequence is firstly pre-processed by semi-automatically detecting the face, and then automatically tracking the facial landmarks over time using a template matching strategy. Then, we describe the geometrical normalisations of the extracted signals, the calculation of the feature vectors, and how these are successively used to estimate the client models through a Gaussian mixture model (GMM) approximation. In the end, we achieve person identification and verification by applying the probability theory and the Bayesian decision rule (also called Bayesian inference). Afterwards, we propose a multimodal extension of our person recognition system; more precisely, we successfully integrate the head motion information with mouth motion and facial appearance, by taking advantage of a unified probabilistic framework. In fact, we develop a new temporal subsystem that has an extended feature space enriched by some additional mouth parameters; at the same time, we introduce a complementary spatial subsystem based on a probabilistic extension of the original eigenface approach. In the end, we implement an integration step to combine the similarity scores of the two parallel subsystems, using a suitable opinion fusion (or score fusion) strategy. Finally, we investigate a practical method for extracting novel spatio-temporal facial features from video sequences, which are used to discriminate identity and gender. For this purpose we develop a recognition system called tomofaces, which applies the temporal X-ray transformation of a video sequence to summarise the facial motion and appearance information of a person into a single X-ray image. Then, we detail the linear projection from the X-ray image space to a low dimensional feature space, the estimation of the client models obtained by computing their cluster representatives, and the recognition of identity and gender through a nearest neighbour classifier using distances
Dans cette thèse, nous avons principalement exploré l'utilisation de l'information temporelle des séquences vidéo afin de l'appliquer à la reconnaissance de personne et de son genre; en particulier, nous nous concentrons sur l'analyse du mouvement de la tête et du visage ainsi que sur leurs applications potentielles comme éléments d'identification biométriques. De plus, nous cherchons à exploiter la majorité de l'information contenue dans la vidéo pour la reconnaissance automatique; plus précisément, nous regardons la possibilité d'intégrer dans un système biométrique multimodal l'information liée au mouvement de la tête et de la bouche avec celle de l'aspect du visage, et nous étudions l'extraction des nouveaux paramètres spatio-temporels pour la reconnaissance faciale. Nous présentons d'abord un système de reconnaissance de la personne qui exploite l'information relative au mouvement spontané de la tête. Cette information est extraite par le suivi dans le plan image de certains éléments caractéristiques du visage. En particulier, nous détaillons la façon dont dans chaque séquence vidéo le visage est tout d'abord détecté semi-automatiquement, puis le suivi automatique dans le temps de certains éléments caractéristiques en utilisant une approche basée sur l'appariement de bloques (template matching). Ensuite, nous exposons les normalisations géométriques des signaux que nous avons obtenus, le calcul des vecteurs caractéristiques, et la façon dont ils sont utilisés pour estimer les modèles des clients, approximés avec des modèles de mélange de gaussiennes. En fin de compte, nous parvenons à identifier et vérifier l'identité de la personne en appliquant la théorie des probabilités et la règle de décision bayésienne (aussi appelée inférence bayésienne). Nous proposons ensuite une extension multimodale de notre système de reconnaissance de la personne; plus précisément, nous intégrons à travers un cadre probabiliste unifié l'information sur le mouvement de la tête avec celles liées au mouvement de la bouche et à l'aspect du visage. En fait nous développons un nouveau sous-système temporel qui a un espace caractéristique étendu, lequel est enrichi par certains paramètres supplémentaires relatif au mouvement de la bouche; dans le même temps nous introduisons un sous-système spatial complémentaire au précédent, basé sur une extension probabiliste de l'approche Eigenfaces d'origine. Ensuite, une étape d'intégration combine les scores de similarité des deux sous-systèmes parallèles, grâce à une stratégie appropriée de fusion d'opinions. Enfin nous étudions une méthode pratique pour extraire de nouveaux paramètres spatio-temporels liés au visage à partir des séquences vidéo; le but est de distinguer l'identité et le genre de la personne. À cette fin nous développons un système de reconnaissance appelé tomovisages (tomofaces), qui applique la technique de la tomographie vidéo pour résumer en une seule image l'information relative au mouvement et à l'aspect du visage d'une personne. Puis, nous détaillons la projection linéaire à partir de l'espace de l'image en rayons X à un espace caractéristique de dimension réduite, l'estimation des modèles des utilisateurs en calculant les représentants des clusters correspondants, et la reconnaissance de l'identité et du genre par le biais d'un classificateur de plus proche voisin, qui adopte des distances dans le sous-espace
In questa tesi di dottorato esploriamo la possibilità di riconoscere l'identità e il sesso di una persona attraverso l'utilizzo dell'informazione temporale disponibile in alcune sequenze video, in particolare ci concentriamo sull'analisi del movimento della testa e del viso, nonché del loro potenziale utilizzo come identificatiori biometrici. Esaminiamo inoltre la problematica relativa al fatto di sfruttare la maggior parte dell'informazione presente nei video per effettuare il riconoscimento automatico della persona; più precisamente, analizziamo la possibilità di integrare in un sistema biometrico multimodale l'informazione relativa al movimento della testa e della bocca con quella dell'aspetto del viso, e studiamo il calcolo di nuovi parametri spazio-temporali che siano utilizzabili per il riconoscimento stesso. In primo luogo presentiamo un sistema di riconoscimento biometrico della persona che sfrutti l'informazione legata al movimento naturale della testa, il quale è estratto seguendo la posizione nel piano immagine di alcuni elementi caratteristici del viso. In particolare descriviamo come in una sequenza video il volto venga dapprima individuato semiautomaticamente, e come poi alcuni suoi elementi caratteristici siano localizzati nel tempo tramite un algoritmo automatico di messa in corrispondenza di modelli (template matching) permettendo di seguirne la posizione. Spieghiamo quindi le normalizzazioni geometriche dei segnali che abbiamo ricavato, il calcolo dei vettori caratteristici, ed il modo in cui questi sono utilizzati per stimare i modelli degli utilizzatori, approssimandoli tramite delle misture di distribuzioni gaussiane (Gaussian mixture models). Alla fine otteniamo l'identificazione e la verifica dell'identità della persona applicando la teoria delle probabilità e la regola di decisione o inferenza bayesiana. In seguito proponiamo un'estensione multimodale del nostro sistema di riconoscimento della persona; più precisamente, tramite un approccio probabilistico unificato, integriamo l'informazione sul movimento della testa con quelle relative al movimento della bocca e all'aspetto del viso. Infatti sviluppiamo un nuovo sottosistema temporale che possiede uno spazio caratteristico esteso, arricchito di alcuni parametri aggiuntivi legati al movimento della bocca; contemporaneamente, introduciamo un sottosistema spaziale complementare al precedente, basato su un'estensione probabilistica dell'approccio Eigenfaces originale. Alla fine implementiamo uno stadio di fusione, che metta insieme i valori di somiglianza dei due sottosistemi paralleli, attraverso un'appropriata strategia di fusione delle opinioni. Infine investighiamo un metodo pratico per estrarre nuovi parametri spazio-temporali relativi al volto a partire da sequenze video, i quali sono utilizzati per distinguere l'identità ed il sesso della persona. A questo riguardo sviluppiamo un sistema di riconoscimento chiamato tomovolti (tomofaces), il quale utilizza la tecnica della tomografia video per riassumere in una sola immagine l'informazione relativa all'aspetto ed al movimento del volto di una persona. Poi descriviamo la proiezione lineare dallo spazio dell'immagine ai raggi X ad un spazio caratteristico di dimensione ridotta, la stima dei modelli degli utilizzatori attraverso il calcolo dei rappresentanti corrispondenti ad ogni cluster, ed il riconoscimento dell'identità e del genere attraverso un classificatore al vicino più prossimo (nearest neighbour classifier), che adopera le distanze nel sottospazio
30

Yao, Xu. "Latent representations for facial images and video editing." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT019.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Apprendre à éditer des images et des vidéos de visages est un domaine particulièrement actif dans la recherche académique et industrielle. Cette thèse aborde le problème de l'édition de visages dans le cas particulier des images et des vidéos à haute résolution. Dans cette thèse, nous développons des méthodes basées sur l'apprentissage profond pour effectuer l'édition d'images faciales. Plus précisément, nous explorons la tâche en utilisant les représentations latentes obtenues à partir de deux types de réseaux neuronaux profonds : les modèles basés sur l'auto-encodage et les réseaux antagonistes génératifs (GAN). Pour chaque type de méthode, nous considérons un problème spécifique d'édition d'image et proposons une solution efficace qui surpasse l'état de l'art. La thèse comprend deux parties. Dans la partie I, nous explorons les tâches d'édition d'images via l'espace latent des autoencodeurs. Nous considérons d'abord la tâche de transfert de style entre les photos, et proposons un algorithme efficace qui est construit sur une paire de réseaux basés sur des autoencodeurs. Ensuite, nous étudions la tâche d'édition de l'âge du visage pour les images à haute résolution, en utilisant une architecture d'encodeur-décodeur. Le réseau proposé encode une image de visage en représentations de caractéristiques invariantes selon l'âge, et apprend un vecteur de modulation correspondant à un âge cible. Notre approche permet une édition fine de l'âge sur des images à haute résolution dans un seul modèle unifié.Dans la deuxième partie, nous explorons la tâche d'édition via l'espace latent des modèles antagonistes génératifs (GAN). Tout d'abord, nous considérons le problème de l'édition "démêlée" (disentangled) des attributs faciaux sur des images synthétiques et réelles, en proposant un réseau de transformation latent qui agit dans l'espace latent d'un modèle GAN pré-entraîné. Nous avons également proposé un pipeline de manipulation vidéo, afin de généraliser le résultat de l'édition aux vidéos. Deuxièmement, nous étudions le problème de l'inversion du GAN - la projection d'une image réelle dans l'espace latent d'un GAN pré-entraîné. En particulier, nous proposons un encodeur feed-forward, qui encode une image donnée en un code caractéristique et un code latent en une seule passe. L'encodeur proposé s'avère plus précis et plus stable pour l'inversion d'images et de vidéos, tout en conservant de bonnes capacités d'édition
Learning to edit facial images and videos is one of the most popular tasks in both academia and industrial research. This thesis addresses the problem of face editing for the special case of high-resolution images and videos.In this thesis, we develop deep learning-based methods to perform facial image editing. Specifically, we explore the task using the latent representations obtained from two types of deep neural networks: autoencoder-based models and generative adversarial networks. For each type of method, we consider a specific image editing problem and propose an effective solution that outperforms the state-of-the-art.The thesis contains two parts. In part I, we explore image editing tasks via the latent space of autoencoders. We first consider the style transfer task between photos and propose an effective algorithm that is built on a pair of autoencoder-based networks. Second, we study the face age editing task for high-resolution images, using an encoder-decoder architecture. The proposed network encodes a face image to age-invariant feature representations and learns a modulation vector corresponding to a target age. Our approach allows for fine-grained age editing on high-resolution images in a single unified model.In part II, we explore the editing task via the latent space of generative adversarial models (GANs). First, we consider the problem of facial attribute disentangled editing on synthetic and real images, by proposing a latent transformation network that acts in the latent space of a pre-trained GAN model. We also proposed a video manipulation pipeline, to generalize the editing result to videos. Second, we investigate the problem of GAN inversion -- the projection of a real image to the latent space of a pretrained GAN. In particular, we propose a feed-forward encoder, which encodes a given image to a feature code and a latent code in one pass. The proposed encoder is shown to be more accurate and stable for image and video inversion, meanwhile, maintaining good editing capacities
31

Hudon-ven, der Buhs Isabelle. "Les expressions faciales aptes à susciter un traitement favorable de la part d'autrui au sein de différentes relations interpersonnelles." Thesis, Université d'Ottawa / University of Ottawa, 2016. http://hdl.handle.net/10393/34490.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
À ce jour, trop peu d’études se sont intéressées au rôle que jouent les expressions faciales émotionnelles au niveau des comportements prosociaux. De surcroît, les travaux empiriques se penchant sur cette question n’ont pas examiné celle-ci à l’intérieur de différentes relations interpersonnelles. Le but du présent projet de recherche est d’évaluer l’effet de l’expression faciale et du lien interpersonnel sur la réponse prosociale. De plus, nous cherchons à déterminer la mesure dans laquelle d’autres variables telles le sexe du bénéficiaire exercent une influence dans l’apport de l’aide. Afin de répondre à ces objectifs, nous avons réalisé deux études, chacune incluant une étape de validation ainsi qu’une étape d’expérimentation. Dans le cadre de la validation des scénarios, les participants ont fait la lecture de situations hypothétiques dans lesquelles un personnage fictif formulait une demande. À ce sujet, ils devaient indiquer leur degré de disposition et d’obligation à répondre de manière favorable à la requête ainsi que leur degré de perception de l’usualité de cette requête et des efforts qu’elle entraîne. Lors de l’expérimentation en laboratoire, les participants ont lu les mêmes scénarios sociaux et ont visionné tour à tour une série d’expression du visage, leur tâche nécessitant qu’ils indiquent la mesure dans laquelle ils seraient disposés à répondre favorablement à une requête advenant que le demandeur affiche une expression faciale donnée. De manière générale, les 117 jeunes adultes qui ont participé à la première phase de l’étude pilote semblent considérer les demandes dépeintes dans les scénarios comme étant courantes, peu astreignantes, peu exigeantes et favorables à la prosocialité. De surcroît, il appert que 1) les répondants seraient plus disposés et se sentiraient plus obligés à satisfaire une demande concernant un service plutôt qu’un bien, et que 2) les femmes se sentiraient davantage contraintes à répondre favorablement aux demandes formulées et qu’elles estiment que celles-ci exigeraient davantage d’efforts, en comparaison avec les hommes. Dans un autre ordre d’idées, nous avons noté chez les 50 jeunes adultes ayant pris part à l’expérimentation que leur inclination générale à satisfaire une requête serait plus élevée si l’émetteur arborait un visage joyeux, suivi en ordre décroissant d’un visage triste ou neutre, d’un visage apeuré ou surpris, et d’un visage fâché ou dégoûté. En outre, les résultats révèlent des effets significatifs du type de demande et du sexe du demandeur, effets en faveur des femmes et des demandes relatives à un service de manière respective, en plus d’un effet d’interaction entre la catégorie d’expression du visage et le type de demande. En ce qui a trait à l’étude principale, il ressort dans l’ensemble que les 95 participants à la validation estiment que les demandes formulées dans les scénarios s’avèrent usuelles, peu astreignantes, peu exigeantes et favorables à la prosocialité. En outre, les participants seraient plus disposés et se sentiraient plus obligés à répondre favorablement à une requête venant d’un membre de la famille plutôt que d’un ami et venant d’un parent plutôt que d’un frère ou une soeur. Par ailleurs, les données obtenues auprès des 88 participants à l’expérimentation en laboratoire suggèrent que la disposition des participants à répondre à une demande serait plus élevée si l’émetteur présentait un visage joyeux, suivi en ordre décroissant d’un visage triste, d’un visage neutre ou apeuré et d’un visage fâché ou dégoûté. Qui plus est, les résultats mettent en évidence 1) des effets du type de relation interpersonnelle et du sexe du demandeur, effets en faveur des membres de la famille et des femmes respectivement et 2) des effets d’interaction entre la catégorie d’expression du visage et le type de relation interpersonnelle ainsi qu’entre la catégorie d’expression faciale, le type de lien interpersonnel et le sexe du demandeur. Or il s’avère qu’une fois l’effet de la désirabilité sociale pris en considération, seul l’effet principal de la catégorie d’expression faciale et les effets d’interaction demeurent significatifs. Ce projet de recherche contribue à l'avancement des connaissances relativement aux mécanismes prosociaux agissant au sein des relations interpersonnelles qui présentent divers niveaux d’intimité.
32

Gastaud, Muriel. "Modèles de contours actifs pour la segmentation d'images et de vidéos." Phd thesis, Université de Nice Sophia-Antipolis, 2005. http://tel.archives-ouvertes.fr/tel-00089384.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La segmentation en objets d'une image consiste à extraire de l'image des régions d'intérêt suivant un critère défini. Nous segmentons l'image par un algorithme de contours actifs dans le cadre d'une approche variationnelle. Partant d'un contour initial quelconque, le contour actif évolue, suivant une équation aux dérivées partielles. L'équation d'évolution du contour actif est déduite de la dérivation du critère. Au vu de la dépendance du critère à la région considérée, la dérivation du critère par rapport à la région n'est pas aisée. Nous utilisons des outils de dérivation empruntés à l'optimisation de domaine: les gradients de forme.
La contribution de cette thèse réside dans l'élaboration et l'étude de différents descripteurs de région. Pour chaque critère, nous calculons la dérivée du critère à l'aide des gradients de forme, et en déduisons l'équation d'évolution du contour actif.
Le premier descripteur définit un a priori géométrique sans contrainte paramétrique: il minimise la distance du contour actif à un contour de référence. Nous l'avons appliqué à la déformation de courbe, la segmentation et le suivi de cible.
Le deuxième descripteur caractérise le mouvement de l'objet par un modèle de mouvement. Le critère associé définit conjointement une région et son mouvement sur plusieurs images consécutives. Nous avons appliqué ce critère à l'estimation et la segmentation conjointe du mouvement et au suivi d'objets en mouvement.
33

Bertolino, Pascal. "Algorithmes pour la segmentation et l'amélioration de la qualité des images et des vidéos." Habilitation à diriger des recherches, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00798440.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Travaux sur la segmentation des images et des vidéos en vue de leur codage, indexation et interprétation ainsi que sur l'amélioration de la qualité de la restitution de ces images sur les écrans plats.
34

Dexter, Émilie. "Modélisation de l'auto-similarité dans les vidéos : applications à la synchronisation de scènes et à la reconnaissance d'actions." Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/dexter.pdf.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Nous avons abordé dans ces travaux les problématiques de reconnaissance d’actions et de synchronisation de séquences d’images. Nous proposons de calculer les similarités temporelles d'une séquence d’images afin de construire une « matrice d’auto-similarité ». Ces matrices, bien qu’elles ne soient pas strictement invariantes aux changements de vue, sont suffisamment stables lors de ces changements pour fournir des séquences de descripteurs temporels robustes pour la synchronisation et de plus discriminants pour la reconnaissance d’actions. La synchronisation est ensuite réalisée à l’aide de l’algorithme de Dynamic Time Warping. La reconnaissance, quant à elle, fait appel à des stratégies de « sacs-de-mots » afin de représenter les actions comme des ensembles non ordonnés de descripteurs ou comme des histogrammes d’occurrences des descripteurs quantifiés obtenus à l’aide d’un vocabulaire de « mots ». Nous pouvons ensuite appliquer des techniques classiques de classification supervisée. Les méthodes proposées se caractérisent par leur simplicité et leur flexibilité en n’imposant pas, par exemple, l'existence de correspondances de points entre les vues
This PhD work deals with action recognition and image sequence synchronization. We propose to compute temporal similarities of image sequences to build self-similarity matrix. Although these matrices are not strictly view-invariant, they remain stable across views providing temporal descriptors of image sequences useful for synchronization as well as discriminant for action recognition. Synchronization is achieved with a dynamic programming algorithm known as Dynamic Time Warping. We opt for “Bag-of-Features” methods for recognizing actions such as actions are represented either as unordered sets of descriptors or as normalized histograms of quantized descriptor occurrences. Classification is performed by well known classification methods as Nearest Neighbor Classifier or Support Vector Machine. Proposed methods are characterized by their simplicity and flexibility: they do not require point correspondences between views
35

Kornreich, Charles. "Contribution à l'étude du traitement de l'information émotionnelle dans les assuétudes: exemple de la reconnaissance des expressions faciales émotionnelles." Doctoral thesis, Universite Libre de Bruxelles, 2003. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/211264.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
36

Bourdis, Nicolas. "Détection de changements entre vidéos aériennes avec trajectoires arbitraires." Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0028.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les activités basées sur l'exploitation de données vidéo se sont développées de manière fulgurante ces dernières années : nous assisté à une démocratisation de certaines de ces activités (vidéo-surveillance) mais également à une diversification importante des applications opérationnelles (suivi de ressources naturelles, reconnaissance etc). Cependant, le volume de données vidéo généré est aujourd'hui astronomique et l'efficacité de ces activités est limitée par le coût et la durée nécessaire à l'interprétation humaine des données vidéo. L'analyse automatique de flux vidéos est donc devenue une problématique cruciale pour de nombreuses applications. L'approche semi-automatique développée dans le cadre de cette thèse se concentre plus spécifiquement sur l'analyse de vidéos aériennes, et permet d'assister l'analyste image dans sa tâche en suggérant des zones d'intérêt potentiel par détection de changements. Pour cela, nous effectuons une modélisation tridimensionnelle des apparences observées dans les vidéos de référence. Cette modélisation permet ensuite d'effectuer une détection en ligne des changements significatifs dans une nouvelle vidéo, en identifiant les déviations d'apparence par rapport aux modèles de référence. Des techniques spécifiques ont également été proposées pour effectuer l'estimation des paramètres d'acquisition ainsi que l'atténuation des effets de l'illumination. De plus, nous avons développé plusieurs techniques de consolidation permettant d'exploiter la connaissance a priori relative aux changements à détecter. L'intérêt et les bonnes performances de notre approche a été minutieusement démontré à l'aide de données réelles et synthétiques
Business activities based on the use of video data have developed at a dazzling speed these last few years: not only has the market of some of these activities widely expanded (video-surveillance) but the operational applications have also greatly diversified (natural resources monitoring, intelligence etc). However, nowadays, the volume of generated data has become overwhelming and the efficiency of these activities is now limited by the cost and the time required by the human interpretation of this video data. Automatic analysis of video streams has hence become a critical problem for numerous applications. The semi-autmoatic approach developed in this thesis focuses more specifically on the automatic analysis of aerial videos and enables assisting the image analyst in his task by suggesting areas of potential interest identified using change detection. For that purpose, our approach proceeds to a tridimensional modeling of the appearances observed in the reference videos. Such a modeling then enables the online detection of significant changes in a new video, by identifying appearance deviations with respect to the reference models. Specific techniques have also been developed to estimate the acquisition parameters and to attenuate illumination effects. Moreover, we developed several consolidation techniques making use of a priori knowledge related to targeted changes, in order to improve detection accuracy. The interest and good performance of our change detection approach has been carefully demonstrated using both real and synthetical data
37

Herbulot, Ariane. "Mesures statistiques non-paramétriques pour la segmentation d'images et de vidéos et minimisation par contours actifs." Phd thesis, Université de Nice Sophia-Antipolis, 2007. http://tel.archives-ouvertes.fr/tel-00507087.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La segmentation d'images et de séquences vidéo consiste à séparer les objets d'intérêt du reste de l'image. L'utilisation de contours actifs en utilisant une approche variationnelle repose sur la définition d'un critère de segmentation. Ce critère est ensuite dérivé à l'aide des gradients de forme, afin de parvenir à l'équation d'évolution du contour actif. Bien souvent ce critère dépend des caractéristiques de l'image et fait une hypothèse implicite sur les distributions de ces caractéristiques. Par exemple, considérer une fonction de la moyenne de l'intensité d'une région revient à faire une hypothèse gaussienne sur la distribution de cette intensité. Dans cette thèse, nous proposons de nous affranchir de ces hypothèses qui ne sont pas toujours respectées et de considérer les distributions les plus "réelles" possible en utilisant une estimation non-paramétrique de ces distributions. Nous présentons des critères issus de la théorie de l'information, comme l'entropie, afin de segmenter des zones de faible variabilité dans les images. Afin de prendre en compte plusieurs canaux comme les canaux couleur, l'entropie jointe et l'information mutuelle sont aussi utilisées. Lorsqu'une information a priori est connue, la divergence de Kullback-Leibler permet d'introduire une notion de distance à une segmentation de référence en cherchant à minimiser une "distance" entre distributions. Enfin, l'entropie jointe est utilisée afin de segmenter des objets en mouvement dans des séquences vidéo, que cela soit en ayant au préalable calculé un flot optique, ou en estimant de façon conjointe le mouvement avec la segmentation.
38

Hammal, Zakia. "Segmentation des traits du visage, analyse et reconnaissance d'expressions faciales par le modèle de croyance transférable." Université Joseph Fourier (Grenoble), 2006. http://www.theses.fr/2006GRE10059.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'objectif de ce travail est l'analyse et la classification d'expressions faciales. Des expériences en psychologie ont permis de mettre en évidence le fait que l'être humain est capable de reconnaître les émotions sur un visage à partir de la visualisation de l'évolution temporelle de certains points caractéristiques de celui-ci. Nous avons donc tout d'abord proposé un système d'extraction automatique des contours des traits permanents du visage (yeux, sourcils et lèvres). Dans ce travail nous nous intéressons au problème de la segmentation des yeux et des sourcils. La segmentation des contours des lèvres est basée sur un travail précédent développé au sein du laboratoire. L'algorithme proposé pour l'extraction des contours des yeux et des sourcils est constitué de trois étapes : d'abord la définition de modèles paramétrique pour modéliser au mieux le contour de chaque trait ; ensuite, les modèles choisis sont initialisés sur les images à segmenter grâce à l'extraction d'un ensemble de points caractéristiques ; enfin, les modèles initiaux sont ajustés finement en tenant compte d'information de gradient de luminance. La segmentation des contours des yeux, des sourcils et des lèvres conduit à ce que nous appelons des squelettes d'expressions. Pour mesurer la déformation des traits caractéristiques, cinq distances caractéristiques sont définies sur ces squelettes basé sur l'état de ces distances un ensemble de règles logiques est défini pour chacune des expressions considérées : Sourire, Surprise, Dégo-ut, Corere, Peur, Tristesse, Neutre. Ces règles sont compatibles avec la norme MPEG-4 qui fournit une description des transformations subies par chacun des traits du visage lors de la production des six expressions faciales universelles. Cependant le comportement humain n'étant pas binaire, une expression pure est rarement produite. Pour pouvoir modéliser le doute entre plusieurs expressions et le cas des expressions inconnues, le Modèle de Croyance Transférable est utilisé comme processus de fusion pour la classification des expressions faciales. Le system de reconnaissance d'eveloppé tient compte de l'évolution au cours du temps des d'eformations des traits du visage. Dans la perspective d'un système audio-visuel de reconnaissance d'expressions émotionelles, une étude préliminaire sur des expressions vocales a aussi été menée
The aim of this work is the analysis and the classification of facial expressions. Experiments in psychology show that hum an is able to recognize the emotions based on the visualization of the temporal evolution of sorne characteristic fiducial points. Thus we firstly propose an automatic system for the extraction of the permanent facial features (eyes, eyebrows and lips). Ln this work we are interested in the problem of the segmentation of the eyes and the eyebrows. The segmentation of lips contours is based on a previous work developed in the laboratory. The proposed algorithm for eyes and eyebrows contours segmentation consists of three steps : firstly, the definition of parametric models to fit as accurate as possible the contour of each feature ; then, a whole set of characteristic points is detected to initialize the selected models in the face ; finally, the initial models are finally fitted by taking into account the luminance gradient information. The segmentation of the eyes, eyebrows and lips contours leads to what we cali skeletons of expressions. To measure the characteristic features deformation, five characteristic distances are defined on these skeletons. Based on the state of these distances a whole set of logical rules is defined for each one of the considered expression : Smile, Surprise, Disgust, Anger, Fear, Sadness and Neutral. These rules are compatible with the standard MPEG-4 which provides a description of the deformations undergone by each facial feature during the production of the six universal facial expressions. However the human behavior is not binary, a pure expression is rarely produced. To be able to model the doubt between several expressions and to model the unknown expressions, the Transferable Belief Model is used as a fusion process for the facial expressions classification. The classification system takes into account the evolution of the facial features deformation in the course of the time. Towards an audio-visual system for emotional expressions classification, a reliminary study on vocal expressions is also proposed
39

Bourdis, Nicolas. "Détection de changements entre vidéos aériennes avec trajectoires arbitraires." Phd thesis, Telecom ParisTech, 2013. http://tel.archives-ouvertes.fr/tel-00834717.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les activités basées sur l'exploitation de données vidéo se sont développées de manière fulgurante ces dernières années. En effet, non seulement avons-nous assisté à une démocratisation de certaines de ces activités, telles que la vidéo-surveillance, mais également à une diversification importante des applications opérationnelles (e.g. suivi de ressources naturelles, reconnaissance aérienne et bientôt satellite). Cependant, le volume de données vidéo généré est aujourd'hui astronomique et l'efficacité des activités correspondantes est limitée par le coût et la durée nécessaire à l'interprétation humaine de ces données vidéo. Par conséquent, l'analyse automatique de flux vidéos est devenue une problématique cruciale pour de nombreuses applications. Les travaux réalisés dans le cadre de cette thèse s'inscrivent dans ce contexte, et se concentrent plus spécifiquement sur l'analyse automatique de vidéos aériennes. En effet, outre le problème du volume de données, ce type de vidéos est particulièrement difficile à exploiter pour un analyste image, du fait des variations de points de vue, de l'étroitesse des champs de vue, de la mauvaise qualité des images, etc. Pour aborder ces difficultés, nous avons choisi de nous orienter vers un système semi-automatique permettant d'assister l'analyste image dans sa tâche, en suggérant des zones d'intérêt potentiel par détection de changements. Plus précisément, l'approche développée dans le cadre de cette thèse cherche à exploiter les données disponibles au maximum de leur potentiel, afin de minimiser l'effort requis pour l'utilisateur et de maximiser les performances de détection. Pour cela, nous effectuons une modélisation tridimensionnelle des apparences observées dans les vidéos de référence. Cette modélisation permet ensuite d'effectuer une détection en ligne des changements significatifs dans une nouvelle vidéo, en identifiant les déviations d'apparence par rapport aux modèles de référence. Des techniques spécifiques ont également été proposées pour effectuer l'estimation des paramètres d'acquisition ainsi que l'atténuation des effets de l'illumination. De plus, nous avons développé plusieurs techniques de consolidation permettant d'exploiter la connaissance a priori relative aux changements à détecter. L'intérêt de notre approche de détection de changements est démontré dans ce manuscrit de thèse, par la présentation des résultats issus de son évaluation minutieuse et systématique. Cette évaluation a été effectuée à l'aide de données réelles et synthétiques permettant d'analyser, d'une part la robustesse de l'approche par rapport à des perturbations réalistes (e.g. bruit, artefacts de compression, apparences et effets complexes, etc), et d'autre part la précision des résultats en conditions contrôlées.
40

Song, Guanghan. "Effet du son dans les vidéos sur la direction du regard : contribution à la modélisation de la saillance audiovisuelle." Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00875651.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les humains reçoivent grande quantité d'informations de l'environnement avec vue et l'ouïe . Pour nous aider à réagir rapidement et correctement, il existe des mécanismes dans le cerveau à l'attention de polarisation vers des régions particulières , à savoir les régions saillants . Ce biais attentionnel n'est pas seulement influencée par la vision , mais aussi influencée par l'interaction audio - visuelle . Selon la littérature existante , l'attention visuelle peut être étudié à mouvements oculaires , mais l'effet sonore sur le mouvement des yeux dans les vidéos est peu connue . L'objectif de cette thèse est d'étudier l'influence du son dans les vidéos sur le mouvement des yeux et de proposer un modèle de saillance audio - visuel pour prédire les régions saillants dans les vidéos avec plus de précision . A cet effet, nous avons conçu une première expérience audio - visuelle de poursuite oculaire . Nous avons créé une base de données d'extraits vidéo courts choisis dans divers films . Ces extraits ont été consultés par les participants , soit avec leur bande originale (condition AV ) , ou sans bande sonore ( état ​​V) . Nous avons analysé la différence de positions de l'oeil entre les participants des conditions de AV et V . Les résultats montrent qu'il n'existe un effet du bruit sur le mouvement des yeux et l'effet est plus important pour la classe de la parole à l'écran . Ensuite , nous avons conçu une deuxième expérience audiovisuelle avec treize classes de sons. En comparant la différence de positions de l'oeil entre les participants des conditions de AV et V , nous concluons que l'effet du son est différente selon le type de son , et les classes avec la voix humaine ( c'est à dire les classes parole , chanteur , bruit humain et chanteurs ) ont le plus grand effet . Plus précisément , la source sonore a attiré considérablement la position des yeux uniquement lorsque le son a été la voix humaine . En outre , les participants atteints de la maladie de AV avaient une durée moyenne plus courte de fixation que de l'état de V . Enfin , nous avons proposé un modèle de saillance audio- visuel préliminaire sur la base des résultats des expériences ci-dessus . Dans ce modèle , deux stratégies de fusion de l'information audio et visuelle ont été décrits: l'un pour la classe de son discours , et l'autre pour la musique classe de son instrument . Les stratégies de fusion audio - visuelle définies dans le modèle améliore la prévisibilité à la condition AV
41

Memmi, Paul Joseph. "Etude sémiolinguistique du sous-titrage pour une écriture concise assistée par ordinateur (ECAO) avec application à l'audiovisuel." Paris 10, 2005. http://www.theses.fr/2005PA100069.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Intelligentiæ pauca – À l'intelligence peu (suffit). Cet adage qu'aimait Stendhal montre par sa forme elliptique, par le plaisir qu'il suscite et l'esprit qu'il requiert ce qu'est l'écriture concise. Cette thèse vise à concevoir un logiciel de traitement de texte, l'ÉCAO (Écriture Concise Assistée par Ordinateur) qui, appliqué à l'audiovisuel, servirait pour Internet, la traduction sous-titrée et le sous-titrage unilingue à l'usage des malentendants. L'étude sémiolinguistique du sous-titrage, cas d'écriture concise en environnement verbal et audiovisuel, aboutit à proposer une méthode de référencement et de désambiguïsation des informations source et des opérateurs de concision phrastique. Certains sont programmables, d'autres révèlent les carences de l'automate face à des constructions de sens pourtant capitales. Par là, se révèle le propos essentiel de cette recherche : l'étude de l'intégration cognitive des communications complexes et de la concision comme mode de représentation
Intelligentiæ pauca – To intelligence, little (is enough). Through its elliptic form, the pleasure it arouses and the wit it calls for, this phrase praised by Stendhal points out what concise writing is. This thesis aims at conceiving a word processor ÉCAO (French for Automatically Processed Concise Writing – APCW) which, in its audiovisual application, should find uses also for Internet, subtitled translations and subtitling for the hearing-impaired. A semiolinguistic study of the subtitling, an example of concise writing in a verbal and audiovisual environment, leads to coming up with a method for referencing and disambiguating the source information and with a set of phrastic concision operators. Some are programmable, others reveal the automaton's deficiencies faced with sense constructions which are yet of capital importance. There lies the essential purpose of this research: the study of cognitive integration of complex communications and of concision as a mode of representation
42

Souvannavong, Fabrice. "Indexation et recherche de plans videos par le contenu sémantique." Paris, ENST, 2005. http://www.theses.fr/2005ENST0018.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Nous abordons dans ce mémoire le problème délicat de l'indexation de plans vidéo et en particulier l'indexation automatique par le contenu sémantique. L'indexation est l'opération qui consiste à extraire une signature numérique ou textuelle qui décrit le contenu de manière précise et concise afin de permettre une recherche efficace dans une base de données. L'aspect automatique de l'indexation est important puisque nous imaginons bien la difficulté d'établir les signatures manuellement sur de grandes quantités de données. Jusqu'à présent les systèmes automatiques d'indexation et de recherche d'images ou de vidéos se sont concentrés sur la description et l'indexation du contenu purement visuel. Les signatures permettaient d'effectuer une recherche principalement sur les couleurs et les textures des images. A présent, le nouveau défi est d'ajouter à ces signatures une description sémantique du contenu de manière automatique. Un éventail des techniques utilisées pour l'indexation du contenu visuel est tout d'abord présenté. Ensuite nous introduisons une méthode pour calculer une signature précise et compacte à partir des régions des images clefs des plans. Il s'agit d'une adaptation de l'analyse de la sémantique latente qui fut initialement introduite pour indexer le texte. La tâche délicate de la recherche par le contenu sémantique est ensuite abordée. Les expériences sont conduites dans le cadre de l'évaluation TRECVID qui nous permet d'obtenir une grande quantité de vidéo avec leurs annotations. Nous poursuivons la classification sémantique en étudiant la fusion de systèmes de classification. Finalement nous introduisons une nouvelle méthode d'apprentissage actif
In this thesis, we address the fussy problem of video content indexing and retrieval and in particular automatic semantic video content indexing. Indexing is the operation that consists in extracting a numerical or textual signature that describes the content in an accurate and concise manner. The objective is to allow an efficient search in a database. The automatic aspect of the indexing is important since we can imagine the difficulty to annotate video shots in huge databases. Until now, systems were concentrated on the description and indexing of the visual content. The search was mainly led on colors and textures of video shots. The new challenge is now to automatically add to these signatures a semantic description of the content. First, a range of indexing techniques is presented. Second, we introduce a method to compute an accurate and compact signature from key-frames regions. This method is an adaptation of the latent semantic indexing method originally used to index text documents. Third, we address the difficult task of semantic content retrieval. Experiments are led in the framework of TRECVID. It allows having a huge amount of videos and their labels. Fourth, we pursue on the semantic classification task through the study of fusion mechanisms. Finally, this thesis concludes on the introduction of a new active learning approach to limit the annotation effort
43

Jehan-Besson, Stéphanie. "Modèles de contours actifs basés régions pour la segmentation d'images et de vidéos." Phd thesis, Université de Nice Sophia-Antipolis, 2003. http://tel.archives-ouvertes.fr/tel-00089867.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'objectif de cette thèse est l'élaboration de modèles de contours actifs basés régions pour la segmentation d'images et de vidéos.
Nous proposons de segmenter les régions ou objets en minimisant une fonctionnelle composée d'intégrales de régions et d'intégrales de contours. Dans ce cadre de travail, les fonctions caractérisant les régions ou les contours sont appelées "descripteurs''. La recherche du minimum se fait via la propagation d'un contour actif dit basé régions. L'équation d'évolution associée est calculée en utilisant les outils de dérivation de domaines. Par ailleurs, nous prenons en compte le cas des descripteurs dépendant de la région qui évoluent au cours de la propagation du contour. Nous montrons que cette dépendance induit des termes supplémentaires dans l'équation d'évolution.

Le cadre de travail développé est ensuite mis en oeuvre pour des applications variées de segmentation. Tout d'abord, des descripteurs statistiques basés sur le déterminant de la matrice de covariance sont étudiés pour la segmentation du visage. L'estimation des paramètres statistiques se fait conjointement à la segmentation. Nous proposons ensuite des descripteurs statistiques utilisant une distance à un histogramme de référence. Enfin, la détection des objets en mouvement dans les séquences à caméra fixe et mobile est opérée via l'utilisation hierarchique de descripteurs basés mouvement et de descripteurs spatiaux.
44

Stoiber, Nicolas. "Modélisation des expressions faciales émotionnelles et de leurs dynamiques pour l'animation réaliste et interactive de personnages virtuels." Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00558851.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans les mondes virtuels, une des tâches les plus complexes est l'intégration de personnages virtuels réalistes et le visage est souvent considéré comme l'élément le plus important car il concentre les canaux de communications humains les plus essentiels. La création de personnages virtuels convaincants passe ainsi par une meilleure compréhension et une meilleure reproduction de l'expressivité faciale naturelle. Dans ces travaux, nous nous concentrons sur les expressions faciales émotionnelles, qui selon nous représente le plus intéressant aspect de la communication non-verbale. Nous proposons une approche qui apprend les caractéristiques des expressions faciales directement sur des visages humains, et utilise cette connaissance pour générer des animations faciales réalistes pour des visages virtuels. Nos contributions sont les suivantes: - Une méthode capable d'extraire de données brutes un espace simple et pertinent pour la représentation des expressions faciales émotionnelles. Cet espace de représentation peut ensuite être utilisé pour la manipulation intuitive des expressions sur les visages de n'importe quel personnage virtuel. - Un système d'animation, basé sur une collection de modèles de mouvement, qui pilote l'aspect dynamique de l'expressivité faciale. Les modèles de mouvement apprennent la signature dynamique des expressions naturelles à partir de données, et reproduisent cette signature lors de la synthèse de nouvelles animations. Le système global d'animation issu des ces travaux est capable de générer des animations faciales réalistes et adaptatives pour des applications temps-réel telles que les jeux vidéos ou les agents conversationnels. En plus de ses performances, le système peut être associé aux notions plus abstraites d'émotions humaines. Ceci rend le processus d'animation faciale plus intuitif, en particulier pour les utilisateurs non-experts et les applications d''affective computing' qui travaillent généralement à un niveau sémantique.
45

Yang, Yu-Fang. "Contribution des caractéristiques diagnostiques dans la reconnaissance des expressions faciales émotionnelles : une approche neurocognitive alliant oculométrie et électroencéphalographie." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS099/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La reconnaissance experte de l'expression faciale est cruciale pour l'interaction et la communication sociale. Le comportement, les potentiels évoqués (ERP), et les techniques d’oculométrie peuvent être utilisés pour étudier les mécanismes cérébraux qui participent au traitement visuel automatique. La reconnaissance d'expressions faciales implique non seulement l'extraction d'informations à partir de caractéristiques faciales diagnostiques, stratégie qualifiée de traitement local, mais aussi l'intégration d'informations globales impliquant des traitements configuraux. Des nombreuses recherches concernant le traitement des informations faciales émotionnelles il apparaît que l’interaction des traitements locaux et configuraux pour la reconnaissance des émotions est mal comprise. La complexité inhérente à l'intégration de l'information faciale est mise en lumière lorsque l'on compare la performance de sujets sains et d’individus atteints de schizophrénie, car ces derniers ont tendance à s’attarder sur quelques éléments locaux, parfois peu informatifs. Les différentes façons d'examiner les visages peuvent avoir un impact sur la capacité socio-cognitive de reconnaître les émotions. Pour ces raisons, cette thèse étudie le rôle des caractéristiques diagnostiques et configurales dans la reconnaissance de l'expression faciale. En plus des aspects comportementaux, nous avons donc examiné la dynamique spatiale et temporelle des fixations à l’aide de mesures oculométriques, ainsi que l’activité électrophysiologique précoce considérant plus particulièrement les composantes P100 et N170. Nous avons créé de nouveaux stimuli des esquisses par une transformation numérique de portraits photos en esquisses, pour des visages exprimant colère, tristesse, peur, joie ou neutralité, issus de la base Radboud Faces Database, en supprimant les informations de texture du visage et ne conservant que les caractéristiques diagnostiques (yeux et sourcils, nez, bouche). Ces esquisses altèrent le traitement configural en comparaison avec les visages photographiques, ce qui augmente le traitement des caractéristiques diagnostiques par traitement élémentaire, en contrepartie. La comparaison directe des mesures neurocognitives entre les esquisses et les visages photographiques exprimant des émotions de base n'a jamais été testée, à notre connaissance. Dans cette thèse, nous avons examiné (i) les fixations oculaires en fonction du type de stimulus, (ii) la réponse électrique aux manipulations expérimentales telles que l'inversion et la déconfiguration du visage. Concernant, les résultats comportementaux montrent que les esquisses de visage transmettent suffisamment d'information expressive (compte tenu de la présence des caractéristiques diagnostiques) pour la reconnaissance des émotions en comparaison des visages photographiques. Notons que, comme attendu, il y avait un net avantage de la reconnaissance des émotions pour les expressions heureuses par rapport aux autres émotions. En revanche, reconnaître des visages tristes et en colère était plus difficile. Ayant analysé séparément les fixations successives, les résultats indiquent que les participants ont adopté un traitement plus local des visages croqués et photographiés lors de la deuxième fixation. Néanmoins, l'extraction de l'information des yeux est nécessaire lorsque l'expression transmet des informations émotionnelles plus complexes et lorsque les stimuli sont simplifiés comme dans les esquisses. Les résultats de l’électroencéphalographie suggèrent également que les esquisses ont engendré plus de traitement basé sur les parties. Les éléments transmis par les traits diagnostiques pourraient avoir fait l'objet d'un traitement précoce, probablement dû à des informations de bas niveau durant la fenêtre temporelle de la P100, suivi d'un décodage ultérieur de la structure faciale dans la fenêtre temporelle de la N170
Proficient recognition of facial expression is crucial for social interaction. Behaviour, event-related potentials (ERPs), and eye-tracking techniques can be used to investigate the underlying brain mechanisms supporting this seemingly effortless processing of facial expression. Facial expression recognition involves not only the extraction of expressive information from diagnostic facial features, known as part-based processing, but also the integration of featural information, known as configural processing. Despite the critical role of diagnostic features in emotion recognition and extensive research in this area, it is still not known how the brain decodes configural information in terms of emotion recognition. The complexity of facial information integration becomes evident when comparing performance between healthy subjects and individuals with schizophrenia because those patients tend to process featural information on emotional faces. The different ways in examining faces possibly impact on social-cognitive ability in recognizing emotions. Therefore, this thesis investigates the role of diagnostic features and face configuration in the recognition of facial expression. In addition to behavior, we examined both the spatiotemporal dynamics of fixations using eye-tracking, and early neurocognitive sensitivity to face as indexed by the P100 and N170 ERP components. In order to address the questions, we built a new set of sketch face stimuli by transforming photographed faces from the Radboud Faces Database through the removal of facial texture and retaining only the diagnostic features (e.g., eyes, nose, mouth) with neutral and four facial expressions - anger, sadness, fear, happiness. Sketch faces supposedly impair configural processing in comparison with photographed faces, resulting in increased sensitivity to diagnostic features through part-based processing. The direct comparison of neurocognitive measures between sketch and photographed faces expressing basic emotions has never been tested. In this thesis, we examined (i) eye fixations as a function of stimulus type, and (ii) neuroelectric response to experimental manipulations such face inversion and deconfiguration. The use of these methods aimed to reveal which face processing drives emotion recognition and to establish neurocognitive markers of emotional sketch and photographed faces processing. Overall, the behavioral results showed that sketch faces convey sufficient expressive information (content of diagnostic features) as in photographed faces for emotion recognition. There was a clear emotion recognition advantage for happy expressions as compared to other emotions. In contrast, recognizing sad and angry faces was more difficult. Concomitantly, results of eye-tracking showed that participants employed more part-based processing on sketch and photographed faces during second fixation. The extracting information from the eyes is needed when the expression conveys more complex emotional information and when stimuli are impoverished (e.g., sketch). Using electroencephalographic (EEG), the P100 and N170 components are used to study the effect of stimulus type (sketch, photographed), orientation (inverted, upright), and deconfiguration, and possible interactions. Results also suggest that sketch faces evoked more part-based processing. The cues conveyed by diagnostic features might have been subjected to early processing, likely driven by low-level information during P100 time window, followed by a later decoding of facial structure and its emotional content in the N170 time window. In sum, this thesis helped elucidate elements of the debate about configural and part-based face processing for emotion recognition, and extend our current understanding of the role of diagnostic features and configural information during neurocognitive processing of facial expressions of emotion
46

Vidal, Eloïse. "Étude et implémentation d'une architecture temps réel pour l'optimisation de la compression H.264/AVC de vidéos SD/HD." Thesis, Valenciennes, 2014. http://www.theses.fr/2014VALE0011/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La vidéo sur IP a connu un essor rapide ces dernières années allant de la diffusion télévisuelle en haute qualité via des réseaux dédiés à la diffusion sur internet de contenus vidéo grand public. L’optimisation de l’encodage vidéo H.264/AVC permet aux différents acteurs du marché de se différencier en proposant des solutions pour réduire le débit nécessaire à la représentation d’un flux vidéo ainsi que pour améliorer la qualité perçue par les utilisateurs. C’est dans ce contexte de vidéo professionnelle en haute qualité que s’inscrivent ces travaux de thèse CIFRE réalisés au sein de l’entreprise Digigram, proposant des encodeurs vidéo temps réel pour des diffusions professionnelles en direct. Nous proposons deux solutions de prétraitement pour répondre aux problématiques du secteur de la distribution vidéo. Les deux solutions considèrent les caractéristiques du système visuel humain en exploitant un modèle de JND (Just Noticeable Distortion) définissant des seuils de perception en fonction d’une analyse du contenu des séquences vidéo à encoder. La première solution utilise un préfiltre adaptatif indépendant de l’encodeur, contrôlé par un modèle JND afin d'éliminer le contenu perceptuellement non pertinent et ainsi réduire le débit sans altérer la qualité ressentie. Une analyse approfondie de plusieurs filtres de la littérature, dont le filtre AWA (Adaptive Weighted Averaging) et le filtre bilatéral, nous a également amené à définir deux nouveaux filtres à support étendu qui permettent d’exploiter au mieux les corrélations dans les images haute définition. A l’aide de tests subjectifs, nous montrons que les préfiltres perceptuels proposés permettent en moyenne de diminuer le débit en sortie du codeur d'environ 20% pour une qualité constante en encodage VBR (débit variable) Intra et Inter-image. Finalement, une deuxième solution s’attache à améliorer la qualité perçue dans un contexte d’encodage CBR (débit constant) en intégrant un modèle JND dans l’une des implémentations de la norme H.264/AVC la plus reconnue, le codec x264. Une quantification adaptative perceptuelle est ainsi proposée permettant d’améliorer les performances du codec x264 en améliorant le codage de l’information de contour à moyen et bas débits en encodage intra et inter-image
The use of digital video over IP has increased exponentially over the last years, due to the development of high-speed networks dedicated to high quality TV transmission as well as the wide development of the nonprofessional video webcast. Optimization of the H.264/AVC encoding process allows manufacturers to offer differentiating encoding solutions, by reducing the bandwidth necessary for transmitting a video sequence at a given quality level, or improving the quality perceived by final users at a fixed bit rate. This thesis was carried out at the company Digigram in a context of professional high quality video. We propose two solutions of preprocessing which consider the characteristics of the human visual system by exploiting a JND profile (Just Noticeable Distortion). A JND model defines perceptual thresholds, below which a distortion cannot be seen, according to the video content. The first solution proposes an adaptive pre-filter independent to the encoder, controlled by a JND profile to reduce the perceptually non-relevant content and so reduce the bitrate while maintaining the perceived quality. By analyzing the state-of-the-art literature, the AWA (Adaptive Weighted Averaging) and Bilateral filters have been selected. Then we define two new filters using a large convolution mask, which enable to better exploit correlations in high-definition video contents. Through subjective tests, we show that the proposed perceptual prefilters give an average bitrate reduction of 20% for the same visual quality in VBR (Variable Bitrate) H.264/AVC Intra and Inter encoding. Finally, the second solution enables to improve the perceived quality in CBR (Constant Bitrate) encoding, by integrating the JND profile into the x264 codec, one of the best implementation of the H.264/AVC standard. Thus, we propose a perceptual adaptive quantization which enhances the x264 performance by improving edge information coding in low and middle bitrate applications
47

Pierre, Fabien. "Méthodes variationnelles pour la colorisation d’images, de vidéos, et la correction des couleurs." Thesis, Bordeaux, 2016. http://www.theses.fr/2016BORD0250/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse traite de problèmes liés à la couleur. En particulier, on s’intéresse à des problématiques communes à la colorisation d’images, de vidéos et au rehaussement de contraste. Si on considère qu’une image est composée de deux informations complémentaires, une achromatique (sans couleur) et l’autre chromatique (en couleur), les applications étudiées consistent à traiter une de ces deux informations en préservant sa complémentaire. En colorisation, la difficulté est de calculer une image couleur en imposant son niveau de gris. Le rehaussement de contraste vise à modifier l’intensité d’une image en préservant sa teinte. Ces problématiques communes nous ont conduits à étudier formellement la géométrie de l’espace RGB. On a démontré que les espaces couleur classiques de la littérature pour résoudre ces types de problème conduisent à des erreurs. Un algorithme, appelé spécification luminance-teinte, qui calcule une couleur ayant une teinte et une luminance données est décrit dans cette thèse. L’extension de cette méthode à un cadre variationnel a été proposée. Ce modèle a été utilisé avec succès pour rehausser les images couleur, en utilisant des hypothèses connues sur le système visuel humain. Les méthodes de l’état-de-l’art pour la colorisation d’images se divisent en deux catégories. La première catégorie regroupe celles qui diffusent des points de couleurs posés par l’utilisateur pour obtenir une image colorisée (colorisation manuelle). La seconde est constituée de celles qui utilisent une image couleur de référence ou une base d’images couleur et transfèrent les couleurs de la référence sur l’image en niveaux de gris (colorisation basée exemple). Les deux types de méthodes ont leurs avantages et inconvénients. Dans cette thèse, on propose un modèle variationnel pour la colorisation basée exemple. Celui-ci est étendu en une méthode unifiant la colorisation manuelle et basée exemple. Enfin, nous décrivons des modèles variationnels qui colorisent des vidéos tout en permettent une interaction avec l’utilisateur
This thesis deals with problems related to color. In particular, we are interested inproblems which arise in image and video colorization and contrast enhancement. When considering color images composed of two complementary information, oneachromatic (without color) and the other chromatic (in color), the applications studied in this thesis are based on the processing one of these information while preserving its complement. In colorization, the challenge is to compute a color image while constraining its gray-scale channel. Contrast enhancement aims to modify the intensity channel of an image while preserving its hue.These joined problems require to formally study the RGB space geometry. In this work, it has been shown that the classical color spaces of the literature designed to solve these classes of problems lead to errors. An novel algorithm, called luminance-hue specification, which computes a color with a given hue and luminance is described in this thesis. The extension of this method to a variational framework has been proposed. This model has been used successfully to enhance color images, using well-known assumptions about the human visual system. The state-of-the-art methods for image colorization fall into two categories. The first category includes those that diffuse color scribbles drawn by the user (manual colorization). The second consists of those that benefits from a reference color image or a base of reference images to transfer the colors from the reference to the grayscale image (exemplar-based colorization). Both approach have their advantages and drawbacks. In this thesis, we design a variational model for exemplar-based colorization which is extended to a method unifying the manual colorization and the exemplar-based one. Finally, we describe two variational models to colorize videos in interaction with the user
48

Boukadida, Haykel. "Création automatique de résumés vidéo par programmation par contraintes." Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S074/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse s’intéresse à la création automatique de résumés de vidéos. L’idée est de créer de manière adaptative un résumé vidéo qui prenne en compte des règles définies sur le contenu audiovisuel d’une part, et qui s’adapte aux préférences de l’utilisateur d’autre part. Nous proposons une nouvelle approche qui considère le problème de création automatique de résumés sous forme d’un problème de satisfaction de contraintes. La solution est basée sur la programmation par contraintes comme paradigme de programmation. Un expert commence par définir un ensemble de règles générales de production du résumé, règles liées au contenu multimédia de la vidéo d’entrée. Ces règles de production sont exprimées sous forme de contraintes à satisfaire. L’utilisateur final peut alors définir des contraintes supplémentaires (comme la durée souhaitée du résumé) ou fixer des paramètres de haut niveau des contraintes définies par l’expert. Cette approche a plusieurs avantages. Elle permet de séparer clairement les règles de production des résumés (modélisation du problème) de l’algorithme de génération de résumés (la résolution du problème par le solveur de contraintes). Le résumé peut donc être adapté sans qu’il soit nécessaire de revoir tout le processus de génération des résumés. Cette approche permet par exemple aux utilisateurs d’adapter le résumé à l’application cible et à leurs préférences en ajoutant une contrainte ou en modifiant une contrainte existante, ceci sans avoir à modifier l’algorithme de production des résumés. Nous avons proposé trois modèles de représentation des vidéos qui se distinguent par leur flexibilité et leur efficacité. Outre les originalités liées à chacun des trois modèles, une contribution supplémentaire de cette thèse est une étude comparative de leurs performances et de la qualité des résumés résultants en utilisant des mesures objectives et subjectives. Enfin, et dans le but d’évaluer la qualité des résumés générés automatiquement, l’approche proposée a été évaluée par des utilisateurs à grande échelle. Cette évaluation a impliqué plus de 60 personnes. Ces expériences ont porté sur le résumé de matchs de tennis
This thesis focuses on the issue of automatic video summarization. The idea is to create an adaptive video summary that takes into account a set of rules defined on the audiovisual content on the one hand, and that adapts to the users preferences on the other hand. We propose a novel approach that considers the problem of automatic video summarization as a constraint satisfaction problem. The solution is based on constraint satisfaction programming (CSP) as programming paradigm. A set of general rules for summary production are inherently defined by an expert. These production rules are related to the multimedia content of the input video. The rules are expressed as constraints to be satisfied. The final user can then define additional constraints (such as the desired duration of the summary) or enter a set of high-level parameters involving to the constraints already defined by the expert. This approach has several advantages. This will clearly separate the summary production rules (the problem modeling) from the summary generation algorithm (the problem solving by the CSP solver). The summary can hence be adapted without reviewing the whole summary generation process. For instance, our approach enables users to adapt the summary to the target application and to their preferences by adding a constraint or modifying an existing one, without changing the summaries generation algorithm. We have proposed three models of video representation that are distinguished by their flexibility and their efficiency. Besides the originality related to each of the three proposed models, an additional contribution of this thesis is an extensive comparative study of their performance and the quality of the resulting summaries using objective and subjective measures. Finally, and in order to assess the quality of automatically generated summaries, the proposed approach was evaluated by a large-scale user evaluation. This evaluation involved more than 60 people. All these experiments have been performed within the challenging application of tennis match automatic summarization
49

Grigoras, Romulus. "Supervision de flux pour les contenus hypermédia : optimisation de politiques de préchargement et ordonnancement causal." Toulouse, INPT, 2003. http://www.theses.fr/2003INPT025H.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'accès performant aux données multimédia (rapide, cohérent, adapté aux besoins et préférences des utilisateurs et aux ressources disponibles) est un enjeu majeur des recherches actuelles sur le multimédia. Dans le premier volet de cette étude nous proposons de réduire les latences de navigation dans des hypervidéos à l'aide du préchargement. Notre contribution principale est un modèle formel intégrant les habitudes des utilisateurs pour anticiper les interactions futures et décider ce qu'il faut précharger, quand et comment. Ce modèle permet, sous des hypothèses précises, de calculer des politiques optimales de préchargement. La gestion des incertitudes liées au réseau et aux interactions des utilisateurs est un de ses atouts. Notre modèle (un Processus Décisionnel de Markov) et les politiques issues de la résolution sont validés expérimentalement dans une architecture de streaming. Les latences réelles sont cohérentes avec celles prédites par la théorie. Le deuxième volet de ce travail concerne le contrôle de la cohérence de l'accès aux flux multimédia répartis. Nous formalisons les relations entre flux en termes de causalité et introduisons la notion de défilement. Un modèle de calcul réparti est proposé où cette notion remplace la notion d'événement, utilisée classiquement. Nous montrons que le contrôle de ces relations, dans les protocoles de diffusion de groupe, peut être assuré simplement par une datation classique. Dans un deuxième temps, nous modélisons des flux sous forme d'intervalles temporels. Ceci permet de reformuler, à des fins de validation, les relations de causalité entre flux en termes de relations entre intervalles selon l'algèbre de Allen appliquée à un ordre partiel (causal).
50

Weinzaepfel, Philippe. "Le mouvement en action : estimation du flot optique et localisation d'actions dans les vidéos." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM013/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Avec la récente et importante croissance des contenus vidéos, la compréhension automatique de vidéos est devenue un problème majeur.Ce mémoire présente plusieurs contributions sur deux tâches de la compréhension automatique de vidéos : l'estimation du flot optique et la localisation d'actions humaines.L'estimation du flot optique consiste à calculer le déplacement de chaque pixel d'une vidéo et fait face à plusieurs défis tels que les grands déplacements non rigides, les occlusions et les discontinuités du mouvement.Nous proposons tout d'abord une méthode pour le calcul du flot optique, basée sur un modèle variationnel qui incorpore une nouvelle méthode d'appariement.L'algorithme d'appariement proposé repose sur une architecture corrélationnelle hiérarchique à plusieurs niveaux et gère les déformations non rigides ainsi que les textures répétitives.Il permet d'améliorer l'estimation du flot en présence de changements d'apparence significatifs et de grands déplacements.Nous présentons également une nouvelle approche pour l'estimation du flot optique basée sur une interpolation dense de correspondances clairsemées tout en respectant les contours.Cette méthode tire profit d'une distance géodésique basée sur les contours qui permet de respecter les discontinuités du mouvement et de gérer les occlusions.En outre, nous proposons une approche d'apprentissage pour détecter les discontinuités du mouvement.Les motifs de discontinuité du mouvement sont prédits au niveau d'un patch en utilisant des forêts aléatoires structurées.Nous montrons expérimentalement que notre approche surclasse la méthode basique construite sur le gradient du flot tant sur des données synthétiques que sur des vidéos réelles.Nous présentons à cet effet une base de données contenant des vidéos d'utilisateurs.La localisation d'actions humaines consiste à reconnaître les actions présentes dans une vidéo, comme `boire' ou `téléphoner', ainsi que leur étendue temporelle et spatiale.Nous proposons tout d'abord une nouvelle approche basée sur les réseaux de neurones convolutionnels profonds.La méthode passe par l'extraction de tubes dépendants de la classe à détecter, tirant parti des dernières avancées en matière de détection et de suivi.La description des tubes est enrichie par des descripteurs spatio-temporels locaux.La détection temporelle est effectuée à l'aide d'une fenêtre glissante à l'intérieur de chaque tube.Notre approche surclasse l'état de l'art sur des bases de données difficiles de localisation d'actions.Deuxièmement, nous présentons une méthode de localisation d'actions faiblement supervisée, c'est-à-dire qui ne nécessite pas l'annotation de boîtes englobantes.Des candidats de localisation d'actions sont calculés en extrayant des tubes autour des humains.Cela est fait en utilisant un détecteur d'humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de données de poses humaines.Un rappel élevé est atteint avec seulement quelques tubes, permettant d'appliquer un apprentissage à plusieurs instances.En outre, nous présentons une nouvelle base de données pour la localisation d'actions humaines.Elle surmonte les limitations des bases existantes, telles la diversité et la durée des vidéos.Notre approche faiblement supervisée obtient des résultats proches de celles totalement supervisées alors qu'elle réduit significativement l'effort d'annotations requis
With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue.This thesis introduces several contributions on two automatic video understanding tasks: optical flow estimation and human action localization.Optical flow estimation consists in computing the displacement of every pixel in a video andfaces several challenges including large non-rigid displacements, occlusions and motion boundaries.We first introduce an optical flow approach based on a variational model that incorporates a new matching method.The proposed matching algorithm is built upon a hierarchical multi-layer correlational architecture and effectively handles non-rigid deformations and repetitive textures.It improves the flow estimation in the presence of significant appearance changes and large displacements.We also introduce a novel scheme for estimating optical flow based on a sparse-to-dense interpolation of matches while respecting edges.This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle occlusions.Furthermore, we propose a learning-based approach for detecting motion boundaries.Motion boundary patterns are predicted at the patch level using structured random forests.We experimentally show that our approach outperforms the flow gradient baseline on both synthetic data and real-world videos,including an introduced dataset with consumer videos.Human action localization consists in recognizing the actions that occur in a video, such as `drinking' or `phoning', as well as their temporal and spatial extent.We first propose a novel approach based on Deep Convolutional Neural Network.The method extracts class-specific tubes leveraging recent advances in detection and tracking.Tube description is enhanced by spatio-temporal local features.Temporal detection is performed using a sliding window scheme inside each tube.Our approach outperforms the state of the art on challenging action localization benchmarks.Second, we introduce a weakly-supervised action localization method, ie, which does not require bounding box annotation.Action proposals are computed by extracting tubes around the humans.This is performed using a human detector robust to unusual poses and occlusions, which is learned on a human pose benchmark.A high recall is reached with only several human tubes, allowing to effectively apply Multiple Instance Learning.Furthermore, we introduce a new dataset for human action localization.It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos.Our weakly-supervised approach obtains results close to fully-supervised ones while significantly reducing the required amount of annotations

До бібліографії