Dissertations / Theses: 'Analyse de scènes par vision'

1

Le, Borgne Hervé. "Analyse de scènes naturelles par Composantes Indépendantes." Phd thesis, Grenoble INPG, 2004. http://tel.archives-ouvertes.fr/tel-00005925.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nombreuses études montrent que les détecteurs corticaux pourraient résulter de l'application d'un principe de réduction de redondance par indépendance statistique de leurs activités. L'analyse en Composantes Indépendantes est utilisée ici pour générer ces détecteurs, puis leurs performances sont analysées en terme de codage et de description pour catégoriser des images sémantiquement. La propriété d'indépendance statistique permet notamment de vaincre la « malédiction de la dimension » dans un contexte de classification d'images. Un second volet concerne la sémantique des images et la perception visuelle. Des sujets humains sont confrontés à des séries d'expérimentation, captant leur jugement de similarités visuelles, afin de pouvoir identifier les catégories sémantiques, d'apprécier l'apport de modalités perceptives comme la chrominance versus la luminance, et de mettre en évidence des asymétries perceptives.

2

Strat, Sabin Tiberius. "Analyse et interprétation de scènes visuelles par approches collaboratives." Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00959081.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les dernières années, la taille des collections vidéo a connu une forte augmentation. La recherche et la navigation efficaces dans des telles collections demande une indexation avec des termes pertinents, ce qui nous amène au sujet de cette thèse, l'indexation sémantique des vidéos. Dans ce contexte, le modèle Sac de Mots (BoW), utilisant souvent des caractéristiques SIFT ou SURF, donne de bons résultats sur les images statiques. Notre première contribution est d'améliorer les résultats des descripteurs SIFT/SURF BoW sur les vidéos en pré-traitant les vidéos avec un modèle de rétine humaine, ce qui rend les descripteurs SIFT/SURF BoW plus robustes aux dégradations vidéo et qui leurs donne une sensitivité à l'information spatio-temporelle. Notre deuxième contribution est un ensemble de descripteurs BoW basés sur les trajectoires. Ceux-ci apportent une information de mouvement et contribuent vers une description plus riche des vidéos. Notre troisième contribution, motivée par la disponibilité de descripteurs complémentaires, est une fusion tardive qui détermine automatiquement comment combiner un grand ensemble de descripteurs et améliore significativement la précision moyenne des concepts détectés. Toutes ces approches sont validées sur les bases vidéo du challenge TRECVid, dont le but est la détection de concepts sémantiques visuels dans un contenu multimédia très riche et non contrôlé.

3

Carrasco, Miguel. "Non-calibrated multiple views : applications and methodologies." Paris 6, 2010. http://www.theses.fr/2010PA066015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La recherche de modèles d’intérêt contenus dans des séquences de vues multiples d’une scène reste l’un des principaux problèmes de la vision par ordinateur actuellement. En dépit des grands progrès observés au cours des 40 dernières années, la vision par ordinateur ne parvient pas encore à répondre adéquatement quant à la manière d’inférer et de détecter des modèles d’intérêt dans des scènes pour lesquelles un ou plusieurs objet(s) sont vus depuis diﬀérents points de vue. Aﬁn de surmonter ce probléme, cette thèse propose de nouveaux algorithmes et prototypes capables de caractériser, d’inférer et de détecter des modèles d’intérêt en séquences avec des vues multiples de manière non calibrée, c’est-à-dire sans connaissance à priori de la position du/des objet(s) par rapport à la (aux) caméra(s). Le travail réalisé s’articule autour de trois axes, divisés en six articles qui constituent le corps de la thèse. (1) L’analyse de correspondances point-par-point à travers de marqueurs explicites et implicites sur les objets. (2) L’estimation de correspondances point-par-point à travers de multiples relations géométriques indépendantes du/des objet(s) qui composent la scène. (3) La prédiction du ﬂux dynamique du déplacement généré par le mouvement de la caméra autour de l’objet. L’objectif principal de cette thèse est d’appuyer la prise de décision à travers d’une analyse dynamique et/ou géométrique du mouvement du/des objet(s) ou de la (des) caméra(s) pendant que ceux-ci se déplacent. Grâce à cette analyse, il est possible d’accroître l’information sur la scène et l’(les) ob jet(s) à travers d’un processus inférenciel spéciﬁque pour chaque cas. Il ressort des thématiques exposées qu’il est possible, par exemple, d’assister le processus d’inspection réalisé par un opérateur humain, de déterminer la qualité d’un produit de manière autonome, ou d’exécuter une action spéciﬁque dans un acteur robotique. Bien que ces thématiques présentent des approches diﬀérentes, celles-ci ont le même ensemble de pas en ce qui concerne: (1) la détermination de la relation de correspondance de points ou de régions sur plusieurs images, (2) la détermination de la relation géométrique et/ou dynamique existante entre les correspondances estimées précédemment, (3) l’inférence de nouvelles relations sur les points dont la correspondance est inconnue en vue de caractériser le mouvement. Les variations les plus fortes correspondent à la manière dont la correspondance est estimée; au calcul de la dynamique et la géométrie entre les points correspondants; et enﬁn à la manière dont nous inférons une action particulière suite à un mouvement spéciﬁque. Parmi les principaux résultats, on trouve le développement d’une méthodologie d’inspection non calibrée à vues multiples appliquée à l’analyse de la qualité des jantes de véhicules, le développement d’un prototype fonctionnel appliqué à l’inspection des cols de bouteilles de vin, une méthodologie de correspondance point par point géométrique capable de résoudre le problème de correspondance en deux et trois vues pour tout point d’intérêt, et enﬁn la reconnaissance de l’intention humaine pour les tâches de “grasping” à travers de l’analyse du mouvement des yeux et de la main. À l’avenir, il restera encore à analyser les correspondances dynamiques à travers de caractéristiques invariantes, employer des méthodes d’analyse géométriques en séquences d’images radiologiques, et utiliser des modèles de détection d’intentions pour évaluer la qualité des objets.

4

Frémont, Vincent. "Analyse de séquences d'images pour la reconstruction 3D euclidienne : cas des scènes complexes pour des mouvements de caméra contraints et non contraints." Nantes, 2003. http://www.theses.fr/2003NANT2102.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce sujet de thèse porte sur la mise au point de méthodologies d'analyse spatio-temporelle pour la reconstruction 3D d'environnements quelconques. Il s'agit d'obtenir des modèles 3D de scènes ou d'objets à partir d'une séquence d'images vidéo étalonnée ou non. L'idée développée tout au long de cette thèse est de contraindre le lieu géométrique des primitives images (ici des points) à travers la séquence, pour réduire l'espace des solutions du problème 3D et ainsi, permettre de remonter de l'espace en deux dimensions (les images) vers un résultat tridimensionnel (la scène ou l'objet 3D). Dans le cadre de notre travail, la précision dimensionnelle n'est pas un impératif absolu tout comme le temps de calcul dans la mesure où la reconstruction n'a pas à être réalisée en temps réel. Par ailleurs, le mouvement de la caméra est libre et ce dernier peut être mu selon les besoins de la reconstruction. Ces degrés de liberté, augmentés de connaissances locales au niveau de la scène ou de l'objet, nous permettent de choisir librement le type de contraintes à introduire pour réduire l'espace des solutions et pouvoir arriver à une interprétation unique. Ainsi, pour un objet en mouvement de rotation axiale, un rayon et une hauteur caractérisent le lieu géométrique des solutions 3D. Pour un mouvement libre, la connaissance de six points dans la scène dont quatre sont coplanaires, permet de définir les trajectoires des points image dans une base homographique. La principale contribution de cette thèse est de développer des algorithmes de reconstruction 3D originaux permettant d'utiliser au mieux l'ensemble des données de la séquence d'images, en contraignant le lieu géométrique des primitives d'un point de vue spatio-temporel.

5

Servant, Fabien. "Localisation et cartographie simultanées en vision monoculaire et en temps réel basé sur les structures planes." Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/servant.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail présenté dans ce manuscrit se situe dans le domaine de la réalité augmentée. Dans le contexte de la réalité augmentée, il est nécessaire de calculer la position relative entre la caméra et la scène en temps réel. Cette thèse présente une méthode complète de calcul de pose reposant sur l'utilisation de structures planes présentes dans les environnements urbains intérieurs et extérieurs. Le suivi de pose est effectué à l'aide d'une caméra bas coût et d'un capteur inertiel. Notre approche consiste à tirer parti des plans pour faciliter le calcul de la pose. Les homographies obtenues par un algorithme de suivi dans l'image de régions planes, présenté dans cette thèse, servent de mesures à notre méthode de localisation et cartographie simultanées. Cette méthode de SLAM permet d'assurer un suivi de la pose robuste tout en permettant une reconstruction de la scène 3D et fonctionnant sur le long terme en propageant les incertitudes des mesures. Des travaux sur la sélection des régions à suivre et sur l'initialisation des paramètres des plans, correspondant à ces régions, sont également présentés. Des expériences en simulation et sur des séquences d'images réelles montrent la validité de notre approche
Our work deals with computer vision. The problem of augmented reality implies a real time estimation of the relive position between camera and scene. This thesis presents a complete method of pose tracking that works with planar structures which are abundant in indoor and outdoor urban environments. The pose tracking is done using a low cost camera and an inertial sensor. Our approach is to use the planes to make the pose estimation easier. Homographies computed by an image tracking algorithm presented in this document are used as measurements for our Simultaneous Localization And Mapping method. This SLAM method permits a long term and robust pose tracking by propagating the measurements uncertainties. Works about selection of regions to track and their corresponding plane parameters initialization are also described in this thesis. Numerical and image based experiments shows the validity of our approach

6

Alquier, Laurent. "Analyse et représentation de scènes complexes par groupement perceptuel : Application à la perception de structures curvilignes." Montpellier 2, 1998. http://www.theses.fr/1998MON20137.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La detection robuste de structures courbes a partir de contours joue un role important pour de nombreux systemes de vision artificielle. Dans ce contexte, le groupement perceptuel est une contribution utile de la psycho-vision a la vision par ordinateur, avec l'apport de methodes generiques et robustes pour reduire la complexite de cette tache. Nous proposons dans cette these une methode robuste, inspiree des regles gestaltistes, pour detecter les contours saillants et en extraire des elements de representation. Cette approche est hierarchique et divisee en trois niveaux d'organisation. Le premier niveau consiste en l'optimisation d'une fonction de qualite representative des proprietes geometriques des contours a l'aide d'un reseau d'elements localement connectes. Le but de ce niveau est d'isoler les structures curvilignes les plus regulieres. Nous apportons un formalisme generique pour ce type de reseau, ainsi qu'une famille de fonctions de qualite plus stable, et un ensemble de critere pour l'optimisation et la selection des contours les plus saillants. Ces derniers servent de centre d'attention pour le second niveau de groupement. Des hypotheses de segments, d'arcs et de points d'interet sont etablies a partir des structures saillantes et groupees afin de produire un ensemble d'elements representatifs des contours de la scene. Enfin, nous illustrons le dernier niveau par une application a la detection et la mise en correspondance de jonctions entre deux images. La principale caracteristique de notre methode est une separation entre une strategie generique d'organisation et des modules de groupements specialises. Une certaine part d'ambiguite et de redondance est egalement necessaire afin de permettre la detection de structures multi-echelles. Notre travail insiste sur la manipulation de scenes complexes, sur des systemes usuels. Il a fait l'objet d'applications sur des scenes variees, depuis les images satellitaires et medicales aux scenes urbaines et d'interieur.

7

Boukarri, Bachir. "Reconstruction 3D récursive de scènes structurées au moyen d'une caméra mobile : application à la robotique." Paris 11, 1989. http://www.theses.fr/1989PA112290.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse est consacrée à la perception d'environnement structuré, et décrit une méthode originale de reconstruction tridimensionnelle d'une zone d'intérêt au moyen d'une caméra mobile. Ce mémoire se décompose en trois points essentiels, de l'aspect bidimensionnel des images à l'aspect tridimensionnel de l'environnement, pour conclure finalement sur la validation des concepts énoncés. Dans la premiere partie, nous proposons une méthode qui produit une représentation topologique et géometrique de l'image à partir d'entités de type segment et jonction. Ensuite, nous étudions un procédé basé sur la prédiction et vérification d'hypothèses pour la mise en correspondance de ces entités issues de deux images successives. La seconde partie concerne la reconstruction tridimensionnelle de la scène. Elle met en évidence notre concept original d'estimation-construction-fusion utilisant une technique de triangulation. Un tel concept permet non seulement une représentation tridimensionnelle quasi complète et précise, mais aussi une estimation constante de la position du capteur vis-a-vis de la scène modélisée. L'efficacité d'une telle méthode est obtenue par l'édification d'une stratégie de remise a jour, et surtout par l'emploi d'un outil unique et puissant: filtrage de Kalman. Dans la dernière partie, nous exposons des résultats expérimentaux issus d'images réelles et simulées, et nous concluons sur l'efficacité de notre méthode

8

Dahyot, Rozenn. "Analyse d'images séquentielles de scènes routières par modèle d'apparence pour la gestion du réseau routier." Université Louis Pasteur (Strasbourg) (1971-2008), 2001. https://publication-theses.unistra.fr/public/theses_doctorat/2001/DAHYOT_Rozenn_2001.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

9

Bugeau, Aurélie. "Détection et suivi d'objets en mouvement dans des scènes complexes : application à la surveillance des conducteurs." Rennes 1, 2007. ftp://ftp.irisa.fr/techreports/theses/2007/bugeau.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De nombreuses applications en vision par ordinateur nécessitent la détection et le suivi d'objets en mouvement dans une séquence d'images. Le but de cette thèse est de détecter et suivre les objets mobiles dans des séquences ayant un fond dynamique, avec de forts changements d'illumination, de faibles contrastes et éventuellement acquises par une caméra mobile. Cette thèse est décomposée en deux parties. Dans la première, une méthode de détection est proposée. Elle repose sur la définition d'une grille de points décrits par leur mouvement et leur photométrie. Ces points sont ensuite regroupés en "clusters en mouvement" avec un algorithme mean shift à noyau variable et une méthode de sélection automatique de la taille des noyaux. La deuxième partie propose une méthode de suivi combinant des distributions de couleur et de mouvement, la prédiction de l'objet et des observations extérieures (pouvant être les clusters en mouvement) dans une fonction d'énergie minimisée par coupe minimale/flot maximal dans un graphe
Detecting and tracking moving objects in dynamic scenes is a hard but essential task in a large number of computer vision applications such as surveillance. This thesis aims at detecting, segmenting and tracking foreground moving objects in sequences (such as driver sequences) having highly dynamic backgrounds, illumination changes and low contrasts, and possibly shot by a moving camera. Two main steps compose the thesis. First, moving points, described by their motion and color, are selected within a sub-grid of image pixels. Clusters of points are then formed using a variable bandwidth mean shift with automatic bandwidth selection. In a second part, a tracking method is proposed. It combines color and motion distributions, the prediction of the tracked object and some external observations (which can be the clusters from the detector) into an energy function minimized with Graph Cuts

10

Bardet, François. "Suivi et catégorisation multi-objets par vision artificielle." Phd thesis, Clermont-Ferrand 2, 2009. http://www.theses.fr/2009CLF21972.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse présente une méthode de suivi et de classification conjoints en temps réel d'un nombre variable d'objets tels que des piétons et/ou des véhicules, sous conditions d'illumination variables au cours du temps. La méthode retenue entre dans le champ du suivi Multi-Objets par Filtre Particulaire, dont la clé de voûte est l'échantillonnage des particules. Nous examinons deux familles de filtres particulaires : les Filtres Particulaires Partitionnés, et les Filtres Particulaires par Chaîne de Markov (FP MCMC). Nous comparons ensuite leurs performances sur des données de synthèse. Les résultats obtenus montrent la supériorité du Filtre Particulaire MCMC. Un système de suivi et classification conjoints en temps réel d'un nombre variable d'ojets tels que des piétons et/ ou des véhicules, sous illumination variable, est ensuite présenté. La mesure est délivrée par une ou plusieurs caméras statiques. Nous avons délibérément choisi d'alimenter le filtre avec une observation pauvre, reposant uniquement sur une segmentation binaire avant-plan / arrière-plan basée sur un modèle de l'arrière-plan mis à jour en ligne à chaque image. Pour résister aux variations d'illumination, les ombres sont modélisées et le filtre est étendu afin de suivre conjointement le soleil et les objets. Les résultats de suivi et classification en temps réel sont présentés et discutés sur des séquences réelles et sur des séquences de synthèse, impliquant plusieurs catégories d'utilisateurs tels que des piétons, des voitures, des camionettes et des poids lourds

11

Veit, Thomas. "Détection et analyse de mouvements dans des séquences d'images par une approche probabiliste a contrario." Rennes 1, 2005. http://www.theses.fr/2005REN1S096.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'intéresse à l'analyse du mouvement et plus particulièrement à la détection de mouvement dans des séquences d'images. L'approche choisie est une approche a contrario. Les objets mobiles sont détectés comme de grandes déviations par rapport à un modèle simple de la situation aléatoire en l'absence d'objets mobiles. Dans une première partie, nous nous intéressons à la détection instantanée de régions en mouvement. La seconde partie permet de détecter des mouvements cohérents. A partir d'éléments caractéristiques extraits des images, une procédure de groupement dans un espace paramétré convenable permet de détecter des éléments de trajectoire. Les deux méthodes ont été testées sur des séquences d'images réelles et variées. Parmi les applications on compte : la surveillance, le suivi, la reconnaissance et l'indexation de contenus.

12

Pusiol, Guido. "Découverte des activités humaines dans des vidéos." Nice, 2012. http://www.theses.fr/2012NICE4036.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif principal de cette thèse est de proposer un système complet pour la découverte, la modélisation et la reconnaissance des activités humaines en utilisant des informations provenant de données vidéo. Cette approche utilise l’information visuelle (les trajectoires des objets détectés par exemple) en entrée et donne en sortie les activités (la sémantique). L’approche est divisée en cinq étapes principales. Tout d’abord, nous découpons la vidéo en morceaux pour caractériser les activités. Nous proposons différentes techniques pour extraire les caractéristiques visuelles de ces morceaux. De cette façon, nous construisons un ensemble de caractéristiques visuelles capables de décrire l’activité se produisant sur une courte période de temps. Deuxièmement, nous proposons d’apprendre l’information contextuelle de la scène observée. Nous construisons des modèles de la scène en apprenant les caractéristiques visuelles les plus significatives. Les modèles sont des régions contenant des activités intéressantes capables de décrire une sémantique de base (les régions où les interactions se produisent). Troisièmement, nous proposons de réduire le fossé entre l’information visuelle de bas niveau et l’interprétation sémantique des données, en construisant une couche intermédiaire composée d’événements primitifs. Ces événements visent à décrire les mouvements significatifs des objets de la scène. Ce résultat est obtenu en abstrayant les caractéristiques visuelles et en s’appuyant sur l’information contextuelle de manière non supervisée. Quatrièmement, nous proposons une méthode basée sur des modèles pour découvrir les activités à de multiples résolutions (à savoir les activités et leurs sous-activités). En outre, nous proposons une méthode générative pour modéliser les activités à différentes résolutions. Les modèles sont construits comme un cadre souple probabiliste facile à mettre à jour. Enfin, nous proposons une méthode de reconnaissance des activités qui trouve de manière déterministe les occurrences d’activités modélisées dans de nouvelles bases de vidéos. La sémantique est fournie grâce à l’interaction de l’utilisateur sur quelques exemples d’activités reconnues. Ce travail de recherche a évalué à l’aide de données réelles de personnes évoluant dans un appartement (soins à domicile) et de patients âgés dans un hôpital
The main objective of this thesis is to propose a complete framework for activity discovery, modelling and recognition using video information. The framework uses perceptual information (e. G. Trajectories) as input and goes up to activities (semantics). The framework is divided into five main parts. First, we break the video into clunks to characterize activities. We propose different techniques to extract perceptual features from the chunks. This way, we build packages of perceptual features capable to describing activity occurring in small periods of time. Second, we propose to learn the video contextual information. We build scene models by learning salient perceptual features. The model ends up containing interesting scene regions capable of describing basic semantics (i. E. Region where interactions occur). Third, we propose to reduce the gap between low-level vision information and semantic interpretation, by building an intermediate layer composed of Primitive Events. The proposed representation for primitive events aims at describing the meaningful motions over the scene. This is achieved by abstracting perceptual features using contextual information in an unsupervised manner. Fourth, we propose a pattern – based method to discover activities at multiple resolutions (i. E. Activities and sub-activities). Also, we propose a generative method to model multi-resolution activities. The models are built as a flexible probabilistic framework easy to update. Finally, we propose an activity recognition method that finds in a deterministic manner the occurrences of modelled activities in unseen datasets. Semantics are provided by the method under interaction. All this research work has been evaluated using real datasets of people living in an apartment (home-care application) and elder patient’s ion a hospital

13

Bąk, Slawomir. "Human re-identification through a video camera network." Nice, 2012. http://www.theses.fr/2012NICE4040.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce manuscrit de thèse a pour sujet la ré-identification de personne basée sur leur apparence à partir d’images et de vidéos. La ré-identification de personne consiste à déterminer si un individu donné est déjà apparu sur un réseau de caméras. Ce problème est particulièrement difficile car l’apparence change significativement entre les différentes vues de caméras, où les variations de points de vue, d’illumination et de position de l’objet, rendent le problème difficile. Nous nous concentrons sur le développement de modèles d’apparence robustes quoi sont en mesure de faire correspondre les apparences humaines enregistrées dans des vues de caméra disjointes. Comme la représentation de régions d’image est fondamentale pour la mise en correspondance d’apparence, nous étudions différents types de descripteurs d’images. Ces différents descripteurs impliquent des stratégies différentes pour la mise ne correspondance d’apparence, impliquant des modèles différents pour la représentation des apparences de personne. En appliquant des techniques d’apprentissage automatique, nous générons des modèles descriptifs et discriminatoires, qui améliorent la distinction des caractéristiques extraites, améliorant ainsi la précision de ré-identification. Cette thèse a les contributions suivantes. Nous proposons six techniques de ré-identification humaine. Les deux premières appartiennent aux approches single-shot, dans lesquelles une seule image est suffisante pour extraire un signature fiable de personne. Ces approches divisent le corps humain en différentes parties de corps prédéfinies, puise extraient les caractéristiques de l’image. Cela permet de mettre en correspondance les différentes parties du corps en comparant les signatures. Les quatre autres méthodes abordent le problème de ré-identification à l’aide de signatures calculées à partir de plusieurs images (multiple-shot). Nous proposons deux techniques qui apprennent en ligne le modèle d’apparence humaine en utilisant un schéma de boosting. Les approches de boosting améliorent la précision de la reconnaissance, au détriment du temps de calcul. Les deux dernières approches assument un modèle prédéfini, ou un apprentissage hors-ligne des modèles, pour réduire le temps de calcul. Nous constatons que le descripteur de covariance est en général le meilleur descripteur pour la mise en correspondance des apparences dans des vues de caméras disjointes. Comme l’opérateur de distance de ce descripteur nécessite un calcul intensif, nous proposons également une nouvelle implémentation utilisant le GPU qui accélère considérablement les temps de calcul. Nos expériences suggèrent que la moyenne Riemannienne des covariances calculée à partir de plusieurs images améliore les performances par rapport aux techniques de ré-identification de personne de l’état de l’art. Enfin, nous proposons deux nouvelles bases d’images d’individus pour évaluer le scénario multiple-shot
This thesis targets the appearance-based re-identification of humans in images and videos. Human re-identification is defined as a requirement to determine whether a given individual has already appeared over a network of cameras. This problem is particularly hard by significant appearance changes across different camera views, where variations in viewing angle, illumination and object pose, make the problem challenging. We focus on developing robust appearance models that are able to match human appearances registered in disjoint camera views. As encoding of image regions is fundamental for appearance matching, we study different kinds of image descriptors. These different descriptors imply different strategies for appearance matching, bringing different models for the human appearance representation. By applying machine learning techniques, we generate descriptive and discriminative models, which enhance distinctive characteristics of extracted features, improving re-identification accuracy. This thesis makes the following contributions. We propose six techniques for human re-identification. The first two belong to single-shot approaches, in which a single image is sufficient to extract a robust signature. These approaches divide the human body into the predefined body parts and then extract image features. This allows to establish the corresponding body parts, while comparing signatures. The remaining four methods address the re-identification problem using signatures computed from multiple images (multiple-shot case). We propose two techniques which learn online the human appearance model using a boosting scheme. The boosting approaches improve recognition accuracy at the expense of time consumption. The last two approaches either assume the predefined model, or learn offline a model, to meet time requirements. We find that covariance feature is in general the best descriptor for matching appearances across disjoint camera views. As a distance operator of this descriptor is computationally intensive, we also propose a new GPU-based implementation which significantly speeds up computations. Our experiments suggest that mean Riemannian covariance computed from multiple images improves state of the art performance of human re-identification techniques. Finally, we extract two new image sets of individuals for evaluating the multiple-shot scenario

14

Atrevi, Dieudonne Fabrice. "Détection et analyse des évènements rares par vision, dans un contexte urbain ou péri-urbain." Thesis, Orléans, 2019. http://www.theses.fr/2019ORLE2008.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif principal de cette thèse est le développement de méthodes complètes de détection d’événements rares. Les travaux de cette thèse se résument en deux parties. La première partie est consacrée à l’étude de descripteurs de formes de l’état de l’art. D’une part, la robustesse de certains descripteurs face à différentes conditions de luminosité a été étudiée. D’autre part, les moments géométriques ont été comparés à travers une application d’estimation de pose humaine 3D à partir d’image 2D. De cette étude, nous avons montré qu’à travers une application de recherche de formes, les moments géométriques permettent d’estimer la pose d’une personne à travers une recherche exhaustive dans une base d’apprentissage de poses connues.Cette application peut être utilisée dans un système de reconnaissance d’actions pour une analyse plus fine des événements détectés. Dans la deuxième partie, trois contributions à la détection d’événements rares sont présentées. La première contribution concerne l’élaboration d’une méthode d’analyse globale de scène pour la détection des événements liés aux mouvements de foule. Dans cette approche, la modélisation globale de la scène est faite en nous basant sur des points d’intérêt filtrés à partir de la carte de saillance de la scène. Les caractéristiques exploitées sont l’histogramme des orientations du flot optique et un ensemble de descripteur de formes étudié dans la première partie. L’algorithme LDA (Latent Dirichlet Allocation) est utilisé pour la création des modèles d’événements à partir d’une représentation en document visuel à partir de séquences d’images (clip vidéo). La deuxième contribution consiste en l’élaboration d’une méthode de détection de mouvements saillants ou dominants dans une vidéo. La méthode, totalement non supervisée,s’appuie sur les propriétés de la transformée en cosinus discrète pour analyser les informations du flot optique de la scène afin de mettre en évidence les mouvements saillants. La modélisation locale pour la détection et la localisation des événements est au coeur de la dernière contribution de cette thèse. La méthode se base sur les scores de saillance des mouvements et de l’algorithme SVM dans sa version "one class" pour créer le modèle d’événements. Les méthodes ont été évaluées sur différentes bases publiques et les résultats obtenus sont prometteurs
The main objective of this thesis is the development of complete methods for rare events detection. The works can be summarized in two parts. The first part is devoted to the study of shapes descriptors of the state of the art. On the one hand, the robustness of some descriptors to varying light conditions was studied.On the other hand, the ability of geometric moments to describe the human shape was also studied through a3D human pose estimation application based on 2D images. From this study, we have shown that through a shape retrieval application, geometric moments can be used to estimate a human pose through an exhaustive search in a pose database. This kind of application can be used in human actions recognition system which may be a final step of an event analysis system. In the second part of this report, three main contributions to rare event detection are presented. The first contribution concerns the development of a global scene analysis method for crowd event detection. In this method, global scene modeling is done based on spatiotemporal interest points filtered from the saliency map of the scene. The characteristics used are the histogram of the optical flow orientations and a set of shapes descriptors studied in the first part. The Latent Dirichlet Allocation algorithm is used to create event models by using a visual document representation of image sequences(video clip). The second contribution is the development of a method for salient motions detection in video.This method is totally unsupervised and relies on the properties of the discrete cosine transform to explore the optical flow information of the scene. Local modeling for events detection and localization is at the core of the latest contribution of this thesis. The method is based on the saliency score of movements and one class SVM algorithm to create the events model. The methods have been tested on different public database and the results obtained are promising

15

Hervieu, Alexandre. "Analyse de trajectoires vidéos à l'aide de modélisations markoviennes pour l'interprétation de contenus." Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/hervieu.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse traite de l'utilisation de trajectoires issues de vidéos. La méthode est invariante aux translations, aux rotations ainsi qu'aux facteurs d'échelle tout en prenant en compte des informations de dynamiques et de formes. Un Modèle de Markov caché (MMC) est proposé afin de supporter le manque d'observations, toutes les sélections de paramètres étant considérées. Une mesure de similarité entre MMC est utilisée pour des tâches de reconnaissance de contenu vidéo: la classification, le clustering de plans vidéo et la détection d'évènements rares. Des chaînes semi-markoviennes sont ensuite développées afin de traiter les interactions entre trajectoires. Celles-ci sont utilisées afin de reconnaître les phase d'activités observées. La méthode a été utilisée sur des vidéos de squash et de handball. Ces modèles ont été étendus à la reconnaissance de gestes et d'actions 3D. Les résultats montrent l'intérêt de la prise en compte des interactions pour de telles applications
This thesis deals with the use of trajectories extracted from videos. The approach is invariant to translation, to rotation and to scaling and takes into account both shape and dynamics-related information on the trajectories. A hidden Markov model (HMM) is proposed to handle lack of observations and parameters are properly estimated. A similarity measure between HMM is used to tackle three dynamic video content understanding tasks: recognition, clustering and detection of unexpected events. Hierarchical semi-Markov chains are developed to process interacting trajectories. The interactions between trajectories are taken into used to recognize activity phases. Our method has been evaluated on sets of trajectories extracted from squash and handball video. Applications of such interaction-based models have also been extended to 3D gesture and action recognition and clustering. The results show that taking into account the interactions may be of great interest for such applications

16

Dexter, Émilie. "Modélisation de l'auto-similarité dans les vidéos : applications à la synchronisation de scènes et à la reconnaissance d'actions." Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/dexter.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous avons abordé dans ces travaux les problématiques de reconnaissance d’actions et de synchronisation de séquences d’images. Nous proposons de calculer les similarités temporelles d'une séquence d’images afin de construire une « matrice d’auto-similarité ». Ces matrices, bien qu’elles ne soient pas strictement invariantes aux changements de vue, sont suffisamment stables lors de ces changements pour fournir des séquences de descripteurs temporels robustes pour la synchronisation et de plus discriminants pour la reconnaissance d’actions. La synchronisation est ensuite réalisée à l’aide de l’algorithme de Dynamic Time Warping. La reconnaissance, quant à elle, fait appel à des stratégies de « sacs-de-mots » afin de représenter les actions comme des ensembles non ordonnés de descripteurs ou comme des histogrammes d’occurrences des descripteurs quantifiés obtenus à l’aide d’un vocabulaire de « mots ». Nous pouvons ensuite appliquer des techniques classiques de classification supervisée. Les méthodes proposées se caractérisent par leur simplicité et leur flexibilité en n’imposant pas, par exemple, l'existence de correspondances de points entre les vues
This PhD work deals with action recognition and image sequence synchronization. We propose to compute temporal similarities of image sequences to build self-similarity matrix. Although these matrices are not strictly view-invariant, they remain stable across views providing temporal descriptors of image sequences useful for synchronization as well as discriminant for action recognition. Synchronization is achieved with a dynamic programming algorithm known as Dynamic Time Warping. We opt for “Bag-of-Features” methods for recognizing actions such as actions are represented either as unordered sets of descriptors or as normalized histograms of quantized descriptor occurrences. Classification is performed by well known classification methods as Nearest Neighbor Classifier or Support Vector Machine. Proposed methods are characterized by their simplicity and flexibility: they do not require point correspondences between views

17

Trujillo, Morales Noel. "Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets." Clermont-Ferrand 2, 2007. http://www.theses.fr/2007CLF21803.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence, à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à "instancier" ce modèle dans la vie courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel" : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up / top-down, reste implicite dans la stratégie globale de reconnaissance. La "focalisation progressive" et la représentation hybride du modèle, permettent de tirer profit des deux types de représentations classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaisssance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution d'une zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons

18

Ménier, Clément. "Système de vision temps-réel pour les intéractions." Grenoble INPG, 2007. http://www.theses.fr/2007INPG0041.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous nous intéressons à l'acquisition temps réel d'informations tridimensionnelles sur une scène à partir de plusieurs caméras dans le contexte des applications interactives. Nous proposons un système de vision complet allant de l'acquisition des images à la modélisation des formes et du mouvement de l'utilisateur. La distribution des tâches sur une grappe de PC, et en particulier la parallélisation de plusieurs algorithmes d'extraction de la géométrie de la scène, permet un fonctionnement temps-réel avec une faible latence. De nombreuses applications sont développées et valident la mise en oeuvre réalisée de ce système. Une approche nouvelle de la modélisation du mouvement est aussi proposée. Celle-ci permet de suivre et d'identifier les membres de l'utilisateur sans connaissance a priori sur la forme de ce dernier
This thesis focuses on the the real time acquisition of 3D information on a scene from multiple camera in the context of interactive applications. A complete vision system from image acquisition to motion and shape modeling is presented. The distribution of tasks on a PC cluster, and more precisely the parallelization of different shape modeling algorithms, enables a real time execution with a low latency. Several applications are developped and validate the practical implementation of this system. An original approach of motion modeling is lso presented. It allows for limbs tracking and identification white not requiring prior information on the shape of the user

19

Leignel, Christine. "Modèle 2D du corps pour l'analyse des gestes par l'image via une architecture de type tableau noir : application aux interfaces homme-machine évoluées." Rennes 1, 2006. http://www.theses.fr/2006REN1S095.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le contexte des Interfaces Homme Machine (I. H. M), la reconnaissance visuelle du corps et des gestes autorise des I. H. M naturelles et intuitives actionnables à distance ainsi que l'animation d'un avatar. L'objectif de la thèse est de décrire un système d'intelligence artificielle pour détecter et suivre une personne en temps réel dans une scène naturelle, acquise avec une seule caméra couleur. Ce système d’analyse de scène utilise une structure hiérarchique, avec au sommet une stratégie contrôlant des tâches qui à leur tour activent des spécialistes par une approche opportuniste. Chacun de ces niveaux possède son propre tableau noir afin de hiérarchiser les données et d'augmenter progressivement l'intelligence du système. Le processus de détection s'appuie sur la recherche dans une image des différents membres du corps (bras, etc. ) via des traitements spécifiques pour chacune d'elles. La partie supérieure du corps est détectée, mais le corps entier peut l’être de la même façon.

20

Ayral, Bruno. "Conception d'un système modulaire pour l'utilisation de connaissances hétérogènes en inspection visuelle de scènes : Application en vision tridimensionnelle ultra-sonore." Compiègne, 1990. http://www.theses.fr/1990COMPD246.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Un système d'analyse de scènes est conçu, permettant de réaliser un contrôle du contenu de l'intérieur d'une cuve de réacteur nucléaire, à partir d'une image acquise par un dispositif de type sonar et d'un ensemble de connaissances de natures diverses relatives à la cartographie et l'historique de l'environnement observé. Le problème posé est identifié comme un problème d'inspection visuelle de scène. Il s'agit d'une classe particulière de problèmes de vision par ordinateur, qui se distingue du cas général par une absence de dimension exploratoire. Les systèmes classiques de vision sont destinés à créer un modèle complet de la scène observée, sur la base d'une image, et d'éléments connus à priori de ce modèle. Dans le cas de l'inspection de scènes, le système dispose d'un modèle complet avant l'analyse. Sa tâche n'est donc pas de générer, mais de valider ce modèle, en le comparant aux informations fournies par l'image. Il s'agit donc principalement d'une tâche de détection et de diagnostic des incohérences pouvant exister entre deux représentations de natures différentes d'une même scène. Une architecture de système d'inspection de scènes doit intégrer l'interprétation comme une entité directement manipulable. Le nombre et la complexité des connaissances à prendre en compte ainsi que l'absence de processus de vision unanimement reconnu, tendent à faire prévaloir des stratégies d'analyse de type opportuniste. En conséquence, le système présenté est construit sur une architecture à base de tableau noir intégrant trois niveaux principaux de représentation des informations : image (primitives extraites), modèle (éléments constituants) et interprétation (mise en correspondance entre primitives et modèle).

21

Oudjail, Veïs. "Réseaux de neurones impulsionnels appliqués à la vision par ordinateur." Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB048.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les réseaux de neurones artificiels (RNA) sont devenus des techniques incontournables en vision par ordinateur, cette tendance ayant débuté lors du challenge ImageNet de 2012. Cependant, ce succès s'accompagne d'un coût humain non-négligeable pour l'étiquetage manuel des données, très important dans l'apprentissage des modèles et d'un coût énergétique élevé causé par le besoin de ressources de calcul importantes. Les réseaux de neurones impulsionnels (Spiking Neural Network, SNN) apportent des solutions à ces problématiques. C'est une classe particulière des RNAs, proche du modèle biologique, dans lequel les neurones communiquent de manière asynchrone en représentant l'information via des impulsions (spikes). L'apprentissage des SNN peu reposer sur une règle non supervisée : la STDP. Elle module les poids synaptiques en fonction des corrélations temporelles locales constatées entre les impulsions entrantes et sortantes. Différentes architectures matérielles ont été conçues dans le but d'exploiter les propriétés des SNN (asynchronie, opération éparse et locale, etc.) afin de concevoir des solutions peu énergivores, certaines divisant le coût de plusieurs ordres de grandeur. Les SNNs gagnent en popularité et il y a un intérêt croissant à les appliquer à la vision. Des travaux récents montrent que les SNNs acquièrent en maturité en étant compétitifs par rapport à l'état de l'art sur des datasets d'images "simples" tels que MNIST (chiffres manuscrits) mais pas sur des datasets plus complexes. Cependant, les SNNs peuvent potentiellement se démarquer des RNAs dans le traitement de vidéos. La première raison est que ces modèles intègrent une dimension temporelle en plus. La deuxième raison est qu'ils se prêtent bien à l'utilisation des caméras événementielles. Ce sont des capteurs bio-inspirés qui perçoivent les contrastes temporels d'une scène, autrement dit, ils sont sensibles au mouvement. Chaque pixel peut détecter une variation lumineuse (positive ou négative), ce qui déclenche un événement. Coupler ces caméras aux puces neuromorphiques permet de créer des systèmes de vision totalement asynchrones et massivement parallélisés. L'objectif de cette thèse est d'exploiter les capacités offertes par les SNNs dans le traitement vidéo. Afin d'explorer le potentiel offert par les SNNs, nous nous sommes intéressés à l'analyse du mouvement et plus particulièrement à l'estimation de la direction du mouvement. Le but est de développer un modèle capable d'apprendre incrémentalement, sans supervision et avec peu d'exemples, à extraire des caractéristiques spatio-temporelles. Nous avons donc effectué plusieurs études examinant les différents points mentionnés à l'aide de jeux de données événementielles synthétiques. Nous montrons que le réglage des paramètres des SNNs est essentiel pour que le modèle soit capable d'extraire des caractéristiques utiles. Nous montrons aussi que le modèle est capable d'apprendre de manière incrémentale en lui présentant des classes inédites sans détérioration des performances sur les classes maîtrisées. Pour finir, nous évoquerons certaines limites, notamment sur l'apprentissage des poids en suggérant la possibilité d'apprendre plutôt les délais, encore peu exploités et qui pourrait marquer davantage la rupture face aux RNAs
Artificial neural networks (ANN) have become a must-have technique in computer vision, a trend that started during the 2012 ImageNet challenge. However, this success comes with a non-negligible human cost for manual data labeling, very important in model learning, and a high energy cost caused by the need for large computational resources. Spiking Neural Networks (SNN) provide solutions to these problems. It is a particular class of ANNs, close to the biological model, in which neurons communicate asynchronously by representing information through spikes. The learning of SNNs can rely on an unsupervised rule: the STDP. It modulates the synaptic weights according to the local temporal correlations observed between the incoming and outgoing spikes. Different hardware architectures have been designed to exploit the properties of SNNs (asynchrony, sparse and local operation, etc.) in order to design low-power solutions, some of them dividing the cost by several orders of magnitude. SNNs are gaining popularity and there is growing interest in applying them to vision. Recent work shows that SNNs are maturing by being competitive with the state of the art on "simple" image datasets such as MNIST (handwritten numbers) but not on more complex datasets. However, SNNs can potentially stand out from ANNs in video processing. The first reason is that these models incorporate an additional temporal dimension. The second reason is that they lend themselves well to the use of event-driven cameras. They are bio-inspired sensors that perceive temporal contrasts in a scene, in other words, they are sensitive to motion. Each pixel can detect a light variation (positive or negative), which triggers an event. Coupling these cameras to neuromorphic chips allows the creation of totally asynchronous and massively parallelized vision systems. The objective of this thesis is to exploit the capabilities offered by SNNs in video processing. In order to explore the potential offered by SNNs, we are interested in motion analysis and more particularly in motion direction estimation. The goal is to develop a model capable of learning incrementally, without supervision and with few examples, to extract spatiotemporal features. We have therefore performed several studies examining the different points mentioned using synthetic event datasets. We show that the tuning of the SNN parameters is essential for the model to be able to extract useful features. We also show that the model is able to learn incrementally by presenting it with new classes without deteriorating the performance on the mastered classes. Finally, we discuss some limitations, especially on the weight learning, suggesting the possibility of more delay learning, which are still not very well exploited and which could mark a break with ANNs

22

Vignais, Nicolas. "Mise en oeuvre et évaluation d’une méthodologie fondée sur la réalité virtuelle pour l’analyse de la prise d’informations visuelles du gardien de but de handball." Rennes 2, 2009. http://tel.archives-ouvertes.fr/tel-00451040/fr/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La perception visuelle est un élément déterminant pour interagir avec notre environnement. Lors des activités physiques et sportives, la prise d’informations visuelles permet notamment à un athlète d’extraire et de sélectionner les indices visuels nécessaires pour anticiper le mouvement adverse. L’analyse de cette prise d’informations visuelles a fait l’objet de nombreuses recherches dans le domaine sportif, cependant toutes les méthodes employées semblent limitées sur le plan fonctionnel ou matériel. Ce travail a pour objectif l’évaluation et la mise en oeuvre d’une nouvelle méthodologie d’analyse de la prise d’informations visuelles fondée sur l’utilisation des environnements virtuels. Cette méthodologie est appliquée à l’activité du gardien de but de handball en situation de duel. Dans un premier temps, nous comparons les performances des gardiens de but face à notre méthodologie avec ceux obtenus face à une séquence filmée afin de démontrer l’intérêt des environnements virtuels dans ce domaine. Puis, nous abordons la mise en place de notre méthodologie en nous focalisant sur l’influence du niveau de détail et de la représentation graphique de l’action de tir sur la performance du gardien de but de handball. Enfin, nous utilisons notre méthodologie pour étudier la prise d’informations visuelles du gardien de but de handball. Plus précisément, nous estimons l’importance relative des informations visuelles issues de la trajectoire du ballon et du mouvement de tir
Visual perception is a basic element allowing us to interact with our environment. During sport activities, the visual information uptake enable an athlete to extract and select visual cues necessary to anticipate the opposing action. In the field of sports, visual information uptake analysis has been widely carried out but all the methodologies used involve functional and material limits. The purpose of this work is to evaluate and introduce an innovative methodology based on virtual reality for analyzing visual information uptake. This methodology is applied to the handball goalkeeper activity in a duel situation. Firstly, the results obtained with our methodology and with a video-based technique are compared in order to demonstrate the interest of virtual reality in the field of sport. Secondly, we focused our attention on the setting-up of our methodology. Specifically, we aimed to analyze the influence of the graphical level of detail of the throwing action on the goalkeeper’s performance. At last, our methodology is used to analyze the visual information uptake of the handball goalkeeper. More precisely, the relative importance of visual cues from ball trajectory and throwing motion is estimated

23

Ujjwal, Ujjwal. "Gestion du compromis vitesse-précision dans les systèmes de détection de piétons basés sur apprentissage profond." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4087.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif principal de cette thèse est d'améliorer la précision des systèmes de détection de piétons à partir d'image, basés sur l'apprentissage profond sans sacrifier à la vitesse de détection. Pour ce faire, nous effectuons d'abord une analyse quantitative systématique des diverses techniques de détection de piétons à partir d'image. Cette analyse nous permet d'identifier les configurations optimales des différentes composantes d'un système de détection de piétons. Nous examinons ensuite la question de la sélection des meilleures couches convolutionnelles pour extraire les caractéristiques visuelles pour la détection des piétons et proposons un système appelé Multiple-RPN, qui combine plusieurs couches convolutives simultanément. Nous proposons le système Multiple-RPN en deux configurations - une fusion tôt et une fusion-tardive ; nous démontrons ensuite que la fusion-tôt est la plus performante, en particulier pour la détection de piétons de petites tailles et les cas d'occultation de piétons. Cette étude fournit aussi une évaluation quantitative de la sélection des couches convolutionnelles. Nous intégrons ensuite l'approche de la fusion-tôt avec une étape de segmentation pseudo-sémantique pour réduire le cout de traitement. Dans cette approche, la segmentation pseudo-sémantique permet de réduire les faux positifs et les faux négatifs. Ceci, associé à un nombre réduit d'opérations, permet d'améliorer simultanément les performances de détection et la vitesse de traitement (~20 images/seconde) ; les performances sont compétitives avec celles de l'état de l'art sur les bases de données caltech-raisonable (3,79% de taux d'erreurs) et citypersons (7,19% de taux d'erreurs). La dernière contribution de cette thèse est la proposition d'une couche de classification des détections potentielles, qui réduit encore le nombre d'opérations de détection. Il en résulte une réduction de la vitesse de détection (~40 images/seconde) avec une perte minime de performance de détection (3,99% et 8,12% de taux d'erreurs dans les bases de données caltech-raisonable et citypersons respectivement) ce qui reste compétitif avec l'état de l'art
The main objective of this thesis is to improve the detection performance of deep learning based pedestrian detection systems without sacrificing detection speed. Detection speed and accuracy are traditionally known to be at trade-off with one another. Thus, this thesis aims to handle this trade-off in a way that amounts to faster and better pedestrian detection. To achieve this, we first conduct a systematic quantitative analysis of various deep learning techniques with respect to pedestrian detection. This analysis allows us to identify the optimal configuration of various deep learning components of a pedestrian detection pipeline. We then consider the important question of convolutional layer selection for pedestrian detection and propose a pedestrian detection system called Multiple-RPN, which utilizes multiple convolutional layers simultaneously. We propose Multiple-RPN in two configurations -- early-fused and late-fused; and go on to demonstrate that early fusion is a better approach than late fusion for detection across scales and occlusion levels of pedestrians. This work furthermore, provides a quantitative demonstration of the selectivity of various convolutional layers to pedestrian scale and occlusion levels. We next, integrate the early fusion approach with that of pseudo-semantic segmentation to reduce the number of processing operations. In this approach, pseudo-semantic segmentation is shown to reduce false positives and false negatives. This coupled with reduced number of processing operations results in improved detection performance and speed (~20 fps) simultaneously; performing at state-of-art level on caltechreasonable (3.79% miss-rate) and citypersons (7.19% miss-rate) datasets. The final contribution in this thesis is that of an anchor classification layer, which further reduces the number of processing operations for detection. The result is doubling of detection speed (~40 fps) with a minimal loss in detection performance (3.99% and 8.12% miss-rate in caltech-reasonable and citypersons datasets respectively) which is still at the state-of-art standard

24

Trujillo, Morales Noël. "Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2007. http://tel.archives-ouvertes.fr/tel-00926395.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence ; à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à " instancier " ce modèle dans la scène courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel " : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up$top-down, reste implicite dans la stratégie globale de reconnaissance. La " focalisation progressive " et la représentation hybride du modèle, permettent de tirer profit des deux types de représentation classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaissance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution de la zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons.

25

Far, Aïcha Beya. "Analyse multi-images : Application à l'extraction contrôlés d'indices images et à la détermination de descriptions scéniques." Université Louis Pasteur (Strasbourg) (1971-2008), 2005. https://publication-theses.unistra.fr/public/theses_doctorat/2005/FAR_Aicha_Beya_2005.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les applications de la vision par ordinateur demandant une évaluation quantitative de pièces manufacturées nécessitent des outils efficaces pour le calcul de descriptions 3D. La stéréovision est une technique puissante pour construire une information 3D à partir de deux images. Nous avons ainsi cherché à développer une approche stéréoscopique automatique pour déterminer ces descriptions en étudiant plus particulièrement les points suivants :- Méthode d'appariement adaptée à la nature des images à traiter. L'approche proposée est spécifique à l'appariement de contours et se fonde sur l'estimation bidirectionnelle de la géométrie épipolaire dans la paire d'images stéréoscopique, ainsi que sur la comparaison de données réelles et synthétiques pour sélectionner les contours à apparier. Cette comparaison exploite une connaissance a priori (modèles CAO) comme contrainte pour les traitements ultérieurs, en ne conservant que les contours de l'objet visibles dans les deux images. - Maîtrise des paramètres d'illumination par une modélisation des phénomènes d'illumination. Cela permet d'ajuster le traitement d'images aux conditions d'illumination observées localement dans l'image et d'anticiper la pertinence des informations contenues dans les images réelles. - Planification dynamique utilisant un système de contrôle faisant appel à des graphes de situations. L’intérêt réside dans la capacité d’adaptation du système en fonction des résultats obtenus pendant les traitements. Des règles de décision permettant au système de contrôle d’adapter les traitements en cours d’exécution ont ainsi été conçues. Ces règles reposent sur l’ajustement de l’éclairage de la scène et, dans un second temps, sur le déplacement du capteur stéréoscopique. Intégrés dans une chaîne de traitement, les modules développés fournissent une reconstruction partielle des objets à évaluer. Cette reconstruction peut ensuite être comparée au modèle CAO correspondant pour évaluer l’objet
Computer vision based applications requesting a quantitative evaluation of machined parts, require efficient tools for the computation of 3D descriptions. Stereovision is a powerful technique for building 3D information out of two images. Accordingly, we have contributed to the development of an automated strereoscopic approach in order to determine these descriptions, by studying more specifically the following points :- Matching method adapted to the nature of the images to process. The approach suggested is tailored for matching contours and relies on the bidirectional estimation of the epipolar geometry in the stereoscopic image pair, as well as on the comparison of real and synthetic data in order to select the set of contours to be matched. This comparison exploits a priori knowledge (CAD models) as a constraint for further processing in order to keep only the contours of the object seen in the two images. - Illumination parameter control through adequate modeling of the illumination artefacts. This allows to adjust image processing to the illumination conditions observed locally in the image and to anticipate the relevance of information contained in the real images. - Dynamic planning using a control system relying on situation graph trees. The interest lies in the adaptation capacity of the system as a function of results obtained while processing the data. Thus, decision rules allowing the control system to adapt the processing on line have been devised. These rules rely on the adjustment of the scene illumination and, secondly, on the displacement of the stereoscopic sensor. Integrated into a processing chain, the developed modules provide a partial reconstruction of the objects to evaluate. This reconstruction can then be compared to the corresponding CAD model in order to evaluate the object

26

Gidel, Samuel. "Méthodes de détection et de suivi multi-piétons multi-capteurs embarquées sur un véhicule routier : application à un environnement urbain." Clermont-Ferrand 2, 2010. http://www.theses.fr/2010CLF22028.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les travaux présentés dans cette thèse ont pour cadre la vision par ordinateur et concernent la détection et le suivi de piéton se trouvant sur la trajectoire d'un véhicule routier circulant en milieu urbain. Dans ce type d'environnement complexe, une des difficultés majeurs est la capacité à discerner les piétons des nombreux autres obstacles situés sur la chaussée. Un autre point essentiel est de pouvoir les suivre afin de prédire leur déplacement et ainsi le cas échéant éviter le contact avec le véhicule. D'autres contraintes s'ajoutent dans le contexte industriel des véhicules routiers intelligents. Il est nécessaire de proposer des algorithmes robustes temps réel avec des capteurs les moins chers possible

27

Vaquette, Geoffrey. "Reconnaissance robuste d'activités humaines par vision." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS090.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur la segmentation supervisée d'un flux vidéo en fragments correspondant à des activités de la vie quotidienne. En différenciant geste, action et activité, cette thèse s'intéresse aux activités à haut niveau sémantique telles que "Cuisiner" ou "Prendre son repas" par opposition à des actions comme "Découper un aliment". Pour cela, elle s'appuie sur l'algorithme DOHT (Deeply Optimized Hough Transform), une méthode de l'état de l'art utilisant un paradigme de vote (par transformée de Hough). Dans un premier temps, nous adaptons l'algorithme DOHT pour fusionner les informations en provenance de différents capteurs à trois niveaux différents de l'algorithme. Nous analysons l'effet de ces trois niveaux de fusion et montrons son efficacité par une évaluation sur une base de données composée d'actions de la vie quotidienne. Ensuite, une étude des jeux de données existant est menée. Constatant le manque de vidéos adaptées à la segmentation et classification (détection) d'activités à haut niveau sémantique, une nouvelle base de données est proposée. Enregistrée dans un environnement réaliste et dans des conditions au plus proche de l'application finale, elle contient des vidéos longues et non découpées adaptées à un contexte de détection. Dans un dernier temps, nous proposons une approche hiérarchique à partir d'algorithmes DOHT pour reconnaître les activités à haut niveau sémantique. Cette approche à deux niveaux décompose le problème en une détection non-supervisée d'actions pour ensuite détecter les activités désirées
This thesis focuses on supervised activity segmentation from video streams within application context of smart homes. Three semantic levels are defined, namely gesture, action and activity, this thesis focuses mainly on the latter. Based on the Deeply Optimized Hough Transform paridigm, three fusion levels are introduced in order to benefit from various modalities. A review of existing action based datasets is presented and the lack of activity detection oriented database is noticed. Then, a new dataset is introduced. It is composed of unsegmented long time range daily activities and has been recorded in a realistic environment. Finaly, a hierarchical activity detection method is proposed aiming to detect high level activities from unsupervised action detection

28

Benamrane, Nacéra. "Contribution à la vision stéréoscopique par mise en correspondance de régions." Valenciennes, 1994. https://ged.uphf.fr/nuxeo/site/esupversions/f861a6a0-1e2f-489c-8859-05c0368d8969.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La maîtrise de la vision 3D est le préalable de la vision artificielle des machines; la stéréovision s'appuie sur l'appariement de primitives issues des deux images de la même scène 3D. Dans ce mémoire, les primitives choisies sont les régions, plus facilement détectables que les segments et les points. La mise en correspondance des deux images est basée sur deux méthodes originales, segmentation (division-fusion) d'une part et d'appariement d'autre part. La segmentation est obtenue par optimisations locales et une hiérarchie de critères d'homogénéité. La segmentation traduisant chaque image en un arbre d'adjacence, la mise en correspondance est obtenue à l'aide d'une fonction à paramètres multiples: photométriques, topologiques et morpho-géométriques sous forme d'un graphe relationnel où est recherchée une compatibilité maximale (ensemble de règles) d'hypothèses d'appariement traduites par ce graphe d'appariement. Par ailleurs, calibrage et incertitudes des points homologues sont analysés et les résultats comparés à ceux obtenus par diverses autres méthodes.

29

Kaiser, Adrien. "Analyse de scène temps réel pour l'interaction 3D." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT025.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur l'analyse visuelle de scènes intérieures capturées par des caméras de profondeur dans le but de convertir leurs données en information de haut niveau sur la scène. Elle explore l'application d'outils d'analyse géométrique 3D à des données visuelles de profondeur en termes d'amélioration de qualité, de recalage et de consolidation. En particulier, elle vise à montrer comment l'abstraction de formes permet de générer des représentations légères pour une analyse rapide avec des besoins matériels faibles. Cette propriété est liée à notre objectif de concevoir des algorithmes adaptés à un fonctionnement embarqué en temps réel dans le cadre d'appareils portables, téléphones ou robots mobiles. Le contexte de cette thèse est l'exécution d'un procédé d’interaction 3D temps réel sur un appareil mobile. Cette exécution soulève plusieurs problématiques, dont le placement de zones d'interaction 3D par rapport à des objets environnants réels, le suivi de ces zones dans l'espace lorsque le capteur est déplacé ainsi qu'une utilisation claire et compréhensible du système par des utilisateurs non experts. Nous apportons des contributions vers la résolution de ces problèmes pour montrer comment l'abstraction géométrique de la scène permet une localisation rapide et robuste du capteur et une représentation efficace des données fournies ainsi que l'amélioration de leur qualité et leur consolidation. Bien que les formes géométriques simples ne contiennent pas autant d'information que les nuages de points denses ou les ensembles volumiques pour représenter les scènes observées, nous montrons qu’elles constituent une approximation acceptable et que leur légèreté leur donne un bon équilibre entre précision et performance
This PhD thesis focuses on the problem of visual scene analysis captured by commodity depth sensors to convert their data into high level understanding of the scene. It explores the use of 3D geometry analysis tools on visual depth data in terms of enhancement, registration and consolidation. In particular, we aim to show how shape abstraction can generate lightweight representations of the data for fast analysis with low hardware requirements. This last property is important as one of our goals is to design algorithms suitable for live embedded operation in e.g., wearable devices, smartphones or mobile robots. The context of this thesis is the live operation of 3D interaction on a mobile device, which raises numerous issues including placing 3D interaction zones with relation to real surrounding objects, tracking the interaction zones in space when the sensor moves and providing a meaningful and understandable experience to non-expert users. Towards solving these problems, we make contributions where scene abstraction leads to fast and robust sensor localization as well as efficient frame data representation, enhancement and consolidation. While simple geometric surface shapes are not as faithful as heavy point sets or volumes to represent observed scenes, we show that they are an acceptable approximation and their light weight makes them well balanced between accuracy and performance

30

Papadakis, Nicolas. "Assimilation de données d'images : application au suivi de courbes et de champs de vecteurs." Rennes 1, 2007. ftp://ftp.irisa.fr/techreports/theses/2007/papadakis.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse traite de l'utilisation de méthodes séquentielles et variationnelles de suivi pour des problèmes de suivi dans des séquences d'images. Ces méthodes cherchent à estimer l'état d'un système à partir d'un modèle d'évolution dynamique et d'un ensemble d'observations bruitées et généralement incomplètes de l'état. Ces techniques sont appliquées à divers problèmes de vision par ordinateur: le suivi de courbe, l'estimation de champs de mouvement fluide et le suivi couplé de courbe et de champs de vecteurs. Nous montrons comment l'assimilation de données permet de gérer des occultations totales pendant le suivi d'objets sur une séquence d'images. Nous nous intéressons enfin à l'estimation de mouvement de couches atmosphériques à partir d'images satellitaires, puis étudions l'estimation de coefficients associés à des systèmes dynamiques réduits associés à la visualisation d'écoulements expérimentaux
This thesis presents the use of sequential and variational methods for tracking applications in image sequences. These techniques aim at estimating a system state from a dynamical model and a set of noisy and sparse observations. We first apply these methods to various tracking problems of computer vision (with an imperfect modelisation of the dynamical model): curve tracking, fluid motion estimation and joint tracking of curve and motion. We thus show that data assimilation enables to deal with complete data occlusions. Two particular applications where an accurate modelisation of the dynamic can be considered are finally studied: atmospheric layer motion estimation from satellite imagery and control of low order dynamical system from experimental visualisation

31

Crivelli, Tomás. "Modèles de Markov à états mixtes pour l'analyse du mouvement dans des séquences d'images." Rennes 1, 2010. http://www.theses.fr/2010REN1S009.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse traite des champs aléatoires à états mixtes et de leur application à l’analyse du mouvement dans des séquences d’images. Cette approche permet de considérer à la fois des valeurs discrètes et continues dans une même modélisation statistique, et d’exploiter les interactions entre les deux types d’état. Dans ce contexte, nous identiﬁons deux scénarios possibles. Dans le premier, nous nous intéressons à la modélisation des observations à états mixtes. Elles sont obtenues en général à partir de mesures de mouvement sur des images et présentent soit une valeur discrète nulle (absence de mouvement), soit une valeur continue correspondant à une mesure de mouvement. De telles cartes de mouvement, extraites à partir de séquences d’images de texture dynamique, sont adaptées pour être modélisées par des champs markoviens à états mixtes. Nous développons ensuite des modèles paramétriques de textures de mouvement reposant sur la théorie des champs aléatoires et des chaînes de Markov à états mixtes. Nous les appliquons à la caractérisation de textures de mouvement, à la reconnaissance, à la segmentation et au suivi. Dans le second scénario, nous cherchons à inférer des variables aléatoires à états mixtes pour des problèmes de décision-estimation jointes. Dans ce cas, l’état discret est une valeur symbolique caractérisant un label. De tels problèmes doivent être résolus de manière jointe et le cadre des états mixtes peut être exploité aﬁn de modéliser la relation naturelle entre décision et estimation. Dans ce contexte, nous abordons le problème de la détection de mouvement (problème de décision) et de reconstruction du fond (problème d’estimation) de manière jointe
This thesis deals with mixed-state random fields and their application to image motion analysis. The approach allows us to consider both discrete and continuous values within a single statistical model, exploiting the interaction between the two types of states. In this context, we identify two possible scenarios. First, we are concerned with the modeling of mixed-state observations. Typically they are obtained from image motion measurements depicting a discrete value at zero (null-motion) and continuous motion values. Such motion maps extracted from dynamic texture video sequences are suitable to be modeled as mixed-state Markov fields. We thus design parametric models of motion textures based on the theory of mixed-state Markov random fields and mixed-state Markov chains. We apply them for motion texture characterization, recognition, segmentation and tracking. The second scenario involves inferring mixed-state random variables for simultaneous decision-estimation problems. In this case, the discrete state is a symbolic value indicating an abstract label. Such problems need to be solved jointly and the mixed-state framework can be exploited in order to model the natural coupling that exists between them. In this context, we address the problem of motion detection (decision problem) and background reconstruction (estimation problem). An accurate estimation of the background is only possible if we locate the moving objects; meanwhile, a correct motion detection is achieved if we have a good available background representation. Solving the motion detection and the background reconstruction jointly reduces to obtain a single optimal estimate of a mixed-state process

32

Louvat, Benoît. "Analyse de séquences d'images à cadence vidéo pour l'asservissement d'une caméra embarquée sur un drone." Grenoble INPG, 2008. https://tel.archives-ouvertes.fr/tel-00380091.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous développons un système d'asservissement visuel pour une caméra montée sur une tourelle commandable en pan et tilt et embarquée sur un drone. Ceci afin de réaliser des tâches telles que le suivi d'objets fixes et quelconques au sol quels que soient les mouvements du drone. Dans une première partie, un algorithme d'analyse d'image est proposé. Il est basé sur une estimation globale/locale permettant d'estimer la position de l'objet. Dans une seconde partie, une loi de commande classique fonctionnant avec une double boucle d'asservissement est proposée. Pour diminuer le temps de réponse du système, une nouvelle loi de commande sur-échantillonnée utilisant les résultats intermédiaires de l'analyse d'image est proposée. Nous nous intéressons aussi aux problèmes de non-linéarité du système et proposons une solution basée sur un contrôleur LQR. Des simulations et des expérimentations en conditions réelles montrent la validité de notre approche
This thesis deals with visual servoing for a pan and tilt camera embedded in a drone. The aim is to control the camera in order to track any fixed object on the ground without knowledge about shape or texture and to keep it centered in the image. In a first part, an algorithm that combines global and local motion estimation is proposed. In a second part, the control of the system is based on a double closed loop : the outer one includes the video analysis while the inner one controls the pan and tilt speed. In order to improve the time response of the system we propose a new upsampling scheme. Upsampling means that controls are sent to the pan and tilt actuator during the convergence of the image analysis algorithm and not at the end as usual. We also propose a LQR controller for removing offset and non-linearities. Simulations and experimentations in real conditions show the effectiveness of the proposed scheme

33

Amer, Fawzy. "Les algorithmes d'extraction de contours ligne par ligne." Compiègne, 1986. http://www.theses.fr/1986COMPI235.

Full text

APA, Harvard, Vancouver, ISO, and other styles

34

Minetto, Rodrigo. "Reconnaissance de zones de texte et suivi d'objets dans les images et les vidéos." Paris 6, 2012. http://www.theses.fr/2012PA066108.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous abordons trois problèmes de vision par ordinateur: (1) la détection et la reconnaissance d'objets de texte dans des images de scènes réelles; (2) le suivi de ces objets de texte dans une vidéo numérique, et (3) le suivi d'objets 3D rigides et arbitraires avec des amers connus dans une vidéo numérique. Pour chaque problème, nous avons développé des algorithmes innovants, qui sont au moins aussi précis et robustes que les algorithmes de l'état de l’art. Plus précisément, pour la reconnaissance de texte, nous avons développé (et largement évalué) un nouveau descripteur basé sur HOG, et dédié au traitement du texte Roman, baptisé T-HOG. Nous avons montré sa valeur en tant que post-filtre pour un détecteur de texte existant (SnooperText). Nous avons également amélioré l’algorithme SnooperText en développant une approche multi-échelle pour traiter des caractères de taille très différentes tout en limitant la sensibilité de l'algorithme aux différents artéfacts. Pour le suivi des objets de textes, nous avons décrit quatre manières de combiner la détection et le suivi, et nous avons développé un tracker particulier, basé sur un filtre particulaire exploitant le T-HOG. Pour le suivi des objets rigides, nous avons développé un nouvel algorithme précis et robuste (AFFTRACK) qui combine le KLT tracker avec une calibration améliorée de la caméra. Nous avons largement testé nos algorithmes sur plusieurs bases de données de la littérature. Nous avons également créé plusieurs bases de données (publiquement disponibles) pour l’évaluation des algorithmes de détection, suivi de textes et de suivi d'objets rigides dans les vidéos
In this thesis we address three computer vision problems: (1) the detection and recognition of flat text objects in images of real scenes; (2) the tracking of such text objects in a digital video; and (3) the tracking an arbitrary three-dimensional rigid object with known markings in a digital video. For each problem we developed innovative algorithms, which are at least as accurate and robust as other state-of-the-art algorithms. Specifically, for text recognition we developed (and extensively evaluated) a new HOG-based descriptor specialized for Roman script, which we call T-HOG, and showed its value as a post-filter for an existing text detector (SnooperText). We also improved the SnooperText algorithm by using the multi-scale technique to handle widely different letter sizes while limiting the sensitivity of the algorithm to various artifacts. For text tracking, we describe four basic ways of combining a text detector and a text tracker, and we developed a specific tracker based on a particle-filter which exploits the T-HOG recognizer. For rigid object tracking we developed a new accurate and robust algorithm (AFFTrack) that combines the KLT feature tracker with an improved camera calibration procedure. We extensively tested our algorithms on several benchmarks well-known in the literature. We also created benchmarks (publicly available) for the evaluation of text detection and tracking and rigid object tracking algorithms

35

Pham, Haonhiên. "Contribution à la définition d'un système de vision bidimensionelle orienté objets : implantation des modules de base." Compiègne, 1986. http://www.theses.fr/1986COMPI247.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Une structure pour un système de vision bidimensionnelle dans un environnement orienté objets est proposée. Cette structure modulaire intègre un modèle des pièces à reconnaître, un module de saisie de ces pièces, des modules de détection d’indices visuels et un module d’analyse. Ce dernier fonctionne par prédiction et vérification d’hypothèses. Le système a été réalisé en vue d’un couplage avec un robot par l’intermédiaire d’un réseau.

36

Boucher, Christophe. "Contribution à la fusion d'informations par filtrage non-linéaire : application à l'estimation de la structure et du mouvement 3D dans un contexte multi-capteurs." Littoral, 2000. http://www.theses.fr/2000DUNKA001.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s’inscrit dans le cadre de l’utilisation du filtrage non –linéaire pour la fusion d’informations. On cherche notamment à identifier le mouvement et la structure 3D des objets d’une scène vue par un système de perception multi-capteurs. La dynamique est décrite par un modèle affiné dont les paramètres sont inconnus et la primitive utilisée est le segment de droite. On a tout d’abord estimé les caractéristiques de structure et de mouvement à partir des projections 2D de la scène. L’utilisation de la représentation de Plücker a permis de remonter aux informations souhaitées à partir de séquences d’images monoculaires et de la connaissance des mouvements relatifs de l’objet 3D. L’ajout d’un capteur actif délivrant des mesures de profondeur a conduit à une meilleure observabilité du système. L’estimation conjointe de la structure et du mouvement 3D est réalisée par un filtre unique qui fusionne les informations issues des capteurs pour poursuivre les primitives 2D dans les séquences d’images et estimer les positions et le mouvement de l’objet 3D. La solution repose sur un filtre de Kalman Etendu centralisé. Cette méthode a été validée sur des données simulées et réelles. L’intérêt réside surtout dans son indépendance par rapport au type de capteur utilisé et sa capacité à gérer un système de perception composé de capteurs de nature différente. Enfin, pour palier les limitations intrinsèques du filtrage de Kalman Etendu, une première étude est menée sur l’apport du filtrage particulaire à ce problème non-linéaire d’estimation
This thesis deals with non-linear filtering for data fusion. One tries to identify the motion and structure of 3D objects viewed by a multisensory system. The dynamics is described by an affine model whose parameters are unknown and the used feature is the line segment. One estimated first the characteristics of the structure and motion from 2D projected data of the scene. The use of Plücker’s reprensentation allowed to recover the whished information from monocular image sequences and the knowledge of the 3D object motion. The use of an active sensor leads to an increase of the system observability. The joint estimation of the 3Dstructure and motion is done using an unique filter which fuses information from sensors to track the 2D features in the image sequences and estimate the positions and motion of the 3D object. The solution lies on a centralized Extended Kalman filter. This method was applied successfully on simulated and real data. Interest lies especially in its independence to the kind of sensor and its capacity to manage a system composed by different sensors. Finally, to avoid the intrinsic drawbacks of Extended Kalman filtering, a first study is led on the contribution of the particle filtering to this non-linear estimation problem

37

Mordan, Taylor. "Conception d'architectures profondes pour l'interprétation de données visuelles." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS270.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Aujourd’hui, les images sont omniprésentes à travers les smartphones et les réseaux sociaux. Il devient alors nécessaire d’avoir des moyens de traitement automatiques, afin d’analyser et d’interpréter les grandes quantités de données disponibles. Dans cette thèse, nous nous intéressons à la détection d’objets, i.e. au problème d’identification et de localisation de tous les objets présents dans une image. Cela peut être vu comme une première étape vers une interprétation complète des scènes. Nous l’abordons avec des réseaux de neurones profonds à convolutions, sous le paradigme de l’apprentissage profond. Un inconvénient de cette approche est le besoin de données annotées pour l’apprentissage. Puisque les annotations précises sont longues à produire, des jeux de données plus gros peuvent être construits à l’aide d’annotations partielles. Nous concevons des fonctions d’agrégation globale pour travailler avec celles-ci et retrouver l’information latente dans deux cas : l’apprentissage de représentations spatialement localisée et par parties, à partir de supervisions aux niveaux de l’image et des objets respectivement. Nous traitons la question de l’efficacité dans l’apprentissage de bout en bout de ces représentations en tirant parti de réseaux complètement convolutionnels. En outre, l’exploitation d’annotations supplémentaires sur les images disponibles peut être une alternative à l’obtention de plus d’images, particulièrement quand il y a peu d’images. Nous formalisons ce problème comme un type spécifique d’apprentissage multi-tâche avec un objectif primaire, et concevons une méthode pour apprendre de cette supervision auxiliaire
Nowadays, images are ubiquitous through the use of smartphones and social media. It then becomes necessary to have automatic means of processing them, in order to analyze and interpret the large amount of available data. In this thesis, we are interested in object detection, i.e. the problem of identifying and localizing all objects present in an image. This can be seen as a first step toward a complete visual understanding of scenes. It is tackled with deep convolutional neural networks, under the Deep Learning paradigm. One drawback of this approach is the need for labeled data to learn from. Since precise annotations are time-consuming to produce, bigger datasets can be built with partial labels. We design global pooling functions to work with them and to recover latent information in two cases: learning spatially localized and part-based representations from image- and object-level supervisions respectively. We address the issue of efficiency in end-to-end learning of these representations by leveraging fully convolutional networks. Besides, exploiting additional annotations on available images can be an alternative to having more images, especially in the data-deficient regime. We formalize this problem as a specific kind of multi-task learning with a primary objective to focus on, and design a way to effectively learn from this auxiliary supervision under this framework

38

Elloumi, Wael. "Contributions à la localisation de personnes par vision monoculaire embarquée." Phd thesis, Université d'Orléans, 2012. http://tel.archives-ouvertes.fr/tel-00843634.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Une des techniques alternatives au GPS pour le développement d'un système d'assistance à la navigationpédestre en milieux urbains est la vision embarquée. La localisation du porteur de la caméra s'appuie alorssur l'estimation de la pose à partir des images acquises au cours du cheminement. En s'inspirant destravaux antérieurs sur la navigation autonome de robots, cette thèse explore deux approches dans le cadrespécifique de la localisation pédestre. La première méthode de localisation s'appuie sur des appariementsde primitives images avec une cartographie 3D pré-estimée de l'environnement. Elle permet une estimationprécise de la pose complète de la caméra (6 ddl), mais les expérimentations montrent des limitationscritiques de robustesse et temps de calcul liées à l'étape de mise en correspondance. Une solutionalternative est proposée en utilisant les points de fuite. L'orientation de la caméra (3ddl) est estimée defaçon robuste et rapide par le suivi de 3 points de fuites orthogonaux dans une séquence vidéo. L'algorithmedéveloppé permet une localisation pédestre indoor en deux étapes : une phase d'apprentissage hors lignedéfinit un itinéraire de référence en sélectionnant des images clef au long du parcours, puis, en phase delocalisation, une position approximative mais réaliste du porteur est estimée en temps réel en comparant lesorientations de la caméra dans l'image courante et celle de référence.

39

Deléarde, Robin. "Configurations spatiales et segmentation pour la compréhension de scènes, application à la ré-identification." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7020.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La modélisation de la configuration spatiale des objets d’une image est un sujet encore peu abordé à ce jour, y compris dans les approches les plus modernes de vision par ordinateur comme les réseaux convolutionnels (CNN). Pourtant, il s’agit d’un aspect essentiel de la perception des scènes, et l’intégrer dans les modélisations devrait bénéficier à de nombreuses tâches du domaine, en contribuant à combler le "fossé sémantique" entre l’image numérique et l’interprétation de son contenu. Ainsi, cette thèse a pour objet l’amélioration des techniques de modélisation de la configuration spatiale, afin de l’exploiter dans des systèmes de description et de reconnaissance. Dans un premier temps, nous nous sommes penchés sur le cas de la configuration spatiale entre deux objets, en proposant une amélioration d’un descripteur existant. Ce nouveau descripteur appelé "bandeau de forces" est une extension de l’histogramme du même nom à tout un panel de forces, ce qui permet de mieux décrire les configurations complexes. Nous avons pu montrer son intérêt pour la description de scènes, en apprenant à classifier automatiquement des relations en langage naturel à partir de paires d’objets segmentés. Nous avons alors abordé la problématique du passage à des scènes comportant plusieurs objets, proposant une approche par objet en confrontant chaque objet à l’ensemble des autres, plutôt qu’en ayant un descripteur par paire. Dans un second temps, le contexte CIFRE nous a amenés à traiter une application au problème de la ré-identification de scènes ou d’objets, tâche qui s’apparente à la reconnaissance fine à partir de peu d’exemples. Pour cela, nous nous basons sur une approche traditionnelle en décrivant les constituants de la scène par différents descripteurs dédiés à des caractéristiques spécifiques, comme la couleur ou la forme, auxquelles nous ajoutons la configuration spatiale. La comparaison de deux scènes se fait alors en appariant leurs constituants grâce à ces caractéristiques, en utilisant par exemple l’algorithme hongrois. Différentes associations de caractéristiques peuvent être considérées pour l’appariement et pour le calcul du score final, selon les invariances présentes et recherchées. Pour chacun de ces deux sujets, nous avons été confrontés aux problèmes des données et de la segmentation. Nous avons alors généré et annoté un jeu de données synthétiques, et exploité deux jeux de données existants en les segmentant, dans deux cadres différents. La première approche concerne la segmentation objet-fond et se place dans le cas où une détection est disponible, ce qui permet d’aider la segmentation. Elle consiste à utiliser un modèle existant de segmentation globale, puis à exploiter la détection pour sélectionner le bon segment, à l’aide de plusieurs critères géométriques et sémantiques. La seconde approche concerne la décomposition d’une scène ou d’un objet en parties et se place dans le cas non supervisé. Elle se base alors sur la couleur des pixels, en utilisant une méthode par clustering dans un espace de couleur adapté, comme le cône HSV que nous avons utilisé. Tous ces travaux ont permis de montrer la possibilité d’utiliser la configuration spatiale pour la description de scènes réelles contenant plusieurs objets, ainsi que dans une chaîne de traitements complexe comme celle utilisée pour la ré-identification. En particulier, l’histogramme de forces a pu être utilisé pour cela, ce qui permet de profiter de ses bonnes performances, en utilisant une méthode de segmentation adaptée au cas d’usage pour traiter des images naturelles
Modeling the spatial configuration of objects in an image is a subject that is still little discussed to date, including in the most modern computer vision approaches such as convolutional neural networks ,(CNN). However, it is an essential aspect of scene perception, and integrating it into the models should benefit many tasks in the field, by helping to bridge the “semantic gap” between the digital image and the interpretation of its content. Thus, this thesis aims to improve spatial configuration modeling ,techniques, in order to exploit it in description and recognition systems. ,First, we looked at the case of the spatial configuration between two objects, by proposing an improvement of an existing descriptor. This new descriptor called “force banner” is an extension of the histogram of the same name to a whole range of forces, which makes it possible to better describe complex configurations. We were able to show its interest in the description of scenes, by learning toautomatically classify relations in natural language from pairs of segmented objects. We then tackled the problem of the transition to scenes containing several objects and proposed an approach per object by confronting each object with all the others, rather than having one descriptor per pair. Secondly, the industrial context of this thesis led us to deal with an application to the problem of re-identification of scenes or objects, a task which is similar to fine recognition from few examples. To do so, we rely on a traditional approach by describing scene components with different descriptors dedicated to specific characteristics, such as color or shape, to which we add the spatial configuration. The comparison of two scenes is then achieved by matching their components thanks to these characteristics, using the Hungarian algorithm for instance. Different combinations of characteristics can be considered for the matching and for the final score, depending on the present and desired invariances. For each one of these two topics, we had to cope with the problems of data and segmentation. We then generated and annotated a synthetic dataset, and exploited two existing datasets by segmenting them, in two different frameworks. The first approach concerns object-background segmentation and more precisely the case where a detection is available, which may help the segmentation. It consists in using an existing global segmentation model and exploiting the detection to select the right segment, by using several geometric and semantic criteria. The second approach concerns the decomposition of a scene or an object into parts and addresses the unsupervised case. It is based on the color of the pixels, by using a clustering method in an adapted color space, such as the HSV cone that we used. All these works have shown the possibility of using the spatial configuration for the description of real scenes containing several objects, as well as in a complex processing chain such as the one we used for re-identification. In particular, the force histogram could be used for this, which makes it possible to take advantage of its good performance, by using a segmentation method adapted to the use case when processing natural images

40

Huguet, Frédéric. "Modélisation et calcul du flot de scène stéréoscopique par une méthode variationnelle." Phd thesis, Grenoble 1, 2009. http://www.theses.fr/2009GRE10053.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En vision par ordinateur, le flot de scène représente le déplacement des points d'une surface située dans une scène 3D quelconque, entre deux instants consécutifs. Il s'agit donc d'un champ vectoriel 3D. Celui-ci est particulièrement utile dans l'analyse des déformations d'une surface quelconque, observée par un système d'au moins deux caméras. Cette thèse traite de l'estimation du flot de scène et d'une application dans le domaine de la géophysique. Elle s'est déroulée dans le cadre de l'ACI GEOLSTEREO, en collaboration étroite avec le laboratoire Geosciences Azur, situé à Sophia Antipolis (06, UMR 6526 - CNRS - UNSA - UPMC- IRD). Nous proposons d'estimer le flot de scène en couplant l'évaluation du flot optique dans les séquences d'images associées à chaque caméra, à l'estimation de la correspondance stéréo dense entre les images. De plus, notre approche évalue, en même temps que le flot de scène, les occultations à la fois en flot optique et en stéréo. Nous obtenons au final un système d'EDP couplant le flot optique et la stéréo, que nous résolvons numériquement à l'aide d'un algorithme multirésolution original. Alors que les précédentes méthodes variationnelles estimaient la reconstrution 3D au temps t et le flot de scène séparément, notre méthode estime les deux simultanément. Nous présentons des résultats numériques sur des séquences synthétiques avec leur vérité terrain, et nous comparons également la précision du flot de scène projeté dans une caméra avec une méthode récente et performante d'estimation variationnelle du flot optique. Des résultats sont présentés sur une séquence stéréo réelle, se rapportant à un mouvement non rigide et à de larges discontinuités. Enfin, nous présentons l'approche originale de modélisation physique 3D utilisée au laboratoire Geosciences Azur. Nous décrivons la mise en place du dispositif stéréoscopique associé, ainsi que le déroulement de l'expérience. Des résultats de reconstruction 3D, d'estimation du flot de scène, et de suivi de la déformation d'une surface sont montrés dans le chapitre 4 de la thèse
The scene flow is the displacement vector of any surface points estimated between two consecutive moments. Mathematically it is a three-dimensionnal vector field. This one is useful when any surface temporal deformation has to be studied, using two or more cameras. This thesis handles the scene flow computation and shows the use of this one for a geophysical project. In this aim, we worked with the geophysics sciences laboratory named Geosciencez Azur, which is located in Sophia Antipolis (Alpes Maritimes, UMR 6526 - CNRS - UNSA - UPMC- IRD). This paper presents a method for scene flow estimation from a calibrated stereo image sequence. The scene flow contains the 3-D displacement field of scene points, so that the 2-D optical flow can be seen as a projection of the scene flow onto the images. We propose to recover the scene flow by coupling the optical flow estimation in both cameras with dense stereo matching between the images, thus reducing the number of unknowns per image point. Moreover our approach handles occlusions both for the optical flow and the stereo. We obtain a partial differential equations system coupling both the optical flow and the stereo, which is numerically solved using an original multi-resolution algorithm. Whereas previous variational methods were estimating the 3-D reconstruction at time t and the scene flow separately, our method jointly estimates both. We present numerical results on synthetic data with ground truth information, and we also compare the accuracy of the scene flow projected in one camera with a state-of-the-art single-camera optical flow computation method. Results are also presented on a real stereo sequence with large motion and stereo discontinuities. We finally present the original approach developed in Geosciences Azur to study the gravitary mountain landslides, the 3D physical modelling. We describe the experimental stereo device used to track the deformations of the reduced moutain model used by the geophysicists. 3D reconstruction and scene flow results are shown, as well as the tracking of the observed surface deformations, in the fourth chapter of the thesis

41

Huguet, Frédéric. "Modélisation et calcul du flot de scène stéréoscopique par une méthode variationnelle." Phd thesis, Université Joseph Fourier (Grenoble), 2009. http://tel.archives-ouvertes.fr/tel-00421958.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En vision par ordinateur, le flot de scène représente le déplacement des points d'une surface située dans une scène 3D quelconque, entre deux instants consécutifs. Il s'agit donc d'un champ vectoriel 3D. Celui-ci est particulièrement utile dans l'analyse des déformations d'une surface quelconque, observée par un système d'au moins deux caméras.
Cette thèse traite de l'estimation du flot de scène et d'une application dans le domaine de la géophysique. Elle s'est déroulée dans le cadre de l'ACI GEOLSTEREO, en collaboration étroite avec le laboratoire Geosciences Azur, situé à Sophia Antipolis (06, UMR 6526 - CNRS - UNSA - UPMC- IRD).

Nous proposons d'estimer le flot de scène en couplant l'évaluation du flot optique dans les séquences d'images associées à chaque caméra, à l'estimation de la correspondance stéréo dense entre les images. De plus, notre approche évalue, en même temps que le flot de scène, les occultations à la fois en flot optique et en stéréo. Nous obtenons au final un système d'EDP couplant le flot optique et la stéréo, que nous résolvons numériquement à l'aide d'un algorithme multirésolution original.
Alors que les précédentes méthodes variationnelles estimaient la reconstrution 3D au temps $t$ et le flot de scène séparément, notre méthode estime les deux simultanément. Nous présentons des résultats numériques sur des séquences synthétiques avec leur vérité terrain, et nous comparons également la précision du flot de scène projeté dans une caméra avec une méthode récente et performante d'estimation variationnelle du flot optique. Des résultats sont présentés sur une séquence stéréo réelle, se rapportant à un mouvement non rigide et à de larges discontinuités.

Enfin, nous présentons l'approche originale de modélisation physique 3D utilisée au laboratoire Geosciences Azur. Nous décrivons la mise en place du dispositif stéréoscopique associé, ainsi que le déroulement de l'expérience. Des résultats de reconstruction 3D, d'estimation du flot de scène, et de suivi de la déformation d'une surface sont montrés dans le chapitre 4 de la thèse.

42

Benabbas, Yassine. "Analyse du comportement humain à partir de la vidéo en étudiant l'orientation du mouvement." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2012. http://tel.archives-ouvertes.fr/tel-00839699.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La reconnaissance du comportement et la prédiction des activités des personnes depuis la vidéo sont des préoccupations majeures dans le domaine de la vision par ordinateur. L'objectif principal de mon travail de thèse est de proposer des algorithmes qui permettent d'analyser des objets en mouvement à partir de la vidéo pour extraire des comportements humains. Cette analyse est effectuée dans des environnements intérieurs ou extérieurs filmés par des simples webcams ou par des caméras plus sophistiquée. La scène analysée peut être de deux types en fonction du nombre de personnes présentes. On distingue les scènes de foule où le nombre de personnes est important. Dans ce type de scène, nous nous intéressons aux problèmes de la détection d'évènements de foule, à l'analyse des flux et à l'extraction des motifs de mouvement. Le deuxième type de scène se caractérise par la présence d'une seule personne à la fois dans le champ de la caméra. Elle est appelée scène individuelle. Nous y traitons le problème de reconnaissance d'actions humaines. Pour atteindre ces objectifs, nous proposons une approche basée sur trois niveaux d'analyse. Le premier est l'extraction des caractéristiques de bas niveau récupérés les images constituant un flux vidéo (ex. les zones en mouvement). Le deuxième construit des descripteurs pour l'analyse du comportement humain (ex. la direction et la vitesse de mouvement moyennes). Le niveau le plus haut se sert des descripteurs de l'étape intermédiaire afin de fournir aux utilisateurs des résultats concrets sur l'analyse du comportement humain (ex. telle personne marche, une autre court, etc.). Des expérimentations sur des benchmarks connus ont validé nos approches, avec un positionnement très intéressant par rapport à l'état de l'art.

43

Mangin, Franck. "Amélioration de la détection de contours en imagerie artificielle par un modèle coopératif multi-résolution." Nice, 1994. http://www.theses.fr/1994NICE4715.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'étude psychophysiologique des systèmes visuels biologiques a mis en évidence l'existence du phénomène d'organisation perceptuelle. Cette étape, préattentive et ne faisant pas intervenir de connaissances de haut niveau, est cruciale pour l'analyse de scène. Le présent travail vise à appliquer les règles du groupement perceptuel aux discontinuités de l'intensité lumineuse dans les images digitales. Il propose pour cela un modèle multirésolution qui génère des hypothèses de contour, et évalue leur pertinence selon des critères perceptuels de bonne qualité intrinsèque, de prolongement et de parallélisme. L'algorithme utilise est massivement parallèle et est mis en œuvre sur une connection machine, ce qui conduit à des temps de traitement très faibles. Le modèle s'applique à des images complexes de scènes réelles, et de nombreux résultats obtenus avec des images satellitaires sont présentes. Le groupement perceptuel de contour n'est qu'une étape de l'analyse de scène, et un exemple d'application au suivi de contour est présenté : il permet d'obtenir des résultats concluants en détection du réseau sur des images satellitaires sans intervention de connaissance spécifique

44

Zhang, Yiqun. "Contribution à l'étude de la vision dynamique : une approche basée sur la géométrie projective." Compiègne, 1993. http://www.theses.fr/1993COMPD650.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail de cette thèse s'inscrit dans le cadre de la vision 3D et se consacre plus spécialement à la reconstitution de scènes à partir d'une séquence d'images monoculaires saisie par une caméra en mouvement. Il s'agit de reconstruire les éléments 3D du type segments de droite d'une scène en utilisant la connaissance du mouvement de la caméra. L'étude a été faite dans le contexte de la géométrie projective, ce qui a permis, dans le cas d'une translation, le développement d'une approche basée sur le principe de dualité projective. L'idée consiste à résoudre le problème en trois phases séquentielles : - Diviser les droites de la scène en groupes de droites parallèles via un groupement correspondant de leurs images et déterminer la direction de chaque groupe. - Reconstruire les droites groupe par groupe. - Retrouver les segments portés par chacune des droites reconstruites. Dans l'optique de la dualité projective, chacune des deux premières phases revient à représenter les primitives 2D, droites support des segments extraits des images, par des points dans un plan projectif et a mettre en évidence de l'alignement des points qui correspond a un groupe de droites parallèles pour la première phase ou a une seule droite de la scène pour la seconde. Un ensemble d'algorithmes dont le principe se fond essentiellement sur la transformation de Hough a été développé pour réaliser les trois phases. Cette approche privilégie le traitement de longues et denses séquences d'images. Des résultats expérimentaux ont été présentés en vue de montrer sa performance.

45

Kaiser, Adrien. "Analyse de scène temps réel pour l'interaction 3D." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT025/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur l'analyse visuelle de scènes intérieures capturées par des caméras de profondeur dans le but de convertir leurs données en information de haut niveau sur la scène. Elle explore l'application d'outils d'analyse géométrique 3D à des données visuelles de profondeur en termes d'amélioration de qualité, de recalage et de consolidation. En particulier, elle vise à montrer comment l'abstraction de formes permet de générer des représentations légères pour une analyse rapide avec des besoins matériels faibles. Cette propriété est liée à notre objectif de concevoir des algorithmes adaptés à un fonctionnement embarqué en temps réel dans le cadre d'appareils portables, téléphones ou robots mobiles. Le contexte de cette thèse est l'exécution d'un procédé d’interaction 3D temps réel sur un appareil mobile. Cette exécution soulève plusieurs problématiques, dont le placement de zones d'interaction 3D par rapport à des objets environnants réels, le suivi de ces zones dans l'espace lorsque le capteur est déplacé ainsi qu'une utilisation claire et compréhensible du système par des utilisateurs non experts. Nous apportons des contributions vers la résolution de ces problèmes pour montrer comment l'abstraction géométrique de la scène permet une localisation rapide et robuste du capteur et une représentation efficace des données fournies ainsi que l'amélioration de leur qualité et leur consolidation. Bien que les formes géométriques simples ne contiennent pas autant d'information que les nuages de points denses ou les ensembles volumiques pour représenter les scènes observées, nous montrons qu’elles constituent une approximation acceptable et que leur légèreté leur donne un bon équilibre entre précision et performance
This PhD thesis focuses on the problem of visual scene analysis captured by commodity depth sensors to convert their data into high level understanding of the scene. It explores the use of 3D geometry analysis tools on visual depth data in terms of enhancement, registration and consolidation. In particular, we aim to show how shape abstraction can generate lightweight representations of the data for fast analysis with low hardware requirements. This last property is important as one of our goals is to design algorithms suitable for live embedded operation in e.g., wearable devices, smartphones or mobile robots. The context of this thesis is the live operation of 3D interaction on a mobile device, which raises numerous issues including placing 3D interaction zones with relation to real surrounding objects, tracking the interaction zones in space when the sensor moves and providing a meaningful and understandable experience to non-expert users. Towards solving these problems, we make contributions where scene abstraction leads to fast and robust sensor localization as well as efficient frame data representation, enhancement and consolidation. While simple geometric surface shapes are not as faithful as heavy point sets or volumes to represent observed scenes, we show that they are an acceptable approximation and their light weight makes them well balanced between accuracy and performance

46

Pérez, Patricio Madain. "Stéréovision dense par traitement adaptatif temps réel : algorithmes et implantation." Lille 1, 2005. https://ori-nuxeo.univ-lille1.fr/nuxeo/site/esupversions/0c4f5769-6f43-455c-849d-c34cc32f7181.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les méthodes de stéréovision sont utilisées pour la reconstruction tridimensionnelle d'une scène. Le travail présenté dans ce mémoire concerne l'étude et le développement de méthodes de stéréovision pouvant être implantées sur des architectures spécialisées de calcul afin de traiter les images en temps-réel. Nous avons étudié plus spécifiquement les méthodes basées sur la corrélation entre des fenêtres extraites des deux images. Le principal problème posé par ces méthodes réside dans le choix de la taille et de la forme de la fenêtre de corrélation. Une petite fenêtre est nécessaire afin de traiter correctement les petits objets, mais elle ne fournit pas de résultats exploitables dans les zones homogènes des images. A l'inverse, une grande fenêtre permet de traiter les zones homogènes, mais les petits objets sont supprimés des images résultat. Pour pallier ce problème, nous proposons une nouvelle méthode adaptative qui peut être implantée sur une architecture dédiée de calcul. La corrélation est calculée sur une grande fenêtre, mais certains pixels sont exclus lors du traitement. Seuls les pixels "semblables" au pixel à apparier sont conservés dans l'expression de la corrélation, ce qui équivaut à changer la taille et la forme de la fenêtre. Plusieurs critères de similarité sont proposés et comparés. Nous avons montré que, même en utilisant de critères de similarité extrèmement simples, les résultats obtenus avec notre algorithme sont de meilleure qualité que ceux obtenus par les algorithmes similaires décrits dans la littérature. L'algorithme a été implanté dans une architecture intégrant un FPGA, le processeur STREAM. Nous présentons également une utilisation de notre algorithme dans le cadre de la détection d'obstacles en temps-réel à l'avant d'un véhicule.

47

Joubert, Eric. "Reconstruction de surfaces en trois dimensions par analyse de la polarisation de la lumière réfléchie par les objets de la scène." Rouen, 1993. http://www.theses.fr/1993ROUES052.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les travaux présentés dans cette thèse abordent la résolution du problème de la reconstruction de surfaces en trois dimensions par l'analyse de la polarisation de la lumière. Notre méthode suppose que les rayons lumineux issus de la réflexion sur des objets sont partiellement polarisés. Cet état de polarisation s'avère alors être fonction de l'orientation de l'élément de surface observé. Le présent mémoire est organisé en trois parties. La première partie décrit une méthode originale qui est capable de fournir une valeur représentative de l'état de polarisation pour chaque point de l'image totale d'une scène courante. Des résultats de ce traitement, qui sont proposés pour différents types de scènes, font apparaître une précision moyenne de l'ordre de 1%. La deuxième partie met en oeuvre la méthode précédente dans un système de reconstruction qui n'utilise qu'un seul point de vue. Les résultats obtenus pour deux scènes génériques montrent clairement les limites d'un tel principe, et définissent un champ d'applications spécifique. La dernière partie ajoute un deuxième point de vue de la scène observée de manière à créer un système de stéréovision original. Les résultats présentés pour deux scènes génériques montrent de réelles capacités de reconstruction pour des formes aussi diversifiées que des formes courbes ou plates. Cette dernière méthode illustre parfaitement les avantages de l'utilisation des grandeurs de polarisation dans un système de reconstruction

48

Hamdoun, Omar. "Détection et ré-identification de piétons par points d'intérêt entre caméras disjointes." Phd thesis, École Nationale Supérieure des Mines de Paris, 2010. http://pastel.archives-ouvertes.fr/pastel-00566417.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Avec le développement de la vidéo-protection, le nombre de caméras déployées augmente rapidement. Pour exploiter efficacement ces vidéos, il est indispensable de concevoir des outils d'aide à la surveillance qui automatisent au moins partiellement leur analyse. Un des problèmes difficiles est le suivi de personnes dans un grand espace (métro, centre commercial, aéroport, etc.) couvert par un réseau de caméras sans recouvrement. Dans cette thèse nous proposons et expérimentons une nouvelle méthode pour la ré-identification de piétons entre caméras disjointes. Notre technique est fondée sur la détection et l'accumulation de points d'intérêt caractérisés par un descripteur local. D'abord, on propose puis évalue une méthode utilisant les points d'intérêts pour la modélisation de scène, puis la détection d'objets mobiles. Ensuite, la ré-identification des personnes se fait en collectant un ensemble de points d'intérêt durant une fenêtre temporelle, puis en cherchant pour chacun d'eux leur correspondant le plus similaire parmi tous les descripteurs enregistrés précédemment, et stockés dans un KD-tree. Enfin, nous proposons et testons des pistes d'amélioration, en particulier pour la sélection automatique des instants ou des points d'intérêt, afin d'obtenir pour chaque individu un ensemble de points qui soient à la fois les plus variés possibles, et les plus discriminants par rapport aux autres personnes. Les performances de ré-identification de notre algorithme, environ 95% d'identification correcte au premier rang parmi 40 personnes, dépassent l'état de l'art, ainsi que celles obtenues dans nos comparaisons avec d'autres descripteurs (histogramme de couleur, HOG, SIFT).

49

Weinzaepfel, Philippe. "Le mouvement en action : estimation du flot optique et localisation d'actions dans les vidéos." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM013/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Avec la récente et importante croissance des contenus vidéos, la compréhension automatique de vidéos est devenue un problème majeur.Ce mémoire présente plusieurs contributions sur deux tâches de la compréhension automatique de vidéos : l'estimation du flot optique et la localisation d'actions humaines.L'estimation du flot optique consiste à calculer le déplacement de chaque pixel d'une vidéo et fait face à plusieurs défis tels que les grands déplacements non rigides, les occlusions et les discontinuités du mouvement.Nous proposons tout d'abord une méthode pour le calcul du flot optique, basée sur un modèle variationnel qui incorpore une nouvelle méthode d'appariement.L'algorithme d'appariement proposé repose sur une architecture corrélationnelle hiérarchique à plusieurs niveaux et gère les déformations non rigides ainsi que les textures répétitives.Il permet d'améliorer l'estimation du flot en présence de changements d'apparence significatifs et de grands déplacements.Nous présentons également une nouvelle approche pour l'estimation du flot optique basée sur une interpolation dense de correspondances clairsemées tout en respectant les contours.Cette méthode tire profit d'une distance géodésique basée sur les contours qui permet de respecter les discontinuités du mouvement et de gérer les occlusions.En outre, nous proposons une approche d'apprentissage pour détecter les discontinuités du mouvement.Les motifs de discontinuité du mouvement sont prédits au niveau d'un patch en utilisant des forêts aléatoires structurées.Nous montrons expérimentalement que notre approche surclasse la méthode basique construite sur le gradient du flot tant sur des données synthétiques que sur des vidéos réelles.Nous présentons à cet effet une base de données contenant des vidéos d'utilisateurs.La localisation d'actions humaines consiste à reconnaître les actions présentes dans une vidéo, comme `boire' ou `téléphoner', ainsi que leur étendue temporelle et spatiale.Nous proposons tout d'abord une nouvelle approche basée sur les réseaux de neurones convolutionnels profonds.La méthode passe par l'extraction de tubes dépendants de la classe à détecter, tirant parti des dernières avancées en matière de détection et de suivi.La description des tubes est enrichie par des descripteurs spatio-temporels locaux.La détection temporelle est effectuée à l'aide d'une fenêtre glissante à l'intérieur de chaque tube.Notre approche surclasse l'état de l'art sur des bases de données difficiles de localisation d'actions.Deuxièmement, nous présentons une méthode de localisation d'actions faiblement supervisée, c'est-à-dire qui ne nécessite pas l'annotation de boîtes englobantes.Des candidats de localisation d'actions sont calculés en extrayant des tubes autour des humains.Cela est fait en utilisant un détecteur d'humains robuste aux poses inhabituelles et aux occlusions, appris sur une base de données de poses humaines.Un rappel élevé est atteint avec seulement quelques tubes, permettant d'appliquer un apprentissage à plusieurs instances.En outre, nous présentons une nouvelle base de données pour la localisation d'actions humaines.Elle surmonte les limitations des bases existantes, telles la diversité et la durée des vidéos.Notre approche faiblement supervisée obtient des résultats proches de celles totalement supervisées alors qu'elle réduit significativement l'effort d'annotations requis
With the recent overwhelming growth of digital video content, automatic video understanding has become an increasingly important issue.This thesis introduces several contributions on two automatic video understanding tasks: optical flow estimation and human action localization.Optical flow estimation consists in computing the displacement of every pixel in a video andfaces several challenges including large non-rigid displacements, occlusions and motion boundaries.We first introduce an optical flow approach based on a variational model that incorporates a new matching method.The proposed matching algorithm is built upon a hierarchical multi-layer correlational architecture and effectively handles non-rigid deformations and repetitive textures.It improves the flow estimation in the presence of significant appearance changes and large displacements.We also introduce a novel scheme for estimating optical flow based on a sparse-to-dense interpolation of matches while respecting edges.This method leverages an edge-aware geodesic distance tailored to respect motion boundaries and to handle occlusions.Furthermore, we propose a learning-based approach for detecting motion boundaries.Motion boundary patterns are predicted at the patch level using structured random forests.We experimentally show that our approach outperforms the flow gradient baseline on both synthetic data and real-world videos,including an introduced dataset with consumer videos.Human action localization consists in recognizing the actions that occur in a video, such as `drinking' or `phoning', as well as their temporal and spatial extent.We first propose a novel approach based on Deep Convolutional Neural Network.The method extracts class-specific tubes leveraging recent advances in detection and tracking.Tube description is enhanced by spatio-temporal local features.Temporal detection is performed using a sliding window scheme inside each tube.Our approach outperforms the state of the art on challenging action localization benchmarks.Second, we introduce a weakly-supervised action localization method, ie, which does not require bounding box annotation.Action proposals are computed by extracting tubes around the humans.This is performed using a human detector robust to unusual poses and occlusions, which is learned on a human pose benchmark.A high recall is reached with only several human tubes, allowing to effectively apply Multiple Instance Learning.Furthermore, we introduce a new dataset for human action localization.It overcomes the limitations of existing benchmarks, such as the diversity and the duration of the videos.Our weakly-supervised approach obtains results close to fully-supervised ones while significantly reducing the required amount of annotations

50

Duong, Nam duong. "Hybrid Machine Learning and Geometric Approaches for Single RGB Camera Relocalization." Thesis, CentraleSupélec, 2019. http://www.theses.fr/2019CSUP0008.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Au cours des dernières années, la relocalisation de la caméra à base d'images est devenue un enjeu important de la vision par ordinateur appliquée à la réalité augmentée, à la robotique ainsi qu'aux véhicules autonomes. La relocalisation de la caméra fait référence à la problématique de l'estimation de la pose de la caméra incluant à la fois la translation 3D et la rotation 3D. Dans les systèmes de localisation, le composant de relocalisation de la caméra est nécessaire pour récupérer la pose de la caméra après le suivi perdu, plutôt que de redémarrer la localisation à partir de zéro.Cette thèse vise à améliorer les performances de la relocalisation de la caméra en termes de temps d'exécution et de précision ainsi qu'à relever les défis de la relocalisation des caméras dans des environnements dynamiques.Nous présentons l'estimation de la pose de la caméra basée sur la combinaison de la régression de pose multi-patch pour surmonter l'incertitude des méthodes d'apprentissage profond de bout en bout. Afin d'équilibrer la précision et le temps de calcul de la relocalisation de la caméra à partir d'une seule image RVB, nous proposons une méthode hybride à caractéristiques éparses. Une meilleure prédiction dans la partie d’apprentissage automatique de nos méthodes conduit à une inférence rapide de la pose de la caméra dans la partie géométrique. Pour relever le défi des environnements dynamiques, nous proposons une forêt de régression adaptative qui s'adapte en temps réel au modèle prédictif. Il évolue en partie au fil du temps sans qu'il soit nécessaire de ré-entrainer le modèle entier à partir de zéro. En appliquant cet algorithme à notre relocalisation de la caméra en temps réel et précise, nous pouvons faire face à des environnements dynamiques, en particulier des objets en mouvement. Les expériences prouvent l'efficacité des méthodes que nous proposons. Notre méthode permet d'obtenir des résultats aussi précis que les meilleures méthodes d’état de l’art. De plus, nous obtenons également une grande précision même sur des scènes dynamiques
In the last few years, image-based camera relocalization becomes an important issue of computer vision applied to augmented reality, robotics as well as autonomous vehicles. Camera relocalization refers to the problematic of the camera pose estimation including both 3D translation and 3D rotation. In localization systems, camera relocalization component is necessary to retrieve camera pose after tracking lost, rather than restarting the localization from scratch.This thesis aims at improving the performance of camera relocalization in terms of both runtime and accuracy as well as handling challenges of camera relocalization in dynamic environments. We present camera pose estimation based on combining multi-patch pose regression to overcome the uncertainty of end-to-end deep learning methods. To balance between accuracy and computational time of camera relocalization from a single RGB image, we propose a sparse feature hybrid methods. A better prediction in the machine learning part of our methods leads to a rapid inference of camera pose in the geometric part. To tackle the challenge of dynamic environments, we propose an adaptive regression forest algorithm that adapts itself in real time to predictive model. It evolves by part over time without requirement of re-training the whole model from scratch. When applying this algorithm to our real-time and accurate camera relocalization, we can cope with dynamic environments, especially moving objects. The experiments proves the efficiency of our proposed methods. Our method achieves results as accurate as the best state-of-the-art methods on the rigid scenes dataset. Moreover, we also obtain high accuracy even on the dynamic scenes dataset

Dissertations / Theses on the topic 'Analyse de scènes par vision'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles