Siga este enlace para ver otros tipos de publicaciones sobre el tema: Reconnaissance de Caméras.

Tesis sobre el tema "Reconnaissance de Caméras"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 40 mejores tesis para su investigación sobre el tema "Reconnaissance de Caméras".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Ghorbel, Enjie. "Reconnaissance rapide et précise d'actions humaines à partir de caméras RGB-D". Thesis, Normandie, 2017. http://www.theses.fr/2017NORMR027/document.

Texto completo
Resumen
ARécemment, les caméras RGB-D ont été introduites sur le marché et ont permis l’exploration de nouvelles approches de reconnaissance d’actions par l’utilisation de deux modalités autres que les images RGB, à savoir, les images de profondeur et les séquences de squelette. Généralement, ces approches ont été évaluées en termes de taux de reconnaissance. Cette thèse s’intéresse principalement à la reconnaissance rapide d’actions à partir de caméras RGB-D. Le travail a été focalisé sur une amélioration conjointe de la rapidité de calcul et du taux de reconnaissance en vue d’une application temps-réel. Dans un premier temps, nous menons une étude comparative des méthodes existantes de reconnaissance d’actions basées sur des caméras RGB-D en utilisant les deux critères énoncés : le taux de reconnaissance et la rapidité de calcul. Suite aux conclusions résultant de cette étude, nous introduisons un nouveau descripteur de mouvement, à la fois précis et rapide, qui se base sur l’interpolation par splines cubiques de valeurs cinématiques du squelette, appelé Kinematic Spline Curves (KSC). De plus, afin de pallier les effets négatifs engendrés par la variabilité anthropométrique, la variation d’orientation et la variation de vitesse, des méthodes de normalisation spatiale et temporelle rapide ont été proposées. Les expérimentations menées sur quatre bases de données prouvent la précision et la rapidité de ce descripteur. Dans un second temps, un deuxième descripteur appelé Hiearchical Kinematic Coavarince(HKC) est introduit. Ce dernier est proposé dans l’optique de résoudre la question de reconnaissance rapide en ligne. Comme ce descripteur n’appartient pas à un espace euclidien, mais à l’espace des matrices Symétriques semi-Définies Positives (SsDP), nous adaptons les méthodes de classification à noyau par l’introduction d’une distance inspirée de la distance Log-Euclidienne, que nous appelons distance Log-Euclidienne modifiée. Cette extension nous permet d’utiliser des classifieurs adaptés à l’espace de caractéristiques (SPsD).Une étude expérimentale montre l’efficacité de cette méthode non seulement en termes de rapidité de calcul et de précision, mais également en termes de latence observationnelle. Ces conclusions prouvent que cette approche jointe à une méthode de segmentation d’actions pourrait s’avérer adaptée à la reconnaissance en ligne et ouvrent ainsi de nouvelles perspectives pour nos travaux futurs
The recent availability of RGB-D cameras has renewed the interest of researchers in the topic of human action recognition. More precisely, several action recognition methods have been proposed based on the novel modalities provided by these cameras, namely, depth maps and skeleton sequences. These approaches have been mainly evaluated in terms of recognition accuracy. This thesis aims to study the issue of fast action recognition from RGB-D cameras. It focuses on proposing an action recognition method realizing a trade-off between accuracy and latency for the purpose of applying it in real-time scenarios. As a first step, we propose a comparative study of recent RGB-D based action recognition methods using the two cited criteria: accuracy of recognition and rapidity of execution. Then, oriented by the conclusions stated thanks to this comparative study, we introduce a novel, fast and accurate human action descriptor called Kinematic Spline Curves (KSC).This latter is based on the cubic spline interpolation of kinematic values. Moreover, fast spatialand temporal normalization are proposed in order to overcome anthropometric variability, orientation variation and rate variability. The experiments carried out on four different benchmarks show the effectiveness of this approach in terms of execution time and accuracy. As a second step, another descriptor is introduced, called Hierarchical Kinematic Covariance(HKC). This latter is proposed in order to solve the issue of fast online action recognition. Since this descriptor does not belong to a Euclidean space, but is an element of the space of Symmetric Positive semi-definite (SPsD) matrices, we adapt kernel classification methods by the introduction of a novel distance called Modified Log-Euclidean, which is inspiredfrom Log-Euclidean distance. This extension allows us to use suitable classifiers to the feature space SPsD of matrices. The experiments prove the efficiency of our method, not only in terms of rapidity of calculation and accuracy, but also in terms of observational latency. These conclusions show that this approach combined with an action segmentation method could be appropriate to online recognition, and consequently, opens up new prospects for future works
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Leroy, Vincent. "Modélisation 4D rapide et précise de larges séquences multi-caméras". Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM042.

Texto completo
Resumen
Les récentes avancées technologiques dans le domaine de l'acquisition et du calcul ont permis une croissance rapide d'une branche de production de média: la capture volumétrique. En particulier, la montée en puissance de la réalité virtuelle et augmentée engendre un besoin accru de contenus adaptés à ces nouveaux médias, notamment des contenus 3D obtenus à partir de scènes réelles. En effet, la possibilité d'enregistrer une performance et de la rejouer sous n'importe quel point de vue permet de créer une expérience dans un environnement réaliste et immersif pour l'utilisateur.Ce manuscrit présente le problème de la reconstruction de forme 4D à partir d'images RVB multi-vues, qui est une des stratégies permettant de créer un tel contenu. Nous nous intéressons particulièrement à la capture de performances dynamiques en situations réelles, contenant des détails de surface complexes. Les défis typiques de ces situations de capture incluent une plus faible densité d'observation des objets d'intérêt en raison des champs de vision plus larges nécessaires pour capturer le mouvement; des occultations et auto-occultations de plusieurs sujets en interaction; un manque de texture typique de l'apparence et des vêtements du sujet réel; ou du flou de bougé avec des sujets en mouvement rapide tels que des scènes d'action sportive. Un aspect essentiel et qui peut encore être amélioré à cet égard est la fidélité et la qualité des formes récupérées, notre objectif dans ce travail.Nous pr'esentons un pipeline complet de reconstruction adapt'e `a ce sc'enario, auquel nous avons contribu'e de nombreuses mani`eres. En premier lieu, on peut noter que les m'ethodes bas'ees sur la technologie st'er'eo multi-vues (MVS) ont atteint un bon niveau de qualit'e avec des pipelines qui comprennent g'en'eralement l'extraction de descripteurs caract'eristiques, une 'etape de mise en correspondance et l'inf'erence de forme 3D. Mais il est surtout int'eressant de noter que des travaux tr`es r'ecents ont r'eexamin'e le probl`eme de st'er'eo et st'er'eo multi-vues en introduisant des fonctions de similarit'e automatiquement inf'er'ees `a l'aide d'apprentissage profond. La principale promesse de ce type de m'ethode 'etant d'inclure un meilleur a-priori, appris sur les donn'ees r'eelles. Dans une premi`ere contribution, nous examinons dans quelle mesure ces am'eliorations sont transf'er'ees au cas plus g'en'eral et complexe de la capture de performances dynamiques, o`u diverses difficult'es suppl'ementaires se pr'esentent. Nous expliquons ensuite comment utiliser cette strat'egie d'apprentissage pour construire de mani`ere robuste une repr'esentation de forme `a chaque instant, `a partir desquelles une s'equence de mod`eles 3D peut ^etre extraite. Une fois que nous obtenons cette repr'esentation `a chaque instant de la s'equence captur'ee, nous expliquons comment il est possible d'exploiter la redondance temporelle pour affiner la pr'ecision des mod`eles en propageant les d'etails des formes observ'ees aux instants pr'ec'edents et suivants. En plus d'^etre b'en'efique pour de nombreux sc'enarios dynamiques `a vues multiples, cela permet 'egalement de capturer des sc`enes plus grandes o`u une pr'ecision accrue peut compenser la r'esolution spatiale r'eduite. Le code source des diff'erentes m'ethodes de reconstruction est rendu public sous forme de logiciel open source
Recent advances in acquisition and processing technologies lead to the fast growth of a major branch in media production: volumetric video. In particular, the rise of virtual and augmented reality fuels an increased need for content suitable to these new media including 3D contents obtained from real scenes, as the ability to record a live performance and replay it from any given point of view allows the user to experience a realistic and immersive environment.This manuscript aims at presenting the problem of 4D shape reconstruction from multi-view RGB images, which is one way to create such content. We especially target real life performance capture, containing complex surface details. Typical challenges for these capture situations include smaller visual projection areas of objects of interest due to wider necessary fields of view for capturing motion; occlusion and self-occlusion of several subjects interacting together; lack of texture content typical of real-life subject appearance and clothing; or motion blur with fast moving subjects such as sport action scenes. An essential and still improvable aspect in this matter is the fidelity and quality of the recovered shapes, our goal in this work.We present a full reconstruction pipeline suited for this scenario, to which we contributed in many aspects. First, Multi-view stereo (MVS) based methods have attained a good level of quality with pipelines that typically comprise feature extraction, matching stages and 3D shape inference. Interestingly, very recent works have re-examined stereo and MVS by introducing features and similarity functions automatically inferred using deep learning, the main promise of this type of method being to include better data-driven priors. We examine in a first contribution whether these improvements transfer to the more general and complex case of live performance capture, where a diverse set of additional difficulties arise. We then explain how to use this learning strategy to robustly build a shape representation, from which can be extracted a 3D model. Once we obtain this representation at every frame of the captured sequence, we discuss how to exploit temporal redundancy for precision refinement by propagating shape details through adjacent frames. In addition to being beneficial to many dynamic multi-view scenarios this also enables larger scenes where such increased precision can compensate for the reduced spatial resolution per image frame. The source code implementing the different reconstruction methods is released to the public as open source software
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Gond, Laétitia. "Système multi-caméras pour l'analyse de la posture humaine". Clermont-Ferrand 2, 2009. http://www.theses.fr/2009CLF21922.

Texto completo
Resumen
Cette thèse présente un système d'estimation de la configuration d'un modèle articulé du corps à partir des images acquises par un système de caméras fixes et calibrés, observant une personne évoluant dans une pièce. L'analyse s'appuie sur une extraction de la silhouette par chacune des caméras, par une méthode de soustraction de fond. Une reconstruction en voxels de l'enveloppe visuelle du corps est ensuite calculée. L'estimation de la posture est basée sur une régression : l'application permettant de passer de la forme 3D reconstruite à la configuration du corps correspondante est modélisée durant une phase d'apprentissage, s'appuyant sur des données d'entrainement synthétiques. Pour encoder de manière concise la géométrie de l'enveloppe visuelle, un nouveau descripteur 3D a été proposé. Toutes les méthodes proposées sont évaluées quantitativement sur des données synthétiques, et éprouvées qualitativement sur des séquences vidéo-réelles
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Mousse, Ange Mikaël. "Reconnaissance d'activités humaines à partir de séquences multi-caméras : application à la détection de chute de personne". Thesis, Littoral, 2016. http://www.theses.fr/2016DUNK0453/document.

Texto completo
Resumen
La vision artificielle est un domaine de recherche en pleine évolution. Les nouvelles stratégies permettent d'avoir des réseaux de caméras intelligentes. Cela induit le développement de beaucoup d'applications de surveillance automatique via les caméras. Les travaux développés dans cette thèse concernent la mise en place d'un système de vidéosurveillance intelligente pour la détection de chutes en temps réel. La première partie de nos travaux consiste à pouvoir estimer de façon robuste la surface d'une personne à partir de deux (02) caméras ayant des vues complémentaires. Cette estimation est issue de la détection de chaque caméra. Dans l'optique d'avoir une détection robuste, nous avons fait recours à deux approches. La première approche consiste à combiner un algorithme de détection de mouvements basé sur la modélisation de l'arrière plan avec un algorithme de détection de contours. Une approche de fusion a été proposée pour rendre beaucoup plus efficiente le résultat de la détection. La seconde approche est basée sur les régions homogènes de l'image. Une première ségmentation est effectuée dans le but de déterminer les régions homogènes de l'image. Et pour finir, nous faisons la modélisation de l'arrière plan en se basant sur les régions. Une fois les pixels de premier plan obtenu, nous faisons une approximation par un polygone dans le but de réduire le nombre d'informations à manipuler. Pour l'estimation de cette surface nous avons proposé une stratégie de fusion dans le but d'agréger les détections des caméras. Cette stratégie conduit à déterminer l'intersection de la projection des divers polygones dans le plan de masse. La projection est basée sur les principes de l'homographie planaire. Une fois l'estimation obtenue, nous avons proposé une stratégie pour détecter les chutes de personnes. Notre approche permet aussi d'avoir une information précise sur les différentes postures de l'individu. Les divers algorithmes proposés ont été implémentés et testés sur des banques de données publiques dans le but de juger l'efficacité des approches proposées par rapport aux approches existantes dans l'état de l'art. Les résultats obtenus et qui ont été détaillés dans le présent manuscrit montrent l'apport de nos algorithmes
Artificial vision is an involving field of research. The new strategies make it possible to have some autonomous networks of cameras. This leads to the development of many automatic surveillance applications using the cameras. The work developed in this thesis concerns the setting up of an intelligent video surveillance system for real-time people fall detection. The first part of our work consists of a robust estimation of the surface area of a person from two (02) cameras with complementary views. This estimation is based on the detection of each camera. In order to have a robust detection, we propose two approaches. The first approach consists in combining a motion detection algorithm based on the background modeling with an edge detection algorithm. A fusion approach has been proposed to make much more efficient the results of the detection. The second approach is based on the homogeneous regions of the image. A first segmentation is performed to find homogeneous regions of the image. And finally we model the background using obtained regions
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Badie, Julien. "Optimisation du suivi de personnes dans un réseau de caméras". Thesis, Nice, 2015. http://www.theses.fr/2015NICE4090/document.

Texto completo
Resumen
Cette thèse s’intéresse à l’amélioration des performances du processus de suivi de personnes dans un réseau de caméras et propose une nouvelle plate-forme appelée global tracker. Cette plate-forme évalue la qualité des trajectoires obtenues par un simple algorithme de suivi et permet de corriger les erreurs potentielles de cette première étape de suivi. La première partie de ce global tracker estime la qualité des trajectoires à partir d’un modèle statistique analysant des distributions des caractéristiques de la cible (ie : l’objet suivi) telles que ses dimensions, sa vitesse, sa direction, afin de détecter de potentielles anomalies. Pour distinguer de véritables erreurs par rapport à des phénomènes optiques, nous analysons toutes les interactions entre l’objet suivi et tout son environnement incluant d’autres objets mobiles et les éléments du fond de la scène. Dans la deuxième partie du global tracker, une méthode en post-traitement a été conçue pour associer les différentes tracklets (ie : segments de trajectoires fiables) correspondant à la même personne qui n’auraient pas été associées correctement par la première étape de suivi. L’algorithme d’association des tracklets choisit les caractéristiques d’apparence les plus saillantes et discriminantes afin de calculer une signature visuelle adaptée à chaque tracklet. Finalement le global tracker est évalué à partir de plusieurs bases de données de benchmark qui reproduit une large variété de situations réelles. A travers toutes ces expérimentations, les performances du global tracker sont équivalentes ou supérieures aux meilleurs algorithmes de suivi de l’état de l’art
This thesis addresses the problem of improving the performance of people tracking process in a new framework called Global Tracker, which evaluates the quality of people trajectory (obtained by simple tracker) and recovers the potential errors from the previous stage. The first part of this Global Tracker estimates the quality of the tracking results, based on a statistical model analyzing the distribution of the target features to detect potential anomalies.To differentiate real errors from natural phenomena, we analyze all the interactions between the tracked object and its surroundings (other objects and background elements). In the second part, a post tracking method is designed to associate different tracklets (segments of trajectory) corresponding to the same person which were not associated by a first stage of tracking. This tracklet matching process selects the most relevant appearance features to compute a visual signature for each tracklet. Finally, the Global Tracker is evaluated with various benchmark datasets reproducing real-life situations, outperforming the state-of-the-art trackers
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Letouzey, Antoine. "Modélisation 4D à partir de plusieurs caméras". Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00771531.

Texto completo
Resumen
Les systèmes multi-caméras permettent de nos jours d'obtenir à la fois des flux d'images couleur mais aussi des flux de modèles 3D. Ils permettent ainsi l'étude de scènes complexes à la fois de par les éléments qui la composent mais aussi de par les mouvements et les déformations que subissent ces éléments au fil du temps. Une des principales limitations de ces données est le manque de cohérence temporelle entre les observations obtenues à deux instants de temps successifs. Les travaux présentés dans cette thèse proposent des pistes pour retrouver cette cohérence temporelle. Dans un premier temps nous nous sommes penchés sur le problème de l'estimation de champs de déplacement denses à la surface des objets de la scène. L'approche que nous proposons permet de combiner efficacement des informations photométriques provenant des caméras avec des informations géométriques. Cette méthode a été étendue, par la suite, au cas de systèmes multi-caméras hybrides composés de capteurs couleurs et de profondeur (tel que le capteur kinect). Dans un second temps nous proposons une méthode nouvelle permettant l'apprentissage de la vraie topologie d'une scène dynamique au fil d'une séquence de données 4D (3D + temps). Ces travaux permettent de construire au fur et à mesure des observations un modèle de référence de plus en plus complet de la scène observée.
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Fleuret, Laurence. "Unicité et ambiguïté de la reconstruction tridimensionnelle du mouvement de courbes rigides". Nancy 1, 1998. http://www.theses.fr/1998NAN10241.

Texto completo
Resumen
Dans le cadre de la reconnaissance automatique des formes tridimensionnelles, on étudie l'observation de courbes gauches de l'espace par une caméra en mouvement et la reconstruction de cette courbe à partir des courbes images recueillies par la caméra. Une des méthodes de reconstruction est la détermination du mouvement de la caméra. Alors, se posent les questions : - la donnée des courbes images suffit-elle à déterminer le mouvement de la caméra ? - à ces courbes images, correspond-il un seul mouvement de la caméra ? Par exemple, un cercle en rotation autour de son axe reste globalement invariant, tout comme sa courbe image. Le même cercle immobile donne la même courbe image. On obtient donc une infinité de solutions pour une même conique image. Ainsi, les coniques images et les rotations pures sont sources de fortes ambiguïtés de reconstruction. Par conséquent, les courbes images coniques font l'objet d'une partie de ce travail. Nous nous intéressons au cas particulier où le cône de vision reste invariant au cours du temps. Nous montrons que le problème d'unicité s'y réduit lorsque les mouvements sont des rotations pures autour du centre focal et aussi de façon infinitésimale en t = 0 dans la situation générale. Nous examinons ensuite diverses situations particulières ou le mouvement peut être complètement reconstitue, éventuellement modulo des familles triviales de déplacements.
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Meden, Boris. "Ré-identification de personnes : application aux réseaux de caméras à champs disjoints". Phd thesis, Toulouse 3, 2013. http://thesesups.ups-tlse.fr/1952/.

Texto completo
Resumen
Cette thèse s'inscrit dans le contexte de la vidéosurveillance "intelligente", et s'intéresse à la supervision de réseaux de caméras à champs disjoints, contrainte classique lorsque l'on souhaite limiter l'instrumentation du bâtiment. Il s'agit là de l'un des cas d'application du problème de la ré-identification de personnes. À ce titre, la thèse propose une approche se démarquant de l'état de l'art qui traite classiquement le problème sous l'aspect description, via la mise en correspondance de signatures image à image. Nous l'abordons ici sous l'aspect filtrage : comment intégrer la ré-identification de personne dans un processus de suivi multi-pistes, de manière à maintenir des identités de pistes cohérentes, malgré des discontinuités dans l'observation. Nous considérons ainsi une approche suivi et mises en correspondance, au niveau caméra et utilisons ce module pour ensuite raisonner au niveau du réseau. Nous décrivons dans un premier temps les approches classiques de ré-identification, abordées sous l'aspect description. Nous proposons ensuite un formalisme de filtrage particulaire à états continus et discret pour estimer conjointement position et identité de la cible au cours du temps, dans chacune des caméras. Un second étage de traitement permet d'intégrer la topologie du réseau et les temps d'apparition pour optimiser la ré-identification au sein du réseau. Nous démontrons la faisabilité de l'approche en grande partie sur des données issues de réseaux de caméras déployés au sein du laboratoire, étant donné le manque de données publiques concernant ce domaine. Nous prévoyons de mettre en accès public ces banques de données
This thesis deals with intelligent videosurveillance, and focus on the supervision of camera networks with nonoverlapping fields of view, a classical constraint when it comes to limitate the building instrumentation. It is one of the use-case of the pedestrian re-identification problem. On that point, the thesis distinguishes itself from state of the art methods, which treat the problem from the descriptor perspective through image to image signatures comparison. Here we consider it from a bayesian filtering perspective : how to plug re-identification in a complete multi-target tracking process, in order to maintain targets identities, in spite of observation discontinuities. Thus we consider tracking and signature comparison, at the camera level, and use that module to take decisions at the network level. We describe first the classical re-identification approaches, based on the description. Then, we propose a mixed-state particle filter framework to estimate jointly the targets positions and their identities in the cameras. A second stage of processing integrates the network topology and optimise the re-identifications in the network. Considering the lack of public data in nonoverlapping camera network, we mainly demonstrate our approach on camera networks deployed at the lab. A publication of these data is in progress
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Hamdoun, Omar. "Détection et ré-identification de piétons par points d'intérêt entre caméras disjointes". Phd thesis, École Nationale Supérieure des Mines de Paris, 2010. http://pastel.archives-ouvertes.fr/pastel-00566417.

Texto completo
Resumen
Avec le développement de la vidéo-protection, le nombre de caméras déployées augmente rapidement. Pour exploiter efficacement ces vidéos, il est indispensable de concevoir des outils d'aide à la surveillance qui automatisent au moins partiellement leur analyse. Un des problèmes difficiles est le suivi de personnes dans un grand espace (métro, centre commercial, aéroport, etc.) couvert par un réseau de caméras sans recouvrement. Dans cette thèse nous proposons et expérimentons une nouvelle méthode pour la ré-identification de piétons entre caméras disjointes. Notre technique est fondée sur la détection et l'accumulation de points d'intérêt caractérisés par un descripteur local. D'abord, on propose puis évalue une méthode utilisant les points d'intérêts pour la modélisation de scène, puis la détection d'objets mobiles. Ensuite, la ré-identification des personnes se fait en collectant un ensemble de points d'intérêt durant une fenêtre temporelle, puis en cherchant pour chacun d'eux leur correspondant le plus similaire parmi tous les descripteurs enregistrés précédemment, et stockés dans un KD-tree. Enfin, nous proposons et testons des pistes d'amélioration, en particulier pour la sélection automatique des instants ou des points d'intérêt, afin d'obtenir pour chaque individu un ensemble de points qui soient à la fois les plus variés possibles, et les plus discriminants par rapport aux autres personnes. Les performances de ré-identification de notre algorithme, environ 95% d'identification correcte au premier rang parmi 40 personnes, dépassent l'état de l'art, ainsi que celles obtenues dans nos comparaisons avec d'autres descripteurs (histogramme de couleur, HOG, SIFT).
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Meden, Boris. "Ré-identification de personnes : Application aux réseaux de caméras à champs disjoints". Phd thesis, Université Paul Sabatier - Toulouse III, 2013. http://tel.archives-ouvertes.fr/tel-00822779.

Texto completo
Resumen
Cette thèse s'inscrit dans le contexte de la vidéosurveillance "intelligente", et s'intéresse à la supervision de réseaux de caméras à champs disjoints, contrainte classique lorsque l'on souhaite limiter l'instrumentation du bâtiment. Il s'agit là de l'un des cas d'application du problème de la ré-identification de personnes. À ce titre, la thèse propose une approche se démarquant de l'état de l'art qui traite classiquement le problème sous l'aspect description, via la mise en correspondance de signatures image à image. Nous l'abordons ici sous l'aspect filtrage : comment intégrer la ré-identification de personne dans un processus de suivi multi-pistes, de manière à maintenir des identités de pistes cohérentes, malgré des discontinuités dans l'observation. Nous considérons ainsi une approche suivi et mises en correspondance, au niveau caméra et utilisons ce module pour ensuite raisonner au niveau du réseau. Nous décrivons dans un premier temps les approches classiques de ré-identification, abordées sous l'aspect description. Nous proposons ensuite un formalisme de filtrage particulaire à états continus et discret pour estimer conjointement position et identité de la cible au cours du temps, dans chacune des caméras. Un second étage de traitement permet d'intégrer la topologie du réseau et les temps d'apparition pour optimiser la ré-identification au sein du réseau. Nous démontrons la faisabilité de l'approche en grande partie sur des données issues de réseaux de caméras déployés au sein du laboratoire, étant donné le manque de données publiques concernant ce domaine. Nous prévoyons de mettre en accès public ces banques de données.
Los estilos APA, Harvard, Vancouver, ISO, etc.
11

Mhiri, Rawia. "Approches 2D/2D pour le SFM à partir d'un réseau de caméras asynchrones". Thesis, Rouen, INSA, 2015. http://www.theses.fr/2015ISAM0014/document.

Texto completo
Resumen
Les systèmes d'aide à la conduite et les travaux concernant le véhicule autonome ont atteint une certaine maturité durant ces dernières aimées grâce à l'utilisation de technologies avancées. Une étape fondamentale pour ces systèmes porte sur l'estimation du mouvement et de la structure de l'environnement (Structure From Motion) pour accomplir plusieurs tâches, notamment la détection d'obstacles et de marquage routier, la localisation et la cartographie. Pour estimer leurs mouvements, de tels systèmes utilisent des capteurs relativement chers. Pour être commercialisés à grande échelle, il est alors nécessaire de développer des applications avec des dispositifs bas coûts. Dans cette optique, les systèmes de vision se révèlent une bonne alternative. Une nouvelle méthode basée sur des approches 2D/2D à partir d'un réseau de caméras asynchrones est présentée afin d'obtenir le déplacement et la structure 3D à l'échelle absolue en prenant soin d'estimer les facteurs d'échelle. La méthode proposée, appelée méthode des triangles, se base sur l'utilisation de trois images formant un triangle : deux images provenant de la même caméra et une image provenant d'une caméra voisine. L'algorithme admet trois hypothèses: les caméras partagent des champs de vue communs (deux à deux), la trajectoire entre deux images consécutives provenant d'une même caméra est approximée par un segment linéaire et les caméras sont calibrées. La connaissance de la calibration extrinsèque entre deux caméras combinée avec l'hypothèse de mouvement rectiligne du système, permet d'estimer les facteurs d'échelle absolue. La méthode proposée est précise et robuste pour les trajectoires rectilignes et présente des résultats satisfaisants pour les virages. Pour affiner l'estimation initiale, certaines erreurs dues aux imprécisions dans l'estimation des facteurs d'échelle sont améliorées par une méthode d'optimisation : un ajustement de faisceaux local appliqué uniquement sur les facteurs d'échelle absolue et sur les points 3D. L'approche présentée est validée sur des séquences de scènes routières réelles et évaluée par rapport à la vérité terrain obtenue par un GPS différentiel. Une application fondamentale dans les domaines d'aide à la conduite et de la conduite automatisée est la détection de la route et d'obstacles. Pour un système asynchrone, une première approche pour traiter cette application est présentée en se basant sur des cartes de disparité éparses
Driver assistance systems and autonomous vehicles have reached a certain maturity in recent years through the use of advanced technologies. A fundamental step for these systems is the motion and the structure estimation (Structure From Motion) that accomplish several tasks, including the detection of obstacles and road marking, localisation and mapping. To estimate their movements, such systems use relatively expensive sensors. In order to market such systems on a large scale, it is necessary to develop applications with low cost devices. In this context, vision systems is a good alternative. A new method based on 2D/2D approaches from an asynchronous multi-camera network is presented to obtain the motion and the 3D structure at the absolute scale, focusing on estimating the scale factors. The proposed method, called Triangle Method, is based on the use of three images forming a. triangle shape: two images from the same camera and an image from a neighboring camera. The algorithrn has three assumptions: the cameras share common fields of view (two by two), the path between two consecutive images from a single camera is approximated by a line segment, and the cameras are calibrated. The extrinsic calibration between two cameras combined with the assumption of rectilinear motion of the system allows to estimate the absolute scale factors. The proposed method is accurate and robust for straight trajectories and present satisfactory results for curve trajectories. To refine the initial estimation, some en-ors due to the inaccuracies of the scale estimation are improved by an optimization method: a local bundle adjustment applied only on the absolute scale factors and the 3D points. The presented approach is validated on sequences of real road scenes, and evaluated with respect to the ground truth obtained through a differential GPS. Finally, another fundamental application in the fields of driver assistance and automated driving is road and obstacles detection. A method is presented for an asynchronous system based on sparse disparity maps
Los estilos APA, Harvard, Vancouver, ISO, etc.
12

Benamara, Mohamed Adel. "Suivi visuel d'objets dans un réseau de caméras intelligentes : application au systèmes de manutention automatisés". Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE2136.

Texto completo
Resumen
L’intralogistique (ou logistique interne) s’intéresse au traitement et à l’optimisation des flux physiques au sein des entrepôts, centres de distribution et usines. Les systèmes de manutention automatisés sont au cœur de la logistique interne de plusieurs industries comme le commerce en ligne, la messagerie postale, la grande distribution, l’industrie manufacturière, le transport aéroportuaire, etc. Ces équipements composés de lignes de convoyage haute cadence permettent un transport sûr et fiable d’un volume considérable de biens et de marchandises tout en réduisant les coûts.L’automatisation de l’acheminement des flux physiques par les systèmes de manutention repose sur l’identification et le suivi en temps réel des charges transportées. Dans cette thèse, nous explorons une solution de suivi qui emploie un réseau de caméras intelligentes à champs recouvrants. L’objectif final étant de fournir l’information de suivi sur les charges transportées pour le pilotage d’un système de manutention.Le suivi d’objets est un problème fondamental de la vision par ordinateur qui a de nombreuses applications comme la vidéosurveillance, la robotique, les voitures autonomes, etc. Nous avons intégré plusieurs briques de base issues de la vidéosurveillance et traditionnellement appliquées aux scènes de surveillance automobile ou de surveillance des activités humaines pour constituer une chaine de suivi de référence. Cette chaine d’analyse vidéo étalon nous a permis de caractériser des hypothèses propres au convoyage d’objet. Nous proposons dans cette thèse d’incorporer cette connaissance métier dans la chaine de suivi pour en améliorer les performances. Nous avons, notamment pris en compte, dans l’étape de segmentation des images, le fait que les objets doivent pouvoir s’arrêter sans pour autant être intégrés aux modèles d’arrière-plan. Nous avons également exploité la régularité des trajectoires des objets convoyés dans les installations, permettant d’améliorer les modèles prédictifs de la position et de la vitesse des objets, dans les étapes de suivi. Enfin, nous avons intégré des contraintes de stricte monotonie dans l’ordre des colis sur le convoyeur, contraintes qui n’existent pas dans les scènes généralistes, pour ré-identifier les objets dans les situations où ils sont proches des eux les autres.Nous nous sommes par ailleurs attelés à un problème pratique d’optimisation des performances sur l’architecture multi-cœurs couplée aux caméras intelligentes. Dans ce cadre, nous avons a mis en place un apprentissage dynamique de la zone de l’image contenant le convoyeur. Cette zone d’intérêt nous a permis de limiter la mise à jour du modèle de fond à cette seule zone. Nous avons, par la suite, proposé une stratégie de parallélisation qui partitionne de manière adaptative cette région d’intérêt de l’image, afin d’équilibrer au mieux la charge de travail entre les différents cœurs de l’architecture des caméras intelligentes.Nous avons également traité la problématique du suivi sur plusieurs caméras. Nous avons proposé une approche basée sur un système de composition d’évènements. Cette approche nous a permis de fusionner les données de suivi local pour former les trajectoires globales des colis, tout en intégrant des informations issues du processus métier, par exemple la saisie de l’information de destination par des opérateurs sur un terminal avant la dépose des colis. Nous avons validé cette approche sur un système de manutention mis en place dans un centre de tri postal de grande envergure. Le réseau de caméras déployé est composé de 32 caméras qui assurent le suivi de plus de 400.000 colis/jour sur des lignes de dépose. Le taux d’erreur du suivi obtenu est inférieur à 1 colis sur 1000 (0,1%)
Intralogistics (or internal logistics) focuses on the management and optimization of internal production and distribution processes within warehouses, distribution centers, and factories. Automated handling systems play a crucial role in the internal logistics of several industries such as e-commerce, postal messaging, retail, manufacturing, airport transport, etc. These systems are composed by multiple high-speed conveyor lines that provide safe and reliable transportation of a large volume of goods and merchandise while reducing costs.The automation of the conveying process relies on the identification and the real-time tracking of the transported loads. In this thesis, we designed a tracking solution that employs a network of smart cameras with an overlapping field of view. The goal is to provide tracking information to control an automated handling system.Multiple object tracking is a fundamental problem of computer vision that has many applications such as video surveillance, robotics, autonomous cars, etc. We integrated several building blocks traditionally applied to traffic surveillance or human activities monitoring to constitute a tracking pipeline. We used this baseline tracking pipeline to characterize contextual scene information proper to the conveying scenario. We integrated this contextual information to the tracking pipeline to enhance the performance. In particular, we took into account the state of moving objects that become stationary in the background subtraction step to prevent their absorption to the background model. We have also exploited the regularity of objects trajectory to enhance the motion model associated with the tracked objects. Finally, we integrated the precedence ordering constraint among the conveyed object to reidentify them when they are close to each other.We have also tackled practical problems related to the optimization the execution of the proposed tracking problem in the multi-core architectures of smart cameras. In particular, we proposed a dynamic learning process that extracts the region of the image that corresponds to the conveyor lines. We reduced the number of the processed pixel by restricting the processing to this region of interest. We also proposed a parallelization strategy that adaptively partitions this region of interest of the image, in order to balance the workload between the different cores of the smart cameras.Finally, we proposed a multiple cameras tracking algorithms based on event composition. This approach fuses the local tracking generated by the smart cameras to form global object trajectories and information from third party systems such as the destination of the object entered by operators on a terminal. We validated the proposed approach for the control of a sorting system deployed in a postal distribution warehouse. A network of cameras composed of 32 cameras tracks more than 400.000 parcel/day in injections lines. The tracking error rate is less than 1 parcel in a 1000 (0.1%)
Los estilos APA, Harvard, Vancouver, ISO, etc.
13

Thériault, Olivier. "Intégration d'un système vidéo de poursuite de cible à un simulateur "hardware in the loop" d'avion sans pilote et évaluation d'algorithmes de surveillance". Thesis, Université Laval, 2010. http://www.theses.ulaval.ca/2010/27137/27137.pdf.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
14

Zhang, Yiqun. "Contribution à l'étude de la vision dynamique : une approche basée sur la géométrie projective". Compiègne, 1993. http://www.theses.fr/1993COMPD650.

Texto completo
Resumen
Le travail de cette thèse s'inscrit dans le cadre de la vision 3D et se consacre plus spécialement à la reconstitution de scènes à partir d'une séquence d'images monoculaires saisie par une caméra en mouvement. Il s'agit de reconstruire les éléments 3D du type segments de droite d'une scène en utilisant la connaissance du mouvement de la caméra. L'étude a été faite dans le contexte de la géométrie projective, ce qui a permis, dans le cas d'une translation, le développement d'une approche basée sur le principe de dualité projective. L'idée consiste à résoudre le problème en trois phases séquentielles : - Diviser les droites de la scène en groupes de droites parallèles via un groupement correspondant de leurs images et déterminer la direction de chaque groupe. - Reconstruire les droites groupe par groupe. - Retrouver les segments portés par chacune des droites reconstruites. Dans l'optique de la dualité projective, chacune des deux premières phases revient à représenter les primitives 2D, droites support des segments extraits des images, par des points dans un plan projectif et a mettre en évidence de l'alignement des points qui correspond a un groupe de droites parallèles pour la première phase ou a une seule droite de la scène pour la seconde. Un ensemble d'algorithmes dont le principe se fond essentiellement sur la transformation de Hough a été développé pour réaliser les trois phases. Cette approche privilégie le traitement de longues et denses séquences d'images. Des résultats expérimentaux ont été présentés en vue de montrer sa performance.
Los estilos APA, Harvard, Vancouver, ISO, etc.
15

Hayet, Jean-Bernard. "Contribution à la navigation d'un robot mobile sur amers visuels texturés dans un environnement structuré". Toulouse 3, 2003. http://www.theses.fr/2003TOU30026.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
16

Berthet, Alexandre. "Deep learning methods and advancements in digital image forensics". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS252.

Texto completo
Resumen
Le volume de données visuelles numériques augmente considérablement d'année en années. En parallèle, l’édition d'images est devenue plus facile et plus précise. Les modifications malveillantes sont donc plus accessibles. La criminalistique des images fournit des solutions pour garantir l’authenticité des données visuelles numériques. Tout d’abord, les solutions étaient des méthodes classiques basées sur les artéfacts produits lors de la création d’une image numérique. Puis, comme pour d’autres domaines du traitement d’images, les méthodes sont passées à l’apprentissage profond. Dans un premier temps, nous présentons une étude de l’état de l’art des méthodes d’apprentissage profond pour la criminalistique des images. Notre étude de l’état de l'art souligne le besoin d’appliquer des modules de pré-traitement pour extraire les artéfacts cachés par le contenu des images. Nous avons aussi mis en avant les problèmes concernant les protocoles d’évaluation de la reconnaissance d’image. De plus, nous abordons la contre-criminalistique et présentons la compression basée sur l’intelligence artificielle, qui pourrait être pris en compte comme une attaque. Dans un second temps, cette thèse détaille trois protocoles d’évaluation progressifs qui abordent les problèmes de reconnaissance de caméras. Le protocole final, plus fiable et reproductible, met en avant l’impossibilité des méthodes de l’état de l’art à reconnaître des caméras dans un contexte difficile. Dans un troisième temps, nous étudions l’impact de la compression basée sur l’intelligence artificielle sur deux tâches analysant les artéfacts de compression : la détection de falsifications et la reconnaissance du réseau social
The volume of digital visual data is increasing dramatically year after year. At the same time, image editing has become easier and more precise. Malicious modifications are therefore more accessible. Image forensics provides solutions to ensure the authenticity of digital visual data. Recognition of the source camera and detection of falsified images are among the main tasks. At first, the solutions were classical methods based on the artifacts produced during the creation of a digital image. Then, as in other areas of image processing, the methods moved to deep learning. First, we present a state-of-the-art survey of deep learning methods for image forensics. Our state-of-the-art survey highlights the need to apply pre-processing modules to extract artifacts hidden by image content. We also highlight the problems concerning image recognition evaluation protocols. Furthermore, we address counter-forensics and present compression based on artificial intelligence, which could be considered as an attack. In a second step, this thesis details three progressive evaluation protocols that address camera recognition problems. The final protocol, which is more reliable and reproducible, highlights the impossibility of state-of-the-art methods to recognize cameras in a challenging context. In a third step, we study the impact of compression based on artificial intelligence on two tasks analyzing compression artifacts: tamper detection and social network recognition. The performances obtained show on the one hand that this compression must be taken into account as an attack, but that it leads to a more important decrease than other manipulations for an equivalent image degradation
Los estilos APA, Harvard, Vancouver, ISO, etc.
17

Zayed, Mohamed. "Véhicules intelligents : étude et développement d'un capteur intelligent de vision pour l'attelage virtuel". Lille 1, 2005. https://ori-nuxeo.univ-lille1.fr/nuxeo/site/esupversions/b030da38-33c4-479d-b15b-10751fda9f2f.

Texto completo
Resumen
Si de nombreux aspects de notre vie sont devenus plus agréables grâce à l'utilisation de technologies avancées, il a fallu longtemps au secteur du transport pour combler son retard en la matière. Aujourd'hui, ces progrès sont devenus incontournables. Ce travail décrit la perception de l'environnement à l'avant d'un véhicule, sur la base d'un capteur stéréoscopique conçu et mis en place en s'appuyant sur le concept de capteur intelligent afin de réaliser un Attelage Virtuel. Après une présentation de la problématique associée, le premier chapitre dresse l'état de l'art en matière de véhicules intelligents. Le second introduit la notion de capteur intelligent et présente les approches de conception que nous mettons en application pour identifier les différents services et fonctionnalités que doit intégrer ce capteur stéréoscopique intelligent pour contribuer à la réalisation de la tâche d'Attelage Virtuel. Le dernier chapitre expose la réalisation du capteur stéréoscopique. Nous y détaillons les problèmes que posent l'application de la stéréovision au domaine des transports et les solutions que nous y avons apportées. Ainsi, sont évoquées les difficultés posées par la phase de calibration, l'extraction en temps réel des zones d'intérêt et le problème de certification des données obtenues. Le respect des contraintes temporelles nous a conduit à mettre en oeuvre un dispositif d'extraction et de tracking. Les performances de chacun des modules constitutifs de notre capteur sont étayées par des résultats expérimentaux obtenus en situation réelle. Enfin, nous présentons une technique permettant le suivi du véhicule avec une seule caméra. .
Los estilos APA, Harvard, Vancouver, ISO, etc.
18

Leyrit, Laetitia. "Reconnaissance d'objets en vision artificielle : application à la reconnaissance de piétons". Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2010. http://tel.archives-ouvertes.fr/tel-00626492.

Texto completo
Resumen
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe GRAVIR (1) du LASMEA (2) au sein de l'équipe ComSee (3) qui se consacre à la vision par ordinateur. Ces travaux s'inscrivent dans le cadre d'un projet de l'Agence Nationale pour la Recherche s'intitulant " Logiciels d'Observation des Vulnérables ". Son but est de concevoir des logiciels détectant des piétons en danger et d'améliorer ainsi la sécurité routière. Ma thèse a pour but de détecter et de reconnaître les piétons dans les images. Celles-ci proviennent d'une caméra embarquée dans un véhicule circulant en milieu urbain. Ce cahier des charges implique de nombreuses contraintes. Il faut notamment obtenir un système fonctionnant en temps réel pour être capable de détecter les piétons avant un éventuel impact. De plus, ces piétons peuvent être sujets à de nombreuses variations (taille, type de vêtements...), ce qui rend la tâche de reconnaissance d'autant plus ardue. La caméra étant mobile, aucune information ne pourra être extraite du fond. Dans ma thèse, nous mettons en oeuvre différentes méthodes de vision par ordinateur, toutes basées apprentissage, qui permettent de répondre à ces attentes. Le problème se traite en deux phases. Dans un premier temps, une étape de traitement hors ligne nous permet de concevoir une méthode valide pour reconnaître des piétons. Nous faisons appel à une base d'apprentissage. Tout d'abord, un descripteur d'images est employé pour extraire des informations des images.Puis, à partir de ces informations, un classifieur est entraîné à différencier les piétons des autres objets. Nous proposons l'utilisation de trois descripteurs (ondelettes de Haar, histogrammes de gradients et descripteur binaire). Pour la classification, nous avons recours à un algorithme de Boosting (AdaBoost) et à des méthodes à noyaux (SVM, RVM, moindres carrés). Chaque méthode a été paramétrée, testée et validée, tant au niveau description d'images que classification.La meilleure association de toutes ces méthodes est également recherchée. Dans un second temps, nous développons un système embarqué temps réel, qui soit capable de détecter les piétons avant une éventuelle collision. Nous exploitons directement des images brutes en provenance de la caméra et ajoutons un module pour segmenter l'image, afin de pouvoir intégrer les méthodes de description et classification précédentes et ainsi répondre à la problématique initiale.1. acronyme de " Groupe d'Automatique, VIsion et Robotique ".2. acronyme de " LAboratoire des Sciences et Matériaux Et d'Automatique ".3. acronyme de " Computers that See ".
Los estilos APA, Harvard, Vancouver, ISO, etc.
19

Lavarec, Erwann. "Estimation de mouvements 3D à l'aide d'une caméra et de capteurs proprioceptifs". Montpellier 2, 2001. http://www.theses.fr/2001MON20201.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
20

Mehmood, Muhammad Owais. "Détection de personnes pour des systèmes de videosurveillance multi-caméra intelligents". Thesis, Ecole centrale de Lille, 2015. http://www.theses.fr/2015ECLI0016/document.

Texto completo
Resumen
La détection de personnes dans les vidéos est un défi bien connu du domaine de la vision par ordinateur avec un grand nombre d'applications telles que le développement de systèmes de surveillance visuels. Même si les détecteurs monoculaires sont plus simples à mettre en place, ils sont dans l’incapacité de gérer des scènes complexes avec des occultations, une grande densité de personnes ou des scènes avec beaucoup de profondeur de champ menant à une grande variabilité dans la taille des personnes. Dans cette thèse, nous étudions la détection de personnes multi-vues et notamment l'utilisation de cartes d'occupation probabilistes créées en fusionnant les différentes vues grâce à la connaissance de la géométrie du système. La détection à partir de ces cartes d'occupation amène cependant des fausses détections (appelées « fantômes ») dues aux différentes projections. Nous proposons deux nouvelles techniques afin de remédier à ce phénomène et améliorer la détection des personnes. La première utilise une déconvolution par un noyau dont la forme varie spatialement tandis que la seconde est basée sur un principe de validation d’hypothèse. Ces deux approches n'utilisent volontairement pas l'information temporelle qui pourra être réintroduite par la suite dans des algorithmes de suivi. Les deux approches ont été validées dans des conditions difficiles présentant des occultations, une densité de personnes plus ou moins élevée et de fortes variations dans les réponses colorimétriques des caméras. Une comparaison avec d'autres méthodes de l’état de l'art a également été menée sur trois bases de données publiques, validant les méthodes proposées pour la surveillance d'une gare et d'un aéroport
People detection is a well-studied open challenge in the field of Computer Vision with applications such as in the visual surveillance systems. Monocular detectors have limited ability to handle occlusion, clutter, scale, density. Ubiquitous presence of cameras and computational resources fuel the development of multi-camera detection systems. In this thesis, we study the multi-camera people detection; specifically, the use of multi-view probabilistic occupancy maps based on the camera calibration. Occupancy maps allow multi-view geometric fusion of several camera views. Detection with such maps create several false detections and we study this phenomenon: ghost pruning. Further, we propose two novel techniques in order to improve multi-view detection based on: (a) kernel deconvolution, and (b) occupancy shape modeling. We perform non-temporal, multi-view reasoning in occupancy maps to recover accurate positions of people in challenging conditions such as of occlusion, clutter, lighting, and camera variations. We show improvements in people detections across three challenging datasets for visual surveillance including comparison with state-of-the-art techniques. We show the application of this work in exigent transportation scenarios i.e. people detection for surveillance at a train station and at an airport
Los estilos APA, Harvard, Vancouver, ISO, etc.
21

Ghorpade, Vijaya Kumar. "3D Semantic SLAM of Indoor Environment with Single Depth Sensor". Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAC085/document.

Texto completo
Resumen
Pour agir de manière autonome et intelligente dans un environnement, un robot mobile doit disposer de cartes. Une carte contient les informations spatiales sur l’environnement. La géométrie 3D ainsi connue par le robot est utilisée non seulement pour éviter la collision avec des obstacles, mais aussi pour se localiser et pour planifier des déplacements. Les robots de prochaine génération ont besoin de davantage de capacités que de simples cartographies et d’une localisation pour coexister avec nous. La quintessence du robot humanoïde de service devra disposer de la capacité de voir comme les humains, de reconnaître, classer, interpréter la scène et exécuter les tâches de manière quasi-anthropomorphique. Par conséquent, augmenter les caractéristiques des cartes du robot à l’aide d’attributs sémiologiques à la façon des humains, afin de préciser les types de pièces, d’objets et leur aménagement spatial, est considéré comme un plus pour la robotique d’industrie et de services à venir. Une carte sémantique enrichit une carte générale avec les informations sur les entités, les fonctionnalités ou les événements qui sont situés dans l’espace. Quelques approches ont été proposées pour résoudre le problème de la cartographie sémantique en exploitant des scanners lasers ou des capteurs de temps de vol RGB-D, mais ce sujet est encore dans sa phase naissante. Dans cette thèse, une tentative de reconstruction sémantisée d’environnement d’intérieur en utilisant une caméra temps de vol qui ne délivre que des informations de profondeur est proposée. Les caméras temps de vol ont modifié le domaine de l’imagerie tridimensionnelle discrète. Elles ont dépassé les scanners traditionnels en termes de rapidité d’acquisition des données, de simplicité fonctionnement et de prix. Ces capteurs de profondeur sont destinés à occuper plus d’importance dans les futures applications robotiques. Après un bref aperçu des approches les plus récentes pour résoudre le sujet de la cartographie sémantique, en particulier en environnement intérieur. Ensuite, la calibration de la caméra a été étudiée ainsi que la nature de ses bruits. La suppression du bruit dans les données issues du capteur est menée. L’acquisition d’une collection d’images de points 3D en environnement intérieur a été réalisée. La séquence d’images ainsi acquise a alimenté un algorithme de SLAM pour reconstruire l’environnement visité. La performance du système SLAM est évaluée à partir des poses estimées en utilisant une nouvelle métrique qui est basée sur la prise en compte du contexte. L’extraction des surfaces planes est réalisée sur la carte reconstruite à partir des nuages de points en utilisant la transformation de Hough. Une interprétation sémantique de l’environnement reconstruit est réalisée. L’annotation de la scène avec informations sémantiques se déroule sur deux niveaux : l’un effectue la détection de grandes surfaces planes et procède ensuite en les classant en tant que porte, mur ou plafond; l’autre niveau de sémantisation opère au niveau des objets et traite de la reconnaissance des objets dans une scène donnée. A partir de l’élaboration d’une signature de forme invariante à la pose et en passant par une phase d’apprentissage exploitant cette signature, une interprétation de la scène contenant des objets connus et inconnus, en présence ou non d’occultations, est obtenue. Les jeux de données ont été mis à la disposition du public de la recherche universitaire
Intelligent autonomous actions in an ordinary environment by a mobile robot require maps. A map holds the spatial information about the environment and gives the 3D geometry of the surrounding of the robot to not only avoid collision with complex obstacles, but also selflocalization and for task planning. However, in the future, service and personal robots will prevail and need arises for the robot to interact with the environment in addition to localize and navigate. This interaction demands the next generation robots to understand, interpret its environment and perform tasks in human-centric form. A simple map of the environment is far from being sufficient for the robots to co-exist and assist humans in the future. Human beings effortlessly make map and interact with environment, and it is trivial task for them. However, for robots these frivolous tasks are complex conundrums. Layering the semantic information on regular geometric maps is the leap that helps an ordinary mobile robot to be a more intelligent autonomous system. A semantic map augments a general map with the information about entities, i.e., objects, functionalities, or events, that are located in the space. The inclusion of semantics in the map enhances the robot’s spatial knowledge representation and improves its performance in managing complex tasks and human interaction. Many approaches have been proposed to address the semantic SLAM problem with laser scanners and RGB-D time-of-flight sensors, but it is still in its nascent phase. In this thesis, an endeavour to solve semantic SLAM using one of the time-of-flight sensors which gives only depth information is proposed. Time-of-flight cameras have dramatically changed the field of range imaging, and surpassed the traditional scanners in terms of rapid acquisition of data, simplicity and price. And it is believed that these depth sensors will be ubiquitous in future robotic applications. In this thesis, an endeavour to solve semantic SLAM using one of the time-of-flight sensors which gives only depth information is proposed. Starting with a brief motivation in the first chapter for semantic stance in normal maps, the state-of-the-art methods are discussed in the second chapter. Before using the camera for data acquisition, the noise characteristics of it has been studied meticulously, and properly calibrated. The novel noise filtering algorithm developed in the process, helps to get clean data for better scan matching and SLAM. The quality of the SLAM process is evaluated using a context-based similarity score metric, which has been specifically designed for the type of acquisition parameters and the data which have been used. Abstracting semantic layer on the reconstructed point cloud from SLAM has been done in two stages. In large-scale higher-level semantic interpretation, the prominent surfaces in the indoor environment are extracted and recognized, they include surfaces like walls, door, ceiling, clutter. However, in indoor single scene object-level semantic interpretation, a single 2.5D scene from the camera is parsed and the objects, surfaces are recognized. The object recognition is achieved using a novel shape signature based on probability distribution of 3D keypoints that are most stable and repeatable. The classification of prominent surfaces and single scene semantic interpretation is done using supervised machine learning and deep learning systems. To this end, the object dataset and SLAM data are also made publicly available for academic research
Los estilos APA, Harvard, Vancouver, ISO, etc.
22

Calvet, Lilian. "Méthodes de reconstruction tridimensionnelle intégrant des points cycliques : application au suivi d'une caméra". Phd thesis, Institut National Polytechnique de Toulouse - INPT, 2014. http://tel.archives-ouvertes.fr/tel-00981191.

Texto completo
Resumen
Cette thèse traite de la reconstruction tridimensionnelle d'une scène rigide à partir d'une collection de photographies numériques, dites vues. Le problème traité est connu sous le nom du "calcul de la structure et du mouvement" (structure-and/from-motion) qui consiste à "expliquer" des trajectoires de points dits d'intérêt au sein de la collection de vues par un certain mouvement de l'appareil (dont sa trajectoire) et des caractéristiques géométriques tridimensionnelles de la scène. Dans ce travail, nous proposons les fondements théoriques pour étendre certaines méthodes de calcul de la structure et du mouvement afin d'intégrer comme données d'entrée, des points d'intérêt réels et des points d'intérêt complexes, et plus précisément des images de points cycliques. Pour tout plan projectif, les points cycliques forment une paire de points complexes conjugués qui, par leur invariance par les similitudes planes, munissent le plan projectif d'une structure euclidienne. Nous introduisons la notion de marqueurs cycliques qui sont des marqueurs plans permettant de calculer sans ambiguïté les images des points cycliques de leur plan de support dans toute vue. Une propriété de ces marqueurs, en plus d'être très "riches" en information euclidienne, est que leurs images peuvent être appariées même si les marqueurs sont disposés arbitrairement sur des plans parallèles, grâce à l'invariance des points cycliques. Nous montrons comment utiliser cette propriété dans le calcul projectif de la structure et du mouvement via une technique matricielle de réduction de rang, dite de factorisation, de la matrice des données correspondant aux images de points réels, complexes et/ou cycliques. Un sous-problème critique abordé dans le calcul de la structure et du mouvement est celui de l'auto-calibrage de l'appareil, problème consistant à transformer un calcul projectif en un calcul euclidien. Nous expliquons comment utiliser l'information euclidienne fournie par les images des points cycliques dans l'algorithme d'auto-calibrage opérant dans l'espace projectif dual et fondé sur des équations linéaires. L'ensemble de ces contributions est finalement utilisé pour une application de suivi automatique de caméra utilisant des marqueurs formés par des couronnes concentriques (appelés CCTags), où il s'agit de calculer le mouvement tridimensionnel de la caméra dans la scène à partir d'une séquence vidéo. Ce type d'application est généralement utilisé dans l'industrie du cinéma ou de la télévision afin de produire des effets spéciaux. Le suivi de caméra proposé dans ce travail a été conçu pour proposer le meilleur compromis possible entre flexibilité d'utilisation et précision des résultats obtenus.
Los estilos APA, Harvard, Vancouver, ISO, etc.
23

Chapel, Marie-Neige. "Détection d’objets en mouvement à l’aide d’une caméra mobile". Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE1156/document.

Texto completo
Resumen
La détection d'objets mobiles dans des flux vidéo est une étape essentielle pour de nombreux algorithmes de vision par ordinateur. Cette tâche se complexifie lorsque la caméra utilisée est en mouvement. En effet, l'environnement capté par ce type de caméra apparaît en mouvement et il devient plus difficile de distinguer les objets qui effectuent réellement un mouvement de ceux qui constituent la partie statique de la scène. Dans cette thèse, nous apportons des contributions au problème de détection d'objets mobiles dans le flux vidéo d'une caméra mobile. L'idée principale qui nous permet de distinguer les éléments mobiles de ceux qui sont statiques repose sur un calcul de distance dans l'espace 3D. Les positions 3D de caractéristiques extraites des images sont estimées par triangulation puis leurs mouvements 3D sont analysés pour réaliser un étiquetage éparse statique/mobile de ces points. Afin de rendre la détection robuste au bruit, l'analyse des mouvements 3D des caractéristiques est comparée à d'autres points précédemment estimés statiques. Une mesure de confiance, mise à jour au cours du temps, est utilisée pour déterminer l'étiquette à attribuer à chacun des points. Nos contributions ont été appliquées à des jeux de données virtuelles (issus du projet Previz 2) et réelles (reconnus dans la communauté [Och+14]) et les comparaisons ont été réalisées avec l'état de l'art. Les résultats obtenus montrent que la contrainte 3D proposée dans cette thèse, couplée à une analyse statistique et temporelle des mouvements, permet de détecter des éléments mobiles dans le flux vidéo d'une caméra en mouvement et ce même dans des cas complexes où les mouvements apparents de la scène ne sont pas uniformes
Moving objects detection in video streams is a commonly used technique in many computer vision algorithms. The detection becomes more complex when the camera is moving. The environment observed by this type of camera appeared moving and it is more difficult to distinguish the objects which are in movement from the others that composed the static part of the scene. In this thesis we propose contributions for the detection of moving objects in the video stream of a moving camera. The main idea to differenciate between moving and static objects based on 3D distances. 3D positions of feature points extracted from images are estimated by triangulation and then their 3D motions are analyzed in order to provide a sparse static/moving labeling. To provide a more robust detection, the analysis of the 3D motions is compared to those of feature points previously estimated static. A confidance value updated over time is used to decide on labels to attribute to each point.We make experiments on virtual (from the Previz project 1) and real datasets (known by the community [Och+14]) and we compare the results with the state of the art. The results show that our 3D constraint coupled with a statistical and temporal analysis of motions allow to detect moving elements in the video stream of a moving camera even in complex cases where apparent motions of the scene are not similars
Los estilos APA, Harvard, Vancouver, ISO, etc.
24

Buat, Benjamin. "Caméra active 3D par Depth from Defocus pour l'inspection de surface : algorithmie, modèle de performance et réalisation expérimentale". Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG058.

Texto completo
Resumen
Cette thèse traite de la conception d'une caméra 3D capable de produire la carte de profondeur complète d'une scène dans le cadre de l'inspection de surface. Ce domaine d'application implique généralement des objets peu texturés et un cahier des charges stricte concernant la compacité du système d'inspection et la précision requise. Dans cette thèse, nous proposons d'utiliser une caméra associée à un projecteur permettant d'ajouter une texture artificielle à la scène. L'extraction de 3D repose sur le principe de « Depth-From-Defocus » (DFD) qui consiste à estimer la profondeur en exploitant le flou de défocalisation. Nous avons développé dans un premier temps un algorithme mono-image d'estimation locale de profondeur basé sur l'apprentissage de la scène et du flou. Cet algorithme fonctionne pour tout type de système DFD mais il est particulièrement adapté pour le DFD actif pour lequel on maîtrise la scène qui est une texture projetée. Puis nous avons mise en œuvre un prototype expérimental de DFD actif pour un cadre d'inspection de surface. Il est composé d'une caméra chromatique dont l'objectif présente des aberrations chromatiques longitudinales permettant d'étendre la plage de profondeur estimable et la précision d'estimation, et d'un projecteur spécialisé dont la forme et l'échelle du motif ont été particulièrement optimisés par simulation du prototype. Nous avons également mené une validation expérimentale du prototype qui atteint une précision de 0.45 mm sur une plage de travail de 310 à 340 mm. Nous avons ensuite développé un modèle de performance qui permet de prédire la précision de n'importe quel système DFD actif en fonction des paramètres des optiques, du capteur, du projecteur et des traitements. Ce modèle ouvre la voie à une étude de conception conjointe optique/traitement d'une caméra 3D active par DFD
This thesis is dedicated to the design of a 3D camera capable of producing the complete depth map of a scene within the framework of surface inspection. This field of application generally involves objects with little texture and strict specifications concerning the compactness of the inspection system and the precision required. In this thesis, we propose to use a camera combined with a projector to add an artificial texture to the scene. 3D extraction is based on the principle of “Depth-From-Defocus” which consists in estimating the depth by exploiting the defocus blur. We first developed a single-image local depth estimation algorithm based on scene and blur learning. This algorithm works for any type of DFD system but it is particularly suitable for active DFD for which we control the scene which is a projected texture. Then we implemented an experimental active DFD prototype for surface inspection. It is composed of a chromatic camera whose lens has longitudinal chromatic aberrations to extend the estimable depth range and estimation accuracy, and a specialized projector whose pattern shape and scale have been particularly optimized by the simulation of the prototype. We also carried out an experimental an experimental validation of the prototype which achieved an accuracy of 0.45 mm over a working range of 310 to 340 mm. We then developed a performance model that predicts the accuracy of any active DFD system depending on the parameters of the optics, sensor, projector and treatments. This model paves the way for a joint optical/processing design study of an active 3D camera by DFD
Los estilos APA, Harvard, Vancouver, ISO, etc.
25

Michoud, Brice. "Reconstruction 3D à partir de séquences vidéo pour l’acquisition du mouvement de personnages en temps réel et sans marqueur". Thesis, Lyon 1, 2009. http://www.theses.fr/2009LYO10156/document.

Texto completo
Resumen
Nous nous intéressons à l'acquisition automatique de mouvements 3D de personnes. Cette opération doit être réalisée sans un équipement spécialisé (marqueurs ou habillage spécifique), pour rendre son utilisation générale, sous la contrainte du temps réel. Pour répondre à ces questions, nous sommes amenés à traiter de la reconstruction et l'analyse de la forme 3D. Concernant le problème de reconstruction 3D en temps réel d'entités en mouvement à partir de plusieurs vues, les approches existantes font souvent appel à des calculs complexes incompatibles avec la contrainte du temps réel. Les approches du type SFS offrent un compromis intéressant entre efficacité algorithmique et précision. Ces dernières utilisent les silhouettes issues de chaque caméra pour proposer un volume englobant des objets. Cependant elles nécessitent un environnement particulièrement contraint, dont le placement minutieux des caméras. Les travaux présentés dans ce manuscrit généralisent l'utilisation des approches SFS à des environnements peu contrôlés. L'acquisition du mouvement revient à déterminer les paramètres offrant la meilleure corrélation entre le modèle et la reconstruction 3D. Notre objectif étant le suivi temps réel, nous proposons des méthodes qui offrent la précision requise et le temps réel. Couplé à un suivi temporel par filtre de Kalman, à un recalage d'objets géométriques simples (ellipsoïdes, sphères, etc.), nous proposons un système temps réel, offrant une erreur de l'ordre de 6%.De par sa robustesse, il permet le suivi simultané de plusieurs personnes, même lors de contacts. Les résultats obtenus ouvrent des perspectives à un transfert vers des applications grand public
We aim at automatically capturing 3D motion of persons without markers. To make it flexible, and to consider interactive applications, we address real-time solution, without specialized instrumentation. Real-time body estimation and shape analyze lead to home motion capture application. We begin by addressing the problem of 3D real-time reconstruction of moving objects from multiple views. Existing approaches often involve complex computation methods, making them incompatible with real-time constraints. Shape-From-Silhouette (SFS) approaches provide interesting compromise between algorithm efficiency and accuracy. They estimate 3D objects from their silhouettes in each camera. However they require constrained environments and cameras placement. The works presented in this document generalize the use of SFS approaches to uncontrolled environments. The main methods of marker-less motion capture, are based on parametric modeling of the human body. The acquisition of movement goal is to determine the parameters that provide the best correlation between the model and the 3D reconstruction.The following approaches, more robust, use natural markings of the body extremities: the skin. Coupled with a temporal Kalman filter, a registration of simple geometric objects, or an ellipsoids' decomposition, we have proposed two real-time approaches, providing a mean error of 6%. Thanks to the approach robustness, it allows the simultaneous monitoring of several people even in contacts. The results obtained open up prospects for a transfer to home applications
Los estilos APA, Harvard, Vancouver, ISO, etc.
26

Souded, Malik. "Détection, suivi et ré-identification de personnes à travers un réseau de caméra vidéo". Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00913072.

Texto completo
Resumen
Cette thèse CIFRE est effectuée dans un contexte industriel et présente un framework complet pour la détection, le suivi mono-caméra et de la ré-identification de personnes dans le contexte multi-caméras. Les performances élevés et le traitement en temps réel sont les deux contraintes critiques ayant guidé ce travail. La détection de personnes vise à localiser/délimiter les gens dans les séquences vidéo. Le détecteur proposé est basé sur une cascade de classifieurs de type LogitBoost appliqué sur des descripteurs de covariances. Une approche existante a fortement été optimisée, la rendant applicable en temps réel et fournissant de meilleures performances. La méthode d'optimisation est généralisable à d'autres types de détecteurs d'objets. Le suivi mono-caméra vise à fournir un ensemble d'images de chaque personne observée par chaque caméra afin d'extraire sa signature visuelle, ainsi qu'à fournir certaines informations du monde réel pour l'amélioration de la ré-identification. Ceci est réalisé par le suivi de points SIFT à l'aide d'une filtre à particules, ainsi qu'une méthode d'association de données qui infère le suivi des objets et qui gère la majorité des cas de figures possible, notamment les occultations. Enfin, la ré-identification de personnes est réalisée avec une approche basée sur l'apparence globale en améliorant grandement une approche existante, obtenant de meilleures performances tout en étabt applicable en temps réel. Une partie "conscience du contexte" est introduite afin de gérer le changement d'orientation des personnes, améliorant les performances dans le cas d'applications réelles.
Los estilos APA, Harvard, Vancouver, ISO, etc.
27

Atohoun, Béthel Christian A. R. K. "Architecture logique d'un système multi agents de suivi multi caméra distribué : exploitation du modèle de croyance transférable". Thesis, Littoral, 2013. http://www.theses.fr/2013DUNK0373/document.

Texto completo
Resumen
Cette thèse présente l'utilisation conjointe de la théorie de l'évidente et du suivi multi-hypothèses pour la modélisation et la gestion d'un système de suivi multi-caméras dans un environnement autoroutier. Le suivi est basé sur la ré-identification des objets (véhicules) sur la base d'information visio-temporelles. Une concrétisation de ces concepts se traduit par la conception et la mise en oeuvre d'une architecture logicielle multi-agents de gestion du suivi multi-caméras. Après une présentation de l'état de l'art sur les cadres de gestion de l'incertain et celui relatif à fusion de l'information pour la mise en correspondance, et sur les systèmes multi-agents, notre apport dans ce travail se situe à trois niveaux. Le premier a été une adaptation de la phase de décision du modèle de croyance transférable pour y intégrer l'utilisation du suivi multi-hypothèses comme outil de levée d'ambigüité rn cas d'indécision face à une situation de mise en correspondance. Le second apport a été celui de proposer une architecture logicielle à base d'agents pour la gestion du système du suivi multi-caméras. Nous en avons proposé la modélisation globale ainsi que celle des agents et de leurs interactions en utilisant une démarche personnelle d'analyse mais toutefois inspirée de langages et outils de modélisation tels que Agent UML et MaSE pour ne citer que ceux-là, du fait qu'il n'existe pas réellement un standard normalisé à ce jour dans ce domaine. Notre troisième apport a été de faire un début d'implémentation de notre architecture logicielle à base d'agent en nous basant sur la plateforme JADE (Java Agent DEvelopment Framework). Quelques expérimentations et discussions des résultats sont présentées à la fin pour déboucher sur nos conclusions et perspectives
This thesis presents the joint use of the theory of evidence and multiple hypothesis tracking for modeling and managing a system for monitoring multiple cameras in a motorway. The tracking is based on the re-identification of objects (vehicles) on the basis of visuals and times informations. A realization of these concepts results in the design and implementation of a software architecture for multiple agents management of multiple camera tracking system. After presenting the state of the art on the frameworks of uncertainty management and that on information fusion for the matching, and the multi-agent systems, our contribution in this work is on two or three levels. The first was an adaptation of the decision phase of the transferable belief model to incorporate the use of multi-hypotheses tracking as a tool of ambiguity survey in case of indecision in matching situation. The second contribution was a proposition of agent-based software architecture for management of a multiple cameras tracking system. We have proposed the global system modeling as well as agents and their interactions modeling using a personal analysis method but nevertheless inspired by modelisation languages and tolls such as Agent UML, MaSE and others, because there is not yet a standard and normalized tool on the subject. Our third contribution was to begin an implementation of our agent-based software architecture using JADE (Java Agent Development Framework). Some experiment and discussions are presented at the end to lead to our conclusions and perspectives
Los estilos APA, Harvard, Vancouver, ISO, etc.
28

Wozniak, Peter. "Range imaging based obstacle detection for virtual environment systems and interactive metaphor based signalization". Thesis, Strasbourg, 2019. http://www.theses.fr/2019STRAD013/document.

Texto completo
Resumen
Avec cette génération d'appareils, la réalité virtuelle (RV) s'est réellement installée dans les salons des utilisateurs finaux. Ces appareils disposent de 6 degrés de liberté de suivi, ce qui leur permet de se déplacer naturellement dans les mondes virtuels. Cependant, pour une locomotion naturelle dans le virtuel, il faut un espace libre correspondant dans l'environnement réel. L'espace disponible est souvent limité. Les objets de la vie quotidienne peuvent rapidement devenir des obstacles pour les utilisateurs de RV s'ils ne sont pas éliminés. Les systèmes actuellement disponibles n'offrent qu'une aide rudimentaire pour résoudre ce problème. Il n'y a pas de détection d'objets potentiellement dangereux. Cette thèse montre comment les obstacles peuvent être détectés automatiquement avec des caméras d'imagerie à distance et comment les utilisateurs peuvent être avertis efficacement de leur présence dans l'environnement virtuel. 4 métaphores visuelles ont été évaluées à l'aide d'une étude des utilisateurs
With this generation of devices, virtual reality (VR) has actually made it into the living rooms of end-users. These devices feature 6 degrees of freedom tracking, allowing them to move naturally in virtual worlds. However, for a natural locomotion in the virtual, one needs a corresponding free space in the real environment. The available space is often limited. Objects of daily life can quickly become obstacles for VR users if they are not cleared away. The currently available systems offer only rudimentary assistance for this problem. There is no detection of potentially dangerous objects. This thesis shows how obstacles can be detected automatically with range imaging cameras and how users can be effectively warned about them in the virtual environment. 4 visual metaphors were evaluated with the help of a user study
Los estilos APA, Harvard, Vancouver, ISO, etc.
29

Boui, Marouane. "Détection et suivi de personnes par vision omnidirectionnelle : approche 2D et 3D". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLE009/document.

Texto completo
Resumen
Dans cette thèse, nous traiterons du problème de la détection et du suivi 3D de personnes dans des séquences d'images omnidirectionnelles, dans le but de réaliser des applications permettant l'estimation de pose 3D. Ceci nécessite, la mise en place d'un suivi stable et précis de la personne dans un environnement réel. Dans le cadre de cette étude, on utilisera une caméra catadioptrique composée d'un miroir sphérique et d'une caméra perspective. Ce type de capteur est couramment utilisé dans la vision par ordinateur et la robotique. Son principal avantage est son large champ de vision qui lui permet d'acquérir une vue à 360 degrés de la scène avec un seul capteur et en une seule image. Cependant, ce capteur va engendrer des distorsions importantes dans les images, ne permettant pas une application directe des méthodes classiquement utilisées en vision perspective. Cette thèse traite de deux approches de suivi développées durant cette thèse, qui permettent de tenir compte de ces distorsions. Elles illustrent le cheminement suivi par nos travaux, nous permettant de passer de la détection de personne à l'estimation 3D de sa pose. La première étape de nos travaux a consisté à mettre en place un algorithme de détection de personnes dans les images omnidirectionnelles. Nous avons proposé d'étendre l'approche conventionnelle pour la détection humaine en image perspective, basée sur l'Histogramme Orientés du Gradient (HOG), pour l'adapter à des images sphériques. Notre approche utilise les variétés riemanniennes afin d'adapter le calcul du gradient dans le cas des images omnidirectionnelles. Elle utilise aussi le gradient sphérique pour le cas les images sphériques afin de générer notre descripteur d'image omnidirectionnelle. Par la suite, nous nous sommes concentrés sur la mise en place d'un système de suivi 3D de personnes avec des caméras omnidirectionnelles. Nous avons fait le choix de faire du suivi 3D basé sur un modèle de la personne avec 30 degrés de liberté car nous nous sommes imposés comme contrainte l'utilisation d'une seule caméra catadioptrique
In this thesis we will handle the problem of 3D people detection and tracking in omnidirectional images sequences, in order to realize applications allowing3D pose estimation, we investigate the problem of 3D people detection and tracking in omnidirectional images sequences. This requires a stable and accurate monitoring of the person in a real environment. In order to achieve this, we will use a catadioptric camera composed of a spherical mirror and a perspective camera. This type of sensor is commonly used in computer vision and robotics. Its main advantage is its wide field of vision, which allows it to acquire a 360-degree view of the scene with a single sensor and in a single image. However, this kind of sensor generally generates significant distortions in the images, not allowing a direct application of the methods conventionally used in perspective vision. Our thesis contains a description of two monitoring approaches that take into account these distortions. These methods show the progress of our work during these three years, allowing us to move from person detection to the 3Destimation of its pose. The first step of this work consisted in setting up a person detection algorithm in the omnidirectional images. We proposed to extend the conventional approach for human detection in perspective image, based on the Gradient-Oriented Histogram (HOG), in order to adjust it to spherical images. Our approach uses the Riemannian varieties to adapt the gradient calculation for omnidirectional images as well as the spherical gradient for spherical images to generate our omnidirectional image descriptor
Los estilos APA, Harvard, Vancouver, ISO, etc.
30

Li, You. "Stereo vision and LIDAR based Dynamic Occupancy Grid mapping : Application to scenes analysis for Intelligent Vehicles". Phd thesis, Université de Technologie de Belfort-Montbeliard, 2013. http://tel.archives-ouvertes.fr/tel-00982325.

Texto completo
Resumen
Intelligent vehicles require perception systems with high performances. Usually, perception system consists of multiple sensors, such as cameras, 2D/3D lidars or radars. The works presented in this Ph.D thesis concern several topics on cameras and lidar based perception for understanding dynamic scenes in urban environments. The works are composed of four parts.In the first part, a stereo vision based visual odometry is proposed by comparing several different approaches of image feature detection and feature points association. After a comprehensive comparison, a suitable feature detector and a feature points association approach is selected to achieve better performance of stereo visual odometry. In the second part, independent moving objects are detected and segmented by the results of visual odometry and U-disparity image. Then, spatial features are extracted by a kernel-PCA method and classifiers are trained based on these spatial features to recognize different types of common moving objects e.g. pedestrians, vehicles and cyclists. In the third part, an extrinsic calibration method between a 2D lidar and a stereoscopic system is proposed. This method solves the problem of extrinsic calibration by placing a common calibration chessboard in front of the stereoscopic system and 2D lidar, and by considering the geometric relationship between the cameras of the stereoscopic system. This calibration method integrates also sensor noise models and Mahalanobis distance optimization for more robustness. At last, dynamic occupancy grid mapping is proposed by 3D reconstruction of the environment, obtained from stereovision and Lidar data separately and then conjointly. An improved occupancy grid map is obtained by estimating the pitch angle between ground plane and the stereoscopic system. The moving object detection and recognition results (from the first and second parts) are incorporated into the occupancy grid map to augment the semantic meanings. All the proposed and developed methods are tested and evaluated with simulation and real data acquired by the experimental platform "intelligent vehicle SetCar" of IRTES-SET laboratory.
Los estilos APA, Harvard, Vancouver, ISO, etc.
31

Dubois, Amandine. "Mesure de la fragilité et détection de chutes pour le maintien à domicile des personnes âgées". Phd thesis, Université de Lorraine, 2014. http://tel.archives-ouvertes.fr/tel-01070972.

Texto completo
Resumen
Le vieillissement de la population est un enjeu majeur pour les prochaines années en raison, notamment, de l'augmentation du nombre de personnes dépendantes. La question du maintien à domicile de ces personnes se pose alors, du fait de l'impossibilité pour les instituts spécialisés de les accueillir toutes et, surtout, de la volonté des personnes âgées de rester chez elles le plus longtemps possible. Or, le développement de systèmes technologiques peut aider à résoudre certains problèmes comme celui de la sécurisation en détectant les chutes, et de l'évaluation du degré d'autonomie pour prévenir les accidents. Plus particulièrement, nous nous intéressons au développement des systèmes ambiants, peu coûteux, pour l'équipement du domicile. Les caméras de profondeur permettent d'analyser en temps réel les déplacements de la personne. Nous montrons dans cette thèse qu'il est possible de reconnaître l'activité de la personne et de mesurer des paramètres de sa marche à partir de l'analyse de caractéristiques simples extraites des images de profondeur. La reconnaissance d'activité est réalisée à partir des modèles de Markov cachés, et permet en particulier de détecter les chutes et des activités à risque. Lorsque la personne marche, l'analyse de la trajectoire du centre de masse nous permet de mesurer les paramètres spatio-temporels pertinents pour l'évaluation de la fragilité de la personne. Ce travail a été réalisé sur la base d'expérimentations menées en laboratoire, d'une part, pour la construction des modèles par apprentissage automatique et, d'autre part, pour évaluer la validité des résultats. Les expérimentations ont montré que certains modèles de Markov cachés, développés pour ce travail, sont assez robustes pour classifier les différentes activités. Nous donnons, également dans cette thèse, la précision, obtenue avec notre système, des paramètres de la marche en comparaison avec un tapis actimètrique. Nous pensons qu'un tel système pourrait facilement être installé au domicile de personnes âgées, car il repose sur un traitement local des images. Il fournit, au quotidien, des informations sur l'analyse de l'activité et sur l'évolution des paramètres de la marche qui sont utiles pour sécuriser et évaluer le degré de fragilité de la personne.
Los estilos APA, Harvard, Vancouver, ISO, etc.
32

Fofi, David. "Contributions à la Vision par Ordinateur pour les Systèmes en Lumière Structurée et les Systèmes Catadioptriques". Habilitation à diriger des recherches, Université de Bourgogne, 2008. http://tel.archives-ouvertes.fr/tel-00950264.

Texto completo
Resumen
Mes travaux de recherche concernent essentiellement la vision par ordinateur, ou vision artificielle. Basiquement, je me suis efforcé d'imaginer des dispositifs, d'étudier des algorithmes, d'intégrer des méthodes et techniques connues dans des méthodologies nouvelles, de développer çà et là des aspects théoriques originaux. Je me suis beaucoup intéressé à des systèmes de vision alternatifs comme les systèmes en lumière structurée ou catadioptriques. Ces systèmes permettent d'étudier les techniques usuelles de vision par ordinateur sous un éclairage différent, ils nous obligent à ajuster le problème aux caractéristiques qui leur sont propres ; ils permettent, en quelque sorte, d'appréhender la vision par ordinateur "de biais". J'ai participé, de manière plus marginale, à des travaux sur la chirurgie virtuelle et la reconstruction d'objets transparents qui, chacun à leur manière, sont venus compléter le cadre de ce que sont mes activités de recherche. Ce qui les ont animées tient en une phrase : comment passer d'une image à sa représentation tridimensionnelle ? - et en corollaire : quelles sont les informa- tions dont j'ai besoin pour y parvenir ? comment adapter le capteur, le principe ou la méthode à l'application et comment adapter les traitements au capteur ? Ceci m'a conduit à étudier, en amont, le traitement des images et à m'aventurer parfois dans des domaines qui vont au-delà de mon champ de compétence, comme celui de l'imagerie polarimétrique ou de la physique.
Los estilos APA, Harvard, Vancouver, ISO, etc.
33

Corsino, Espino Jorge. "Détection de rails, caractérisation de croisements et localisation de trains sur la trajectoire d'un métro automatique". Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2014. http://pastel.archives-ouvertes.fr/pastel-01068899.

Texto completo
Resumen
Cette thèse porte sur la fonction de détection d'obstacles dans le domaine ferroviaire à partir de la vision par ordinateur. Il s'agit d'assurer une perception de l'environnement situé à l'avant du train afin de détecter et d'évaluer les distances des obstacles situés sur la voie.Nous avons donc proposé un module détection de rails à partir des images à niveaux de gris, pour déterminer une zone libre d'obstacles à l'avant du train. Cette détection est basée dans l'algorithme de RANSAC et une estimation de la voie par un polynôme de degré 2. Elle s'est montrée robuste à notre base de données et a permis de détecter les rails à des distances supérieures à la distance d'arrêt. Aussi, un algorithme d'étalonnage des caméras installées dans le train a été proposé à partir de la morphologie de la voie.Comme support de la reconnaissance de rails, nous présentons un module de détection et classification des appareils de voie basé dans le descripteur HOG extrait des images IPM (Inverse Perspective Mapping). Un classifieur SVM (Support Vector Machines) binaire a été utilisé pour la détection et un SVM multi-classe pour différencier les appareils de voie existants sur la ligne.Après avoir élaboré le module de détection des rails, nous avons implémenté un détecteur de trains. À partir d'un échantillon des images de trains de la ligne en question et des images négatives comme des voitures ou des bus, nous avons créé une base de données d'obstacles pour trouver un descripteur robuste qui arrive à décrire la forme des trains et permet à un classifieur SVM de discriminer les images et détecter les trains. Par la suite, ce classifieur est utilisé par le système global pour déterminer la présence d'un train au-delà de la détection de la voie. À la distance maximale de détection, un rectangle de la taille d'un train est extrait de l'image pour vérifier la présence d'un train. Ces rectangles font l'objet d'une classification au moyen de descripteurs globaux de type HOG et une structure SVM binaire.Cette étude permettra non seulement de déboucher sur des applications concrètes, mais surtout d'évaluer la maturité des technologies de traitements d'images pour réaliser des fonctions sûres appliquées aux systèmes ferroviaires.
Los estilos APA, Harvard, Vancouver, ISO, etc.
34

Dang, Quoc Bao. "Information spotting in huge repositories of scanned document images". Thesis, La Rochelle, 2018. http://www.theses.fr/2018LAROS024/document.

Texto completo
Resumen
Ce travail vise à développer un cadre générique qui est capable de produire des applications de localisation d'informations à partir d’une caméra (webcam, smartphone) dans des très grands dépôts d'images de documents numérisés et hétérogènes via des descripteurs locaux. Ainsi, dans cette thèse, nous proposons d'abord un ensemble de descripteurs qui puissent être appliqués sur des contenus aux caractéristiques génériques (composés de textes et d’images) dédié aux systèmes de recherche et de localisation d'images de documents. Nos descripteurs proposés comprennent SRIF, PSRIF, DELTRIF et SSKSRIF qui sont construits à partir de l’organisation spatiale des points d’intérêts les plus proches autour d'un point-clé pivot. Tous ces points sont extraits à partir des centres de gravité des composantes connexes de l‘image. A partir de ces points d’intérêts, des caractéristiques géométriques invariantes aux dégradations sont considérées pour construire nos descripteurs. SRIF et PSRIF sont calculés à partir d'un ensemble local des m points d’intérêts les plus proches autour d'un point d’intérêt pivot. Quant aux descripteurs DELTRIF et SSKSRIF, cette organisation spatiale est calculée via une triangulation de Delaunay formée à partir d'un ensemble de points d’intérêts extraits dans les images. Cette seconde version des descripteurs permet d’obtenir une description de forme locale sans paramètres. En outre, nous avons également étendu notre travail afin de le rendre compatible avec les descripteurs classiques de la littérature qui reposent sur l’utilisation de points d’intérêts dédiés de sorte qu'ils puissent traiter la recherche et la localisation d'images de documents à contenu hétérogène. La seconde contribution de cette thèse porte sur un système d'indexation de très grands volumes de données à partir d’un descripteur volumineux. Ces deux contraintes viennent peser lourd sur la mémoire du système d’indexation. En outre, la très grande dimensionnalité des descripteurs peut amener à une réduction de la précision de l'indexation, réduction liée au problème de dimensionnalité. Nous proposons donc trois techniques d'indexation robustes, qui peuvent toutes être employées sans avoir besoin de stocker les descripteurs locaux dans la mémoire du système. Cela permet, in fine, d’économiser la mémoire et d’accélérer le temps de recherche de l’information, tout en s’abstrayant d’une validation de type distance. Pour cela, nous avons proposé trois méthodes s’appuyant sur des arbres de décisions : « randomized clustering tree indexing” qui hérite des propriétés des kd-tree, « kmean-tree » et les « random forest » afin de sélectionner de manière aléatoire les K dimensions qui permettent de combiner la plus grande variance expliquée pour chaque nœud de l’arbre. Nous avons également proposé une fonction de hachage étendue pour l'indexation de contenus hétérogènes provenant de plusieurs couches de l'image. Comme troisième contribution de cette thèse, nous avons proposé une méthode simple et robuste pour calculer l'orientation des régions obtenues par le détecteur MSER, afin que celui-ci puisse être combiné avec des descripteurs dédiés. Comme la plupart de ces descripteurs visent à capturer des informations de voisinage autour d’une région donnée, nous avons proposé un moyen d'étendre les régions MSER en augmentant le rayon de chaque région. Cette stratégie peut également être appliquée à d'autres régions détectées afin de rendre les descripteurs plus distinctifs. Enfin, afin d'évaluer les performances de nos contributions, et en nous fondant sur l'absence d'ensemble de données publiquement disponibles pour la localisation d’information hétérogène dans des images capturées par une caméra, nous avons construit trois jeux de données qui sont disponibles pour la communauté scientifique
This work aims at developing a generic framework which is able to produce camera-based applications of information spotting in huge repositories of heterogeneous content document images via local descriptors. The targeted systems may take as input a portion of an image acquired as a query and the system is capable of returning focused portion of database image that match the query best. We firstly propose a set of generic feature descriptors for camera-based document images retrieval and spotting systems. Our proposed descriptors comprise SRIF, PSRIF, DELTRIF and SSKSRIF that are built from spatial space information of nearest keypoints around a keypoints which are extracted from centroids of connected components. From these keypoints, the invariant geometrical features are considered to be taken into account for the descriptor. SRIF and PSRIF are computed from a local set of m nearest keypoints around a keypoint. While DELTRIF and SSKSRIF can fix the way to combine local shape description without using parameter via Delaunay triangulation formed from a set of keypoints extracted from a document image. Furthermore, we propose a framework to compute the descriptors based on spatial space of dedicated keypoints e.g SURF or SIFT or ORB so that they can deal with heterogeneous-content camera-based document image retrieval and spotting. In practice, a large-scale indexing system with an enormous of descriptors put the burdens for memory when they are stored. In addition, high dimension of descriptors can make the accuracy of indexing reduce. We propose three robust indexing frameworks that can be employed without storing local descriptors in the memory for saving memory and speeding up retrieval time by discarding distance validating. The randomized clustering tree indexing inherits kd-tree, kmean-tree and random forest from the way to select K dimensions randomly combined with the highest variance dimension from each node of the tree. We also proposed the weighted Euclidean distance between two data points that is computed and oriented the highest variance dimension. The secondly proposed hashing relies on an indexing system that employs one simple hash table for indexing and retrieving without storing database descriptors. Besides, we propose an extended hashing based method for indexing multi-kinds of features coming from multi-layer of the image. Along with proposed descriptors as well indexing frameworks, we proposed a simple robust way to compute shape orientation of MSER regions so that they can combine with dedicated descriptors (e.g SIFT, SURF, ORB and etc.) rotation invariantly. In the case that descriptors are able to capture neighborhood information around MSER regions, we propose a way to extend MSER regions by increasing the radius of each region. This strategy can be also applied for other detected regions in order to make descriptors be more distinctive. Moreover, we employed the extended hashing based method for indexing multi-kinds of features from multi-layer of images. This system are not only applied for uniform feature type but also multiple feature types from multi-layers separated. Finally, in order to assess the performances of our contributions, and based on the assessment that no public dataset exists for camera-based document image retrieval and spotting systems, we built a new dataset which has been made freely and publicly available for the scientific community. This dataset contains portions of document images acquired via a camera as a query. It is composed of three kinds of information: textual content, graphical content and heterogeneous content
Los estilos APA, Harvard, Vancouver, ISO, etc.
35

De, goussencourt Timothée. "Système multimodal de prévisualisation “on set” pour le cinéma". Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAT106/document.

Texto completo
Resumen
La previz on-set est une étape de prévisualisation qui a lieu directement pendant la phase de tournage d’un film à effets spéciaux. Cette proposition de prévisualisation consiste à montrer au réalisateur une vue assemblée du plan final en temps réel. Le travail présenté dans cette thèse s’intéresse à une étape spécifique de la prévisualisation : le compositing. Cette étape consiste à mélanger plusieurs sources d’images pour composer un plan unique et cohérent. Dans notre cas, il s’agit de mélanger une image de synthèse avec une image issue de la caméra présente sur le plateau de tournage. Les effets spéciaux numériques sont ainsi ajoutés à la prise de vue réelle. L’objectif de cette thèse consiste donc à proposer un système permettant l’ajustement automatique du mélange entre les deux images. La méthode proposée nécessite la mesure de la géométrie de la scène filmée. Pour cette raison, un capteur de profondeur est ajouté à la caméra de tournage. Les données sont relayées à l’ordinateur qui exécute un algorithme permettant de fusionner les données du capteur de profondeur et de la caméra de tournage. Par le biais d’un démonstrateur matériel, nous avons formalisé une solution intégrée dans un moteur de jeux vidéo. Les expérimentations menées montrent dans un premier temps des résultats encourageants pour le compositing en temps réel. Nous avons observé une amélioration des résultats suite à l’introduction de la méthode de segmentation conjointe. La principale force de ce travail réside dans la mise en place du démonstrateur qui nous a permis d’obtenir des algorithmes efficaces dans le domaine de la previz on-set
Previz on-set is a preview step that takes place directly during the shootingphase of a film with special effects. The aim of previz on-set is to show to the film director anassembled view of the final plan in realtime. The work presented in this thesis focuses on aspecific step of the previz : the compositing. This step consists in mixing multiple images tocompose a single and coherent one. In our case, it is to mix computer graphics with an imagefrom the main camera. The objective of this thesis is to propose a system for automaticadjustment of the compositing. The method requires the measurement of the geometry ofthe scene filmed. For this reason, a depth sensor is added to the main camera. The data issent to the computer that executes an algorithm to merge data from depth sensor and themain camera. Through a hardware demonstrator, we formalized an integrated solution in avideo game engine. The experiments gives encouraging results for compositing in real time.Improved results were observed with the introduction of a joint segmentation method usingdepth and color information. The main strength of this work lies in the development of ademonstrator that allowed us to obtain effective algorithms in the field of previz on-set
Los estilos APA, Harvard, Vancouver, ISO, etc.
36

Sun, Haixin. "Moving Objects Detection and Tracking using Hybrid Event-based and Frame-based Vision for Autonomous Driving". Electronic Thesis or Diss., Ecole centrale de Nantes, 2023. http://www.theses.fr/2023ECDN0014.

Texto completo
Resumen
La caméra basée sur lesévénements est un capteur bioinspiré qui diffèredes caméras à images conventionnelles : Aulieu de saisir des images à une fréquence fixe,elles surveillent de manière asynchrone leschangements de luminosité par pixel etproduisent un flux de données d'événementscontenant l'heure, le lieu et le signe deschangements de luminosité. Les camérasévénementielles offrent des propriétésintéressantes par rapport aux camérastraditionnelles : haute résolution temporelle,gamme dynamique élevée et faibleconsommation d'énergie. Par conséquent, lescaméras événementielles ont un énormepotentiel pour la vision par ordinateur dans desscénarios difficiles pour les camérastraditionnelles, tels que le mouvement rapide etla gamme dynamique élevée. Cette thèse aétudié la détection et le suivi d'objets avec lacaméra événementielle en se basant sur unmodèle et sur l'apprentissage profond. Lastratégie de fuison avec la caméra d'image estproposée puisque la caméra d'image estégalement nécessaire pour fournir desinformations sur l'apparence. Les algorithmesde perception proposés comprennent le fluxoptique, la détection d'objets et la segmentationdu mouvement. Des tests et des analyses ontété effectués pour prouver la faisabilité et lafiabilité des algorithmes de perceptionproposés
The event-based camera is a bioinspiredsensor that differs from conventionalframe cameras: Instead of grabbing frameimages at a fixed rate, they asynchronouslymonitor per-pixel brightness change and outputa stream of events data that contains the time,location and sign of the brightness changes.Event cameras offer attractive propertiescompared to traditional cameras: high temporalresolution, high dynamic range, and low powerconsumption. Therefore, event cameras have anenormous potential for computer vision inchallenging scenarios for traditional framecameras, such as fast motion, and high dynamicrange.This thesis investigated the model-based anddeep-learning-based for object detection andtracking with the event camera. The fusionstrategy with the frame camera is proposedsince the frame camera is also needed toprovides appearance infomation. The proposedperception algorithms include optical flow,object detection and motion segmentation.Tests and analyses have been conducted toprove the feasibility and reliability of theproposed perception algorithms
Los estilos APA, Harvard, Vancouver, ISO, etc.
37

Laviole, Jérémy. "Interaction en réalité augmentée spatiale pour le dessin physique". Phd thesis, Université Sciences et Technologies - Bordeaux I, 2013. http://tel.archives-ouvertes.fr/tel-00935602.

Texto completo
Resumen
Cette dissertation décrit le design, implémentation et évaluation de nouvelles applications en Réalité Augmentée Spatiale (RAS). Ces applications sont concentrées sur l'amélioration du dessin physique tel que les dessins au crayons ou peintures en projetant des outils numériques.Tout d'abord, nous décrivons notre système de RAS et ses possibilités. Il prend en comptes les paramètres internes et externes d'un couple caméra/projecteur pour permettre une projection précise sur des feuilles de papier. De plus, il permet la détection du toucher des feuilles et de la position de la main au dessus de celles-ci grâce à une caméra de profondeur. Par conséquent, il permet la création d'écrans tactiles interactifs sur des feuilles de papier posées sur une table.Ensuite, nous nous penchons sur la création d'art visuel, plus précisément sur les premières étapes de la création quand l'artiste créer la structure. Nous offrons la possibilité de créer et d'éditer des lignes de construction numériques (LCN) projetées sur le papier. Ces outils sont des outils de Réalité Augmentée (RA), c'est-à-dire qu'ils s'ajoutent aux outils existants: toute l'interface utilisateur est sur la table, et l'utilisateur n'utilise jamais ni une souris, ni un clavier ni un écran. En plus des simples LCN (lignes et courbes), nous proposons une spécialisation pour les dessins spécifiques tels que les dessins en perspective, les dessins de personnages ainsi que les dessins à partir d'un modèle 3D. Nous proposons de nouvelles méthodes pour afficher et interagir avec des objets 3D sur papier. Nous proposons également de créer des dessins mixtes:art visuel interactif qui tire parti à la fois des possibilités physiques et numériques.Pour finir, nous décrivons des nouveaux usages pour notre système de RAS de nombreux contextes différents à travers des démonstrations publiques. L'acceptabilité de ce genre de système a été très bonne, et "magique" par la plupart des utilisateurs. Ils ont juste vu et interagis avec des feuilles de papier sans remarquer le système de projection et suivi.
Los estilos APA, Harvard, Vancouver, ISO, etc.
38

Capellier, Édouard. "Application of machine learning techniques for evidential 3D perception, in the context of autonomous driving". Thesis, Compiègne, 2020. http://www.theses.fr/2020COMP2534.

Texto completo
Resumen
L’apprentissage machine a révolutionné la manière dont les problèmes de perception sont, actuellement, traités. En effet, la plupart des approches à l’état de l’art, dans de nombreux domaines de la vision par ordinateur, se reposent sur des réseaux de neurones profonds. Au moment de déployer, d’évaluer, et de fusionner de telles approches au sein de véhicules autonomes, la question de la représentation des connaissances extraites par ces approches se pose. Dans le cadre de ces travaux de thèse, effectués au sein de Renault SAS, nous avons supposé qu’une représentation crédibiliste permettait de représenter efficacement le comportement de telles approches. Ainsi, nous avons développé plusieurs modules de perception à destination d’un prototype de véhicule autonome, se basant sur l’apprentissage machine et le cadre crédibiliste. Nous nous sommes focalisés sur le traitement de données caméra RGB, et de nuages de points LIDAR. Nous avions également à disposition des cartes HD représentant le réseau routier, dans certaines zones d’intérêt. Nous avons tout d’abord proposé un système de fusion asynchrone, utilisant d’une part un réseau convolutionel profond pour segmenter une image RGB, et d’autre part un modèle géométrique simple pour traiter des scans LIDAR, afin de générer des grilles d’occupation crédibilistes. Etant donné le manque de robustesse des traitements géométriques LIDAR, les autres travaux se sont focalisés sur la détection d’objet LIDAR et leur classification par apprentissage machine, et la détection de route au sein de scans LIDAR. En particulier, ce second travail reposait sur l’utilisation de scans étiquetés automatiquement à partir de cartes HD
The perception task is paramount for self-driving vehicles. Being able to extract accurate and significant information from sensor inputs is mandatory, so as to ensure a safe operation. The recent progresses of machine-learning techniques revolutionize the way perception modules, for autonomous driving, are being developed and evaluated, while allowing to vastly overpass previous state-of-the-art results in practically all the perception-related tasks. Therefore, efficient and accurate ways to model the knowledge that is used by a self-driving vehicle is mandatory. Indeed, self-awareness, and appropriate modeling of the doubts, are desirable properties for such system. In this work, we assumed that the evidence theory was an efficient way to finely model the information extracted from deep neural networks. Based on those intuitions, we developed three perception modules that rely on machine learning, and the evidence theory. Those modules were tested on real-life data. First, we proposed an asynchronous evidential occupancy grid mapping algorithm, that fused semantic segmentation results obtained from RGB images, and LIDAR scans. Its asynchronous nature makes it particularly efficient to handle sensor failures. The semantic information is used to define decay rates at the cell level, and handle potentially moving object. Then, we proposed an evidential classifier of LIDAR objects. This system is trained to distinguish between vehicles and vulnerable road users, that are detected via a clustering algorithm. The classifier can be reinterpreted as performing a fusion of simple evidential mass functions. Moreover, a simple statistical filtering scheme can be used to filter outputs of the classifier that are incoherent with regards to the training set, so as to allow the classifier to work in open world, and reject other types of objects. Finally, we investigated the possibility to perform road detection in LIDAR scans, from deep neural networks. We proposed two architectures that are inspired by recent state-of-the-art LIDAR processing systems. A training dataset was acquired and labeled in a semi-automatic fashion from road maps. A set of fused neural networks reaches satisfactory results, which allowed us to use them in an evidential road mapping and object detection algorithm, that manages to run at 10 Hz
Los estilos APA, Harvard, Vancouver, ISO, etc.
39

Zhou, Shuting. "Navigation of a quad-rotor to access the interior of a building". Thesis, Compiègne, 2015. http://www.theses.fr/2015COMP2237.

Texto completo
Resumen
Ce travail de recherche est dédié à l’élaboration d’une stratégie de navigation autonome qui comprend la génération d’une trajectoire optimale en évitant des obstacles, la détection de l’objet d’intérêt spécifique (i.e. une fenêtre) et puis l’exécution de la manoeuvre postérieure à approcher la fenêtre et enfin accéder à l’intérieur du bâtiment. Le véhicule est navigué par un système de vision et une combinaison de capteurs inertiels et d’altitude, ce qui réalise une localisation relative du quadri-rotor par rapport à son environment. Une méthode de planification de trajectoire basée sur Model Predictive Control (MPC), qui utilise les informations fournies par le GPS et le capteur visuel, a été conçue pour générer une trajectoire optimale en temps réel avec des capacités d’évitement de collision, qui commence à partir d’un point initial donné par l’utilisateur et guide le véhicule pour atteindre le point final à l’extérieur du bâtiment de la cible. Dans le but de détecter et de localiser l’objet d’intérêt, deux stratégies de détection d’objet basées sur la vision sont proposées et sont respectivement appliquées dans le système de stéréo vision et le système de vision en utilisant la Kinect. Après l’estimation du modèle de la fenêtre cible, un cadre d’estimation de mouvement est conçu pour estimer ego-mouvement du véhicule à partir des images fournies par le capteur visuel. Il y a eu deux versions des cadres d’estimation de mouvement pour les deux systèmes de vision. Une plate-forme expérimentale de quad-rotor est développée. Pour l’estimation de la dynamique de translation du véhicule, un filtre de Kalman est mis en œuvre pour combiner les capteurs d’imagerie, inertiels et d’altitude. Un système de détection et de contrôle hiérarchique est conçu pour effectuer la navigation et le contrôle de l’hélicoptère quadri-rotor, ce qui permet au véhicule d’estimer l’état sans marques artificielles ou d’autres systèmes de positionnement externes
This research work is dedicated to the development of an autonomous navigation strategy which includes generating an optimal trajectory with obstacles avoiding capabilities, detecting specific object of interest (i.e. a window) and then conducting the subsequent maneuver to approach the window and finally access into the building. The vehicle is navigated by a vision system and a combination of inertial and altitude sensors, which achieve a relative localization of the quad-rotor with respect to its surrounding environment. A MPC-based path planning method using the information provided by the GPS and the visual sensor has been developed to generate an optimal real-time trajectory with collision avoidance capabilities, which starts from an initial point given by the user and guides the vehicle to achieve the final point outside the target building. With the aim of detecting and locating the object of interest, two different vision-based object detection strategies are proposed and are applied respectively in the stereo vision system and the vision system using the Kinect. After estimating the target window model, a motion estimation framework is developed to estimate the vehicle’s ego-motion from the images provided by the visual sensor. There have been two versions of the motion estimation frameworks for both vision systems. A quad-rotor experimental platform is developed. For estimating the translational dynamic of the vehicle, a Kalman filter is implemented to combine the imaging, inertial and altitude sensors. A hierarchical sensing and control system is designed to perform the navigation and control of the quad-rotor helicopter, which allows the vehicle to estimate the state without artificial marks or other external positioning systems
Los estilos APA, Harvard, Vancouver, ISO, etc.
40

Gouiaa, Rafik. "Reconnaissance de postures humaines par fusion de la silhouette et de l'ombre dans l'infrarouge". Thèse, 2017. http://hdl.handle.net/1866/19538.

Texto completo
Resumen
Les systèmes multicaméras utilisés pour la vidéosurveillance sont complexes, lourds et coûteux. Pour la surveillance d'une pièce, serait-il possible de les remplacer par un système beaucoup plus simple utilisant une seule caméra et une ou plusieurs sources lumineuses en misant sur les ombres projetées pour obtenir de l'information 3D ? Malgré les résultats intéressants offerts par les systèmes multicaméras, la quantité d'information à traiter et leur complexité limitent grandement leur usage. Dans le même contexte, nous proposons de simplifier ces systèmes en remplaçant une caméra par une source lumineuse. En effet, une source lumineuse peut être vue comme une caméra qui génère une image d'ombre révélant l'objet qui bloque la lumière. Notre système sera composé par une seule caméra et une ou plusieurs sources lumineuses infrarouges (invisibles à l'oeil). Malgré les difficultés prévues quant à l'extraction de l'ombre et la déformation et l'occultation de l'ombre par des obstacles (murs, meubles...), les gains sont multiples en utilisant notre système. En effet, on peut éviter ainsi les problèmes de synchronisation et de calibrage de caméras et réduire le coût en remplaçant des caméras par de simples sources infrarouges. Nous proposons deux approches différentes pour automatiser la reconnaissance de postures humaines. La première approche reconstruit la forme 3D d'une personne pour faire la reconnaissance de la posture en utilisant des descripteurs de forme. La deuxième approche combine directement l'information 2D (ombre+silhouette) pour faire la reconnaissance de postures. Scientifiquement, nous cherchons à prouver que l'information offerte par une silhouette et l'ombre générée par une source lumineuse est suffisante pour permettre la reconnaissance de postures humaines élémentaires (p.ex. debout, assise, couchée, penchée, etc.). Le système proposé peut être utilisé pour la vidéosurveillance d'endroits non encombrés tels qu'un corridor dans une résidence de personnes âgées (pour la détection des chutes p. ex.) ou d'une compagnie (pour la sécurité). Son faible coût permettrait un plus grand usage de la vidéosurveillance au bénéfice de la société. Au niveau scientifique, la démonstration théorique et pratique d'un tel système est originale et offre un grand potentiel pour la vidéosurveillance.
Human posture recognition (HPR) from video sequences is one of the major active research areas of computer vision. It is one step of the global process of human activity recognition (HAR) for behaviors analysis. Many HPR application systems have been developed including video surveillance, human-machine interaction, and the video retrieval. Generally, applications related to HPR can be achieved using mainly two approaches : single camera or multi-cameras. Despite the interesting performance achieved by multi-camera systems, their complexity and the huge information to be processed greatly limit their widespread use for HPR. The main goal of this thesis is to simplify the multi-camera system by replacing a camera by a light source. In fact, a light source can be seen as a virtual camera, which generates a cast shadow image representing the silhouette of the person that blocks the light. Our system will consist of a single camera and one or more infrared light sources. Despite some technical difficulties in cast shadow segmentation and cast shadow deformation because of walls and furniture, different advantages can be achieved by using our system. Indeed, we can avoid the synchronization and calibration problems of multiple cameras, reducing the cost of the system and the amount of processed data by replacing a camera by one light source. We introduce two different approaches in order to automatically recognize human postures. The first approach directly combines the person’s silhouette and cast shadow information, and uses 2D silhouette descriptor in order to extract discriminative features useful for HPR. The second approach is inspired from the shape from silhouette technique to reconstruct the visual hull of the posture using a set of cast shadow silhouettes, and extract informative features through 3D shape descriptor. Using these approaches, our goal is to prove the utility of the combination of person’s silhouette and cast shadow information for recognizing elementary human postures (stand, bend, crouch, fall,...) The proposed system can be used for video surveillance of uncluttered areas such as a corridor in a senior’s residence (for example, for the detection of falls) or in a company (for security). Its low cost may allow greater use of video surveillance for the benefit of society.
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía