Дисертації: "Reconnaissance de scènes"

1

Blachon, David. "Reconnaissance de scènes multimodale embarquée." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM001/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Contexte : Cette thèse se déroule dans les contextes de l'intelligence ambiante et de la reconnaissance de scène (sur mobile). Historiquement, le projet vient de l'entreprise ST-Ericsson. Il émane d'un besoin de développer et intégrer un "serveur de contexte" sur smartphone capable d'estimer et de fournir des informations de contexte pour les applications tierces qui le demandent. Un exemple d'utilisation consiste en une réunion de travail où le téléphone sonne~; grâce à la reconnaissance de la scène, le téléphone peut automatiquement réagir et adapter son comportement, par exemple en activant le mode vibreur pour ne pas déranger.Les principaux problèmes de la thèse sont les suivants : d'abord, proposer une définition de ce qu'est une scène et des exemples de scènes pertinents pour l'application industrielle ; ensuite, faire l'acquisition d'un corpus de données à exploiter par des approches d'apprentissage automatique~; enfin, proposer des solutions algorithmiques au problème de la reconnaissance de scène.Collecte de données : Aucune des bases de données existantes ne remplit les critères fixés (longs enregistrements continus, composés de plusieurs sources de données synchronisées dont l'audio, avec des annotations pertinentes).Par conséquent, j'ai développé une application Android pour la collecte de données. L'application est appelée RecordMe et a été testé avec succès sur plus de 10 appareils. L'application a été utilisée pour 2 campagnes différentes, incluant la collecte de scènes. Cela se traduit par plus de 500 heures enregistrées par plus de 25 bénévoles, répartis principalement dans la région de Grenoble, mais aussi à l'étranger (Dublin, Singapour, Budapest). Pour faire face au problème de protection de la vie privée et de sécurité des données, des mesures ont été mises en place dans le protocole et l'application de collecte. Par exemple, le son n'est pas sauvegardé, mes des coefficients MFCCs sont enregistrés.Définition de scène : L'étude des travaux existants liés à la tâche de reconnaissance de scène, et l'analyse des annotations fournies par les bénévoles lors de la collecte de données, ont permis de proposer une définition d'une scène. Elle est définie comme la généralisation d'une situation, composée d'un lieu et une action effectuée par une seule personne (le propriétaire du smartphone). Des exemples de scènes incluent les moyens de transport, la réunion de travail, ou le déplacement à pied dans la rue. La notion de composition permet de décrire la scène avec plusieurs types d'informations. Cependant, la définition est encore trop générique, et elle pourrait être complétée par des informations additionnelles, intégrée à la définition comme de nouveaux éléments de la composition.Algorithmique : J'ai réalisé plusieurs expériences impliquant des techniques d'apprentissage automatique supervisées et non non-supervisées. La partie supervisée consiste en de la classification. La méthode est commune~: trouver des descripteurs des données pertinents grâce à l'utilisation d'une méthode de sélection d'attribut ; puis, entraîner et tester plusieurs classifieurs (arbres de décisions et forêt d'arbres décisionnels ; GMM ; HMM, et DNN). Également, j'ai proposé un système à 2 étages composé de classifieurs formés pour identifier les concepts intermédiaires et dont les prédictions sont fusionnées afin d'estimer la scène la plus probable. Les expérimentations non-supervisées visent à extraire des informations à partir des données. Ainsi, j'ai appliqué un algorithme de regroupement hiérarchique ascendant, basé sur l'algorithme EM, sur les données d'accélération et acoustiques considérées séparément et ensemble. L'un des résultats est la distinction des données d'accélération en groupes basés sur la quantité d'agitation
Context: This PhD takes place in the contexts of Ambient Intelligence and (Mobile) Context/Scene Awareness. Historically, the project comes from the company ST-Ericsson. The project was depicted as a need to develop and embed a “context server” on the smartphone that would get and provide context information to applications that would require it. One use case was given for illustration: when someone is involved in a meeting and receives a call, then thanks to the understanding of the current scene (meet at work), the smartphone is able to automatically act and, in this case, switch to vibrate mode in order not to disturb the meeting. The main problems consist of i) proposing a definition of what is a scene and what examples of scenes would suit the use case, ii) acquiring a corpus of data to be exploited with machine learning based approaches, and iii) propose algorithmic solutions to the problem of scene recognition.Data collection: After a review of existing databases, it appeared that none fitted the criteria I fixed (long continuous records, multi-sources synchronized records necessarily including audio, relevant labels). Hence, I developed an Android application for collecting data. The application is called RecordMe and has been successfully tested on 10+ devices, running Android 2.3 and 4.0 OS versions. It has been used for 3 different campaigns including the one for scenes. This results in 500+ hours recorded, 25+ volunteers were involved, mostly in Grenoble area but abroad also (Dublin, Singapore, Budapest). The application and the collection protocol both include features for protecting volunteers privacy: for instance, raw audio is not saved, instead MFCCs are saved; sensitive strings (GPS coordinates, device ids) are hashed on the phone.Scene definition: The study of existing works related to the task of scene recognition, along with the analysis of the annotations provided by the volunteers during the data collection, allowed me to propose a definition of a scene. It is defined as a generalisation of a situation, composed of a place and an action performed by one person (the smartphone owner). Examples of scenes include taking a transportation, being involved in a work meeting, walking in the street. The composition allows to get different kinds of information to provide on the current scene. However, the definition is still too generic, and I think that it might be completed with additionnal information, integrated as new elements of the composition.Algorithmics: I have performed experiments involving machine learning techniques, both supervised and unsupervised. The supervised one is about classification. The method is quite standard: find relevant descriptors of the data through the use of an attribute selection method. Then train and test several classifiers (in my case, there were J48 and Random Forest trees ; GMM ; HMM ; and DNN). Also, I have tried a 2-stage system composed of a first step of classifiers trained to identify intermediate concepts and whose predictions are merged in order to estimate the most likely scene. The unsupervised part of the work aimed at extracting information from the data, in an unsupervised way. For this purpose, I applied a bottom-up hierarchical clustering, based on the EM algorithm on acceleration and audio data, taken separately and together. One of the results is the distinction of acceleration into groups based on the amount of agitation

2

Paumard, José. "Reconnaissance multiéchelle d'objets dans des scènes." Cachan, Ecole normale supérieure, 1996. http://www.theses.fr/1996DENS0025.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous étudions dans cette thèse la possibilité de reconnaitre des objets dans des images compressées, sans les reconstruire. L'algorithme de compression le plus adapte semble celui fonde sur l'extraction des contours multi échelle quinconce des images. Le problème de la reconnaissance nous amène à introduire un nouvel outil de comparaison d'images binaires: la distance de Hausdorff censurée. Cet outil s'est avéré robuste et rapide à calculer. Ces deux points sont étudiés avec soin. Cette distance est enfin utilisée pour reconnaitre et localiser des objets spécifiques dans des scènes de grande taille. Nous proposons trois approches multi échelles pour résoudre ce problème, qui prennent en compte le fait que l'objet recherché peut être en partie caché, ou qu'il peut être vu sous un angle différent de son modèle. L'algorithme que nous avons développé est rapide sur station de travail classique. Sa robustesse a été étudiée soigneusement. Sa parallélisation nous permet d'atteindre le temps réel dans un cadre opérationnel raisonnable

3

Bremond, François. "Interprétation de Scènes : perception, fusion multi-capteurs, raisonnement spatio-temporel et reconnaissance d'activités." Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2007. http://tel.archives-ouvertes.fr/tel-00275889.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Scene understanding is the process, often real time, of perceiving, analysing and elaborating an interpretation of a 3D dynamic scene observed through a network of sensors. This process consists mainly in matching signal information coming from sensors observing the scene with models which humans are using to understand the scene. Based on that, scene understanding is both adding and extracting semantic from the sensor data characterizing a scene. This scene can contain a number of physical objects of various types (e.g. people, vehicle) interacting with each others or with their environment (e.g. equipment) more or less structured. The scene can last few instants (e.g. the fall of a person) or few months (e.g. the depression of a person), can be limited to a laboratory slide observed through a microscope or go beyond the size of a city. Sensors include usually cameras (e.g. omni directional, infrared), but also may include microphones and other sensors (e.g. optical cells, contact sensors, physiological sensors, radars, smoke detectors). Scene understanding is influenced by cognitive vision and it requires at least the melding of three areas: computer vision, cognition and software engineering. Scene understanding can achieve four levels of generic computer vision functionality of detection, localisation, recognition and understanding. But scene understanding systems go beyond the detection of visual features such as corners, edges and moving regions to extract information related to the physical world which is meaningful for human operators. Its requirement is also to achieve more robust, resilient, adaptable computer vision functionalities by endowing them with a cognitive faculty: the ability to learn, adapt, weigh alternative solutions, and develop new strategies for analysis and interpretation. The key characteristic of a scene understanding system is its capacity to exhibit robust performance even in circumstances that were not foreseen when it was designed. Furthermore, a scene understanding system should be able to anticipate events and adapt its operation accordingly. Ideally, a scene understanding system should be able to adapt to novel variations of the current environment to generalize to new context and application domains and interpret the intent of underlying behaviours to predict future configurations of the environment, and to communicate an understanding of the scene to other systems, including humans. Related but different domains are robotic, where systems can interfere and modify their environment, and multi-media document analysis (e.g. video retrieval), where limited contextual information is available.

4

Tupin, Florence. "Reconnaissance des formes et analyse de scènes en imagerie radar a ouverture synthetique." Paris, ENST, 1997. http://www.theses.fr/1997ENST0016.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les capteurs radars connaissent aujourd'hui un formidable essor. Outre leur capacité à pénétrer le couvert nuageux, ce sont surtout les nouvelles informations qu'ils apportent qu'il est intéressant d'exploiter. L'objectif de cette thèse est de développer des outils automatiques ou semi-automatiques capables d'extraire des informations cartographiques d'une image radar obtenue par satellite : détection d'objets structurant le paysage (réseaux routiers, fluviaux), segmentation et classification de régions (villes, parcellaire, zones de relief), pour en donner une première interprétation. Cette thèse s'articule en deux grandes parties ; une partie de développement d'outils élémentaires permettant de mettre en évidence des objets spécifiques et une partie d'interprétation proprement dite qui réalise la fusion des résultats obtenus. La première partie de ce travail se décompose elle-même en deux temps. Dans un premier temps, des techniques de bas-niveau s'appuyant sur les propriétés statistiques de l'image radar ont été développées. Un détecteur de structures linéaires tenant compte du phénomène de spécule a été mis au point et une étude statistique approfondie de son comportement a été effectuée. Parallèlement, plusieurs discriminateurs texturaux ont été proposes et testes pour l'analyse des structures surfaciques, permettant de caractériser les régions homogènes (comme certains types de végétation, la mer calme) et hétérogènes (principalement le tissu urbain) des images. Dans un second temps, l'utilisation de techniques de plus haut niveau a permis d'extraire les éléments caractéristiques du paysage. Nos efforts ont particulièrement portes sur la détection du réseau routier, difficilement visible en raison du phénomène de speckle, et une méthode originale s'appuyant sur un champ de markov défini sur un graphe de segments a été proposée. La seconde partie de cette thèse consiste à mettre en commun en les faisant coopérer les différentes informations extraites pour obtenir une sorte de cartographie du paysage. Pour réaliser la fusion des différentes mesures délivrées par les opérateurs précédemment évoqués, nous avons choisi d'utiliser la théorie des croyances de dempster et shafer et la règle de combinaison orthogonale associée. Finalement, des relations contextuelles entre les objets, introduites en utilisant une modélisation markovienne sur le graphe d'adjacence des régions, permettent de lever les dernières ambiguïtés de l'interprétation.

5

Grandjean, Pierrick. "Perception multisensorielle et interprétation de scènes." Toulouse 3, 1991. http://www.theses.fr/1991TOU30232.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette these porte sur l'interpretation de scenes par un systeme de perception multisensoriel. Interpreter revient a representer l'environnement sous la forme de primitives geometriques (modelisation 3d) et d'objets (reconnaissance). La fusion multisensorielle permet d'en ameliorer a la fois la precision et la fiabilite. Le premier chapitre propose une approche synthetique de modelisation des performances des capteurs et de la structure d'un systeme multisensoriel. Le second presente une technique generique de fusion numerique fondee sur une representation probabiliste de la precision des primitives. A partir de ces concepts et techniques ont ete developpes un systeme de modelisation polyedrique 3d, par fusion de donnees de stereovision et de telemetrie, et un systeme generique multisensoriel de connaissance d'objets 3d. Ce dernier, fonde sur le paradigme de generation et verification d'hypotheses, utilise explicitement des modeles declaratifs des objets et des capteurs, prealablement compiles sous la forme de structure specifiques. Il est valide par des resultats experimentaux en environnement reel, avec des objets courants (meubles) partiellement observes. Le systeme experimental utilise conjointement le systeme de modelisation 3d, un systeme de stereovision et plusieurs cameras noir&blanc et couleur. L'analyse du probleme de l'estimation de la confiance des hypotheses d'interpretation multisensorielles met en evidence les deux notions de ressemblance et d'ambiguite. Une mise en uvre est proposee dans un cadre bayesien. Elle s'appuie sur une determination experimentale de l'ambiguite des differents capteurs. Cette etude permet d'aborder les problemes du controle de l'algorithmique et du choix du capteur, qui deviennent centraux dans un systeme multisensoriel. Ce systeme est un element du demonstrateur experimental du projet esprit skids, dont d'autres fonctions sont presentees: maintien de coherence et planification perceptuelle

6

Fua, Pascal. "Une approche variationnelle pour la reconnaissance d'objets." Paris 11, 1989. http://www.theses.fr/1989PA112357.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse, nous proposons une formulation variationnelle du problème de la reconnaissance d'objets qui nous permet, d'une part, d'unifier les différents éléments de notre approche dans un même cadre théorique et, d'autre part, de développer des méthodes de calcul réalistes pour le traitement d'images complexes. Nous décrivons les objets en termes d'un langage qui inclut les contraintes tant photométriques que géométriques ou sémantiques auxquelles ces objets et leur apparence dans l'image sont soumis. Nous définissons un critère de nature statistique qui mesure la qualité d'une telle description; reconnaître les objets équivaut alors à trouver la description optimale de l'image en termes de notre langage. Nous avons validé notre approche dans le cadre de la reconnaissance de routes et bâtiments dans des images aériennes et avons implémenté un système qui identifie avec succès la majorité des objets cible dans des images difficiles. Dans le premier chapitre nous introduisons et motivons notre approche. Nous présentons ensuite des articles qui documentent son évolution. Dans le dernier chapitre, nous décrivons en détail notre fonction (objectif) ? et les procédures d'optimisation que nous avons implémentées.

7

Tran, Thi Hà Châu. "La reconnaissance des objets et des scènes naturelles dans la dégénérescence maculaire liée à l'âge." Phd thesis, Université du Droit et de la Santé - Lille II, 2011. http://tel.archives-ouvertes.fr/tel-00638964.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La dégénérescence maculaire liée à l'âge (DMLA) est la première cause de cécité chez les sujets âgés dans les pays industrialisés. Les questionnaires sur la qualité de vie suggèrent que les patients rencontrent des difficultés dans la recherche d'objets et dans leurs déplacements. En effet, les objets apparaissent rarement isolés dans leur environnement naturel. Ils apparaissent dans un contexte spatial qui peut les masquer en partie et le contraste d'une scène naturelle peut varier au cours de la journée. Nous étudions la capacité de reconnaissance des objets et des scènes naturelles chez les patients DMLA en utilisant des photographies de scènes naturelles. Nous nous sommes intéressés à la reconnaissance des scènes naturelles, puis à la capacité de discrimination figure/fond, à l'effet du contraste sur la reconnaissance des objets, et à la navigation spatiale dans un environnement virtuel. Nous avons comparé la performance de patients avec une DMLA à celle de sujets avec vision normale appariés en âge aux patients. Nos résultats montrent que les patients DMLA sont capables de catégoriser des scènes naturelle ou urbaine, et de discriminer une scène d'intérieur d'une scène extérieur avec un niveau de précision élevé, ce qui est en faveur des modèles centrés sur la scène. Ils détectent mieux un objet lorsque celui-ci était séparé du fond par un espace blanc et lorsque l'objet est présenté dans son contexte naturel que lorsqu'il est présenté sur un fond non structuré et non significatif ; ce qui indique que le fond est traité normalement en vision périphérique. Ils présentent plus de difficultés que les sujets avec vision normale pour détecter un objet dans une scène achromatique dont le contraste est réduit. Une étude sur la navigation spatiale met en évidence une compression de la représentation de l'espace: les sujets avec une DMLA sous-estiment plus la distance virtuelle que les sujets avec vision normale dans la tâche de navigation spatiale. Ces résultats peuvent avoir des applications pratiques dans la rééducation, dans la mise en page des textes et des magazines et dans l'agencement de l'environnement spatial des personnes âgés souffrant de DMLA afin d'améliorer la recherche d'objets, la mobilité et diminuer le risque de chute.

8

Peyrin, Carole. "Reconnaissance des scènes naturelles : approche neurocognitive de la spécialisation hémisphérique du traitement des fréquences spatiales." Grenoble 2, 2003. http://www.theses.fr/2003GRE29020.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse est consacrée à létude, par une approche neurocognitive, de la spécialisation hémisphérique dans le traitement des fréquences spatiales (SHFs) et ce, dans la reconnaissance ultra-rapide de scènes naturelles. Dans une étude psychophysique, nous avons observé une supériorité de l'hémisphère droit dans le traitement des basses fréquences spatiales et une supériorité de l'hémisphère gauche dans le traitement des hautes fréquences spatiales. Nos données d'IRMf et de neuropsychologie cognitive suggèrent une SHFs dès le cortex occipital, sous le contrôle de la région temporo-pariétale. Enfin nos données psychophysiques suggèrent que la SHFs est fonction des contraintes temporelles : lorsque le système visuel dispose de peu de temps, comme c'est le cas dans une tâche de reconnaissance visuelle ultra-rapide, les deux hémisphères travailleraient en parallèle, chacun traitant ce qu'il peut de la scène visuelle en fonction de ses compétences d'analyse "fréquentielle" respectives.

9

Tran, Thi Hà Châu. "La reconnaissance des objets et des scènes naturelles dans la dégénérescence maculaire liée à l’âge." Thesis, Lille 2, 2011. http://www.theses.fr/2011LIL2S010/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La dégénérescence maculaire liée à l’âge (DMLA) est la première cause de cécité chez les sujets âgés dans les pays industrialisés. Les questionnaires sur la qualité de vie suggèrent que les patients rencontrent des difficultés dans la recherche d’objets et dans leurs déplacements. En effet, les objets apparaissent rarement isolés dans leur environnement naturel. Ils apparaissent dans un contexte spatial qui peut les masquer en partie et le contraste d’une scène naturelle peut varier au cours de la journée. Nous étudions la capacité de reconnaissance des objets et des scènes naturelles chez les patients DMLA en utilisant des photographies de scènes naturelles. Nous nous sommes intéressés à la reconnaissance des scènes naturelles, puis à la capacité de discrimination figure/fond, à l’effet du contraste sur la reconnaissance des objets, et à la navigation spatiale dans un environnement virtuel. Nous avons comparé la performance de patients avec une DMLA à celle de sujets avec vision normale appariés en âge aux patients. Nos résultats montrent que les patients DMLA sont capables de catégoriser des scènes naturelle ou urbaine, et de discriminer une scène d’intérieur d’une scène extérieur avec un niveau de précision élevé, ce qui est en faveur des modèles centrés sur la scène. Ils détectent mieux un objet lorsque celui-ci était séparé du fond par un espace blanc et lorsque l’objet est présenté dans son contexte naturel que lorsqu’il est présenté sur un fond non structuré et non significatif ; ce qui indique que le fond est traité normalement en vision périphérique. Ils présentent plus de difficultés que les sujets avec vision normale pour détecter un objet dans une scène achromatique dont le contraste est réduit. Une étude sur la navigation spatiale met en évidence une compression de la représentation de l’espace: les sujets avec une DMLA sous-estiment plus la distance virtuelle que les sujets avec vision normale dans la tâche de navigation spatiale. Ces résultats peuvent avoir des applications pratiques dans la rééducation, dans la mise en page des textes et des magazines et dans l’agencement de l’environnement spatial des personnes âgés souffrant de DMLA afin d’améliorer la recherche d’objets, la mobilité et diminuer le risque de chute
AMD (Age Related Macular Degeneration) is the leading cause of blindness in western countries. Quality of life Questionnaires indicate that people with AMD exhibit difficulties in finding objects and in mobility. In the natural environment, objects seldom appear in isolation. They appear in their natural setting in which they can be masked by other objects. The contrast of a scene may also change, as light varies as a function of the hour in the day and the light source. The objective of the study was to access objects and scene recognition impairments in people with AMD. We studied the perception of natural scenes, figure/ground discrimination, the effect of contrast on object recognition in achromatic scenes, and then navigation and spatial memory in a virtual environment. Performance was compared for people with AMD and age matched normally sighted controls. The results show that scene gist recognition can be accomplished with high accuracy with the low spatial resolution of peripheral vision, which supports the “scene centered approach” in scene recognition. Figure/ground discrimination is impaired in AMD. A white space surrounding the object is sufficient to improve its recognition and to facilitate figure/ground segregation. Performance is also improved when the object is displayed on its natural setting than when it appears on a non structured, non significant background. Sensitivity for the detection of a target object in achromatic scenes is impaired in AMD patients, who are more affected by contrast reductions than normally sighted people. A study on spatial nagigation showed a compression of space representation. People with AMD underestimate the virtual distance in a spatial navigation task. The results of our studies have implications for rehabilitation, for improving texts and magazines destined to people with low vision and for the improvement of the spatial environment of people suffering from AMD in order to facilitate mobility, object search and reduce the risk of falls

10

Romdhane, Rim. "Reconnaissance d'activités et connaissances incertaines dans les scènes vidéos appliquées à la surveillance de personnes âgées." Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00967943.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse aborde le problème de la reconnaissance d'activités. Elle est fortement motivée par la recherche dans le domaine de la reconnaissance des activités vidéo appliquée au domaine de la surveillance de personnes âgées. Dans ce travail, nous proposons deux contributions principales. La première contribution consiste en une approche pour la reconnaissance d'activité vidéo avec gestion de l'incertitude pour une détection précise d'événements. La deuxième contribution consiste à définir une ontologie et une base de connaissances pour la surveillance dans le domaine de la santé et en particulier la surveillance à l'hôpital de patients atteints de la maladie d'Alzheimer. L'approche de reconnaissance d'activité proposée combine une modélisation sémantique avec un raisonnement probabiliste pour faire face aux erreurs des détecteurs de bas niveau et pour gérer l'incertitude de la reconnaissance d'activité. La reconnaissance probabiliste des activités est basée sur la théorie des probabilités bayésienne qui fournit un cadre cohérent pour traiter les connaissances incertaines. L'approche proposée pour la vérification probabiliste des contraintes spatiale et temporelle des activités est basée sur le modèle de probabilité gaussienne. Nous avons travaillé en étroite collaboration avec les cliniciens pour définir une ontologie et une base de connaissances pour la surveillance à l'hôpital de patients atteints de la maladie d'Alzheimer. L'ontologie définie contient plusieurs concepts utiles dans le domaine de la santé. Nous avons également défini un certain nombre de critères qui peuvent être observés par les caméras pour permettre la détection des premiers symptômes de la maladie d'Alzheimer. Nous avons validé l'algorithme proposé sur des vidéos réelles. Les résultats expérimentaux montrent que l'algorithme de reconnaissance d'activité proposé a réussi à reconnaitre les activités avec un taux élevé de reconnaissance. Les résultats obtenus pour la surveillance de patients atteints de la maladie d'Alzheimer mettent en évidence les avantages de l'utilisation de l'approche proposée comme une plate-forme de soutien pour les cliniciens pour mesurer objectivement les performances des patients et obtenir une évaluation quantifiable des activités de la vie quotidienne.

11

Trujillo, Morales Noël. "Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2007. http://tel.archives-ouvertes.fr/tel-00926395.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence ; à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à " instancier " ce modèle dans la scène courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel " : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up$top-down, reste implicite dans la stratégie globale de reconnaissance. La " focalisation progressive " et la représentation hybride du modèle, permettent de tirer profit des deux types de représentation classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaissance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution de la zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons.

12

Pham, Trong-Ton. "Modélisation et recherche de graphes visuels : une approche par modèles de langue pour la reconnaissance de scènes." Phd thesis, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00996067.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Content-based image indexing and retrieval (CBIR) system needs to consider several types of visual features and spatial information among them (i.e., different point of views) for better image representation. This thesis presents a novel approach that exploits an extension of the language modeling approach from information retrieval to the problem of graph-based image retrieval. Such versatile graph model is needed to represent the multiple points of views of images. This graph-based framework is composed of three main stages: Image processing stage aims at extracting image regions from the image. It also consists of computing the numerical feature vectors associated with image regions. Graph modeling stage consists of two main steps. First, extracted image regions that are visually similar will be grouped into clusters using an unsupervised learning algorithm. Each cluster is then associated with a visual concept. The second step generates the spatial relations between the visual concepts. Each image is represented by a visual graph captured from a set of visual concepts and a set of spatial relations among them. Graph retrieval stage is to retrieve images relevant to a new image query. Query graphs are generated following the graph modeling stage. Inspired by the language model for text retrieval, we extend this framework for matching the query graph with the document graphs from the database. Images are then ranked based on the relevance values of the corresponding image graphs. Two instances of the visual graph model have been applied to the problem of scene recognition and robot localization. We performed the experiments on two image collections: one contained 3,849 touristic images and another composed of 3,633 images captured by a mobile robot. The achieved results show that using visual graph model outperforms the standard language model and the Support Vector Machine method by more than 10% in accuracy.

13

Lemaire, Jérôme. "Utilisation de descriptions de haut niveau et gestion de l'incertitude dans un système de reconnaissance de scènes." Toulouse, ENSAE, 1996. http://www.theses.fr/1996ESAE0021.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s'intéresse au problème de reconnaissance de scènes dans un contexte de robotique autonome. La mission de reconnaissance est définie comme l'identification d'un cheminement comprenant des objets et des relations entre ceux-ci (Description de la Scène Attendue) et permettant d'atteindre un objet à manipuler. Dans un premier temps, nous avons proposé un formalisme de représentation et d'exploitation des connaissances proche du langage utilisateur pour une expression relativement naturelle des connaissances et exploitable par le système dans son processus de reconnaissance. Ce formalisme comprend une structure de type graphe et / ou dans lequel les noeuds et les relations sont donnés dans un langage pseudo-naturel basé sur une approche logique permettant la conjonction et la disjonction. Pour la reconnaissance d'objets, nous avons particulièrement approfondi la gestion de l'imprécision et de l'incertitude qui peuvent apparaître aussi bien au niveau des modèles qu'au niveau des données perceptuelles. Une approche basée sur la théorie des possibilités a été retenue. Enfin, la résolution du problème de reconnaissance de scène a été abordée. Ici aussi, la théorie des possibilités est utilisée car elle permet de décrire l'imprécision et l'incertitude à la fois sur les entités perçues et sur les entités attendues. Un aspect important concerne l'étude de l'agrégation des degrés de compatibilité obtenus. Deux algorithmes de résolution ont été mis en oeuvre. Le premier gère le problème de reconnaissance comme un problème d'affectation. Le second est basé sur une formulation de type Satisfaction de Contraintes Flexibles et aborde la reconnaissance comme un problème d'optimisation. Ces deux versions du système de reconnaissance ont été testées sur des scènes d'intérieur comprenant des installations à base de tuyauteries.

14

Tan, Shengbiao. "Contribution à la reconnaissance automatique des images : application à l'analyse de scènes de vrac planaire en robotique." Paris 11, 1987. http://www.theses.fr/1987PA112349.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce mémoire présente une méthode de modélisation et de reconnaissance automatique d'objets partiellement observés. Notre travail se décompose selon trois parties essentielles: le pré-traitement de l'image, la modélisation d'objets, et l'évaluation de la réalisation des concepts énoncés. Au cours de la première partie, nous présentons une méthode de codage de contours basée sur un ré-échantillonnage de données codées selon Freeman, qui génère une représentation isotrope, homogène et très précise. La deuxième partie traite de la modélisation des objets, cette étape très importante permet de faciliter grandement le travail au cours de la reconnaissance. Nous proposons une nouvelle méthode qui consiste à caractériser un modèle par deux groupes d'informations : un groupe descriptif, et un groupe discriminatif, qui contiennent respectivement les primitives et des paquets de données appelés "vecteurs de transition". Cette méthode originale d'organisation d'informations constitue la base d'un "apprentissage relationnel" qui permet de sélectionner, négliger ou remettre à jour automatiquement les informations concernant les objets déjà appris, en fonction des nouvelles informations à inclure dans la base de données. La reconnaissance se déroule en deux - temps : une étape de génération d'hypothèses détermine très efficacement l'occurrence des objets à l'aide de la mise en valeur des particularités propres à chaque modèle, l'autre étape de vérification fine permet de confirmer ou d'infirmer ces hypothèses. La dernière partie décrit en détail les résultats expérimentaux. Nous démontrons la robustesse des algorithmes sur des images d'objets partiellement cachés, relevées dans des conditions difficiles d'éclairage. Le système, baptisé SOFIA, a été installé sur une famille de systèmes de vision industrielle et fonctionne en temps réel
A method for object modeling and overlapped object automatic recognition is presented. Our work is composed of three essential parts: image processing, object modeling, and evaluation, implementation of the stated concepts. In the first part, we present a method of edge encoding which is based on a re-sampling of the data encoded according to Freeman, this method generates an isotropie, homogenous and very precise representation. The second part relates to object modeling. This important step makes much easier the recognition work. The new method proposed characterizes a model with two groups of information : the description group containing the primitives, the discrimination group containing data packs, called "transition vectors". Based on this original method of information organization, a "relative learning" is able to select, to ignore and to update the information concerning the objects already learned, according to the new information to be included into the data base. The recognition is a two - pass process: the first pass determines very efficiently the presence of objects by making use of each object's particularities, and this hypothesis is either confirmed or rejected by the following fine verification pass. The last part describes in detail the experimentation results. We demonstrate the robustness of the algorithms with images in both poor lighting and overlapping objects conditions. The system, named SOFIA, has been installed into an industrial vision system series and works in real time

15

Trujillo, Morales Noel. "Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets." Clermont-Ferrand 2, 2007. http://www.theses.fr/2007CLF21803.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence, à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à "instancier" ce modèle dans la vie courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel" : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up / top-down, reste implicite dans la stratégie globale de reconnaissance. La "focalisation progressive" et la représentation hybride du modèle, permettent de tirer profit des deux types de représentations classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaisssance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution d'une zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons

16

Oliva, Aude. "Perception de scènes : traitement fréquentiel du signal visuel : aspects psychophysiques et neurophysiologiques." Grenoble INPG, 1995. http://www.theses.fr/1995INPG0060.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans le domaine de la reconnaissance de formes, l'identification des scenes est souvent consideree comme l'etape finale d'une reconstruction progressive du stimulus a partir d'attributs locaux tels que les contours des objets. Cependant, notre systeme visuel filtre l'image a differentes resolutions spatiales, qui procurent chacune des informations permettant d'identifier l'image. Dans la premiere partie de notre travail, nous etudions les strategies utilisees par le systeme visuel humain afin de reconnaitre une scene. Dans une seconde partie, nous proposons une voie de recherche possible afin de classer les scenes. Afin de tester les performances humaines, nous proposons une nouvelle methode experimentale, les images hybrides, qui dissocie les frequences spatiales hautes et basses d'une image. Les resultats des experiences montrent que toutes les echelles spatiales sont percues au tout debut du traitement visuel (30 ms). Les interactions entre les contraintes de haut-niveau (types de taches, poids des ressources attentionnelles) et les attributs rendus disponibles par le systeme perceptif, suggerent un encodage flexible de l'echelle spatiale la plus pertinente pour realiser une tache. Plus precisement, une tache de reconnaissance rapide utilise preferentiellement les basses frequences spatiales avant les hautes pour categoriser une scene. Cette analyse coarse-to-fine est observee sur un modele de retine artificielle. D'autres experiences montrent que la pertinence d'une information a une certaine resolution spatiale determine quelle resolution sera utilisee par le systeme. Quelle que soit la resolution spatiale selectionnee, la premiere analyse d'un systeme de vision est de savoir dans quel environnement il se trouve. Nous proposons dans une seconde partie, une strategie de recherche afin de coder les informations pertinentes des scenes. En utilisant les fonctions de gabor et un reseau auto-organisant, nous observons que les categories de scenes peuvent etre differenciees les unes des autres sur la base de quelques attributs disponibles a basse resolution

17

Dexter, Émilie. "Modélisation de l'auto-similarité dans les vidéos : applications à la synchronisation de scènes et à la reconnaissance d'actions." Rennes 1, 2009. ftp://ftp.irisa.fr/techreports/theses/2009/dexter.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous avons abordé dans ces travaux les problématiques de reconnaissance d’actions et de synchronisation de séquences d’images. Nous proposons de calculer les similarités temporelles d'une séquence d’images afin de construire une « matrice d’auto-similarité ». Ces matrices, bien qu’elles ne soient pas strictement invariantes aux changements de vue, sont suffisamment stables lors de ces changements pour fournir des séquences de descripteurs temporels robustes pour la synchronisation et de plus discriminants pour la reconnaissance d’actions. La synchronisation est ensuite réalisée à l’aide de l’algorithme de Dynamic Time Warping. La reconnaissance, quant à elle, fait appel à des stratégies de « sacs-de-mots » afin de représenter les actions comme des ensembles non ordonnés de descripteurs ou comme des histogrammes d’occurrences des descripteurs quantifiés obtenus à l’aide d’un vocabulaire de « mots ». Nous pouvons ensuite appliquer des techniques classiques de classification supervisée. Les méthodes proposées se caractérisent par leur simplicité et leur flexibilité en n’imposant pas, par exemple, l'existence de correspondances de points entre les vues
This PhD work deals with action recognition and image sequence synchronization. We propose to compute temporal similarities of image sequences to build self-similarity matrix. Although these matrices are not strictly view-invariant, they remain stable across views providing temporal descriptors of image sequences useful for synchronization as well as discriminant for action recognition. Synchronization is achieved with a dynamic programming algorithm known as Dynamic Time Warping. We opt for “Bag-of-Features” methods for recognizing actions such as actions are represented either as unordered sets of descriptors or as normalized histograms of quantized descriptor occurrences. Classification is performed by well known classification methods as Nearest Neighbor Classifier or Support Vector Machine. Proposed methods are characterized by their simplicity and flexibility: they do not require point correspondences between views

18

Besbes, Bassem. "Intégration de méthodes de représentation et de classification pour la détection et la reconnaissance d'obstacles dans des scènes routières." Phd thesis, INSA de Rouen, 2011. http://tel.archives-ouvertes.fr/tel-00633109.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s'inscrit dans le contexte de la vision embarquée pour la détection et la reconnaissance d'obstacles routiers, en vue d'application d'assistance à la conduite automobile.A l'issue d'une étude bibliographique, nous avons constaté que la problématique de détection d'obstacles routiers, notamment des piétons, à l'aide d'une caméra embarquée, ne peut être résolue convenablement sans recourir aux techniques de reconnaissance de catégories d'objets dans les images. Ainsi, une étude complète du processus de la reconnaissance est réalisée, couvrant les techniques de représentation,de classification et de fusion d'informations. Les contributions de cette thèse se déclinent principalement autour de ces trois axes.Notre première contribution concerne la conception d'un modèle d'apparence locale basée sur un ensemble de descripteurs locaux SURF (Speeded Up RobustFeatures) représentés dans un Vocabulaire Visuel Hiérarchique. Bien que ce modèle soit robuste aux larges variations d'apparences et de formes intra-classe, il nécessite d'être couplé à une technique de classification permettant de discriminer et de catégoriser précisément les objets routiers. Une deuxième contribution présentée dans la thèse porte sur la combinaison du Vocabulaire Visuel Hiérarchique avec un classifieur SVM.Notre troisième contribution concerne l'étude de l'apport d'un module de fusion multimodale permettant d'envisager la combinaison des images visibles et infrarouges.Cette étude met en évidence de façon expérimentale la complémentarité des caractéristiques locales et globales ainsi que la modalité visible et celle infrarouge.Pour réduire la complexité du système, une stratégie de classification à deux niveaux de décision a été proposée. Cette stratégie est basée sur la théorie des fonctions de croyance et permet d'accélérer grandement le temps de prise de décision.Une dernière contribution est une synthèse des précédentes : nous mettons à profit les résultats d'expérimentations et nous intégrons les éléments développés dans un système de détection et de suivi de piétons en infrarouge-lointain. Ce système a été validé sur différentes bases d'images et séquences routières en milieu urbain.

19

Potelle, Alexis. "Reconnaissance par propagation d'informations dans une structure hiérarchique de tâches organisée par apprentissage : application à l'interprétation de scènes routières." Clermont-Ferrand 2, 1996. http://www.theses.fr/1996CLF21790.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le travail que nous presentons dans ce memoire est une contribution a l'interpretation de scenes routieres. La these decrit deux systemes de vision. Un premier chapitre dresse l'etat de l'art des methodes d'interpretation d'images en vision artificielle. Le second chapitre decrit un systeme d'aide au pilotage temps reel sur autoroute, base sur l'analyse automatique par vision monoculaire monochromatique de la trajectoire d'un vehicule. Il detaille l'algorithme de localisation du vehicule utilise pour determiner la trajectoire du vehicule. Il decrit la methode autorisant l'extraction et l'interpretation des parametres de la trajectoire. Finalement, de nombreux resultats experimentaux sont presentes. Le troisieme chapitre montre les avantages, les inconvenients ainsi que les limites d'un tel systeme dans le cadre de l'application proposee. Il montre qu'il est possible de reformuler le probleme d'une facon differente. Il pose les bases d'une nouvelle approche, plus generale, tenant compte de la coherence globale des informations dans l'image. La methode est basee sur la propagation d'informations dans une structure hierarchique de taches organisee par apprentissage. Le chapitre quatre donne les formalismes des modules de reconnaissance et d'apprentissage. Le nombre, la nature ainsi que l'agencement des taches sont deduits du modele structurel de l'objet a reconnaitre. Chaque tache est en mesure d'apporter une partie de la solution. Les taches cooperent entre-elles par partage d'informations et/ou envoi de messages. Le module d'apprentissage genere la construction d'un modele structurel. Il repose sur la mise a jour de coefficients associes a chaque contrainte du modele. Le dernier chapitre presente les resultats obtenus sur des images de synthese et des images reelles d'objets polyedriques bi-dimensionnels

20

Izquierdo, David. "Contribution au développement d'une architecture générique dédiée au suivi d'objets en télésurveillance : application au suivi de véhicules et de visages." Bordeaux 1, 2004. http://www.theses.fr/2004BOR12889.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse, nous nous intéressons à l'étude des procédés numériques en vue du développement d'un système automatique de suivi multi-objets sur la base d'un flux continu d'images. Le procédé complet proposé décompose la tâche de suivi en une phase de localisation complétée d'une phase de reconnaissance de chacun des objets tout au long de la séquence vidéo. Les outils développés permettent l'analyse des séquences prises à l'aide d'une caméra statique en extérieure. Afin d'assurer la tâche de localisation/reconnaissance au sens de la mise en correspondance nous avons développé les quatre étapes suivantes : - la détection qui est la mise en oeuvre de méthodes de segmentation générant des entrées perceptives permettant d'initialiser le procédé de suivi. Généralement, la primitive caractérisant au mieux les objets est le mouvement, - la reconnaissance qui a pour objectif de comparer les résultats obtenus lors de la phase de détection (bas niveau) à une description haut niveau de l'objet (modèle), - l'estimation qui permet une mise à jour des descripteurs de l'objet, ensemble de caractéristiques définissant le modèle décrivant les objets, - et la prédiction qui prolonge l'évolution de l'objet, notamment, en terme de position. Deux applications, la première consacrée au suivi de véhicules, et la seconde au suivi de visages, vont permettre d'évaluer les performances des méthodes proposées pour chacune des quatre étapes afin de valider le procédé complet.

21

El, Ez Eddine El Dandachy Nancy. "Techniques alternatives de visualisation pour la prise de connaissance de scènes tridimensionnelles." Limoges, 2007. http://aurore.unilim.fr/theses/nxfile/default/b0a2c636-a13a-4923-97ea-cb655a15baeb/blobholder:0/2007LIMO4043.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le développement rapide du domaine de la synthèse d'image, la diffusion de son domaine dans de nombreuses applications et puis grâce au développement des matériels en vitesse et capacité en mémoire permettant ainsi la visualisation de scènes de hauts niveaux, le problème de la compréhension et de la prise des connaissances des scènes tridimensionnelles devient de plus en plus pertinent et compliqué. Depuis le milieu des années 70, pratiquement aucune technique de base nouvelle de visualisation n'a vu le jour. Tous les efforts des chercheurs se sont portés sur les possibilités d'amélioration des techniques déjà existantes soit en réduisant les temps de calcul, soit en réduisant l'encombrement de la mémoire, soit encore en inventant des modèles photométriques plus sophistiqués permettant une meilleure qualité des images obtenues. D'autres chercheurs ont concentré leurs études sur la recherche des méthodes de calcul automatiques de bons points de vue ou à faire une animation tout autour de la scène suivant un chemin qui respecte des règles heuristiques évitant les brusques changements déconcertants l'observateur. Or ces techniques ne sont pas suffisantes pour répondre à toutes les scènes qui peuvent être crées par les matériels actuels. Nous allons donc proposer dans ce mémoire des techniques alternatives basées sur la combinaison des techniques existantes de visualisation afin d'améliorer la compréhension de certaines scènes complexes. Nous allons tout d'abord étudier le cas des scènes tridimensionnelles complexes qui comportent beaucoup de lumières, des miroirs et des objets transparents, produisant ainsi des effets réalistes qui peuvent créer des illusions dues à la présence des ombres, réflexions et réfractions. La présence de ces effets réalistes peut confondre l'utilisateur et l'empêcher de distinguer entre les objets réels de la scène et tout ce qui est illusoire. Pour améliorer la compréhension de ce type des scènes, nous avons proposé une nouvelle méthode qui combine la technique de visualisation réaliste de lancer de rayon avec l'algorithme économique du raffinement sélectif et la méthode de suivi de contour par le code de direction afin de mettre en évidence les objets réels de la scène en détectant leurs contours apparents dans le but de leurs distinguer de leurs réflexions et réfractions. Un autre type de scènes sera introduit dans ce mémoire, celui des scènes qui comportent des objets englobant d'autres objets. Trois nouvelles techniques alternatives seront décrites dans ce mémoire afin d'améliorer la visualisation et la prise de connaissance de ce type de scène. La première tend à visualiser l'objet englobant en mode filiaire alors que l'objet intérieur sera visualisé en mode plein. L'élimination des parties cachées sera réglée par la combinaison de la méthode du z-buffer avec le back facing culling. La deuxième approche tend à créer un trou sur les faces de l'objet englobant faisant ainsi apparaître l'objet intérieur. Deux méthodes sont proposées afin de réaliser ce but. La première est appliquée seulement aux scènes dans lesquelles l'objet englobant en modélisé par des facettes polygonales et elle tend à éliminer les facettes de l'objet englobant qui cachent l'objet intérieur. La deuxième peut être appliquée à n'importe quelle modélisation de scène et elle tend tout d'abord à visualiser les deux objets: l'objet englobant et l'objet intérieur, puis d'assombrir les pixels proportionnels à la silhouette de l'objet intérieur et orthogonaux dirigés vers l'extérieur de l'objet intérieur
The fast development of the image synthesis domain, the spread of this domain in lot of applications and then because of the development of PCs in speed and memory capacities, the problem of scene understanding and extracting knowledge is becoming more and more pertinent and complicated. Since the half of the seventies, practically no new basic techniques of visualization were invented. All the researchers’ efforts were focused on the possibility of the enhancement of existent techniques whether by reducing the time of computations, or by inventing photometric models more sophisticated allowing the obtaining of better image quality. Other researchers have turned their attention to search for methods that compute automatically a good point of view position or do an automatic animation around the scene following a path that respect heuristic rules in order to avoid brusque changes that might disconcert the observer. However, these techniques aren't sufficient to resolve the problem of the visualization of all type of scenes created by the PCs so developed nowadays. We are going to propose in this thesis alternative techniques which are based on the combination of existent visualization techniques in order to enhance the understanding of complex scenes. We are going first to study the case of three-dimensional complex scene that contain lot of lights, mirrors and transparent objects which produce realistic effects that might create illusions due of the presence of shadows, reflections and refractions. The presence of these realistic effects might confuse the observer and prevent him to distinguish between real objects of the scene and illusions. In order to enhance the understanding of this type of scenes, we have proposed a new method that combine between the ray tracing realistic technique of visualization with the selective refinement improvement algorithm and the followed contour technique by the code direction method, in order to underline the real objects of the scene by detecting their apparent contours so that we will be able to distinguish them from their reflexions and refractions. Another type of scenes will be introduced in this thesis, scenes which contain objects that include other objects. Three new alternative techniques will be described in order to enhance the visualization end the taking knowledge of this type of scene. The first one leads to visualize the exterior object on wireframe mode while the interior one will be visualized in fill mode. The elimination of hidden surfaces will be regulated by the combination of the z-buffer method with the back facing culling technique. The second approach leads to create a hole on the surface of the exterior object in order to show the interior one. Two methods will be proposed in order to achieve this project. The first one is applied only for scenes where exterior objects are modeled by a polygonal mesh and leads to eliminate the exterior faces which hide the interior object. The second method can be applied to any scene model and leads first to visualize both objects: the exterior and the interior one, and then make darken the pixels which are proportional and orthogonal to the silhouette of the interior object oriented to the outside of the interior object

22

Song, Jianming. "Contribution à l'étude de la reconnaissance des objets 2-D partiellement visibles." Compiègne, 1988. http://www.theses.fr/1988COMPD127.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans le cadre de la reconnaissance des objets par ordinateur, deux méthodes de reconnaissance ont été étudiées. L'une s'oriente vers les techniques globales en utilisant des attributs globaux d'objets. L'autre est fondée sur l'utilisation des primitives locales. Notre objectif est de développer des méthodes efficaces et capables de traiter un nombre important d'objets différents. L'utilisation d'un arbre de décision pour la classification d'objets, la détection de contour de recouvrement ainsi que la vérification de la séquentialité des primitives locales caractérisent les méthodes proposées. Les problèmes concernant les traitements de bas niveau, la représentation des objets, ainsi que l'apprentissage des modèles, ont été également discutés
The problem of recognizing 2D objects from a partially occluded boundary image is considered. Two methods have been proposed which are respectively global-feature-based and local-feature-based. Effort is made to develop an efficient method, capable of recognizing a large number of different objects. The proposed methods are characterized by the use of a decision tree for object classification, the overlapping contour detection and the technique of local feature sequencing. The implementation problems such as the image processing, the object representation as well as the model training are also mentioned in this paper

23

Pusiol, Guido. "Découverte des activités humaines dans des vidéos." Nice, 2012. http://www.theses.fr/2012NICE4036.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’objectif principal de cette thèse est de proposer un système complet pour la découverte, la modélisation et la reconnaissance des activités humaines en utilisant des informations provenant de données vidéo. Cette approche utilise l’information visuelle (les trajectoires des objets détectés par exemple) en entrée et donne en sortie les activités (la sémantique). L’approche est divisée en cinq étapes principales. Tout d’abord, nous découpons la vidéo en morceaux pour caractériser les activités. Nous proposons différentes techniques pour extraire les caractéristiques visuelles de ces morceaux. De cette façon, nous construisons un ensemble de caractéristiques visuelles capables de décrire l’activité se produisant sur une courte période de temps. Deuxièmement, nous proposons d’apprendre l’information contextuelle de la scène observée. Nous construisons des modèles de la scène en apprenant les caractéristiques visuelles les plus significatives. Les modèles sont des régions contenant des activités intéressantes capables de décrire une sémantique de base (les régions où les interactions se produisent). Troisièmement, nous proposons de réduire le fossé entre l’information visuelle de bas niveau et l’interprétation sémantique des données, en construisant une couche intermédiaire composée d’événements primitifs. Ces événements visent à décrire les mouvements significatifs des objets de la scène. Ce résultat est obtenu en abstrayant les caractéristiques visuelles et en s’appuyant sur l’information contextuelle de manière non supervisée. Quatrièmement, nous proposons une méthode basée sur des modèles pour découvrir les activités à de multiples résolutions (à savoir les activités et leurs sous-activités). En outre, nous proposons une méthode générative pour modéliser les activités à différentes résolutions. Les modèles sont construits comme un cadre souple probabiliste facile à mettre à jour. Enfin, nous proposons une méthode de reconnaissance des activités qui trouve de manière déterministe les occurrences d’activités modélisées dans de nouvelles bases de vidéos. La sémantique est fournie grâce à l’interaction de l’utilisateur sur quelques exemples d’activités reconnues. Ce travail de recherche a évalué à l’aide de données réelles de personnes évoluant dans un appartement (soins à domicile) et de patients âgés dans un hôpital
The main objective of this thesis is to propose a complete framework for activity discovery, modelling and recognition using video information. The framework uses perceptual information (e. G. Trajectories) as input and goes up to activities (semantics). The framework is divided into five main parts. First, we break the video into clunks to characterize activities. We propose different techniques to extract perceptual features from the chunks. This way, we build packages of perceptual features capable to describing activity occurring in small periods of time. Second, we propose to learn the video contextual information. We build scene models by learning salient perceptual features. The model ends up containing interesting scene regions capable of describing basic semantics (i. E. Region where interactions occur). Third, we propose to reduce the gap between low-level vision information and semantic interpretation, by building an intermediate layer composed of Primitive Events. The proposed representation for primitive events aims at describing the meaningful motions over the scene. This is achieved by abstracting perceptual features using contextual information in an unsupervised manner. Fourth, we propose a pattern – based method to discover activities at multiple resolutions (i. E. Activities and sub-activities). Also, we propose a generative method to model multi-resolution activities. The models are built as a flexible probabilistic framework easy to update. Finally, we propose an activity recognition method that finds in a deterministic manner the occurrences of modelled activities in unseen datasets. Semantics are provided by the method under interaction. All this research work has been evaluated using real datasets of people living in an apartment (home-care application) and elder patient’s ion a hospital

24

Bąk, Slawomir. "Human re-identification through a video camera network." Nice, 2012. http://www.theses.fr/2012NICE4040.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce manuscrit de thèse a pour sujet la ré-identification de personne basée sur leur apparence à partir d’images et de vidéos. La ré-identification de personne consiste à déterminer si un individu donné est déjà apparu sur un réseau de caméras. Ce problème est particulièrement difficile car l’apparence change significativement entre les différentes vues de caméras, où les variations de points de vue, d’illumination et de position de l’objet, rendent le problème difficile. Nous nous concentrons sur le développement de modèles d’apparence robustes quoi sont en mesure de faire correspondre les apparences humaines enregistrées dans des vues de caméra disjointes. Comme la représentation de régions d’image est fondamentale pour la mise en correspondance d’apparence, nous étudions différents types de descripteurs d’images. Ces différents descripteurs impliquent des stratégies différentes pour la mise ne correspondance d’apparence, impliquant des modèles différents pour la représentation des apparences de personne. En appliquant des techniques d’apprentissage automatique, nous générons des modèles descriptifs et discriminatoires, qui améliorent la distinction des caractéristiques extraites, améliorant ainsi la précision de ré-identification. Cette thèse a les contributions suivantes. Nous proposons six techniques de ré-identification humaine. Les deux premières appartiennent aux approches single-shot, dans lesquelles une seule image est suffisante pour extraire un signature fiable de personne. Ces approches divisent le corps humain en différentes parties de corps prédéfinies, puise extraient les caractéristiques de l’image. Cela permet de mettre en correspondance les différentes parties du corps en comparant les signatures. Les quatre autres méthodes abordent le problème de ré-identification à l’aide de signatures calculées à partir de plusieurs images (multiple-shot). Nous proposons deux techniques qui apprennent en ligne le modèle d’apparence humaine en utilisant un schéma de boosting. Les approches de boosting améliorent la précision de la reconnaissance, au détriment du temps de calcul. Les deux dernières approches assument un modèle prédéfini, ou un apprentissage hors-ligne des modèles, pour réduire le temps de calcul. Nous constatons que le descripteur de covariance est en général le meilleur descripteur pour la mise en correspondance des apparences dans des vues de caméras disjointes. Comme l’opérateur de distance de ce descripteur nécessite un calcul intensif, nous proposons également une nouvelle implémentation utilisant le GPU qui accélère considérablement les temps de calcul. Nos expériences suggèrent que la moyenne Riemannienne des covariances calculée à partir de plusieurs images améliore les performances par rapport aux techniques de ré-identification de personne de l’état de l’art. Enfin, nous proposons deux nouvelles bases d’images d’individus pour évaluer le scénario multiple-shot
This thesis targets the appearance-based re-identification of humans in images and videos. Human re-identification is defined as a requirement to determine whether a given individual has already appeared over a network of cameras. This problem is particularly hard by significant appearance changes across different camera views, where variations in viewing angle, illumination and object pose, make the problem challenging. We focus on developing robust appearance models that are able to match human appearances registered in disjoint camera views. As encoding of image regions is fundamental for appearance matching, we study different kinds of image descriptors. These different descriptors imply different strategies for appearance matching, bringing different models for the human appearance representation. By applying machine learning techniques, we generate descriptive and discriminative models, which enhance distinctive characteristics of extracted features, improving re-identification accuracy. This thesis makes the following contributions. We propose six techniques for human re-identification. The first two belong to single-shot approaches, in which a single image is sufficient to extract a robust signature. These approaches divide the human body into the predefined body parts and then extract image features. This allows to establish the corresponding body parts, while comparing signatures. The remaining four methods address the re-identification problem using signatures computed from multiple images (multiple-shot case). We propose two techniques which learn online the human appearance model using a boosting scheme. The boosting approaches improve recognition accuracy at the expense of time consumption. The last two approaches either assume the predefined model, or learn offline a model, to meet time requirements. We find that covariance feature is in general the best descriptor for matching appearances across disjoint camera views. As a distance operator of this descriptor is computationally intensive, we also propose a new GPU-based implementation which significantly speeds up computations. Our experiments suggest that mean Riemannian covariance computed from multiple images improves state of the art performance of human re-identification techniques. Finally, we extract two new image sets of individuals for evaluating the multiple-shot scenario

25

Yang, Di. "Apprendre des représentations vidéo efficaces pour la reconnaissance d'actions." Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4000.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La reconnaissance des actions humaines est un domaine de recherche actif avec d'importantes contributions dans des applications telles que la surveillance à domicile, l'interaction homme-machine et le contrôle de jeux. Cependant, la reconnaissance des activités humaines dans des vidéos du monde réel reste un défi en matière d'apprentissage de représentations vidéo efficaces qui ont un pouvoir expressif élevé pour représenter le mouvement spatio-temporel humain, les actions invariantes par rapport à la vue, les actions complexes composables, etc. Pour relever ce défi, cette thèse apporte trois contributions à l'apprentissage de telles représentations vidéo efficaces. Les représentations apprises peuvent être appliquées et évaluées dans des tâches de classification et de segmentation d'actions humaines du monde réel par apprentissage par transfert. La première contribution vise à améliorer la généralisabilité des modèles de représentation du mouvement du squelette humain. Nous proposons un cadre unifié pour la reconnaissance des actions humaines du monde réel basée sur le squelette. Le cadre comprend un modèle de squelette novateur qui apprend efficacement des caractéristiques spatio-temporelles sur des séquences de squelette humain et généralise également entre les ensembles de données. De plus, le cadre introduit un ensemble de données de pré-entraînement novateur à grande échelle pour améliorer les représentations du squelette et bénéficier de l'apprentissage par transfert dans les tâches ultérieures de reconnaissance d'actions. La deuxième contribution étend le cadre proposé en introduisant deux nouveaux modèles d'apprentissage de la génération d'actions et de représentation conjointe du squelette pour différentes tâches ultérieures. La première méthode est un autoencodeur invariant à la vue pour l'apprentissage de la représentation d'actions du squelette en auto-supervisé, qui peut traiter de grandes variations entre les sujets et les points de vue de la caméra. La deuxième méthode est un cadre auto-supervisé pour l'apprentissage à partir de mouvements composables synthétisés pour la segmentation des actions basées sur le squelette. La troisième contribution porte sur la reconnaissance d'actions vidéo basée sur RGB générale. Plus précisément, une stratégie d'apprentissage par contraste paramétré par le temps est proposée. Elle capture les mouvements liés au temps pour améliorer la performance de la classification d'actions dans des tâches fines et orientées vers l'humain. Les résultats expérimentaux sur des ensembles de données de référence montrent que les approches proposées atteignent des performances de pointe dans les tâches de classification et de segmentation d'actions. Les modèles proposés améliorent la précision et l'interprétabilité de la reconnaissance des activités humaines et fournissent des informations sur la structure sous-jacente et la dynamique des actions humaines dans les vidéos. En fin de compte, cette thèse contribue au domaine de la compréhension des vidéos en proposant des méthodes novatrices pour l'apprentissage de la représentation d'actions basées sur le squelette et pour l'apprentissage de la représentation de vidéos RVB générales. De telles représentations bénéficient à la fois de la classification et de la segmentation d'actions
Human action recognition is an active research field with significant contributions to applications such as home-care monitoring, human-computer interaction, and game control. However, recognizing human activities in real-world videos remains challenging in learning effective video representations that have a high expressive power to represent human spatio-temporal motion, view-invariant actions, complex composable actions, etc. To address this challenge, this thesis makes three contributions towards learning such effective video representations that can be applied and evaluated on real-world human action classification and segmentation tasks by transfer-learning. The first contribution is to improve the generalizability of human skeleton motion representation models. We propose a unified framework for real-world skeleton human action recognition. The framework includes a novel skeleton model that not only effectively learns spatio-temporal features on human skeleton sequences but also generalizes across datasets. The second contribution extends the proposed framework by introducing two novel joint skeleton action generation and representation learning frameworks for different downstream tasks. The first is a self-supervised framework for learning from synthesized composable motions for skeleton-based action segmentation. The second is a View-invariant model for self-supervised skeleton action representation learning that can deal with large variations across subjects and camera viewpoints. The third contribution targets general RGB-based video action recognition. Specifically, a time-parameterized contrastive learning strategy is proposed. It captures time-aware motions to improve performance of action classification in fine-grained and human-oriented tasks. Experimental results on benchmark datasets demonstrate that the proposed approaches achieve state-of-the-art performance in action classification and segmentation tasks. The proposed frameworks improve the accuracy and interpretability of human activity recognition and provide insights into the underlying structure and dynamics of human actions in videos. Overall, this thesis contributes to the field of video understanding by proposing novel methods for skeleton-based action representation learning, and general RGB video representation learning. Such representations benefit both action classification and segmentation tasks

26

Mahiddine, Amine. "Recalage hétérogène pour la reconstruction 3D de scènes sous-marines." Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4027/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le relevé et la reconstruction 3D de scènes sous-marine deviennent chaque jour plus incontournable devant notre intérêt grandissant pour l’étude des fonds sous-marins. La majorité des travaux existants dans ce domaine sont fondés sur l’utilisation de capteurs acoustiques l’image n’étant souvent qu’illustrative.L’objectif de cette thèse consiste à développer des techniques permettant la fusion de données hétérogènes issues d’un système photogrammétrique et d’un système acoustique.Les travaux présentés dans ce mémoire sont organisés en trois parties. La première est consacrée au traitement des données 2D afin d’améliorer les couleurs des images sous-marines pour augmenter la répétabilité des descripteurs en chaque point 2D. Puis, nous proposons un système de visualisation de scène en 2D sous forme de mosaïque.Dans la deuxième partie, une méthode de reconstruction 3D à partir d’un ensemble non ordonné de plusieurs images a été proposée. Les données 3D ainsi calculées seront fusionnées avec les données provenant du système acoustique dans le but de reconstituer le site sous-marin.Dans la dernière partie de ce travail de thèse, nous proposons une méthode de recalage 3D originale qui se distingue par la nature du descripteur extrait en chaque point. Le descripteur que nous proposons est invariant aux transformations isométriques (rotation, transformation) et permet de s’affranchir du problème de la multi-résolution. Nous validons à l’aide d’une étude effectuée sur des données synthétiques et réelles où nous montrons les limites des méthodes de recalages existantes dans la littérature. Au final, nous proposons une application de notre méthode à la reconnaissance d’objets 3D
The survey and the 3D reconstruction of underwater become indispensable for our growing interest in the study of the seabed. Most of the existing works in this area are based on the use of acoustic sensors image.The objective of this thesis is to develop techniques for the fusion of heterogeneous data from a photogrammetric system and an acoustic system.The presented work is organized in three parts. The first is devoted to the processing of 2D data to improve the colors of the underwater images, in order to increase the repeatability of the feature descriptors. Then, we propose a system for creating mosaics, in order to visualize the scene.In the second part, a 3D reconstruction method from an unordered set of several images was proposed. The calculated 3D data will be merged with data from the acoustic system in order to reconstruct the underwater scene.In the last part of this thesis, we propose an original method of 3D registration in terms of the nature of the descriptor extracted at each point. The descriptor that we propose is invariant to isometric transformations (rotation, transformation) and addresses the problem of multi-resolution. We validate our approach with a study on synthetic and real data, where we show the limits of the existing methods of registration in the literature. Finally, we propose an application of our method to the recognition of 3D objects

27

De, Mezzo Benoît. "Reconnaissance d'objets par la génération d'hypothèses de modèles de forme appliquée à l'extraction des feuilles de plantes dans des scènes naturelles complexes." Montpellier 2, 2004. http://www.theses.fr/2004MON20153.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

28

Minetto, Rodrigo. "Reconnaissance de zones de texte et suivi d'objets dans les images et les vidéos." Paris 6, 2012. http://www.theses.fr/2012PA066108.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse, nous abordons trois problèmes de vision par ordinateur: (1) la détection et la reconnaissance d'objets de texte dans des images de scènes réelles; (2) le suivi de ces objets de texte dans une vidéo numérique, et (3) le suivi d'objets 3D rigides et arbitraires avec des amers connus dans une vidéo numérique. Pour chaque problème, nous avons développé des algorithmes innovants, qui sont au moins aussi précis et robustes que les algorithmes de l'état de l’art. Plus précisément, pour la reconnaissance de texte, nous avons développé (et largement évalué) un nouveau descripteur basé sur HOG, et dédié au traitement du texte Roman, baptisé T-HOG. Nous avons montré sa valeur en tant que post-filtre pour un détecteur de texte existant (SnooperText). Nous avons également amélioré l’algorithme SnooperText en développant une approche multi-échelle pour traiter des caractères de taille très différentes tout en limitant la sensibilité de l'algorithme aux différents artéfacts. Pour le suivi des objets de textes, nous avons décrit quatre manières de combiner la détection et le suivi, et nous avons développé un tracker particulier, basé sur un filtre particulaire exploitant le T-HOG. Pour le suivi des objets rigides, nous avons développé un nouvel algorithme précis et robuste (AFFTRACK) qui combine le KLT tracker avec une calibration améliorée de la caméra. Nous avons largement testé nos algorithmes sur plusieurs bases de données de la littérature. Nous avons également créé plusieurs bases de données (publiquement disponibles) pour l’évaluation des algorithmes de détection, suivi de textes et de suivi d'objets rigides dans les vidéos
In this thesis we address three computer vision problems: (1) the detection and recognition of flat text objects in images of real scenes; (2) the tracking of such text objects in a digital video; and (3) the tracking an arbitrary three-dimensional rigid object with known markings in a digital video. For each problem we developed innovative algorithms, which are at least as accurate and robust as other state-of-the-art algorithms. Specifically, for text recognition we developed (and extensively evaluated) a new HOG-based descriptor specialized for Roman script, which we call T-HOG, and showed its value as a post-filter for an existing text detector (SnooperText). We also improved the SnooperText algorithm by using the multi-scale technique to handle widely different letter sizes while limiting the sensitivity of the algorithm to various artifacts. For text tracking, we describe four basic ways of combining a text detector and a text tracker, and we developed a specific tracker based on a particle-filter which exploits the T-HOG recognizer. For rigid object tracking we developed a new accurate and robust algorithm (AFFTrack) that combines the KLT feature tracker with an improved camera calibration procedure. We extensively tested our algorithms on several benchmarks well-known in the literature. We also created benchmarks (publicly available) for the evaluation of text detection and tracking and rigid object tracking algorithms

29

Dahyot, Rozenn. "Analyse d'images séquentielles de scènes routières par modèle d'apparence pour la gestion du réseau routier." Université Louis Pasteur (Strasbourg) (1971-2008), 2001. https://publication-theses.unistra.fr/public/theses_doctorat/2001/DAHYOT_Rozenn_2001.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

30

Deléarde, Robin. "Configurations spatiales et segmentation pour la compréhension de scènes, application à la ré-identification." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7020.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La modélisation de la configuration spatiale des objets d’une image est un sujet encore peu abordé à ce jour, y compris dans les approches les plus modernes de vision par ordinateur comme les réseaux convolutionnels (CNN). Pourtant, il s’agit d’un aspect essentiel de la perception des scènes, et l’intégrer dans les modélisations devrait bénéficier à de nombreuses tâches du domaine, en contribuant à combler le "fossé sémantique" entre l’image numérique et l’interprétation de son contenu. Ainsi, cette thèse a pour objet l’amélioration des techniques de modélisation de la configuration spatiale, afin de l’exploiter dans des systèmes de description et de reconnaissance. Dans un premier temps, nous nous sommes penchés sur le cas de la configuration spatiale entre deux objets, en proposant une amélioration d’un descripteur existant. Ce nouveau descripteur appelé "bandeau de forces" est une extension de l’histogramme du même nom à tout un panel de forces, ce qui permet de mieux décrire les configurations complexes. Nous avons pu montrer son intérêt pour la description de scènes, en apprenant à classifier automatiquement des relations en langage naturel à partir de paires d’objets segmentés. Nous avons alors abordé la problématique du passage à des scènes comportant plusieurs objets, proposant une approche par objet en confrontant chaque objet à l’ensemble des autres, plutôt qu’en ayant un descripteur par paire. Dans un second temps, le contexte CIFRE nous a amenés à traiter une application au problème de la ré-identification de scènes ou d’objets, tâche qui s’apparente à la reconnaissance fine à partir de peu d’exemples. Pour cela, nous nous basons sur une approche traditionnelle en décrivant les constituants de la scène par différents descripteurs dédiés à des caractéristiques spécifiques, comme la couleur ou la forme, auxquelles nous ajoutons la configuration spatiale. La comparaison de deux scènes se fait alors en appariant leurs constituants grâce à ces caractéristiques, en utilisant par exemple l’algorithme hongrois. Différentes associations de caractéristiques peuvent être considérées pour l’appariement et pour le calcul du score final, selon les invariances présentes et recherchées. Pour chacun de ces deux sujets, nous avons été confrontés aux problèmes des données et de la segmentation. Nous avons alors généré et annoté un jeu de données synthétiques, et exploité deux jeux de données existants en les segmentant, dans deux cadres différents. La première approche concerne la segmentation objet-fond et se place dans le cas où une détection est disponible, ce qui permet d’aider la segmentation. Elle consiste à utiliser un modèle existant de segmentation globale, puis à exploiter la détection pour sélectionner le bon segment, à l’aide de plusieurs critères géométriques et sémantiques. La seconde approche concerne la décomposition d’une scène ou d’un objet en parties et se place dans le cas non supervisé. Elle se base alors sur la couleur des pixels, en utilisant une méthode par clustering dans un espace de couleur adapté, comme le cône HSV que nous avons utilisé. Tous ces travaux ont permis de montrer la possibilité d’utiliser la configuration spatiale pour la description de scènes réelles contenant plusieurs objets, ainsi que dans une chaîne de traitements complexe comme celle utilisée pour la ré-identification. En particulier, l’histogramme de forces a pu être utilisé pour cela, ce qui permet de profiter de ses bonnes performances, en utilisant une méthode de segmentation adaptée au cas d’usage pour traiter des images naturelles
Modeling the spatial configuration of objects in an image is a subject that is still little discussed to date, including in the most modern computer vision approaches such as convolutional neural networks ,(CNN). However, it is an essential aspect of scene perception, and integrating it into the models should benefit many tasks in the field, by helping to bridge the “semantic gap” between the digital image and the interpretation of its content. Thus, this thesis aims to improve spatial configuration modeling ,techniques, in order to exploit it in description and recognition systems. ,First, we looked at the case of the spatial configuration between two objects, by proposing an improvement of an existing descriptor. This new descriptor called “force banner” is an extension of the histogram of the same name to a whole range of forces, which makes it possible to better describe complex configurations. We were able to show its interest in the description of scenes, by learning toautomatically classify relations in natural language from pairs of segmented objects. We then tackled the problem of the transition to scenes containing several objects and proposed an approach per object by confronting each object with all the others, rather than having one descriptor per pair. Secondly, the industrial context of this thesis led us to deal with an application to the problem of re-identification of scenes or objects, a task which is similar to fine recognition from few examples. To do so, we rely on a traditional approach by describing scene components with different descriptors dedicated to specific characteristics, such as color or shape, to which we add the spatial configuration. The comparison of two scenes is then achieved by matching their components thanks to these characteristics, using the Hungarian algorithm for instance. Different combinations of characteristics can be considered for the matching and for the final score, depending on the present and desired invariances. For each one of these two topics, we had to cope with the problems of data and segmentation. We then generated and annotated a synthetic dataset, and exploited two existing datasets by segmenting them, in two different frameworks. The first approach concerns object-background segmentation and more precisely the case where a detection is available, which may help the segmentation. It consists in using an existing global segmentation model and exploiting the detection to select the right segment, by using several geometric and semantic criteria. The second approach concerns the decomposition of a scene or an object into parts and addresses the unsupervised case. It is based on the color of the pixels, by using a clustering method in an adapted color space, such as the HSV cone that we used. All these works have shown the possibility of using the spatial configuration for the description of real scenes containing several objects, as well as in a complex processing chain such as the one we used for re-identification. In particular, the force histogram could be used for this, which makes it possible to take advantage of its good performance, by using a segmentation method adapted to the use case when processing natural images

31

Bey, Aurélien. "Reconstruction de modèles CAO de scènes complexes à partir de nuages de points basés sur l’utilisation de connaissances a priori." Thesis, Lyon 1, 2012. http://www.theses.fr/2012LYO10103/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Certaines opérations de maintenance sur sites industriels nécessitent une planification à partir de modèles numériques 3D des scènes où se déroulent les interventions. Pour permettre la simulation de ces opérations, les modèles 3D utilisés doivent représenter fidèlement la réalité du terrain. Ces représentations virtuelles sont habituellement construites à partir de nuages de points relevés sur le site, constituant une description métrologique exacte de l’environnement sans toutefois fournir une description géométrique de haut niveau.Il existe une grande quantité de travaux abordant le problème de la reconstruction de modèles 3D à partir de nuages de points, mais peu sont en mesure de fournir des résultats suffisamment fiables dans un contexte industriel et cette tâche nécessite en pratique l’intervention d’opérateurs humains.Les travaux réalisés dans le cadre de cette thèse visent l’automatisation de la reconstruction,avec comme principal objectif la fiabilité des résultats obtenus à l’issu du processus. Au vu de la complexité de ce problème, nous proposons d’exploiter des connaissances et données a priori pour guider la reconstruction. Le premier a priori concerne la compositiondes modèles 3D : en Conception Assistée par Ordinateur (CAO), les scènes industrielles sont couramment décrites comme des assemblages de primitives géométriques simples telles que les plans, sphères, cylindres, cônes, tores, etc. Nous hiérarchisons l’analyse en traitant dans un premier temps les plans et les cylindres, comme un préalable à la détection de stores. On obtient ainsi une description fiable des principaux composants d’intérêt dans les environnements industriels. Nous proposons en outre d’exploiter un certain nombre de règles régissant la manière dont ces primitives s’assemblent en un modèle CAO, basées surdes connaissances ”métier” caractérisant les scènes industrielles que nous traitons. De plus,nous tirons parti d’un modèle CAO existant d´ecrivant une scène similaire à celle que nous souhaitons reconstruire, provenant typiquement de la reconstruction antérieure d’un site semblable au site d’intérêt. Bien que semblables en théorie, ces scènes peuvent présenterdes différences significatives qui s’accentuent au cours de leur exploitation.La méthode que nous développons se fonde sur une formulation Bayésienne du problème de reconstruction : il s’agit de retrouver le modèle CAO le plus probable vis à visdes différentes attentes portées par les données et les a priori sur le modèle à reconstruire. Les diverses sources d’a priori s’expriment naturellement dans cette formulation. Pour permettre la recherche du modèle CAO optimal, nous proposons une approche basée surdes tentatives d’insertion d’objets générés aléatoirement. L’acceptation ou le rejet de ces objets repose ensuite sur l’am´elioration systématique de la solution en cours de construction. Le modèle CAO se construit ainsi progressivement, par ajout et suppression d’objets, jusqu’à obtention d’une solution localement optimale
3D models are often used in order to plan the maintenance of industrial environments.When it comes to the simulation of maintenance interventions, these 3D models have todescribe accurately the actual state of the scenes they stand for. These representationsare usually built from 3D point clouds that are huge set of 3D measurements acquiredin industrial sites, which guarantees the accuracy of the resulting 3D model. Althoughthere exists many works addressing the reconstruction problem, there is no solution toour knowledge which can provide results that are reliable enough to be further used inindustrial applications. Therefore this task is in fact handled by human experts nowadays.This thesis aims at providing a solution automating the reconstruction of industrialsites from 3D point clouds and providing highly reliable results. For that purpose, ourapproach relies on some available a priori knowledge and data about the scene to beprocessed. First, we consider that the 3D models of industrial sites are made of simpleprimitive shapes. Indeed, in the Computer Aided Design (CAD) field, this kind of scenesare described as assemblies of shapes such as planes, spheres, cylinders, cones, tori, . . . Ourown work focuses on planes, cylinders and tori since these three kind of shapes allow thedescription of most of the main components in industrial environment. Furthermore, weset some a priori rules about the way shapes should be assembled in a CAD model standingfor an industrial facility, which are based on expert knowledge about these environments.Eventually, we suppose that a CAD model standing for a scene which is similar to theone to be processed is available. This a priori CAO model typically comes from the priorreconstruction of a scene which looks like the one we are interested in. Despite the factthat they are similar theoretically, there may be significant differences between the sitessince each one has its own life cycle.Our work first states the reconstruction task as a Bayesian problem in which we haveto find the most probable CAD Model with respect to both the point cloud and the a prioriexpectations. In order to reach the CAD model maximizing the target probability, wepropose an iterative approach which improves the solution under construction each time anew randomly generated shape is tried to be inserted in it. Thus, the CAD model is builtstep by step by adding and removing shapes, until the algorithm gets to a local maximumof the target probability

32

Kulikova, Maria. "Shape recognition for image scene analysis." Nice, 2009. http://www.theses.fr/2009NICE4081.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse englobe deux parties principales. La première partie est dédiée au problème de la classification d’espèces d’arbres en utilisant des descripteurs de forme, en combinant ou non, avec ceux de radiométrie ou de texture. Nous montrons notamment que l’information sur la forme améliore la performance d’un classifieur. Pour cela, dans un premier temps, une étude des formes de couronnes d’arbres extraites à partir d’images aériennes fermées dans un espace de formes, en utilisant la notion de chemin géodésique sous deux métriques dans des espaces appropriés : une métrique non-élastique en utilisant la représentation par la fonction d’angle de la courbe, ainsi qu’une métrique élastique induite par une représentation par la racine carrée appelée q-fonction. Une étape préliminaire nécessaire à la classification est l’extraction des couronnes d’arbre. Dans une seconde partie nous abordons donc le problème de l’extraction d’objets à forme complexe arbitraire à partir des images de télédétection de très haute résolution. Nous construisons un modèle fondé sur les processus ponctuels marqués. Son originalité tient dans sa prise en compte d’objets à forme arbitraire par rapport aux objets à forme paramétrique, e. G. Ellipses ou rectangles. Les formes sélectionnées sont obtenues par la minimisation locale d’une énergie de type contours actifs avec différents a priori sur la forme incorporée. Les objets de la configuration finale sont ensuite sélectionnés parmi les candidats par une dynamique de naissances et morts multiple, couplée à un schéma de recuit simulé. L’approche est validée sur des images de zones forestières à très haute résolution fournies par l’Université d’Agriculture en Suède
This thesis includes two main parts. In the first part we address the problem of tree crown classification into species using shape features, without, or in combination with, those of radiometry and texture, to demonstrate that shape information improves classification performance. For this purpose, we first study the shapes of tree crowns extracted from very high resolution aerial infra-red images. For our study, we choose a methodology based on the shape analysis of closed continuous curves on shape spaces using geodesic paths under the bending metric with the angle function curve representation, and the elastic metric with the square root q-function representation? A necessary preliminary step to classification is extraction of the tree crowns. In the second part, we address thus the problem of extraction of multiple objects with complex, arbitrary shape from remote sensing images of very high resolution. We develop a model based on marked point process. Its originality lies on its use of arbitrarily-shaped objects as opposed to parametric shape objects, e. G. Ellipses or rectangles. The shapes considered are obtained by local minimisation of an energy of contour active type with weak and the strong shape prior knowledge included. The objects in the final (optimal) configuration are then selected from amongst these candidates by a birth-and-death dynamics embedded in an annealing scheme. The approach is validated on very high resolutions of forest provided by the Swedish University of Agriculture

33

Vaquette, Geoffrey. "Reconnaissance robuste d'activités humaines par vision." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS090.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse porte sur la segmentation supervisée d'un flux vidéo en fragments correspondant à des activités de la vie quotidienne. En différenciant geste, action et activité, cette thèse s'intéresse aux activités à haut niveau sémantique telles que "Cuisiner" ou "Prendre son repas" par opposition à des actions comme "Découper un aliment". Pour cela, elle s'appuie sur l'algorithme DOHT (Deeply Optimized Hough Transform), une méthode de l'état de l'art utilisant un paradigme de vote (par transformée de Hough). Dans un premier temps, nous adaptons l'algorithme DOHT pour fusionner les informations en provenance de différents capteurs à trois niveaux différents de l'algorithme. Nous analysons l'effet de ces trois niveaux de fusion et montrons son efficacité par une évaluation sur une base de données composée d'actions de la vie quotidienne. Ensuite, une étude des jeux de données existant est menée. Constatant le manque de vidéos adaptées à la segmentation et classification (détection) d'activités à haut niveau sémantique, une nouvelle base de données est proposée. Enregistrée dans un environnement réaliste et dans des conditions au plus proche de l'application finale, elle contient des vidéos longues et non découpées adaptées à un contexte de détection. Dans un dernier temps, nous proposons une approche hiérarchique à partir d'algorithmes DOHT pour reconnaître les activités à haut niveau sémantique. Cette approche à deux niveaux décompose le problème en une détection non-supervisée d'actions pour ensuite détecter les activités désirées
This thesis focuses on supervised activity segmentation from video streams within application context of smart homes. Three semantic levels are defined, namely gesture, action and activity, this thesis focuses mainly on the latter. Based on the Deeply Optimized Hough Transform paridigm, three fusion levels are introduced in order to benefit from various modalities. A review of existing action based datasets is presented and the lack of activity detection oriented database is noticed. Then, a new dataset is introduced. It is composed of unsegmented long time range daily activities and has been recorded in a realistic environment. Finaly, a hierarchical activity detection method is proposed aiming to detect high level activities from unsupervised action detection

34

Lefèvre, Florent. "Contributions au montage automatique de scènes complexes multi-vues en interaction avec l'environnement." Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0239.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les travaux présentés dans cette thèse CIFRE liant le CRAN et la société CitizenCam visent la captation et la diffusion d’évènements publics à moindre coût. Ainsi, l’entreprise souhaite proposer un système de montage automatique, adaptable à chaque contexte d’application et prenant en compte les desiderata des spectateurs. L’étude bibliographique sur le montage automatique de séquences vidéo, présentée dans le premier chapitre montre que les méthodes existantes sont très spécifiques au contexte applicatif et de ce fait très peu généralisables. L’objectif du deuxième chapitre est donc de proposer une approche méthodologique du montage automatique, basée sur une structure générique pouvant être adaptée au contexte, tout en prenant en compte des préférences utilisateurs. Cette approche, basée sur la modélisation des connaissances du contexte applicatif par la méthode NIAM-ORM, nous permet d’identifier les personnes (POI) et actions (AOI) d’intérêts. La connaissance modélisée facilite également le choix et le paramétrage des algorithmes d’extraction des caractéristiques des POI et AOI nécessaires au montage. Le chapitre 3 s’intéresse à la mise en place d’un système de montage automatique dans le cas de conseils municipaux avec la proposition d’une méthode originale de détection de locuteur et son identification basée sur le concept VLC. La diffusion des matchs de basketball est abordée dans le chapitre 4 avec la proposition d’une méthode de sélection automatique de caméras pour la diffusion de l’AOI "jeu notable" avec deux personnalisations que sont la détection de lancer francs et le suivi de joueurs. La méthodologie proposée est ainsi validée par son application à ces deux types d’évènements
This thesis, resulting from a collaboration between CRAN and CitizenCam, aims to capture and broadcast public events at a lower cost. Thus, the company wishes to offer an automatic editing system, adaptable to each application context and taking into account the spectators’ requirements. A bibliographical study on the automatic editing of video sequences is presented in the first chapter. This study shows that the existing methods are very specific to the application context and thus not very generalizable. The objective of the second chapter is therefore to propose a methodological approach to automatic editing, based on a generic framework adaptable according to the context, while taking into account user preferences. This approach, based on the knowledge modelling of the application context using the NIAM-ORM method, allows us to identify people (POI) and actions (AOI) of interest. The modelled knowledge also facilitate the choice and configuration of algorithms for extracting the POI and AOI features required for editing. Chapter 3 focuses on implementation of an automatic editing system for municipal councils with the proposal of an original speaker detection method and its identification based on the VLC concept. The broadcasting of basketball matches is covered in Chapter 4 with the proposal of an automatic camera selection method for broadcasting of the AOI "relevant game" with two customizations that are free throw detection and player tracking. Thus, the proposed methodology is validated by its application to this two types of events

35

Zuniga, Marcos. "Incremental learning of events in video using reliable information." Nice, 2008. http://www.theses.fr/2008NICE4098.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’objectif de cette thèse est de proposer une approche générale de compréhension de vidéo pour l’apprentissage et la reconnaissance d’événements, dans des applications du monde réel. L’approche est composée de quatre tˆaches : En premier lieu, pour chaque frame de la vidéo, une tâche de segmentation consiste à détecter les régions mobiles, lesquelles sont représentées par des boîtes englobantes qui les délimitent. En second lieu, une nouvelle méthode de classification 3D associe à chaque région mobile un label de la classe d’objet (par exemple, personne, voiture) et un parallélépipède 3D décrit par sa largeur, sa hauteur, sa longueur, sa position, son orientation, et des mesures de fiabilité associées à ces attributs. En troisième lieu, une nouvelle approche de suivi d’objets multiples utilise ces descriptions d’objet pour générer des hypothèses de suivi par rapport aux objets évoluant dans la scène. Des mesures de fiabilité associées aux attributs des objets suivis sont utilisées pour faire une sélection appropriée d’information pertinente. En dernier lieu, une nouvelle approche d’apprentissage incrémental d’événements agrège en ligne les attributs et l’information de fiabilité des objets suivis afin d’apprendre des concepts qui décrivent les événements se déroulant dans la scène. Des mesures de fiabilité sont utilisées pour focaliser le processus d’apprentissage sur l’information la plus pertinente. Simultanément, l’approche d’apprentissage d’événements reconnaît des événements associés aux objets suivis dans la scène. L’approche de suivi d’objets a été validée en utilisant des benchmarks de videosurveillance libres d’accès. L’approche complète de compréhension de vidéo a été évaluée en utilisant des vidéos obtenues d’une application réelle de maintien de personnes âgées à domicile. L’approche a été capable d’apprendre avec succès des événements associés aux trajectoires (e. G. Le changement dans la position 3D et la vitesse), la posture (e. G. Se lever, s’accroupir), et l’interaction entre objets (e. G. Une personne s’approchant d’une table), parmi d’autres événements, avec un effort minimal de configuration
The goal of this thesis is to propose a general video understanding framework for learning and recognition of events occurring in videos, for real world applications. This video understanding frameworks is composed of four tasks : first, at each video frame, a segmentation task detects the moving regions, represented by bounding boxes enclosing them. Second, a new 3D classifier associates to each moving region an object class label (e. G. Person, vehicle) and a 3D parallelepiped described by its width, height, length, position, orientation, and visual reliability measures of these attributes. Third, a new multi-object tracking algorithm uses these object descriptions to generate tracking hypotheses about the objects evolving in the scene. Finally, a new incremental event learning algorithm aggregates on-line the attributes and reliability information of the tracked objects to learn a hierarchy of concepts describing the events occurring in the scene. Reliability measures are used to focus the learning process on the most valuable information. Simultaneously, the event learning approach recognizes the events associated to the objects evolving in the scene. The tracking approach has been validated using video-surveillance benchmarks publicly accessible. The complete video understanding framework has been evaluated with videos for a real elderly care application. The framework has been able to successfully learn events related to trajectory (e. G. Change in 3D position and velocity), posture (e. G. Standing up, crouching), and object interaction (e. G. Person approaching to a table), among other events, with a minimal configuration effort

36

Crouzet, Sébastien. "Jeter un regard sur une phase précoce des traitements visuels." Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00505864.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'objectif de cette thèse a été d'étudier la dynamique des traitements cognitifs permettant la reconnaissance rapide d'objets dans les scènes naturelles. Afin d'obtenir des réponses comportementales précoces, nous avons utilisé un protocole de choix saccadique, dans lequel les sujets devaient diriger leur regard le plus rapidement possible vers l'image contenant l'objet cible parmi deux images affichées à l'écran. Ce protocole a d'abord permis de mettre en évidence des différences de temps de traitement entre les catégories d'objets, avec un avantage particulier pour la détection des visages humains. En effet, lorsque ceux-ci sont utilisés comme cible, les premières saccades sélectives apparaissent dès 100 ms ! Nous nous sommes donc intéressés aux mécanismes permettant une détection aussi rapide et avons montré qu'un attribut bas-niveau pourrait être utilisé pour détecter et localiser les visages dans notre champ visuel en une fraction de seconde. Afin de mieux comprendre la nature des représentations précoces mises en jeu, nous avons mené deux nouvelles études qui nous ont permis de montrer que les saccades les plus rapides ne seraient pas influencées par les informations contextuelles, et seraient basées sur une information rudimentaire. Enfin, j'ai proposé un modèle simple de décision, basé sur des différences de temps de traitement neuronal entre catégories, qui permet de reproduire fidèlement nos résultats expérimentaux. L'ensemble de ces résultats, mis en perspective avec les connaissances actuelles sur les bases neuronales de la reconnaissance d'objet, démontre que le protocole de choix saccadique, en donnant accès à une fenêtre tempo- relle inaccessible jusqu'alors par les études comportementales, s'avère un outil de choix pour les recherches à venir sur la reconnaissance rapide d'objets.

37

Strat, Sabin Tiberius. "Analyse et interprétation de scènes visuelles par approches collaboratives." Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00959081.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les dernières années, la taille des collections vidéo a connu une forte augmentation. La recherche et la navigation efficaces dans des telles collections demande une indexation avec des termes pertinents, ce qui nous amène au sujet de cette thèse, l'indexation sémantique des vidéos. Dans ce contexte, le modèle Sac de Mots (BoW), utilisant souvent des caractéristiques SIFT ou SURF, donne de bons résultats sur les images statiques. Notre première contribution est d'améliorer les résultats des descripteurs SIFT/SURF BoW sur les vidéos en pré-traitant les vidéos avec un modèle de rétine humaine, ce qui rend les descripteurs SIFT/SURF BoW plus robustes aux dégradations vidéo et qui leurs donne une sensitivité à l'information spatio-temporelle. Notre deuxième contribution est un ensemble de descripteurs BoW basés sur les trajectoires. Ceux-ci apportent une information de mouvement et contribuent vers une description plus riche des vidéos. Notre troisième contribution, motivée par la disponibilité de descripteurs complémentaires, est une fusion tardive qui détermine automatiquement comment combiner un grand ensemble de descripteurs et améliore significativement la précision moyenne des concepts détectés. Toutes ces approches sont validées sur les bases vidéo du challenge TRECVid, dont le but est la détection de concepts sémantiques visuels dans un contenu multimédia très riche et non contrôlé.

38

Oesau, Sven. "Modélisation géométrique de scènes intérieures à partir de nuage de points." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4034/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La modélisation géométrique et la sémantisation de scènes intérieures à partir d'échantillon de points et un sujet de recherche qui prend de plus en plus d'importance. Cependant, le traitement d'un ensemble volumineux de données est rendu difficile d'une part par le nombre élevé d'objets parasitant la scène et d'autre part par divers défauts d'acquisitions comme par exemple des données manquantes ou un échantillonnage de la scène non isotrope. Cette thèse s'intéresse de près à de nouvelles méthodes permettant de modéliser géométriquement un nuage de point non structuré et d’y donner de la sémantique. Dans le chapitre 2, nous présentons deux méthodes permettant de transformer le nuage de points en un ensemble de formes. Nous proposons en premier lieu une méthode d'extraction de lignes qui détecte des segments à partir d'une coupe horizontale du nuage de point initiale. Puis nous introduisons une méthode par croissance de régions qui détecte et renforce progressivement des régularités parmi les formes planaires. Dans la première partie du chapitre 3, nous proposons une méthode basée sur de l'analyse statistique afin de séparer de la structure de la scène les objets la parasitant. Dans la seconde partie, nous présentons une méthode d'apprentissage supervisé permettant de classifier des objets en fonction d'un ensemble de formes planaires. Nous introduisons dans le chapitre 4 une méthode permettant de modéliser géométriquement le volume d'une pièce (sans meubles). Une formulation énergétique est utilisée afin de labelliser les régions d’une partition générée à partir de formes élémentaires comme étant intérieur ou extérieur de manière robuste au bruit et aux données
Geometric modeling and semantization of indoor scenes from sampled point data is an emerging research topic. Recent advances in acquisition technologies provide highly accurate laser scanners and low-cost handheld RGB-D cameras for real-time acquisition. However, the processing of large data sets is hampered by high amounts of clutter and various defects such as missing data, outliers and anisotropic sampling. This thesis investigates three novel methods for efficient geometric modeling and semantization from unstructured point data: Shape detection, classification and geometric modeling. Chapter 2 introduces two methods for abstracting the input point data with primitive shapes. First, we propose a line extraction method to detect wall segments from a horizontal cross-section of the input point cloud. Second, we introduce a region growing method that progressively detects and reinforces regularities of planar shapes. This method utilizes regularities common to man-made architecture, i.e. coplanarity, parallelism and orthogonality, to reduce complexity and improve data fitting in defect-laden data. Chapter 3 introduces a method based on statistical analysis for separating clutter from structure. We also contribute a supervised machine learning method for object classification based on sets of planar shapes. Chapter 4 introduces a method for 3D geometric modeling of indoor scenes. We first partition the space using primitive shapes detected from permanent structures. An energy formulation is then used to solve an inside/outside labeling of a space partitioning, the latter providing robustness to missing data and outliers

39

Devanne, Maxime. "3D human behavior understanding by shape analysis of human motion and pose." Thesis, Lille 1, 2015. http://www.theses.fr/2015LIL10138/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'émergence de capteurs de profondeur capturant la structure 3D de la scène et du corps humain offre de nouvelles possibilités pour l'étude du mouvement et la compréhension des comportements humains. Cependant, la conception et le développement de modules de reconnaissance de comportements à la fois précis et efficaces est une tâche difficile en raison de la variabilité de la posture humaine, la complexité du mouvement et les interactions avec l'environnement. Dans cette thèse, nous nous concentrons d'abord sur le problème de la reconnaissance d'actions en représentant la trajectoire du corps humain au cours du temps, capturant ainsi simultanément la forme du corps et la dynamique du mouvement. Le problème de la reconnaissance d'actions est alors formulé comme le calcul de similitude entre la forme des trajectoires dans un cadre Riemannien. Les expériences menées sur quatre bases de données démontrent le potentiel de la solution en termes de précision/temps de latence de la reconnaissance d'actions. Deuxièmement, nous étendons l'étude aux comportements plus complexes en analysant l'évolution de la forme de la posture pour décomposer la séquence en unités de mouvement. Chaque unité de mouvement est alors caractérisée par la trajectoire de mouvement et l'apparence autour des mains, de manière à décrire le mouvement humain et l'interaction avec les objets. Enfin, la séquence de segments temporels est modélisée par un classifieur Bayésien naïf dynamique. Les expériences menées sur quatre bases de données évaluent le potentiel de l'approche dans différents contextes de reconnaissance et détection en ligne de comportements
The emergence of RGB-D sensors providing the 3D structure of both the scene and the human body offers new opportunities for studying human motion and understanding human behaviors. However, the design and development of models for behavior recognition that are both accurate and efficient is a challenging task due to the variability of the human pose, the complexity of human motion and possible interactions with the environment. In this thesis, we first focus on the action recognition problem by representing human action as the trajectory of 3D coordinates of human body joints over the time, thus capturing simultaneously the body shape and the dynamics of the motion. The action recognition problem is then formulated as the problem of computing the similarity between shape of trajectories in a Riemannian framework. Experiments carried out on four representative benchmarks demonstrate the potential of the proposed solution in terms of accuracy/latency for a low-latency action recognition. Second, we extend the study to more complex behaviors by analyzing the evolution of the human pose shape to decompose the motion stream into short motion units. Each motion unit is then characterized by the motion trajectory and depth appearance around hand joints, so as to describe the human motion and interaction with objects. Finally, the sequence of temporal segments is modeled through a Dynamic Naive Bayesian Classifier. Experiments on four representative datasets evaluate the potential of the proposed approach in different contexts, including recognition and online detection of behaviors

40

Zouba, Valentin Nadia. "Multisensor fusion for monitoring elderly activities at home." Nice, 2010. http://www.theses.fr/2010NICE4001.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse, une approche combinant des données issues de capteurs hétérogènes pour la reconnaissance d'activités des personnes âgées à domicile est proposée. Cette approche consiste à combiner les données fournies par des capteurs vidéo avec des données fournies par des capteurs environnementaux pour suivre l'interaction des personnes avec l'environnement. La première contribution est un nouveau modèle de capteur capable de donner une représentation cohérente et efficace des informations fournies par différents types de capteurs physiques. Ce modèle inclue l'incertitude sur la mesure. La deuxième contribution est une approche, basée sur une fusion multicapteurs, pour la reconnaissance d'activités. Cette approche consiste à détecter la personne, suivre ses mouvements, reconnaître ses postures et ses activités d'intérêt, par une analyse multicapteurs et une reconnaissance d'activités humaines. Pour résoudre le problème de la présence de capteurs hétérogènes, nous avons choisi de réaliser la fusion à haut niveau (niveau événement) des différentes données issues des différents capteurs, en combinant les événements vidéo avec les événements environnementaux. La troisième contribution est l'extension d'un langage de description qui permet aux utilisateurs (ex. Le corps médical) de décrire les activités d'intérêt dans des modèles formels. Les résultats de cette approche sont montrés pour la reconnaissance des AVQ pour de vraies personnes âgées évoluant dans un appartement expérimental appelé GERHOME équipé de capteurs vidéo et de capteurs environnementaux. Les résultats obtenus de la reconnaissance des différentes AVQ sont encourageants
In this thesis, an approach combining heterogeneous sensor data for recognizing elderly activities at home is proposed. This approach consists in combining data provided by video cameras with data provided by environmental sensors to monitor the interaction of people with the environment. The first contribution is a new sensor model able to give a coherent and efficient representation of the information provided by various types of physical sensors. This sensor model includes an uncertainty in sensor measurement. The second contribution is a multisensor based activity recognition approach. This approach consists in detecting people, tracking people as they move, recognizing human postures and recognizing activities of interest based on multisensor analysis and human activity recognition. To address the problem of heterogeneous sensor system, we choose to perform fusion at the high-level (event level) by combining video events with environmental events. The third contribution is the extension of a description language which lets users (i. E. Medical staff) to describe the activities of interest into formal models. The results of this approach are shown for the recognition of ADLs of real elderly people evolving in an experimental apartment called Gerhome equipped with video sensors and environmental sensors. The obtained results of the recognition of the different ADLs are encouraging

41

Delorme, Arnaud. "Traitement visuel rapide de scènes naturelles chez le singe, l'homme et la machine : une vision qui va de l'avant." Phd thesis, Université Paul Sabatier - Toulouse III, 2000. http://tel.archives-ouvertes.fr/tel-00078924.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

À la frontière entre neurosciences et intelligence artificielle, les neurosciences computationnelles tentent de comprendre les formidables capacités de calcul du cerveau, notamment l'efficacité du traitement de l'image par le système visuel. Mon travail est un double travail expérimental et de modélisation. Dans la partie expérimentale, je tente de déterminer les raisons qui font la précision et la rapidité des processus visuels. On présente brièvement (20-30 ms) des photographies contenant ou non des animaux au sujet qui doit relâcher un bouton quand l'image contient un animal. Le singe macaque réalise cette tâche avec une précision légèrement inférieure à celle de l'homme mais avec une plus grande rapidité. Je tente ensuite de contraindre la catégorisation pour déterminer le rôle à la fois des propriétés intrinsèques des images - couleur, luminance, nombre d'animaux présents, parties visibles de leurs corps, espèce de l'animal... - mais aussi de leurs propriétés extrinsèques - condition de présentation, effet de séquence, familiarité du stimulus, consigne... Bien que certaines conditions accélèrent la catégorisation, les réponses les plus précoces (dont on montre qu'elles ne sont pas spécifiques de certaines images), et les enregistrements EEGs correspondant au traitement de l'image ne sont que très peu affectés. Cela implique donc un traitement rapide massivement parallèle - quasiment automatique - des informations visuelles, où chaque neurone du système visuel peut difficilement émettre plus d'une décharge. À partir de ces contraintes, et de celles imposées par la structure du système visuel, j'ai construit un simulateur biologiquement plausible (SpikeNET) qui permet de simuler le comportement des neurones réels (de la détection de barres orientées jusqu'à la reconnaissance de visages). Les performances de ces modèles sont étonnantes du point de vue du traitement d'image et rivalisent avec les approches classiques en intelligence artificielle.

42

Ercolessi, Philippe. "Extraction multimodale de la structure narrative des épisodes de séries télévisées." Toulouse 3, 2013. http://thesesups.ups-tlse.fr/2056/.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nos contributions portent sur l'extraction de la structure narrative d'épisodes de séries télévisées à deux niveaux hiérarchiques. Le premier niveau de structuration consiste à retrouver les transitions entre les scènes à partir d'une analyse de la couleur des images et des locuteurs présents dans les scènes. Nous montrons que l'analyse des locuteurs permet d'améliorer le résultat d'une segmentation en scènes basée sur la couleur. Il est courant de voir plusieurs histoires (ou lignes d'actions) racontées en parallèle dans un même épisode de série télévisée. Ainsi, le deuxième niveau de structuration consiste à regrouper les scènes en histoires. Nous cherchons à désentrelacer les histoires pour pouvoir, par exemple, visualiser les différentes lignes d'actions indépendamment. La principale difficulté consiste à déterminer les descripteurs les plus pertinents permettant de regrouper les scènes appartenant à une même histoire. A ce niveau, nous étudions également l'utilisation de descripteurs provenant des trois modalités différentes précédemment exposées. Nous proposons en outre des méthodes permettant de fusionner les informations provenant de ces trois modalités. Pour répondre à la variabilité de la structure narrative des épisodes de séries télévisées, nous proposons une méthode qui s'adapte à chaque épisode. Elle permet de choisir automatiquement la méthode de regroupement la plus pertinente parmi les différentes méthodes proposées. Enfin, nous avons développé StoViz, un outil de visualisation de la structure d'un épisode de série télévisée (scènes et histoires). Il permet de faciliter la navigation au sein d'un épisode, en montrant les différentes histoires racontées en parallèle dans l'épisode. Il permet également la lecture des épisodes histoire par histoire, et la visualisation d'un court résumé de l'épisode en donnant un aperçu de chaque histoire qui y est racontée
Our contributions concern the extraction of the structure of TV series episodes at two hierarchical levels. The first level of structuring is to find the scene transitions based on the analysis of the color information and the speakers involved in the scenes. We show that the analysis of the speakers improves the result of a color-based segmentation into scenes. It is common to see several stories (or lines of action) told in parallel in a single TV series episode. Thus, the second level of structure is to cluster scenes into stories. We seek to deinterlace the stories in order to visualize the different lines of action independently. The main difficulty is to determine the most relevant descriptors for grouping scenes belonging to the same story. We explore the use of descriptors from the three different modalities described above. We also propose methods to combine these three modalities. To address the variability of the narrative structure of TV series episodes, we propose a method that adapts to each episode. It can automatically select the most relevant clustering method among the various methods we propose. Finally, we developed StoViz, a tool for visualizing the structure of a TV series episode (scenes and stories). It allows an easy browsing of each episode, revealing the different stories told in parallel. It also allows playback of episodes story by story, and visualizing a summary of the episode by providing a short overview of each story

43

Gidel, Samuel. "Méthodes de détection et de suivi multi-piétons multi-capteurs embarquées sur un véhicule routier : application à un environnement urbain." Clermont-Ferrand 2, 2010. http://www.theses.fr/2010CLF22028.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les travaux présentés dans cette thèse ont pour cadre la vision par ordinateur et concernent la détection et le suivi de piéton se trouvant sur la trajectoire d'un véhicule routier circulant en milieu urbain. Dans ce type d'environnement complexe, une des difficultés majeurs est la capacité à discerner les piétons des nombreux autres obstacles situés sur la chaussée. Un autre point essentiel est de pouvoir les suivre afin de prédire leur déplacement et ainsi le cas échéant éviter le contact avec le véhicule. D'autres contraintes s'ajoutent dans le contexte industriel des véhicules routiers intelligents. Il est nécessaire de proposer des algorithmes robustes temps réel avec des capteurs les moins chers possible

44

Perotin, Lauréline. "Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale." Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0124.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels
This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments

45

Ménier, Clément. "Système de vision temps-réel pour les intéractions." Grenoble INPG, 2007. http://www.theses.fr/2007INPG0041.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous nous intéressons à l'acquisition temps réel d'informations tridimensionnelles sur une scène à partir de plusieurs caméras dans le contexte des applications interactives. Nous proposons un système de vision complet allant de l'acquisition des images à la modélisation des formes et du mouvement de l'utilisateur. La distribution des tâches sur une grappe de PC, et en particulier la parallélisation de plusieurs algorithmes d'extraction de la géométrie de la scène, permet un fonctionnement temps-réel avec une faible latence. De nombreuses applications sont développées et valident la mise en oeuvre réalisée de ce système. Une approche nouvelle de la modélisation du mouvement est aussi proposée. Celle-ci permet de suivre et d'identifier les membres de l'utilisateur sans connaissance a priori sur la forme de ce dernier
This thesis focuses on the the real time acquisition of 3D information on a scene from multiple camera in the context of interactive applications. A complete vision system from image acquisition to motion and shape modeling is presented. The distribution of tasks on a PC cluster, and more precisely the parallelization of different shape modeling algorithms, enables a real time execution with a low latency. Several applications are developped and validate the practical implementation of this system. An original approach of motion modeling is lso presented. It allows for limbs tracking and identification white not requiring prior information on the shape of the user

46

Tu, Xiao-Wei. "Détection et estimation des objets mobiles dans une séquence d'images." Compiègne, 1987. http://www.theses.fr/1987COMPD063.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Une méthodologie d’analyse d’une séquence d’images, contenant des objets relativement simples tels que des polyédres mobiles (Blocs), est présentée. Pourquoi les objets polyédriques ? Simplement, parce qu’une scène assez complexe peut être décrite par un ensemble de blocs et qu’un site naturel peut être décomposé en objet approximativement polyédriques. En ce qui concerne les algorithmes de traitements, on sait que les primitives associées aux blocs sont très faciles à extraire (notion de segments de droites, notion d’aire d’une forme polygonale et notion de contour ou de frontière de l’objet). Cette méthodologie permet de détecter des objets mobiles et éventuellement d’estimer les paramètres du mouvement ou de l’objet en mouvement. L’approche générale comporte quatre étapes : la première consiste à appliquer des opérations linéaires et non-linéaires sur les images acquises (par une caméra de type CCD), afin d’éliminer le bruit et d’obtenir des images plus contrastées. Ensuite, le renforcement de contours ayant été effectué par une méthode de relaxation, on applique des procédures de détection, de suivi et de codage de contours qui débouchent sur l’extraction de primitives (segments de droites, angles,. . . ). Parallèlement, un système de contours d’image 3-D est réalisé pour tester le comportement des algorithmes. La deuxième étape permet de construire une structure de données de type « multilistes », déduite des éléments significatifs correspondant aux primitives détectées dans la première étape. Cette structure est bien adaptée à une mise en correspondance ultérieure des primitives. La segmentation est généralement effectuée selon une approche descendante par création d’une structure de donnée « quadtree » qui permet de compléter l’information de la scène. Dans la troisième étape, on effectue la mise en correspondance par une méthode de relaxation discrète, des éléments des structures précédemment construite. A la dernière étape, les primitives, plus précisément les pixels mis en correspondance, sont choisis et utilisés pour estimer les paramètres de mouvement des objets considérés. Des essais expérimentaux effectués sur chaque étape donnent des résultats satisfaisants. Il semble donc que cette démarche soit intéressante.

47

Alqasir, Hiba. "Apprentissage profond pour l'analyse de scènes de remontées mécaniques : amélioration de la généralisation dans un contexte multi-domaines." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSES045.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Nous présentons notre travail sur la sécurité des télésièges par des techniques d'apprentissage profond dans le cadre du projet Mivao, qui vise à développer un système de vision par ordinateur qui acquiert des images de la station d'embarquement du télésiège, analyse les éléments essentiels et détecte les situations dangereuses. Dans ce scénario, nous avons différents télésièges répartis sur différentes stations de ski, avec une grande diversité de conditions d'acquisition et de géométries . Lorsque le système est installé pour un nouveau télésiège, l'objectif est d'effectuer une analyse de scène précise et fiable, étant donné le manque de données labellisées sur ce télésiège.Dans ce contexte, nous nous concentrons principalement sur le garde-corps du télésiège et proposons de classer chaque image en deux catégories, selon que le garde-corps est fermé ou ouvert. Il s'agit donc d'un problème de classification des images avec trois spécificités : (i) la catégorie d'image dépend d'un petit détail dans un fond encombré, (ii) les annotations manuelles ne sont pas faciles à obtenir, (iii) un classificateur formé sur certains télésièges devrait donner de bons résultats sur un nouveau. Pour guider le classificateur vers les zones importantes des images, nous avons proposé deux solutions : la détection d'objets et les réseaux siamois.Nos solutions sont motivées par la nécessité de minimiser les efforts d'annotation humaine tout en améliorant la précision du problème de la sécurité des télésièges. Cependant, ces contributions ne sont pas nécessairement limitées à ce contexte spécifique, et elles peuvent être appliquées à d'autres problèmes dans un contexte multi-domaine
This thesis presents our work on chairlift safety using deep learning techniques as part of the Mivao project, which aims to develop a computer vision system that acquires images of the chairlift boarding station, analyzes the crucial elements, and detects dangerous situations. In this scenario, we have different chairlifts spread over different ski resorts, with a high diversity of acquisition conditions and geometries; thus, each chairlift is considered a domain. When the system is installed for a new chairlift, the objective is to perform an accurate and reliable scene analysis, given the lack of labeled data on this new domain (chairlift).In this context, we mainly concentrate on the chairlift safety bar and propose to classify each image into two categories, depending on whether the safety bar is closed (safe) or open (unsafe). Thus, it is an image classification problem with three specific features: (i) the image category depends on a small detail (the safety bar) in a cluttered background, (ii) manual annotations are not easy to obtain, (iii) a classifier trained on some chairlifts should provide good results on a new one (generalization). To guide the classifier towards the important regions of the images, we have proposed two solutions: object detection and Siamese networks. Furthermore, we analyzed the generalization property of these two approaches. Our solutions are motivated by the need to minimize human annotation efforts while improving the accuracy of the chairlift safety problem. However, these contributions are not necessarily limited to this specific application context, and they may be applied to other problems in a multi-domain context

48

Bardet, François. "Suivi et catégorisation multi-objets par vision artificielle." Phd thesis, Clermont-Ferrand 2, 2009. http://www.theses.fr/2009CLF21972.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse présente une méthode de suivi et de classification conjoints en temps réel d'un nombre variable d'objets tels que des piétons et/ou des véhicules, sous conditions d'illumination variables au cours du temps. La méthode retenue entre dans le champ du suivi Multi-Objets par Filtre Particulaire, dont la clé de voûte est l'échantillonnage des particules. Nous examinons deux familles de filtres particulaires : les Filtres Particulaires Partitionnés, et les Filtres Particulaires par Chaîne de Markov (FP MCMC). Nous comparons ensuite leurs performances sur des données de synthèse. Les résultats obtenus montrent la supériorité du Filtre Particulaire MCMC. Un système de suivi et classification conjoints en temps réel d'un nombre variable d'ojets tels que des piétons et/ ou des véhicules, sous illumination variable, est ensuite présenté. La mesure est délivrée par une ou plusieurs caméras statiques. Nous avons délibérément choisi d'alimenter le filtre avec une observation pauvre, reposant uniquement sur une segmentation binaire avant-plan / arrière-plan basée sur un modèle de l'arrière-plan mis à jour en ligne à chaque image. Pour résister aux variations d'illumination, les ombres sont modélisées et le filtre est étendu afin de suivre conjointement le soleil et les objets. Les résultats de suivi et classification en temps réel sont présentés et discutés sur des séquences réelles et sur des séquences de synthèse, impliquant plusieurs catégories d'utilisateurs tels que des piétons, des voitures, des camionettes et des poids lourds

49

Hannecart, Claire. "Des musiciens sur les scènes locales en Nord de France : formes d'engagement et enjeux de pluriactivité des pratiques de création collective." Thesis, Lille 1, 2014. http://www.theses.fr/2014LIL12031/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La présente recherche étudie les pratiques sociales se donnant à voir sur les scènes locales, comprises comme ensembles d’acteurs variés que sont les musiciens, les intermédiaires et les auditeurs. Cette thèse entend contribuer à la compréhension des modalités d’engagement des musiciens, pluriactifs ou intermittents, dans des pratiques mues par la volonté d’exprimer leur singularité, mais en tension avec le régime d'une communauté locale qui accorde sa reconnaissance. Il s’agit d’identifier sur le territoire Nord de France ces pratiques façonnées par des représentations sociales plurielles et des tensions entre monde vécu et réalités contraintes. Un double cadre théorique combinant les sociologies compréhensive et pragmatique est mobilisé. La période étudiée est de cinq ans (2009-2013) et l’étude empirique repose sur deux démarches méthodologiques. Une analyse qualitative réalisée à partir d’entretiens semi-directifs et non-directifs menés auprès de cinquante-deux acteurs concernés de diverses façons par les scènes locales (musiciens, intermédiaires associatifs ou privés et politiques). Et une enquête quantitative dont l’objectif est de vérifier les constatations empiriques quant aux pratiques et profils des musiciens, l’échantillon étant constitué de musiciens de la métropole lilloise. Les résultats révèlent l'ambivalence des représentations de l’ensemble des acteurs concourant à la formation des scènes locales. La dimension coopérative des pratiques et leur inscription dans des conditions matérielles favorisées par l’ère numérique ont été mises en évidence. Enfin la valorisation de la dimension artisanale des projets constitue un des enjeux majeurs pointés par cette recherche
The present research studies the social practices to be observed on local scenes, i.e. groups of various actors as musicians, “support systems” and audiences. This thesis contributes to the understanding of the way creators are committed to practices driven by a desire to express their singularity. What is at stake here is to identify how these practices have been shaped by pluralist social representations in northern France. A dual theoretical framework combines both comprehensive and pragmatic sociologies. The period under study spans 5 years from 2009 to 2013 and the empirical study lies on two methodological approaches. On the one hand, a qualitative analysis based upon both semi-structured and unstructured interviews with 52 respondents that were involved one way or another on local scenes, be they artists or associate private or political intermediaries. On the other hand, a quantitative survey used to verify the empirical data relative to the practices and profiles of the musicians, the sample being made of musicians from the city of Lille. The results show the ambivalence in the representation of all the actors that contribute to the formation of local scenes. The cooperative dimension of such practices in keeping with material conditions favored by the digital era have been underlined. Finally, the artisan dimension of the projects represents one of the major stakes this research highlights

50

Perotin, Lauréline. "Localisation et rehaussement de sources de parole au format Ambisonique : analyse de scènes sonores pour faciliter la commande vocale." Thesis, Université de Lorraine, 2019. http://www.theses.fr/2019LORR0124/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse s'inscrit dans le contexte de l'essor des assistants vocaux mains libres. Dans un environnement domestique, l'appareil est généralement posé à un endroit fixe, tandis que le locuteur s'adresse à lui depuis diverses positions, sans nécessairement s'appliquer à être proche du dispositif, ni même à lui faire face. Cela ajoute des difificultés majeures par rapport au cas, plus simple, de la commande vocale en champ proche (pour les téléphones portables par exemple) : ici, la réverbération est plus importante ; des réflexions précoces sur les meubles entourant l'appareil peuvent brouiller le signal ; les bruits environnants sont également sources d'interférences. À ceci s'ajoutent de potentiels locuteurs concurrents qui rendent la compréhension du locuteur principal particulièrement difficile. Afin de faciliter la reconnaissance vocale dans ces conditions adverses, plusieurs pré-traitements sont proposés ici. Nous utilisons un format audio spatialisé, le format Ambisonique, adapté à l'analyse de scènes sonores. Dans un premier temps, nous présentons une méthode de localisation des sources sonores basée sur un réseau de neurones convolutif et récurrent. Nous proposons des descripteurs inspirés du vecteur d'intensité acoustique qui améliorent la performance de localisation, notamment dans des situations réelles où plusieurs sources sont présentes et l'antenne de microphones est posée sur une table. La technique de visualisation appelée layerwise relevance propagation (LRP) met en valeur les zones temps-fréquence positivement corrélées avec la localisation prédite par le réseau dans un cas donné. En plus d'être méthodologiquement indispensable, cette analyse permet d'observer que le réseau de neurones exploite principalement les zones dans lesquelles le son direct domine la réverbération et le bruit ambiant. Dans un second temps, nous proposons une méthode pour rehausser la parole du locuteur principal et faciliter sa reconnaissance. Nous nous plaçons dans le cadre de la formation de voies basée sur des masques temps-fréquence estimés par un réseau de neurones. Afin de traiter le cas où plusieurs personnes parlent à un volume similaire, nous utilisons l'information de localisation pour faire un premier rehaussement à large bande dans la direction du locuteur cible. Nous montrons que donner cette information supplémentaire au réseau n'est pas suffisant dans le cas où deux locuteurs sont proches ; en revanche, donner en plus la version rehaussée du locuteur concurrent permet au réseau de renvoyer de meilleurs masques. Ces masques permettent d'en déduire un filtre multicanal qui améliore grandement la reconnaissance vocale. Nous évaluons cet algorithme dans différents environnements, y compris réels, grâce à un moteur de reconnaissance de la parole utilisé comme boîte noire. Dans un dernier temps, nous combinons les systèmes de localisation et de rehaussement et nous évaluons la robustesse du second aux imprécisions du premier sur des exemples réels
This work was conducted in the fast-growing context of hands-free voice command. In domestic environments, smart devices are usually laid in a fixed position, while the human speaker gives orders from anywhere, not necessarily next to the device, or nor even facing it. This adds difficulties compared to the problem of near-field voice command (typically for mobile phones) : strong reverberation, early reflections on furniture around the device, and surrounding noises can degrade the signal. Moreover, other speakers may interfere, which make the understanding of the target speaker quite difficult. In order to facilitate speech recognition in such adverse conditions, several preprocessing methods are introduced here. We use a spatialized audio format suitable for audio scene analysis : the Ambisonic format. We first propose a sound source localization method that relies on a convolutional and recurrent neural network. We define an input feature vector inspired by the acoustic intensity vector which improves the localization performance, in particular in real conditions involving several speakers and a microphone array laid on a table. We exploit the visualization technique called layerwise relevance propagation (LRP) to highlight the time-frequency zones that are correlate positively with the network output. This analysis is of paramount importance to establish the validity of a neural network. In addition, it shows that the neural network essentially relies on time-frequency zones where direct sound dominates reverberation and background noise. We then present a method to enhance the voice of the main speaker and ease its recognition. We adopt a mask-based beamforming framework based on a time-frequency mask estimated by a neural network. To deal with the situation of multiple speakers with similar loudness, we first use a wideband beamformer to enhance the target speaker thanks to the associated localization information. We show that this additional information is not enough for the network when two speakers are close to each other. However, if we also give an enhanced version of the interfering speaker as input to the network, it returns much better masks. The filters generated from those masks greatly improve speech recognition performance. We evaluate this algorithm in various environments, including real ones, with a black-box automatic speech recognition system. Finally, we combine the proposed localization and enhancement systems and evaluate the robustness of the latter to localization errors in real environments

Дисертації з теми "Reconnaissance de scènes"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями