Dissertations / Theses: 'Compréhension de scènes'

1

Picco, Frédérique. "La compréhension et la mémorisation de scènes imagées." Montpellier 3, 1999. http://www.theses.fr/1999MON30050.

Full text

APA, Harvard, Vancouver, ISO, and other styles

2

Bauda, Marie-Anne. "Compréhension de scènes urbaines par combinaison d'information 2D/3D." Phd thesis, Toulouse, INPT, 2016. http://oatao.univ-toulouse.fr/16483/1/BAUDA_MarieAnne.pdf.

Full text

Abstract:

Cette thèse traite du problème de segmentation sémantique d'une séquence d'images calibrées acquises dans un environnement urbain. Ce problème consiste, plus précisément, à partitionner chaque image en régions représentant les objets de la scène (façades, routes, etc.). Ainsi, à chaque région est associée une étiquette sémantique. Dans notre approche, l'étiquetage s'opère via des primitives visuelles de niveau intermédiaire appelés super-pixels, lesquels regroupent des pixels similaires au sens de différents critères proposés dans la littérature, qu'ils soient photométriques (s'appuyant sur les couleurs) ou géométriques (limitant la taille des super-pixels formés). Contrairement à l'état de l'art, où les travaux récents traitant le même problème s'appuient en entrée sur une sur-segmentation initiale sans la remettre en cause, notre idée est de proposer, dans un contexte multi-vues, une nouvelle approche de constructeur de superpixels s'appuyant sur une analyse tridimensionnelle de la scène et, en particulier, de ses structures planes. Pour construire de «meilleurs» superpixels, une mesure de planéité locale, qui quantifie à quel point la zone traitée de l'image correspond à une surface plane de la scène, est introduite. Cette mesure est évaluée à partir d'une rectification homographique entre deux images proches, induites par un plan candidat au support des points 3D associés à la zone traitée. Nous analysons l'apport de la mesure UQI (Universal Quality Image) et montrons qu'elle se compare favorablement aux autres métriques qui ont le potentiel de détecter des structures planes. On introduit ensuite un nouvel algorithme de construction de super-pixels, fondé sur l'algorithme SLIC (Simple Linear Iterative Clustering) dont le principe est de regrouper les plus proches voisins au sens d'une distance fusionnant similarités en couleur et en distance, et qui intègre cette mesure de planéité. Ainsi la sur-segmentation obtenue, couplée à la cohérence interimages provenant de la validation de la contrainte de planéité locale de la scène, permet d'attribuer une étiquette à chaque entité et d'obtenir ainsi une segmentation sémantique qui partitionne l'image en objets plans.

APA, Harvard, Vancouver, ISO, and other styles

3

Deléarde, Robin. "Configurations spatiales et segmentation pour la compréhension de scènes, application à la ré-identification." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7020.

Full text

Abstract:

La modélisation de la configuration spatiale des objets d’une image est un sujet encore peu abordé à ce jour, y compris dans les approches les plus modernes de vision par ordinateur comme les réseaux convolutionnels (CNN). Pourtant, il s’agit d’un aspect essentiel de la perception des scènes, et l’intégrer dans les modélisations devrait bénéficier à de nombreuses tâches du domaine, en contribuant à combler le "fossé sémantique" entre l’image numérique et l’interprétation de son contenu. Ainsi, cette thèse a pour objet l’amélioration des techniques de modélisation de la configuration spatiale, afin de l’exploiter dans des systèmes de description et de reconnaissance. Dans un premier temps, nous nous sommes penchés sur le cas de la configuration spatiale entre deux objets, en proposant une amélioration d’un descripteur existant. Ce nouveau descripteur appelé "bandeau de forces" est une extension de l’histogramme du même nom à tout un panel de forces, ce qui permet de mieux décrire les configurations complexes. Nous avons pu montrer son intérêt pour la description de scènes, en apprenant à classifier automatiquement des relations en langage naturel à partir de paires d’objets segmentés. Nous avons alors abordé la problématique du passage à des scènes comportant plusieurs objets, proposant une approche par objet en confrontant chaque objet à l’ensemble des autres, plutôt qu’en ayant un descripteur par paire. Dans un second temps, le contexte CIFRE nous a amenés à traiter une application au problème de la ré-identification de scènes ou d’objets, tâche qui s’apparente à la reconnaissance fine à partir de peu d’exemples. Pour cela, nous nous basons sur une approche traditionnelle en décrivant les constituants de la scène par différents descripteurs dédiés à des caractéristiques spécifiques, comme la couleur ou la forme, auxquelles nous ajoutons la configuration spatiale. La comparaison de deux scènes se fait alors en appariant leurs constituants grâce à ces caractéristiques, en utilisant par exemple l’algorithme hongrois. Différentes associations de caractéristiques peuvent être considérées pour l’appariement et pour le calcul du score final, selon les invariances présentes et recherchées. Pour chacun de ces deux sujets, nous avons été confrontés aux problèmes des données et de la segmentation. Nous avons alors généré et annoté un jeu de données synthétiques, et exploité deux jeux de données existants en les segmentant, dans deux cadres différents. La première approche concerne la segmentation objet-fond et se place dans le cas où une détection est disponible, ce qui permet d’aider la segmentation. Elle consiste à utiliser un modèle existant de segmentation globale, puis à exploiter la détection pour sélectionner le bon segment, à l’aide de plusieurs critères géométriques et sémantiques. La seconde approche concerne la décomposition d’une scène ou d’un objet en parties et se place dans le cas non supervisé. Elle se base alors sur la couleur des pixels, en utilisant une méthode par clustering dans un espace de couleur adapté, comme le cône HSV que nous avons utilisé. Tous ces travaux ont permis de montrer la possibilité d’utiliser la configuration spatiale pour la description de scènes réelles contenant plusieurs objets, ainsi que dans une chaîne de traitements complexe comme celle utilisée pour la ré-identification. En particulier, l’histogramme de forces a pu être utilisé pour cela, ce qui permet de profiter de ses bonnes performances, en utilisant une méthode de segmentation adaptée au cas d’usage pour traiter des images naturelles
Modeling the spatial configuration of objects in an image is a subject that is still little discussed to date, including in the most modern computer vision approaches such as convolutional neural networks ,(CNN). However, it is an essential aspect of scene perception, and integrating it into the models should benefit many tasks in the field, by helping to bridge the “semantic gap” between the digital image and the interpretation of its content. Thus, this thesis aims to improve spatial configuration modeling ,techniques, in order to exploit it in description and recognition systems. ,First, we looked at the case of the spatial configuration between two objects, by proposing an improvement of an existing descriptor. This new descriptor called “force banner” is an extension of the histogram of the same name to a whole range of forces, which makes it possible to better describe complex configurations. We were able to show its interest in the description of scenes, by learning toautomatically classify relations in natural language from pairs of segmented objects. We then tackled the problem of the transition to scenes containing several objects and proposed an approach per object by confronting each object with all the others, rather than having one descriptor per pair. Secondly, the industrial context of this thesis led us to deal with an application to the problem of re-identification of scenes or objects, a task which is similar to fine recognition from few examples. To do so, we rely on a traditional approach by describing scene components with different descriptors dedicated to specific characteristics, such as color or shape, to which we add the spatial configuration. The comparison of two scenes is then achieved by matching their components thanks to these characteristics, using the Hungarian algorithm for instance. Different combinations of characteristics can be considered for the matching and for the final score, depending on the present and desired invariances. For each one of these two topics, we had to cope with the problems of data and segmentation. We then generated and annotated a synthetic dataset, and exploited two existing datasets by segmenting them, in two different frameworks. The first approach concerns object-background segmentation and more precisely the case where a detection is available, which may help the segmentation. It consists in using an existing global segmentation model and exploiting the detection to select the right segment, by using several geometric and semantic criteria. The second approach concerns the decomposition of a scene or an object into parts and addresses the unsupervised case. It is based on the color of the pixels, by using a clustering method in an adapted color space, such as the HSV cone that we used. All these works have shown the possibility of using the spatial configuration for the description of real scenes containing several objects, as well as in a complex processing chain such as the one we used for re-identification. In particular, the force histogram could be used for this, which makes it possible to take advantage of its good performance, by using a segmentation method adapted to the use case when processing natural images

APA, Harvard, Vancouver, ISO, and other styles

4

Trujillo, Morales Noël. "Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2007. http://tel.archives-ouvertes.fr/tel-00926395.

Full text

Abstract:

La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence ; à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à " instancier " ce modèle dans la scène courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel " : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up$top-down, reste implicite dans la stratégie globale de reconnaissance. La " focalisation progressive " et la représentation hybride du modèle, permettent de tirer profit des deux types de représentation classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaissance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution de la zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons.

APA, Harvard, Vancouver, ISO, and other styles

5

Trujillo, Morales Noel. "Stratégie de perception pour la compréhension de scènes par une approche focalisante, application à la reconnaissance d'objets." Clermont-Ferrand 2, 2007. http://www.theses.fr/2007CLF21803.

Full text

Abstract:

La problématique scientifique abordée concerne la reconnaissance visuelle d'objets s'inscrivant dans une scène observée. Nous proposons une méthodologie qui va de la définition et la construction du modèle de l'objet, jusqu'à la définition de la stratégie pour la reconnaissance ultérieure de celui-ci. Du point de vue de la représentation, cette approche est capable de modéliser aussi bien la structure de l'objet que son apparence, à partir de caractéristiques multiples. Celles-ci servent d'indices d'attention lors de la phase de reconnaissance. Dans ce cadre, reconnaître l'objet revient à "instancier" ce modèle dans la vie courante. La tâche de reconnaissance correspond à un processus actif de génération/vérification d'hypothèses régi par le principe de focalisation. Ce dernier agissant sur quatre niveaux du " spectre attentionnel" : la sélection des opérateurs pour le traitement bas niveau, la sélection de l'intervalle d'action de ceux-ci, la sélection de la résolution et la sélection de la région d'intérêt dans l'image. Le fait d'agir sur tous ces niveaux, entraîne une diminution de la combinatoire implicite dans une problématique de recherche visuelle. Sous un regard plutôt unifié, le mécanisme de contrôle de l'attention, du type bottom-up / top-down, reste implicite dans la stratégie globale de reconnaissance. La "focalisation progressive" et la représentation hybride du modèle, permettent de tirer profit des deux types de représentations classiques. D'une part, la structure de l'objet permet de focaliser le processus de reconnaisssance à partir d'observations locales, d'autre part, une fois détectée la région probable de l'objet, la décision finale est faite à partir de l'apparence de celui-ci. Dans le cadre proposé, en intégrant des connaissances sur la structure de la scène (paramètres 3D), d'autres tâches comme celles de la localisation et du suivi sont intégrées d'une façon naturelle. La prise en compte de ces paramètres permet d'estimer l'évolution d'une zone d'intérêt dans l'image, lorsque l'objet évolue dans le monde 3D. La méthodologie proposée a été testée pour la reconnaissance, la localisation et le suivi de visages et de piétons

APA, Harvard, Vancouver, ISO, and other styles

6

Oesau, Sven. "Modélisation géométrique de scènes intérieures à partir de nuage de points." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4034/document.

Full text

Abstract:

La modélisation géométrique et la sémantisation de scènes intérieures à partir d'échantillon de points et un sujet de recherche qui prend de plus en plus d'importance. Cependant, le traitement d'un ensemble volumineux de données est rendu difficile d'une part par le nombre élevé d'objets parasitant la scène et d'autre part par divers défauts d'acquisitions comme par exemple des données manquantes ou un échantillonnage de la scène non isotrope. Cette thèse s'intéresse de près à de nouvelles méthodes permettant de modéliser géométriquement un nuage de point non structuré et d’y donner de la sémantique. Dans le chapitre 2, nous présentons deux méthodes permettant de transformer le nuage de points en un ensemble de formes. Nous proposons en premier lieu une méthode d'extraction de lignes qui détecte des segments à partir d'une coupe horizontale du nuage de point initiale. Puis nous introduisons une méthode par croissance de régions qui détecte et renforce progressivement des régularités parmi les formes planaires. Dans la première partie du chapitre 3, nous proposons une méthode basée sur de l'analyse statistique afin de séparer de la structure de la scène les objets la parasitant. Dans la seconde partie, nous présentons une méthode d'apprentissage supervisé permettant de classifier des objets en fonction d'un ensemble de formes planaires. Nous introduisons dans le chapitre 4 une méthode permettant de modéliser géométriquement le volume d'une pièce (sans meubles). Une formulation énergétique est utilisée afin de labelliser les régions d’une partition générée à partir de formes élémentaires comme étant intérieur ou extérieur de manière robuste au bruit et aux données
Geometric modeling and semantization of indoor scenes from sampled point data is an emerging research topic. Recent advances in acquisition technologies provide highly accurate laser scanners and low-cost handheld RGB-D cameras for real-time acquisition. However, the processing of large data sets is hampered by high amounts of clutter and various defects such as missing data, outliers and anisotropic sampling. This thesis investigates three novel methods for efficient geometric modeling and semantization from unstructured point data: Shape detection, classification and geometric modeling. Chapter 2 introduces two methods for abstracting the input point data with primitive shapes. First, we propose a line extraction method to detect wall segments from a horizontal cross-section of the input point cloud. Second, we introduce a region growing method that progressively detects and reinforces regularities of planar shapes. This method utilizes regularities common to man-made architecture, i.e. coplanarity, parallelism and orthogonality, to reduce complexity and improve data fitting in defect-laden data. Chapter 3 introduces a method based on statistical analysis for separating clutter from structure. We also contribute a supervised machine learning method for object classification based on sets of planar shapes. Chapter 4 introduces a method for 3D geometric modeling of indoor scenes. We first partition the space using primitive shapes detected from permanent structures. An energy formulation is then used to solve an inside/outside labeling of a space partitioning, the latter providing robustness to missing data and outliers

APA, Harvard, Vancouver, ISO, and other styles

7

Macé, Nadège. "Contraintes temporelles des traitements visuels dans une tâche de catégorisation de scènes naturelles." Toulouse 3, 2006. http://www.theses.fr/2006TOU30063.

Full text

Abstract:

L'ensemble des résultats de cette thèse ont été obtenus grâce à une tâche de catégorisation dans laquelle les sujets devaient effectuer une réponse motrice rapide sur la base d'informations visuelles incomplètes, limitées par un protocole de masquage. Les résultats obtenus confirment non seulement que les traitements visuels sont extrêmement robustes et rapides (Chapitre 2), mais aussi que les informations accumulées dans le système sensoriel peuvent être interprétées en signal décisionnel pour guider la réponse du sujet de manière efficace, en fonction du type d'effecteur utilisé (manuel ou oculaire - Chapitre 3) et du niveau de représentation requis dans la tâche (détection, catégorisation, identification - Chapitre 4). Les latence courtes enregistrées sont tout à fait compatibles avec l'idée que la reconnaissance d'objet s'appuie d'abord sur un transfert rapide, feed-forward et massivement parallèle des premières informations tout au long du parcours cortical visuel
The different experiments of this thesis focused on a categorisation task in which subjects have to initiate response on the basis of incomplete visual information, limited by a masking procedure. Results of these experiments not only confirmed that visual processing is extremely robust and fast (Chapter 2), but also demonstrated that the accumulated sensory information could be interpreted into a decisional signal to efficiently guide the response, depending on the motor effector (manual or ocular – Chapter 3) or the level of representation required in the task (Detection – Categorisation – Identification – Chapter 4). The early latencies recorded in this set of experiment is compatible with the idea that object recognition is initially based on the rapid transfer of visual information through the visual system, in a feed-forward and massively parallel way

APA, Harvard, Vancouver, ISO, and other styles

8

Jouen, Anne-Lise. "Au-delà des mots et des images, bases neurophysiologiques d'un système sémantique commun à la compréhension des phrases et des scènes visuelles." Thesis, Lyon 1, 2013. http://www.theses.fr/2013LYO10322.

Full text

Abstract:

Certaines théories du fonctionnement cognitif postulent l'existence d'un système cérébral impliqué dans la compréhension sémantique indépendamment de la modalité d'entrée des stimuli. L'objectif de ce travail de thèse était d'étudier le fonctionnement d'un tel réseau, impliqué à la fois dans la compréhension de phrases et de scènes visuelles, en lien avec la théorie de la cognition incarnée. Dans la littérature, un ensemble d'aires frontotemporo- pariétales sensorimotrices et associatives sont décrites comme intervenant dans ces processus sémantiques, mais il existe un manque de consensus concernant la nature amodale de ce système et la plupart des travaux existants se sont concentrés sur l'identification de réseaux corticaux impliqués dans les représentations sémantiques, séparément pour l'une ou l'autre des modalités. De plus, les stimuli utilisés dans les protocoles expérimentaux sont généralement moins complexes que les situations interactives auxquelles nous sommes confrontés dans la vie de tous les jours. Une part importante de l'activité mentale humaine réside dans notre capacité à construire des représentations internes riches : ces modèles mentaux, impliqués dans une grande variété de processus cognitifs, nous permettent d'explorer certains souvenirs du passé, de planifier le futur ou encore de comprendre et de s'adapter à une situation en temps réel. Bien que les progrès des techniques d'Imagerie du Tenseur de Diffusion aient rendu possible la visualisation in vivo de fibres de matière blanche dans le cerveau humain, la connectivité du système sémantique amodal a très peu été étudiée jusque-là. Dans ce travail, nous avons utilisé différentes techniques (principalement de neuro-imagerie IRMf, DTI, EEG) pour mettre en évidence les bases neurophysiologiques d'un système sémantique commun impliqué dans la représentation et la compréhension de stimuli complexes verbaux et non-verbaux. Avec notre premier protocole combinant IRMf et DTI, nous nous sommes intéressés aux activations et à la connectivité cérébrales chez 19 sujets sains en train de lire des phrases ou d'observer des images représentant des événements quotidiens. Une analyse de l'activité cérébrale conjointe associée à la compréhension de ces deux types de stimuli a révélé un réseau fronto-temporo-pariétal commun, impliquant le gyrus frontal inférieur, le gyrus précentral, le cortex rétrosplénial, le gyrus temporal moyen avec une activité s'étendant jusqu'à la jonction temporo-pariétale (TPJ) et au lobe pariétal inférieur. La tractographie DTI a révélé une architecture spécifique de fibres de matière blanche, soutenant ce réseau sémantique et qui fait appel principalement aux faisceaux décrits comme la voie ventrale sémantique (IFOF, UF, ILF, MdLF). Notre seconde expérience (protocole comportemental) nous a permis d'étudier les différences interindividuelles dans la capacité à se représenter des phrases présentées visuellement ou auditivement. Nous avons démontré que les individus ne sont pas égaux quant à cette capacité de représentation et que ces différences se reflètent dans des marqueurs comportementaux tels que la facilité de représentation (évaluée par le COR, coefficient de représentabilité) et la vitesse de réponse (TR) ; mais aussi que ces différences interindividuelles trouvent une correspondance avec le nombre de fibres qui composent le MdLF, laissant supposer une implication de ce faisceau dans ces capacités de représentation. Les résultats de ce protocole comportemental, ainsi que ceux de notre troisième protocole en EEG, ont permis de mettre en évidence un effet contextuel particulièrement important pour la création d'une représentation dans les deux modalités : le contexte induit par la présentation d'un premier stimulus (phrase ou image) influence la représentation d'un second stimulus selon que celui-ci est sémantiquement cohérent ou non avec le premier stimulus présenté... [etc]
Certain theories of cognitive function postulate a neural system for processing meaning, independent of the stimulus input modality. The objective of this thesis work, in line with the embodied cognition domain, was to study functionalities of such a network involved in both sentence and visual scene comprehension. In the literature, a wide network of fronto-temporo-parietal sensorimotor and associative areas are described as being involved in this process, and while there’s a lack of consensus on the amodal nature of this system, extensive research has focused on identifying distributed cortical systems that participate in meaning representations separately in the visual and language modalities. Moreover, the stimuli used are generally less complex than everyday life situations we meet. However, a significant portion of human mental life is built upon the construction of perceptually and socially rich internal scene representations and these mental models are involved in a large variety of processes for exploring specific memories of the past, planning the future, or understanding current situations. Although diffusion-tensor imagery based techniques makes feasible the visualization of white matter tracts in the human brain, the connectivity of the semantic network has been little studied. Through different experimental protocols involving mainly neuroimaging techniques (fMRI, DTI, EEG), we were able to reveal the neurophysiological basis of this common semantic network involved in the building of representation and comprehension of rich verbal and non-verbal stimuli. With our first experiment, we examined brain activation and connectivity in 19 subjects who read sentences and viewed pictures corresponding to everyday events, in a combined fMRI and DTI study. Conjunction of activity in understanding sentences and pictures revealed a common fronto temporo-parietal network that included inferior frontal gyrus, precentral gyrus, the retrosplenial complex, and medial temporal gyrus extending into the temporo-parietal junction (TPJ) and inferior parietal lobe. DTI tractography revealed a specific architecture of white matter fibers supporting this network which involves principally the pathways described as the ventral semantic route (IFOF, UF, ILF, MdLF). Our second experiment, which is a behavioral protocol, explored interindividual differences in the ability to represent sentences presented in auditory or visual modality. We demonstrated that individuals are not equal in this capacity to represent sentences, these differences were reflected in the effects on behavioral markers including scores of ease of representation (COR) and speed of responses (TR); they are also related to the number of fibers of the MdLF which supposes a role for this fasciculus in capacities of representation. Both the results of this behavioral protocol and results from our third EEG experiment also showed that the contextual effect was significant: the context induced by the presentation of a first stimulus has the ability to influence the representation of a second stimulus when is the second is semantically consistent or not with the first presented stimulus. Our EEG results (ERPs) revealed components influenced by the available semantic information: early attentional effects which could be modality-specific and later semantic integration process common for verbal and non-verbal stimuli... [etc]

APA, Harvard, Vancouver, ISO, and other styles

9

Nguyen, Van Dinh. "Exploitation de la détection de contours pour la compréhension de texte dans une scène visuelle." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS473.

Full text

Abstract:

L'intérêt porté à la détection de contours pour la compréhension de texte dans une scène visuelle a été croissant au cours des dernières années comme en témoignent un grand nombre d'applications telles que les systèmes de reconnaissance de plaque d'immatriculation de voiture, les systèmes de navigation, les voitures autonomes basées sur la reconnaissance des panneaux de signalisation, etc. Dans cette recherche, nous abordons les défis de la conception de systèmes de lecture de texte de scène automatique robustes et fiables. Deux étapes majeures du système, à savoir, la localisation de texte dans une scène et sa reconnaissance, ont été étudiées et de nouveaux algorithmes ont été développés pour y remédier. Nos travaux sont basés sur l'observation qu'indiquer des régions de texte de scène primaire qui ont forte probabilité d'être des textes est un aspect important dans la localisation et la reconnaissance de cette information. Ce facteur peut influencer à la fois la précision et l'efficacité des systèmes de détection et de reconnaissance. Inspirées par les succès des recherche de proposition d'objets dans la détection et la reconnaissance objet général, deux techniques de proposition de texte de scène ont été proposées, à savoir l'approche Text-Edge-Box (TEB) et l'approche Max-Pooling Text Proposal (MPT). Dans le TEB, les fonctionnalités bottom-up proposées, qui sont extraites des cartes binaires de contours de Canny, sont utilisées pour regrouper les contours connectés et leur attribuer un score distinct. Dans la technique MPT, une nouvelle solution de groupement est proposée, qui est inspiré de l'approche Max-Pooling. À la différence des techniques de regroupement existantes, cette solution ne repose sur aucune règle heuristique spécifique liée au texte ni sur aucun seuil pour fournir des décisions de regroupement. Basé sur ces résultats, nous avons conçu un système pour comprendre le texte dans une scène visuelle en intégrant des modèles a l'état de l'art en reconnaissance de texte, où une suppression des faux positifs et une reconnaissance de mot peut être traitée simultanément. De plus, nous avons développé un système assisté de recherche de texte dans une scène en construisant une interface web en complément du système de compréhension de texte. Le système peut être consulté via le lien: dinh.ubismart.org:27790. Des expériences sur diverses bases de données publiques montrent que les techniques proposées surpassent les méthodes les plus modernes de reconnaissance de textes sous différents cadres d'évaluation. Le système complet propose surpasse également d'autres systèmes complets de reconnaissance de texte et a été soumis à une compétition de lecture automatique dans laquelle il a montré sa performance et a atteint la cinquième position dans le classement (Dec-2017): http://rrc.cvc.uab.es/?ch=2&com =evaluation&task=4
Scene texts have been attracting increasing interest in recent years as witnessed by a large number of applications such as car licence plate recognition systems, navigation systems, self-driving cars based on traffic sign, and so on. In this research, we tackle challenges of designing robust and reliable automatic scene text reading systems. Two major steps of the system as a scene text localization and a scene text recognition have been studied and novel algorithms have been developed to address them. Our works are based on the observation that providing primary scene text regions which have high probability of being texts is very important for localizing and recognizing texts in scenes. This factor can influence both accuracy and efficiency of detection and recognition systems. Inspired by successes of object proposal researches in general object detection and recognition, two state-of-the-art scene text proposal techniques have been proposed, namely Text-Edge-Box (TEB) and Max-Pooling Text Proposal (MPT). In the TEB, proposed bottom-up features, which are extracted from binary Canny edge maps, are used to group edge connected components into proposals and score them. In the MPT technique, a novel grouping solution is proposed as inspired by the max-pooling idea. Different from existing grouping techniques, it does not rely on any text specific heuristic rules and thresholds for providing grouping decisions. Based on our proposed scene text proposal techniques, we designed an end-to-end scene text reading system by integrating proposals with state-of-the-art scene text recognition models, where a false positive proposals suppression and a word recognition can be processed concurrently. Furthermore, we developed an assisted scene text searching system by building a web-page user interface on top of the proposed end-to-end system. The system can be accessed by any smart device at the link: dinh.ubismart.org:27790. Experiments on various public scene text datasets show that the proposed scene text proposal techniques outperform other state-of-the-art scene text proposals under diﬀerent evaluation frameworks. The designed end-to-end systems also outperforms other scene-text-proposal based end-to-end systems and are competitive to other systems as presented in the robust reading competition community. It achieves the ﬁfth position in the champion list (Dec-2017): http://rrc.cvc.uab.es/?ch=2&com =evaluation&task=4

APA, Harvard, Vancouver, ISO, and other styles

10

Macé, Marc. "Représentations visuelles précoces dans la catégorisation rapide de scènes naturelles chez l'homme et le singe." Phd thesis, Université Paul Sabatier - Toulouse III, 2006. http://tel.archives-ouvertes.fr/tel-00077594.

Full text

Abstract:

Cette thèse porte sur le traitement rapide des scènes naturelles par les hommes et les singes. Elle est
composée de trois chapitres, chacun abordant un aspect particulier de la construction des
représentations visuelles précoces utilisées pour catégoriser rapidement les objets.
Nous montrons dans le premier chapitre que les informations magnocellulaires sont probablement très
impliquées dans la construction des représentations visuelles précoces. Ces représentations
rudimentaires de la scène visuelle pourraient servir à guider les traitements effectués sur les
informations parvocellulaires accessibles plus tardivement.
Dans le deuxième chapitre, nous nous intéressons à la chronométrie des traitements visuels, en
analysant les résultats de tâches conçues pour diminuer le temps de réaction des sujets ainsi que la
latence de l'activité différentielle cérébrale. Nous étudions également la dynamique fine de ces
traitements grâce à un protocole de masquage dans lequel l'information n'est accessible à l'écran que
pendant une période de temps très courte et nous montrons ainsi toute l'importance des 20-40
premières millisecondes de traitement.
Le troisième chapitre traite de la nature des représentations visuelles précoces et des tâches qu'elles
permettent de réaliser. Des expériences dans lesquelles les sujets doivent catégoriser des animaux à
différents niveaux montrent que le premier niveau auquel le système visuel accède n'est pas le niveau
de base mais le niveau superordonné. Ces résultats vont à l'encontre de l'architecture classiquement
admise sur la base de travaux utilisant des processus lexicaux et met en évidence l'importance de
facteurs comme l'expertise et la diagnosticité des indices visuels pour expliquer la vitesse d'accès aux
différents niveaux de catégorie.
Ces différents résultats permettent de caractériser les représentations précoces que le système visuel
utilise pour extraire le sens des informations qui lui parviennent et faire émerger la représentation
interne du monde telle que nous la percevons.

APA, Harvard, Vancouver, ISO, and other styles

11

Xu, Philippe. "Information fusion for scene understanding." Thesis, Compiègne, 2014. http://www.theses.fr/2014COMP2153/document.

Full text

Abstract:

La compréhension d'image est un problème majeur de la robotique moderne, la vision par ordinateur et l'apprentissage automatique. En particulier, dans le cas des systèmes avancés d'aide à la conduite, la compréhension de scènes routières est très importante. Afin de pouvoir reconnaître le grand nombre d’objets pouvant être présents dans la scène, plusieurs capteurs et algorithmes de classification doivent être utilisés. Afin de pouvoir profiter au mieux des méthodes existantes, nous traitons le problème de la compréhension de scènes comme un problème de fusion d'informations. La combinaison d'une grande variété de modules de détection, qui peuvent traiter des classes d'objets différentes et utiliser des représentations distinctes, est faites au niveau d'une image. Nous considérons la compréhension d'image à deux niveaux : la détection d'objets et la segmentation sémantique. La théorie des fonctions de croyance est utilisée afin de modéliser et combiner les sorties de ces modules de détection. Nous mettons l'accent sur la nécessité d'avoir un cadre de fusion suffisamment flexible afin de pouvoir inclure facilement de nouvelles classes d'objets, de nouveaux capteurs et de nouveaux algorithmes de détection d'objets. Dans cette thèse, nous proposons une méthode générale permettant de transformer les sorties d’algorithmes d'apprentissage automatique en fonctions de croyance. Nous étudions, ensuite, la combinaison de détecteurs de piétons en utilisant les données Caltech Pedestrian Detection Benchmark. Enfin, les données du KITTI Vision Benchmark Suite sont utilisées pour valider notre approche dans le cadre d'une fusion multimodale d'informations pour de la segmentation sémantique
Image understanding is a key issue in modern robotics, computer vison and machine learning. In particular, driving scene understanding is very important in the context of advanced driver assistance systems for intelligent vehicles. In order to recognize the large number of objects that may be found on the road, several sensors and decision algorithms are necessary. To make the most of existing state-of-the-art methods, we address the issue of scene understanding from an information fusion point of view. The combination of many diverse detection modules, which may deal with distinct classes of objects and different data representations, is handled by reasoning in the image space. We consider image understanding at two levels : object detection ans semantic segmentation. The theory of belief functions is used to model and combine the outputs of these detection modules. We emphazise the need of a fusion framework flexible enough to easily include new classes, new sensors and new object detection algorithms. In this thesis, we propose a general method to model the outputs of classical machine learning techniques as belief functions. Next, we apply our framework to the combination of pedestrian detectors using the Caltech Pedestrain Detection Benchmark. The KITTI Vision Benchmark Suite is then used to validate our approach in a semantic segmentation context using multi-modal information

APA, Harvard, Vancouver, ISO, and other styles

12

Sanchez, Corentin. "A world model enabling information integrity for autonomous vehicles." Thesis, Compiègne, 2022. http://www.theses.fr/2022COMP2683.

Full text

Abstract:

Pour conduire dans des environnements urbains complexes, les véhicules autonomes doivent comprendre leur environnement de conduite. Cette tâche, également connue sous le nom de “connaissance de la situation”, repose sur une représentation virtuelle interne du monde fait par le véhicule, appelée “World Model”. Cette représentation est généralement construite à partir d’informations fournies par de multiples sources. Les cartes de navigation haute définition fournissent des informations préalables telles que la topologie du réseau routier, la description géométrique de la route et des informations sémantiques, en incluant le code de la route. Le système de perception fournit une description de l’espace et des usagers de la route ´évoluant dans l’environnement du véhicule. Conjointement, ils fournissent des représentations de l’environnement (statique et dynamique) et permettent de modéliser les interactions. Dans des situations complexes, un “World Model” fiable et non trompeur est nécessaire pour éviter des prises de décision inappropriées et assurer la sécurité. L’objectif de cette thèse est de proposer un nouveau formalisme sur le concept de “World Model” qui répond aux exigences de “connaissance de la situation” pour un véhicule autonome. Ce “World Model” intègre des connaissances préalables sur la topologie du réseau routier, une représentation basée grille au niveau des voies, sa prédiction dans le temps et surtout un mécanisme de contrôle et de surveillance de l’intégrité des informations. Le concept de “World Model” est présent dans de nombreuses architectures de véhicules autonomes, mais il peut prendre des formes très diverses et parfois seulement implicites. Dans certains travaux, il fait partie du processus de perception alors que dans d’autres, il fait partie d’un processus de décision. La première contribution de cette thèse est une étude sur le concept de “World Model” pour la conduite autonome couvrant différents niveaux d’abstraction pour la représentation de l’information et le raisonnement. Ensuite, une nouvelle représentation est proposée pour le “World Model” au niveau tactique combinant des objets dynamiques et des informations d’occupation spatiale. Tout d’abord, une approche descendante basée sur les graphes utilisant une carte haute d´définition est proposée pour extraire les zones d’intérêt par rapport à la situation du point de vue du véhicule. Elle est ensuite utilisée pour construire une “Lane Grid Map” (LGM), qui est une représentation intermédiaire de l’état de l’espace du point de vue de l’ego véhicule. Cette approche descendante est choisie pour évaluer et caractériser les informations pertinentes de la situation. En plus des états occupés et libres classiques, nous caractérisons davantage l’état inconnu par les notions de zones dites neutralisées et sûres qui fournissent un niveau plus profond de compréhension de la situation. Une autre contribution au “World Model” est un mécanisme de gestion de l’intégrité qui est construit sur la représentation Lane Grid Map. Il consiste à gérer l’échantillonnage spatial des cellules de la grille afin de prendre en compte les erreurs de localisation et de perception et d’éviter les informations trompeuses. Indépendamment de la confiance accordée aux informations de localisation et de perception, la LGM doit être capable de fournir des informations fiables au module de prise de décisions afin de ne pas prendre de décisions dangereuses. La dernière partie de la stratégie de “connaissance de la situation” est la prédiction du “World Model” basée sur la représentation LGM. La principale contribution est de montrer comment une prédiction classique au niveau des objets s’adapte à cette représentation et que l’intégrité peut également être étendue au stade de la prédiction. Il est également décrit comment une zone neutralisée peut être utilisée dans l’étape de prédiction pour fournir une meilleure prédiction de la situation
To drive in complex urban environments, autonomous vehicles need to understand their driving context. This task, also known as the situation awareness, relies on an internal virtual representation of the world made by the vehicle, called world model. This representation is generally built from information provided by multiple sources. High definition navigation maps supply prior information such as road network topology, geometric description of the carriageway, and semantic information including traffic laws. The perception system provides a description of the space and of road users evolving in the vehicle surroundings. Conjointly, they provide representations of the environment (static and dynamic) and allow to model interactions. In complex situations, a reliable and non-misleading world model is mandatory to avoid inappropriate decision-making and to ensure safety. The goal of this PhD thesis is to propose a novel formalism on the concept of world model that fulfills the situation awareness requirements for an autonomous vehicle. This world model integrates prior knowledge on the road network topology, a lane-level grid representation, its prediction over time and more importantly a mechanism to control and monitor the integrity of information. The concept of world model is present in many autonomous vehicle architectures but may take many various forms and sometimes only implicitly. In some work, it is part of the perception process when in some other it is part of a decisionmaking process. The first contribution of this thesis is a survey on the concept of world model for autonomous driving covering different levels of abstraction for information representation and reasoning. Then, a novel representation is proposed for the world model at the tactical level combining dynamic objects and spatial occupancy information. First, a graph based top-down approach using a high-definition map is proposed to extract the areas of interests with respect to the situation from the vehicle's perspective. It is then used to build a Lane Grid Map (LGM), which is an intermediate space state representation from the ego-vehicle point of view. A top-down approach is chosen to assess and characterize the relevant information of the situation. Additionally to classical free-occupied states, the unknown state is further characterized by the notions of neutralized and safe areas that provide a deeper level of understanding of the situation. Another contribution to the world model is an integrity management mechanism that is built upon the LGM representation. It consists in managing the spatial sampling of the grid cells in order to take into account localization and perception errors and to avoid misleading information. Regardless of the confidence on localization and perception information, the LGM is capable of providing reliable information to decision making in order not to take hazardous decisions.The last part of the situation awareness strategy is the prediction of the world model based on the LGM representation. The main contribution is to show how a classical object-level prediction fits this representation and that the integrity can also be extended at the prediction stage. It is also depicted how a neutralized area can be used in the prediction stage to provide a better situation prediction. The work relies on experimental data in order to demonstrate a real application of a complex situation awareness representation. The approach is evaluated with real data obtained thanks to several experimental vehicles equipped with LiDAR sensors and IMU with RTK corrections in the city of Compi_egne. A high-definition map has also been used in the framework of the SIVALab joint laboratory between Renault and Heudiasyc CNRS-UTC. The world model module has been implemented (with ROS software) in order to fulfll real-time application and is functional on the experimental vehicles for live demonstrations

APA, Harvard, Vancouver, ISO, and other styles

13

Delaitre, Vincent. "Modeling and recognizing interactions between people, objects and scenes." Thesis, Paris, Ecole normale supérieure, 2015. http://www.theses.fr/2015ENSU0003/document.

Full text

Abstract:

Nous nous intéressons dans cette thèse à la modélisation des interactions entre personnes, objets et scènes. Nous montrons l’intérêt de combiner ces trois sources d’information pour améliorer la classification d’action et la compréhension automatique des scènes. Dans la première partie, nous cherchons à exploiter le contexte fourni par les objets et la scène pour améliorer la classification des actions humaines dans les photographies. Nous explorons différentes variantes du modèle dit de “bag-of-features” et proposons une méthode tirant avantage du contexte scénique. Nous proposons ensuite un nouveau modèle exploitant les objets pour la classification d’action basé sur des paires de détecteurs de parties du corps et/ou d’objet. Nous évaluons ces méthodes sur notre base de données d’images nouvellement collectée ainsi que sur trois autres jeux de données pour la classification d’action et obtenons des résultats proches de l’état de l’art. Dans la seconde partie de cette thèse, nous nous attaquons au problème inverse et cherchons à utiliser l’information contextuelle fournie par les personnes pour aider à la localisation des objets et à la compréhension des scènes. Nous collectons une nouvelle base de données de time-lapses comportant de nombreuses interactions entre personnes, objets et scènes. Nous développons une approche permettant de décrire une zone de l’image par la distribution des poses des personnes qui interagissent avec et nous utilisons cette représentation pour améliorer la localisation d’objets. De plus, nous démontrons qu’utiliser des informations provenant des personnes détectées peut améliorer plusieurs étapes de l’algorithme utilisé pour la compréhension des scènes d’intérieur. Pour finir, nous proposons des annotations 3D de notre base de time-lapses et montrons comment estimer l’espace utilisé par différentes classes d’objets dans une pièce. Pour résumer, les contributions de cette thèse sont les suivantes : (i) nous mettons au point des modèles pour la classification d’image tirant avantage du contexte scénique et des objets environnants et nous proposons une nouvelle base de données pour évaluer leurs performances, (ii) nous développons un nouveau modèle pour améliorer la localisation d’objet grâce à l’observation des acteurs humains interagissant avec une scène et nous le testons sur un nouveau jeu de vidéos comportant de nombreuses interactions entre personnes, objets et scènes, (iii) nous proposons la première méthode pour évaluer les volumes occupés par différentes classes d’objets dans une pièce, ce qui nous permet d’analyser les différentes étapes pour la compréhension automatique de scène d’intérieur et d’en identifier les principales sources d’erreurs
In this thesis, we focus on modeling interactions between people, objects and scenes and show benefits of combining corresponding cues for improving both action classification and scene understanding. In the first part, we seek to exploit the scene and object context to improve action classification in still images. We explore alternative bag-of-features models and propose a method that takes advantage of the scene context. We then propose a new model exploiting the object context for action classification based on pairs of body part and object detectors. We evaluate our methods on our newly collected still image dataset as well as three other datasets for action classification and show performance close to the state of the art. In the second part of this thesis, we address the reverse problem and aim at using the contextual information provided by people to help object localization and scene understanding. We collect a new dataset of time-lapse videos involving people interacting with indoor scenes. We develop an approach to describe image regions by the distribution of human co-located poses and use this pose-based representation to improve object localization. We further demonstrate that people cues can improve several steps of existing pipelines for indoor scene understanding. Finally, we extend the annotation of our time-lapse dataset to 3D and show how to infer object labels for occupied 3D volumes of a scene. To summarize, the contributions of this thesis are the following: (i) we design action classification models for still images that take advantage of the scene and object context and we gather a new dataset to evaluate their performance, (ii) we develop a new model to improve object localization thanks to observations of people interacting with an indoor scene and test it on a new dataset centered on person, object and scene interactions, (iii) we propose the first method to evaluate the volumes occupied by different object classes in a room that allow us to analyze the current 3D scene understanding pipeline and identify its main source of errors

APA, Harvard, Vancouver, ISO, and other styles

14

Wang, Fan. "How polarimetry may contribute to understand reflective road scenes : theory and applications." Thesis, Rouen, INSA, 2016. http://www.theses.fr/2016ISAM0003/document.

Full text

Abstract:

Les systèmes d'aide à la conduite (ADAS) visent à automatiser/ adapter/ améliorer les systèmes de transport pour une meilleure sécurité et une conduite plus sûre. Plusieurs thématiques de recherche traitent des problématiques autour des ADAS, à savoir la détection des obstacles, la reconnaissance de formes, la compréhension des images, la stéréovision, etc. La présence des réflexions spéculaires limite l'efficacité et la précision de ces algorithmes. Elles masquent les textures de l'image originale et contribuent à la perte de l'information utile. La polarisation de la lumière traduit implicitement l'information attachée à l'objet, telle que la direction de la surface, la nature de la matière, sa rugosité etc. Dans le contexte des ADAS, l'imagerie polarimétrique pourrait être utilisée efficacement pour éliminer les réflexions parasites des images et analyser d'une manière précise les scènes routières. Dans un premier temps, nous proposons dans cette thèse de supprimer les réflexions spéculaires des images via la polarisation en appliquant une minimisation d'énergie globale. L'information polarimétrique fournit une contrainte qui réduit les distorsions couleurs et produit une image diffuse beaucoup plus améliorée. Nous avons ensuite proposé d'utiliser les images de polarisation comme une caractéristique vu que dans les scènes routières, les hautes réflexions proviennent particulièrement de certains objets telles que les voitures. Les attributs polarimétriques sont utilisés pour la compréhension de la scène et la détection des voitures. Les résultats expérimentaux montrent que, une fois correctement fusionnés avec les caractéristiques couleur, les attributs polarimétriques offrent une information complémentaire qui améliore considérablement les résultats de la détection.Nous avons enfin testé l'imagerie de polarisation pour l'estimation de la carte de disparité. Une méthode d'appariement est proposée et validée d'abord sur une base de données couleur. Ensuite, Une règle de fusion est proposée afin d'utiliser l'imagerie polarimétrique comme une contrainte pour le calcul de la carte de disparité. A partir des différents résultats obtenus, nous avons prouvé le potentiel et la faisabilité d'appliquer l'imagerie de polarisation dans différentes applications liées aux systèmes d’aide à la conduite
Advance Driver Assistance Systems (ADAS) aim to automate/adapt/enhance trans-portation systems for safety and better driving. Various research topics are emerged to focus around the ADAS, including the object detection and recognition, image understanding, disparity map estimation etc. The presence of the specular highlights restricts the accuracy of such algorithms, since it covers the original image texture and leads to the lost of information. Light polarization implicitly encodes the object related information, such as the surface direction, material nature, roughness etc. Under the context of ADAS, we are inspired to further inspect the usage of polarization imaging to remove image highlights and analyze the road scenes.We firstly propose in this thesis to remove the image specularity through polarization by applying a global energy minimization. Polarization information provides a color constraint that reduces the color distortion of the results. The global smoothness assumption further integrates the long range information in the image and produces an improved diffuse image.We secondly propose to use polarization images as a new feature, since for the road scenes, the high reflection appears only upon certain objects such as cars. Polarization features are applied in image understanding and car detection in two different ways. The experimental results show that, once properly fused with rgb-based features, the complementary information provided by the polarization images improve the algorithm accuracy. We finally test the polarization imaging for depth estimation. A post-aggregation stereo matching method is firstly proposed and validated on a color database. A fusion rule is then proposed to use the polarization imaging as a constraint to the disparity map estimation. From these applications, we proved the potential and the feasibility to apply polariza-tion imaging in outdoor tasks for ADAS

APA, Harvard, Vancouver, ISO, and other styles

15

Huet, Moïra-Phoebé. "Voice mixology at a cocktail party : Combining behavioural and neural tracking for speech segregation." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI070.

Full text

Abstract:

Il n’est pas toujours aisé de suivre une conversation dans un environnement bruyant. Pour parvenir à discriminer deux locuteurs, nous devons mobiliser de nombreux mécanismes perceptifs et cognitifs, ce qui peut parfois entraîner un basculement momentané de notre attention auditive sur les discussions alentour. Dans cette thèse, les processus qui sous-tendent la ségrégation de la parole sont explorés à travers des expériences comportementales et neurophysiologiques. Dans un premier temps, le développement d’une tâche d’intelligibilité – le Long-SWoRD test – est introduit. Ce nouveau protocole permet, tout d’abord, de s’approcher de situations réalistes et, in fine, de bénéficier pour les participants de ressources cognitives, telles que des connaissances linguistiques, pour séparer deux locuteurs. La similarité entre les locuteurs, et donc par extension la difficulté de la tâche, a été contrôlée en manipulant les paramètres des voix. Dans un deuxième temps, les performances des sujets avec cette nouvelle tâche est évaluée à travers trois études comportementales et neurophysiologiques (EEG). Les résultats comportementaux sont cohérents avec la littérature et montrent que la distance entre les voix, les indices de spatialisation, ainsi que les informations sémantiques influencent les performances des participants. Les résultats neurophysiologiques, analysés avec des fonctions de réponse temporelle (TRF), suggèrent que les représentations neuronales des deux locuteurs diffèrent selon la difficulté des conditions d’écoute. Par ailleurs, ces représentations se construisent plus rapidement lorsque les voix sont facilement distinguables. Il est souvent supposé dans la littérature que l’attention des participants reste constamment sur la même voix. Le protocole expérimental présenté dans ce travail permet également d’inférer rétrospectivement à quel moment et quelle voix les participants écoutaient. C’est pourquoi, dans un troisième temps, une analyse combinée de ces informations attentionnelles et des signaux EEG est présentée. Les résultats soulignent que les informations concernant le focus attentionnel peuvent être utilisées avantageusement pour améliorer la représentation neuronale du locuteur sur lequel est porté la concentration dans les situations où les voix sont similaires
It is not always easy to follow a conversation in a noisy environment. In order to discriminate two speakers, we have to mobilize many perceptual and cognitive processes to maintain attention on a target voice and avoid shifting attention to the background. In this dissertation, the processes underlying speech segregation are explored through behavioural and neurophysiological experiments. In a preliminary phase, the development of an intelligibility task -- the Long-SWoRD test -- is introduced. This protocol allows participants to benefit from cognitive resources, such as linguistic knowledge, to separate two talkers in a realistic listening environment. The similarity between the two speakers, and thus by extension the difficulty of the task, was controlled by manipulating the acoustic parameters of the target and masker voices. In a second phase, the performance of the participants on this task is evaluated through three behavioural and neurophysiological studies (EEG). Behavioural results are consistent with the literature and show that the distance between voices, spatialisation cues, and semantic information influence participants' performance. Neurophysiological results, analysed with temporal response functions (TRF), indicate that the neural representations of the two speakers differ according to the difficulty of listening conditions. In addition, these representations are constructed more quickly when the voices are easily distinguishable. It is often presumed in the literature that participants' attention remains constantly on the same voice. The experimental protocol presented in this work provides the opportunity to retrospectively infer when participants were listening to each voice. Therefore, in a third stage, a combined analysis of this attentional information and EEG signals is presented. Results show that information about attentional focus can be used to improve the neural representation of the attended voice in situations where the voices are similar

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Compréhension de scènes'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles