Acceder

Bibliografías temáticas / Modèle d'attention / Tesis

Siga este enlace para ver otros tipos de publicaciones sobre el tema: Modèle d'attention.

Tesis sobre el tema "Modèle d'attention"

Autor: Grafiati

Publicado: 25 de mayo de 2024

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 15 mejores tesis para su investigación sobre el tema "Modèle d'attention".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Zhang, Yi. "Implantation d'un modèle d'attention en COGENT". Mémoire, Université de Sherbrooke, 2004. http://savoirs.usherbrooke.ca/handle/11143/4665.

Texto completo

Resumen

L’attention est une habilité cognitive qui joue un rôle primordial dans le contrôle des actions. L’attention réfère à l’allocation des ressources pour réaliser une action. L’interférence survient quand plusieurs événements réclament de l’attention. L’objet de ce mémoire est de modéliser l’attention, ce qui permettra de modéliser comment l’attention contrôle les actions humaines. En psychologie, Norman et Shallice ont construit un modèle d’organisation et de contrôle de l’attention. Ce modèle est basé sur deux composants responsables du contrôle de l’action, le “Contention Scheduling” et le “Supervisory Attentional System” . Nous présentons dans ce mémoire le modèle au complet mais l’emphase est portée sur le lien entre les deux composants. Des activités de la vie quotidienne sont simulées pour démontrer comment le modèle interagit en cas d’interruption d’une tâche routinière par une nouvelle tâche. Le temps où l’interruption survient est choisi aléatoirement. Le modèle d’attention est alors capable d’ajuster son comportement n’importe quand pendant l’action de la tâche routinière.

Los estilos APA, Harvard, Vancouver, ISO, etc.

2

Perreira, Da Silva Matthieu. "Modèle computationnel d'attention pour la vision adaptative". Phd thesis, Université de La Rochelle, 2010. http://tel.archives-ouvertes.fr/tel-00573844.

Texto completo

Resumen

L'analyse temps réel de la masse de données générée par les mécanismes de gestion de la vision dans les applications interactives est un problème toujours ouvert, promettant des avancées importantes dans des domaines aussi variés que la robotique, l'apprentissage à distance ou les nouvelles formes d'interactions avec l'utilisateur, sans clavier ni souris. Dans le cadre général de la vision, les algorithmes d'analyse de scène doivent trouver un compromis entre d'une part la qualité des résultats recherchés et d'autre part la quantité de ressources allouable aux différents tâches. Classiquement, ce choix est effectué à la conception du système (sous la forme de paramètres et d'algorithmes prédéfinis), mais cette solution limite le champ d'application de celui-ci. Une solution plus flexible consiste à utiliser un système de vision adaptatif qui pourra modifier sa stratégie d'analyse en fonction des informations disponibles concernant son contexte d'exécution. En conséquence, ce système doit posséder un mécanisme permettant de guider rapidement et efficacement l'exploration de la scène afin d'obtenir ces informations. Chez l'homme, les mécanismes de l'évolution ont mis en place le système d'attention visuelle. Ce système sélectionne les informations importantes afin de réduire la charge cognitive et les ambiguïtés d'interprétation de la scène. Nous proposons, dans cette thèse, un système d'attention visuelle, dont nous définissons l'architecture et les principes de fonctionnement. Ce dernier devra permettre l'interaction avec un système de vision afin qu'il adapte ses traitements en fonction de l'intérêt de chacun des éléments de la scène, i.e. ce que nous appelons saillance. A la croisée des chemins entre les modèles centralisés et hiérarchiques (ex : [Koch1985], puis [Itti1998]), et les modèles distribués et compétitifs (ex : [Desimone1995], puis [Deco2004, Rolls2006]), nous proposons un modèle hiérarchique, compétitif et non centralisé. Cette approche originale permet de générer un point de focalisation attentionnel à chaque pas de temps sans utiliser de carte de saillance ni de mécanisme explicite d'inhibition de retour. Ce nouveau modèle computationnel d'attention visuelle temps réel est basé sur un système d'équations proies / prédateurs, qui est bien adapté pour l'arbitrage entre un comportement attentionnel non déterministe et des propriétés de stabilité, reproductibilité, et réactivité. L'analyse des expérimentations menées est positive : malgré le comportement non-déterministe des équations proies / prédateurs, ce système possède des propriétés intéressantes de stabilité, reproductibilité, et réactivité, tout en permettant une exploration rapide et efficace de la scène. Ces propriétés ouvrent la possibilité d'aborder différents types d'applications allant de l'évaluation de la complexité d'images et de vidéos à la détection et au suivi d'objets. Enfin, bien qu'il soit destiné à la vision par ordinateur, nous comparons notre modèle au système attentionnel humain et montrons que celui-ci présente un comportement aussi plausible (voire plus en fonction du comportement défini) que les modèles classiques existants.

Los estilos APA, Harvard, Vancouver, ISO, etc.

3

Perreira, da Silva Matthieu. "Modèle computationnel d'attention pour la vision adaptative". Thesis, La Rochelle, 2010. http://www.theses.fr/2010LAROS317/document.

Texto completo

Resumen

L'analyse temps réel de la masse de données générée par les mécanismes de gestion de la vision dans les applications interactives est un problème toujours ouvert, promettant des avancées importantes dans des domaines aussi variés que la robotique, l’apprentissage à distance ou les nouvelles formes d’interactions avec l’utilisateur, sans clavier ni souris. Dans le cadre général de la vision, les algorithmes d’analyse de scène doivent trouver un compromis entre d'une part la qualité des résultats recherchés et d'autre part la quantité de ressources allouable aux différents tâches. Classiquement, ce choix est effectué à la conception du système (sous la forme de paramètres et d’algorithmes prédéfinis), mais cette solution limite le champ d’application de celui-ci. Une solution plus flexible consiste à utiliser un système de vision adaptatif qui pourra modifier sa stratégie d’analyse en fonction des informations disponibles concernant son contexte d’exécution. En conséquence, ce système doit posséder un mécanisme permettant de guider rapidement et efficacement l’exploration de la scène afin d’obtenir ces informations. Chez l’homme, les mécanismes de l’évolution ont mis en place le système d’attention visuelle. Ce système sélectionne les informations importantes afin de réduire la charge cognitive et les ambiguïtés d’interprétation de la scène. Nous proposons, dans cette thèse, un système d'attention visuelle, dont nous définissons l’architecture et les principes de fonctionnement. Ce dernier devra permettre l’interaction avec un système de vision afin qu’il adapte ses traitements en fonction de l’intérêt de chacun des éléments de la scène, i.e. ce que nous appelons saillance. A la croisée des chemins entre les modèles centralisés et hiérarchiques (ex : [Koch1985], puis [Itti1998]), et les modèles distribués et compétitifs (ex : [Desimone1995], puis [Deco2004, Rolls2006]), nous proposons un modèle hiérarchique, compétitif et non centralisé. Cette approche originale permet de générer un point de focalisation attentionnel à chaque pas de temps sans utiliser de carte de saillance ni de mécanisme explicite d’inhibition de retour. Ce nouveau modèle computationnel d'attention visuelle temps réel est basé sur un système d'équations proies / prédateurs, qui est bien adapté pour l'arbitrage entre un comportement attentionnel non déterministe et des propriétés de stabilité, reproductibilité, et réactivité. L'analyse des expérimentations menées est positive : malgré le comportement non-déterministe des équations proies / prédateurs, ce système possède des propriétés intéressantes de stabilité, reproductibilité, et réactivité, tout en permettant une exploration rapide et efficace de la scène. Ces propriétés ouvrent la possibilité d’aborder différents types d’applications allant de l’évaluation de la complexité d’images et de vidéos à la détection et au suivi d’objets. Enfin, bien qu’il soit destiné à la vision par ordinateur, nous comparons notre modèle au système attentionnel humain et montrons que celui-ci présente un comportement aussi plausible (voire plus en fonction du comportement défini) que les modèles classiques existants
Providing real time analysis of the huge amount of data generated by computer vision algorithms in interactive applications is still an open problem. It promises great advances across a wide variety of fields : robotics, distance education, or new mouse-less and keyboard-less human computer interaction.When using scene analysis algorithms for computer vision, a trade-off must be found between the quality of the results expected, and the amount of computer resources allocated for each task. It is usually a design time decision, implemented through the choice of pre-defined algorithms and parameters. However, this way of doing limits the generality of the system. Using an adaptive vision system provides a more flexible solution as its analysis strategy can be changed according to the information available concerning the execution context. As a consequence, such a system requires some kind of guiding mechanism to explore the scene faster and more efficiently.In human, the mechanisms of evolution have generated the visual attention system which selects the most important information in order to reduce both cognitive load and scene understanding ambiguity.In this thesis, we propose a visual attention system tailored for interacting with a vision system (whose theoretical architecture is given) so that it adapts its processing according to the interest (or salience) of each element of the scene.Somewhere in between hierarchical salience based (ex: [Koch1985], then [Itti1998]) and competitive distributed (ex: [Desimone1995], then [Deco2004, Rolls2006]) models, we propose a hierarchical yet competitive and non salience based model. Our original approach allows the generation of attentional focus points without the need of neither saliency map nor explicit inhibition of return mechanism. This new real-time computational model is based on a preys / predators system. The use of this kind of dynamical system is justified by an adjustable trade-off between nondeterministic attentional behavior and properties of stability, reproducibility and reactiveness.Our experiments shows that despite the non deterministic behavior of preys / predators equations, the system exhibits interesting properties of stability, reproducibility and reactiveness while allowing a fast and efficient exploration of the scene. These properties are useful for addressing different kinds of applications, ranging from image complexity evaluation, to object detection and tracking. Finally, while it is designed for computer vision, we compare our model to human visual attention. We show that it is equally as plausible as existing models (or better, depending on its configuration)

Los estilos APA, Harvard, Vancouver, ISO, etc.

4

Ho-Phuoc, Tien. "Développement et mise en œuvre de modèle d'attention visuelle". Grenoble INPG, 2010. https://tel.archives-ouvertes.fr/tel-00495365.

Texto completo

Resumen

Pour explorer le monde qui nous entoure nous bougeons sans cesse les yeux. Quels sont les facteurs guidant les mouvements oculaires? Comment les interpréter et les évaluer quantitativement? Cette thèse aborde ces questions lors de l’exploration libre de scènes naturelles, sous deux aspects: la modélisation et le recueil de données comportementales. Le modèle «bottom-up» proposé s’inspire fortement de la biologie et propose de prédire les régions dites «saillantes» (qui attirent les yeux). Ainsi, nous montrons que bien que la couleur soit présente partout et apparaisse dans plusieurs modèles de la littérature, celle-ci influence peu les mouvements oculaires. De même, programmer plusieurs saccades en parallèle à partir d’un point de fixation n’est pas compatible avec les données comportementales
To explore the world around us, we move constantly our eyes. What factors guide eye movements? How to interpret and evaluate quantitatively them? This thesis addresses these problems in the context of free viewing of natural scenes, according two aspects: modelisation and behavioural data obtained from eye movements experiments. The proposed «bottom-up» model is inspired mainly by the biology of the human visual system and proposes to predict the salient regions (which attract the eyes). We show that although colour is often used in most models in the literature, it influences little on eye movements. It is also unveiled that programming severa 1 saccades in parallel from one fixation point is not compatible with the experimental data

Los estilos APA, Harvard, Vancouver, ISO, etc.

5

Gautier, Josselin. "Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues". Phd thesis, Université Rennes 1, 2012. http://tel.archives-ouvertes.fr/tel-00758112.

Texto completo

Resumen

Cette thèse a pour objet les systèmes 3D émergents et leurs problématiques de codage multi-vues-plus-profondeur, de synthèse de vues virtuelles et de perception stéréoscopique. Des solutions sont proposées au travers d'un codage de carte de profondeur efficace, d'une nouvelle méthode de synthèse par extrapolation et d'un modèle d'attention visuelle dynamique. Premièrement, le rôle de la disparité binoculaire dans le déploiement de l'attention visuelle est étudié. Suite à une analyse statistique de biais potentiels de centre et de profondeur en condition mono et stéréoscopique, un nouveau modèle de saillance est proposé combinant des attributs bas et haut niveau, dont le mécanisme visuel de séparation fond/forme. Les performances confirment la validité de l'approche et la pertinence d'une combinaison d'attributs visuels pondérés au cours du temps. En outre une nouvelle méthode de compression de carte de profondeur est présentée ; celle-ci se base sur la transmission sans perte des contours et permet une reconstruction fiable de la géométrie de la scène pour des synthèses de vues précises. Cette méthode est évaluée par des métriques de qualité objectives ainsi que par des tests subjectifs. Enfin une nouvelle méthode d'inpainting directionnelle est présentée pour l'extrapolation de nouveaux points de vues à la fois pour la 3DTV et la FTV. La structure située à l'arrière-plan est propagée en priorité dans les zones découvertes. Le calcul d'isophotes, robuste car basée tenseur, ainsi que le remplissage directionnel assurent une synthèse de vue plausible. Ces résultats sont visuellement prometteurs que ce soit à faible ou large écart de la vue d'origine.

Los estilos APA, Harvard, Vancouver, ISO, etc.

6

Chaabouni, Souad. "Etude et prédiction d'attention visuelle avec les outils d'apprentissage profond en vue d'évaluation des patients atteints des maladies neuro-dégénératives". Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0768/document.

Texto completo

Resumen

Cette thèse est motivée par le diagnostic et l’évaluation des maladies neuro-dégénératives et dans le but de diagnostique sur la base de l’attention visuelle.Néanmoins, le dépistage à grande échelle de la population n’est possible que si des modèles de prédiction automatique suffisamment robustes peuvent être construits. Dans ce contexte nous nous intéressons `a la conception et le développement des modèles de prédiction automatique pour un contenu visuel spécifique à utiliser dans l’expérience psycho-visuelle impliquant des patients atteints des maladies neuro-dégénératives. La difficulté d’une telle prédiction réside dans une très faible quantité de données d’entraînement. Les modèles de saillance visuelle ne peuvent pas être fondés sur les caractérisitiques “bottom-up” uniquement, comme le suggère la théorie de l’intégration des caractéristiques. La composante “top-down” de l’attention visuelle humaine devient prépondérante au fur et à mesure d’observation de la scène visuelle. L’attention visuelle peut-être prédite en se basant sur les scènes déjà observées. Les réseaux de convolution profonds (CNN) se sont révèlés être un outil puissant pour prédire les zones saillantes dans les images statiques.Dans le but de construire un modèle de prédiction automatique pour les zones saillantes dans les vidéos naturels et intentionnellement dégradées, nous avons conçu une architecture spécifique de CNN profond. Pour surmonter le manque de données d’apprentissage,nous avons conçu un système d’apprentissage par transfert dérivé de la méthode de Bengio.Nous mesurons ses performances lors de la prédiction de régions saillantes. Les r´esultatsobtenus sont int´eressants concernant la r´eaction des sujets t´emoins normaux contre leszones d´egrad´ees dans les vid´eos. La comparaison de la carte de saillance pr´edite des vid´eosintentionnellement d´egrad´ees avec des cartes de densit´e de fixation du regard et d’autresmod`eles de r´ef´erence montre l’int´erˆet du mod`ele d´evelopp´e
This thesis is motivated by the diagnosis and the evaluation of the dementia diseasesand with the aim of predicting if a new recorded gaze presents a complaint of thesediseases. Nevertheless, large-scale population screening is only possible if robust predictionmodels can be constructed. In this context, we are interested in the design and thedevelopment of automatic prediction models for specific visual content to be used in thepsycho-visual experience involving patients with dementia (PwD). The difficulty of sucha prediction lies in a very small amount of training data.Visual saliency models cannot be founded only on bottom-up features, as suggested byfeature integration theory. The top-down component of human visual attention becomesprevalent as human observers explore the visual scene. Visual saliency can be predictedon the basis of seen data. Deep Convolutional Neural Networks (CNN) have proven tobe a powerful tool for prediction of salient areas in static images. In order to constructan automatic prediction model for the salient areas in natural and intentionally degradedvideos, we have designed a specific CNN architecture. To overcome the lack of learningdata we designed a transfer learning scheme derived from bengio’s method. We measureits performances when predicting salient regions. The obtained results are interestingregarding the reaction of normal control subjects against degraded areas in videos. Thepredicted saliency map of intentionally degraded videos gives an interesting results comparedto gaze fixation density maps and other reference models

Los estilos APA, Harvard, Vancouver, ISO, etc.

7

Muddamsetty, Satya Mahesh. "Modèles d'attention visuelle pour l'analyse de scènes dynamiques". Thesis, Dijon, 2014. http://www.theses.fr/2014DIJOS067/document.

Texto completo

Resumen

De nombreuses applications de la vision par ordinateur requièrent la détection, la localisation et le suivi de régions ou d’objets d’intérêt dans une image ou une séquence d’images. De nombreux modèles d’attention visuelle, inspirés de la vision humaine, qui détectent de manière automatique les régions d’intérêt dans une image ou une vidéo, ont récemment été développés et utilisés avec succès dans différentes applications. Néanmoins, la plupart des approches existantes sont limitées à l’analyse de scènes statiques et très peu de méthodes exploitent la nature temporelle des séquences d’images.L'objectif principal de ce travail de thèse est donc l'étude de modèles d'attention visuelle pour l'analyse de scènes dynamiques complexes. Une carte de saliance est habituellement obtenue par la fusion d'une carte statitque (saliance spatiale dans une image) d'une part, et d'une carte dynamique (salience temporelle entre une série d'image) d'autre part. Dans notre travail, nous modélisons les changements dynamiques par un opérateur de texture LBP-TOP (Local Binary Patterns) et nous utilisons l'information couleur pour l'aspect spatial.Les deux cartes de saliances sont calculées en utilisant une formulation discriminante inspirée du système visuel humain, et fuionnées de manière appropriée en une carte de saliance spatio-temporelle.De nombreuses expériences avec des bases de données publiques, montrent que notre approche obteint des résulats meilleurs ou comparables avec les approches de la littérature
Visual saliency is an important research topic in the field of computer vision due to its numerouspossible applications. It helps to focus on regions of interest instead of processingthe whole image or video data. Detecting visual saliency in still images has been widelyaddressed in literature with several formulations. However, visual saliency detection invideos has attracted little attention, and is a more challenging task due to additional temporalinformation. Indeed, a video contains strong spatio-temporal correlation betweenthe regions of consecutive frames, and, furthermore, motion of foreground objects dramaticallychanges the importance of the objects in a scene. The main objective of thethesis is to develop a spatio-temporal saliency method that works well for complex dynamicscenes.A spatio-temporal saliency map is usually obtained by the fusion of a static saliency mapand a dynamic saliency map. In our work, we model the dynamic textures in a dynamicscene with Local Binary Patterns (LBP-TOP) to compute the dynamic saliency map, andwe use color features to compute the static saliency map. Both saliency maps are computedusing a bio-inspired mechanism of Human Visual System (HVS) with a discriminantformulation known as center surround saliency, and are fused in a proper way.The proposed models have been extensively evaluated with diverse publicly availabledatasets which contain several videos of dynamic scenes. The evaluation is performed intwo parts. First, the method in locating interesting foreground objects in complex scene.Secondly, we evaluate our model on the task of predicting human observers fixations.The proposed method is also compared against state-of-the art methods, and the resultsshow that the proposed approach achieves competitive results.In this thesis we also evaluate the performance of different fusion techniques, because fusionplays a critical role in the accuracy of the spatio-temporal saliency map. We evaluatethe performances of different fusion techniques on a large and diverse complex datasetand the results show that a fusion method must be selected depending on the characteristics,in terms of color and motion contrasts, of a sequence. Overall, fusion techniqueswhich take the best of each saliency map (static and dynamic) in the final spatio-temporalmap achieve best results

Los estilos APA, Harvard, Vancouver, ISO, etc.

8

Botterman, Hông-Lan. "Corrélations dans les graphes d'information hétérogène : prédiction et modélisation de liens à partir de méta-chemins". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS083.

Texto completo

Resumen

De nombreuses entités possiblement de natures différentes sont reliées par des liens pouvant également être de natures différentes. De telles données peuvent être représentées par un graphe d’information hétérogène (heterogeneous information network, HIN). De plus, il existe souvent des corrélations entre entités ou événements de la vie réelle. Une fois ces derniers représentés par des abstractions appropriées telles que les HIN, les corrélations peuvent dès lors se retrouver dans ces graphes particuliers. Motivé par ces considérations, cette thèse s’intéresse aux effets des possibles corrélations entre les liens d’un HIN sur sa structure. Ce présent travail tente de répondre à des questions telles que : y a-t-il des corrélations entre les liens de différents types ? Si oui, est-il possible de les quantifier ? Que signifient-elles ? Est-ce que ces corrélations peuvent servir à prédire l’apparition de liens ? À modéliser des dynamiques de co-évolution ? Les exemples étudiés peuvent être divisés en deux catégories. Premièrement, l’utilisation des corrélations pour la prédiction du poids des liens est étudiée. Il est montré que les corrélations entre les liens, et plus particulièrement entre les chemins, peuvent être utilisées pour récupérer et prédire le poids d’autres liens, d’un type spécifié. Deuxièmement, une dynamique de poids de liens est considérée. Il est montré que la co-évolution de liens peut servir, par exemple, à définir un modèle d’attention entre individus et sujets. Les résultats préliminaires sont en accord avec d’autres présents dans la littérature, principalement relatifs aux modèles de dynamiques d’opinions. Globalement, ce travail illustre l’importance des corrélations entre les liens d’un HIN. En outre, il soutient le fait général que différents types de nœuds et liens abondent dans la nature et qu’il peut être important et instructif de prendre en compte cette diversité afin de comprendre l’organisation et le fonctionnement d’un système
Many entities, possibly of different natures, are linked by physical or virtual links, that may also be of different natures. Such data can be represented by a heterogeneous information network (HIN). In addition, there are often correlations between real-life entities or events. Once represented by suitable abstractions (such as HIN), these correlations can therefore be found in the HIN. Motivated by these considerations, this thesis investigates the effects of possible correlations between the links of an HIN on its structure. This present work aims at answering questions such as: are there indeed correlations between different types of links? If so, is it possible to quantify them? What do they mean? How can they be interpreted? Can these correlations be used to predict the occurrence of links? To model co-evolution dynamics? The examples studied can be divided into two categories. First, the use of correlations for the prediction of the links’ weight is studied. It is shown that correlations between links, and more specifically between paths, can be used to recover and, to some extent, predict the weight of other links of a specified type. Second, a link weight dynamics is considered. It is shown that link co-evolution can be used, for example, to define a model of attention between individuals and subjects. The preliminary results are in agreement with others in the literature, mainly related to models of opinion dynamics. Overall, this work illustrates the importance of correlations between the links of an HIN. In addition, it supports the general fact that different types of nodes and links abound in nature and that it could be important and instructive to take this diversity into account in order to understand the organization and functioning of a system

Los estilos APA, Harvard, Vancouver, ISO, etc.

9

Martinez, Francis. "Tout est dans le regard : reconnaissance visuelle du comportement humain en vue subjective". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-01001816.

Texto completo

Resumen

Dans ce manuscrit, nous nous intéressons à l'analyse visuelle du comportement humain à partir de l'information du regard. A l'inverse des caméras statiques et externes, nous adoptons un point de vue subjectif, ce qui permet de placer le contexte d'étude au centre de l'être humain et de ses interactions avec l'environnement. Pour atteindre cet objectif, nous avons développé un eye-tracker porté, ainsi que des outils d'analyse associés, en particulier la reconnaissance d'attention dans le cadre d'interactions sociales et la reconnaissance d'activités subjectives. Dans la première partie de cette thèse, nous présentons un eye-tracker binoculaire tête porté à partir duquel nous estimons le regard du sujet. Contrairement à la plupart des systèmes basés sur l'éclairage infrarouge, notre approche fonctionne en éclairage visible. Pour cela, nous nous inspirons des méthodes basées apparence qui, au lieu, d'extraire des caractéristiques géométriques (par exemple, la pupille), exploitent l'image de l'oeil dans sa globalité et elles permettent donc de prendre en compte toutes les caractéristiques de l'oeil. Pour apprendre la relation entre les caractéristiques d'apparence et les coordonnées du point de regard dans l'image de la caméra scène, deux modèles de régression sont comparés : le Support Vector Regression et le Relevance Vector Regression. Nous proposons, ensuite, une nouvelle méthode de reconnaissance d'attention en vue subjective. Le regard subjectif est obtenu à l'aide de notre eye-tracker, tandis que le regard d'autrui est construit à partir de l'estimation de l'orientation de la tête par régression à noyaux multiples localisés. En combinant ces deux types de regard, nous calculons alors des scores d'attention qui permettent d'identifier des motifs attentionnels dyadiques tels que le regard mutuel, mais aussi des motifs d'ordre supérieur émanant de la nature triadique de notre expérience. Notre outil final d'analyse concerne la reconnaissance d'activités basée sur le regard et l'égo-mouvement. Ces mouvements sont quantifiés en fonction de leur direction et de leur amplitude et encodés sous forme de symboles. Des caractéristiques statistiques sont alors extraites via un codage multi-échelle et un partitionnement temporel. Pour la classification et la segmentation d'activités, nous décrivons une approche par apprentissage contextuel en intégrant des scores de prédiction d'un voisinage à longue portée. Une étude détaillée permet également de comprendre quelles caractéristiques jouent un rôle prédominant dans la représentation d'une activité.

Los estilos APA, Harvard, Vancouver, ISO, etc.

10

Hillaire, Sébastien. "Contribution à l'étude des modèles d'attention visuelle et du suivi de regard pour améliorer le retour visuel dans les applications 3D interactives". Rennes, INSA, 2011. http://www.theses.fr/2011ISAR0002.

Texto completo

Resumen

En réalité virtuelle, l'interaction entre un homme et une machine peut être effectuée au travers de multiples canaux sensoriels. Le canal visuel est généralement utilisé afin de fournir à l'utilisateur une visualisation de l'environnement virtuel avec lequel il interagit. L'objectif de cette thèse est d'améliorer ce retour visuel de manière interactive en tenant compte de l'attention visuelle de l'utilisateur. La première partie de cette thèse est dédiée à l'évaluation de l'attention humaine. Nous avons cherché à calculer en temps réel le point de focalisation d’un utilisateur naviguant avec une vue à la première personne dans un environnement virtuel 3D. Pour cela, nous avons d’abord étudié l'attention visuelle humaine lors de la marche en environnements virtuels et avons montré qu'il existe de nombreux points communs avec la marche en situation réel. Nous avons ensuite proposé un modèle permettant de simuler ce comportement visuel. Puis, nous avons intégré ce composant dans un nouveau modèle d'attention visuelle complet permettant de prédire, en temps-réel, l'attention visuelle d'un utilisateur naviguant dans un environnement virtuel 3D. Nos évaluations ont montré que notre modèle est capable de prédire l'attention visuelle des utilisateurs de manière plus efficace que les modèles existant. Enfin, nous avons proposé une nouvelle utilisation des modèles d'attention visuelle dans le but d'améliorer la précision des systèmes de suivi du regard. Notre étude a montré que notre approche pouvait améliorer la précision globale de ces systèmes. Dans la deuxième partie de cette thèse, nous avons cherché à enrichir le retour visuel aux utilisateurs dans le but d'améliorer leur sentiment d'immersion et leur perception de l'environnement virtuel. Nous avons proposé une nouvelle utilisation du point de focalisation dans le but de simuler des effets visuels naturellement présents dans la vision humaine: un effet de flou de profondeur et un mouvement de caméra compensé. Notre étude a montré que ces effets étaient fortement préférés par les utilisateurs lorsqu'ils étaient calculés en fonction de leur point de focalisation, et donc de manière plus interactive
In virtual reality, the interaction between a human and a computer can be achieved through multiple sensory channels. The visual channel is generally used in order to provide a visual feedback to the user interacting with a virtual environment. The goal of this thesis is to improve this visual feedback by taking into account user’s visual attention in an interactive manner. The first part of this thesis is dedicated to human attention. We wanted to evaluate in real-time the gaze point of a user navigating in a 3D virtual environment using a first-person view. We have first studied human visual attention when walking in a virtual environment and have shown that there are several common behaviors when compared to a real pedestrian walk. We have then proposed a model in order to simulate this behavior. We have included this component in a novel visual attention model able to predict, in real-time, the attention of a user navigating in a virtual environment. Our evaluation has shown that our model was able to predict the users' visual attention more efficiently than existing models. Finally, we have proposed a novel use of visual attention models in order to improve the accuracy of any gaze tracking systems. Our study has shown that our approach could improve the global accuracy of these systems. In the second part of this thesis, we have researched a novel way to improve the visual feedback to the users in order to improve their immersion feelings and perception of a virtual environment. We have proposed a novel use of the gaze point in order to simulate natural visual effects present in human vision: a depth-of-field blur effect and a compensated camera motion. Our study has shown that these effects were strongly preferred by participants when they were computed based on their gaze point, in a more interactive manner

Los estilos APA, Harvard, Vancouver, ISO, etc.

11

Belkacem, Thiziri. "Neural models for information retrieval : towards asymmetry sensitive approaches based on attention models". Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30167.

Texto completo

Resumen

Ce travail se situe dans le contexte de la recherche d'information (RI) utilisant des techniques d'intelligence artificielle (IA) telles que l'apprentissage profond (DL). Il s'intéresse à des tâches nécessitant l'appariement de textes, telles que la recherche ad-hoc, le domaine du questions-réponses et l'identification des paraphrases. L'objectif de cette thèse est de proposer de nouveaux modèles, utilisant les méthodes de DL, pour construire des modèles d'appariement basés sur la sémantique de textes, et permettant de pallier les problèmes de l'inadéquation du vocabulaire relatifs aux représentations par sac de mots, ou bag of words (BoW), utilisées dans les modèles classiques de RI. En effet, les méthodes classiques de comparaison de textes sont basées sur la représentation BoW qui considère un texte donné comme un ensemble de mots indépendants. Le processus d'appariement de deux séquences de texte repose sur l'appariement exact entre les mots. La principale limite de cette approche est l'inadéquation du vocabulaire. Ce problème apparaît lorsque les séquences de texte à apparier n'utilisent pas le même vocabulaire, même si leurs sujets sont liés. Par exemple, la requête peut contenir plusieurs mots qui ne sont pas nécessairement utilisés dans les documents de la collection, notamment dans les documents pertinents. Les représentations BoW ignorent plusieurs aspects, tels que la structure du texte et le contexte des mots. Ces caractéristiques sont très importantes et permettent de différencier deux textes utilisant les mêmes mots et dont les informations exprimées sont différentes. Un autre problème dans l'appariement de texte est lié à la longueur des documents. Les parties pertinentes peuvent être réparties de manières différentes dans les documents d'une collection. Ceci est d'autant vrai dans les documents volumineux qui ont tendance à couvrir un grand nombre de sujets et à inclure un vocabulaire variable. Un document long pourrait ainsi comporter plusieurs passages pertinents qu'un modèle d'appariement doit capturer. Contrairement aux documents longs, les documents courts sont susceptibles de concerner un sujet spécifique et ont tendance à contenir un vocabulaire plus restreint. L'évaluation de leur pertinence est en principe plus simple que celle des documents plus longs. Dans cette thèse, nous avons proposé différentes contributions répondant chacune à l'un des problèmes susmentionnés. Tout d'abord, afin de résoudre le problème d'inadéquation du vocabulaire, nous avons utilisé des représentations distribuées des mots (plongement lexical) pour permettre un appariement basé sur la sémantique entre les différents mots. Ces représentations ont été utilisées dans des applications de RI où la similarité document-requête est calculée en comparant tous les vecteurs de termes de la requête avec tous les vecteurs de termes du document, indifféremment. Contrairement aux modèles proposés dans l'état-de-l'art, nous avons étudié l'impact des termes de la requête concernant leur présence/absence dans un document. Nous avons adopté différentes stratégies d'appariement document/requête. L'intuition est que l'absence des termes de la requête dans les documents pertinents est en soi un aspect utile à prendre en compte dans le processus de comparaison. En effet, ces termes n'apparaissent pas dans les documents de la collection pour deux raisons possibles : soit leurs synonymes ont été utilisés ; soit ils ne font pas partie du contexte des documents en questions
This work is situated in the context of information retrieval (IR) using machine learning (ML) and deep learning (DL) techniques. It concerns different tasks requiring text matching, such as ad-hoc research, question answering and paraphrase identification. The objective of this thesis is to propose new approaches, using DL methods, to construct semantic-based models for text matching, and to overcome the problems of vocabulary mismatch related to the classical bag of word (BoW) representations used in traditional IR models. Indeed, traditional text matching methods are based on the BoW representation, which considers a given text as a set of independent words. The process of matching two sequences of text is based on the exact matching between words. The main limitation of this approach is related to the vocabulary mismatch. This problem occurs when the text sequences to be matched do not use the same vocabulary, even if their subjects are related. For example, the query may contain several words that are not necessarily used in the documents of the collection, including relevant documents. BoW representations ignore several aspects about a text sequence, such as the structure the context of words. These characteristics are important and make it possible to differentiate between two texts that use the same words but expressing different information. Another problem in text matching is related to the length of documents. The relevant parts can be distributed in different ways in the documents of a collection. This is especially true in large documents that tend to cover a large number of topics and include variable vocabulary. A long document could thus contain several relevant passages that a matching model must capture. Unlike long documents, short documents are likely to be relevant to a specific subject and tend to contain a more restricted vocabulary. Assessing their relevance is in principle simpler than assessing the one of longer documents. In this thesis, we have proposed different contributions, each addressing one of the above-mentioned issues. First, in order to solve the problem of vocabulary mismatch, we used distributed representations of words (word embedding) to allow a semantic matching between the different words. These representations have been used in IR applications where document/query similarity is computed by comparing all the term vectors of the query with all the term vectors of the document, regardless. Unlike the models proposed in the state-of-the-art, we studied the impact of query terms regarding their presence/absence in a document. We have adopted different document/query matching strategies. The intuition is that the absence of the query terms in the relevant documents is in itself a useful aspect to be taken into account in the matching process. Indeed, these terms do not appear in documents of the collection for two possible reasons: either their synonyms have been used or they are not part of the context of the considered documents. The methods we have proposed make it possible, on the one hand, to perform an inaccurate matching between the document and the query, and on the other hand, to evaluate the impact of the different terms of a query in the matching process. Although the use of word embedding allows semantic-based matching between different text sequences, these representations combined with classical matching models still consider the text as a list of independent elements (bag of vectors instead of bag of words). However, the structure of the text as well as the order of the words is important. Any change in the structure of the text and/or the order of words alters the information expressed. In order to solve this problem, neural models were used in text matching

Los estilos APA, Harvard, Vancouver, ISO, etc.

12

Elbayad, Maha. "Une alternative aux modèles neuronaux séquence-à-séquence pour la traduction automatique". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM012.

Texto completo

Resumen

L'apprentissage profond a permis des avancées significatives dans le domaine de la traduction automatique.La traduction automatique neuronale (NMT) s'appuie sur l'entrainement de réseaux de neurones avec un grand nombre de paramètres sur une grand quantité de données parallèles pour apprendre à traduire d'une langue à une autre.Un facteur primordial dans le succès des systèmes NMT est la capacité de concevoir des architectures puissantes et efficaces. Les systèmes de pointe sont des modèles encodeur-décodeurs qui, d'abord, encodent une séquence source sous forme de vecteurs de caractéristiques, puis décodent de façon conditionne la séquence cible.Dans cette thèse, nous remettons en question le paradigme encodeur-décodeur et préconisons de conjointement encoder la source et la cible afin que les deux séquences interagissent à des niveaux d'abstraction croissants. À cette fin, nous introduisons Pervasive Attention, un modèle basé sur des convolutions bidimensionnelles qui encodent conjointement les séquences source et cible avec des interactions qui sont omniprésentes dans le réseau neuronal.Pour améliorer l'efficacité des systèmes NMT, nous étudions la traduction automatique simultanée où la source est lue de manière incrémentielle et le décodeur est alimenté en contextes partiels afin que le modèle puisse alterner entre lecture et écriture. Nous améliorons les agents déterministes qui guident l'alternance lecture / écriture à travers un chemin de décodage rigide et introduisons de nouveaux agents dynamiques pour estimer un chemin de décodage adapté au cas-par-cas.Nous abordons également l'efficacité computationnelle des modèles NMT et affirmons qu'ajouter plus de couches à un réseau de neurones n'est pas requis pour tous les cas.Nous concevons des décodeurs Transformer qui peuvent émettre des prédictions à tout moment dotés de mécanismes d'arrêt adaptatifs pour allouer des ressources en fonction de la complexité de l'instance
In recent years, deep learning has enabled impressive achievements in Machine Translation.Neural Machine Translation (NMT) relies on training deep neural networks with large number of parameters on vast amounts of parallel data to learn how to translate from one language to another.One crucial factor to the success of NMT is the design of new powerful and efficient architectures. State-of-the-art systems are encoder-decoder models that first encode a source sequence into a set of feature vectors and then decode the target sequence conditioning on the source features.In this thesis we question the encoder-decoder paradigm and advocate for an intertwined encoding of the source and target so that the two sequences interact at increasing levels of abstraction. For this purpose, we introduce Pervasive Attention, a model based on two-dimensional convolutions that jointly encode the source and target sequences with interactions that are pervasive throughout the network.To improve the efficiency of NMT systems, we explore online machine translation where the source is read incrementally and the decoder is fed partial contexts so that the model can alternate between reading and writing. We investigate deterministic agents that guide the read/write alternation through a rigid decoding path, and introduce new dynamic agents to estimate a decoding path for each sample.We also address the resource-efficiency of encoder-decoder models and posit that going deeper in a neural network is not required for all instances.We design depth-adaptive Transformer decoders that allow for anytime prediction and sample-adaptive halting mechanisms to favor low cost predictions for low complexity instances and save deeper predictions for complex scenarios

Los estilos APA, Harvard, Vancouver, ISO, etc.

13

Duran, Audrey. "Intelligence artificielle pour la caractérisation du cancer de la prostate par agressivité en IRM multiparamétrique". Thesis, Lyon, 2022. http://theses.insa-lyon.fr/publication/2022LYSEI008/these.pdf.

Texto completo

Resumen

Le cancer de la prostate (CaP) est le cancer le plus diagnostiqué dans plus de la moitié des pays du monde et le cinquième cancer le plus meurtrier chez les hommes en 2020. Le diagnostic du CaP inclut l'acquisition d'une imagerie par résonance magnétique multiparamétrique (IRM-mp) - qui combine une séquence T2-pondérée (T2-w), une imagerie pondérée en diffusion (DWI) et une séquence dynamique de contraste amélioré (DCE) - avant la réalisation de biopsies. L'analyse jointe de ces images multimodales est fastidieuse et chronophage, en particulier lorsque les séquences mènent à des conclusions différentes. En outre, la sensibilité de l'IRM reste faible pour les cancers peu agressifs et la variabilité inter-observateur élevée. De plus, l'analyse visuelle ne permet pas aujourd'hui de déterminer l'agressivité des cancers, caractérisée par le score de Gleason (GS). C'est pourquoi des systèmes d'aide au diagnostic (CAD) basés sur des modèles statistiques par apprentissage ont été proposés ces dernières années, pour d'assister les radiologues dans leur diagnostic. Toutefois, la majorité de ces systèmes se concentrent sur une tâche de détection binaire des lésions cliniquement significatives (CS). L'objectif de cette thèse est d'élaborer un système CAD pour détecter les CaP sur des IRM-mp, mais aussi de caractériser leur agressivité en prédisant le GS associé. Dans une première partie, nous présentons un système CAD supervisé permettant de segmenter le CaP par agressivité à partir des cartes T2-w et ADC. Ce réseau de neurones multiclasse segmente simultanément la prostate et les lésions par agressivité. Le modèle a été entraîné et évalué en validation croisée à 5 plis sur une base de données hétérogène de 219 examens IRM acquis avant prostatectomie. Pour la tâche de classification par GS, le kappa de Cohen quadratiquement pondéré (κ) est de 0.418 ± 0.138, ce qui représente le meilleur kappa par lésions pour une tâche de segmentation par GS à notre connaissance. Le modèle présente également des capacités de généralisation encourageantes sur le jeu de données public PROSTATEx-2. Dans une deuxième partie, nous nous penchons sur un modèle faiblement supervisé, permettant l'inclusion de données où les lésions sont identifiées par des points seulement, pour un gain de temps conséquent et l'inclusion de bases de données établies sur la biopsie. Concernant la tâche de classification par GS, les performances approchent celles obtenues avec le modèle totalement supervisé de référence, en n'ayant que 6% de voxels annotés pour l'entraînement. Dans une dernière partie, nous étudions l'apport de l'imagerie DCE, séquence souvent omise en entrée des modèles profonds, pour la détection et la caractérisation du CaP. Plusieurs stratégies d'encodage de la perfusion dans une architecture U-Net sont étudiées. Nous montrons que les cartes paramétriques dérivées des examens IRM DCE ont un impact positif sur les performances de segmentation et de classification du CaP
Prostate cancer (PCa) is the most frequently diagnosed cancer in men in more than half the countries in the world and the fifth leading cause of cancer death among men in 2020. Diagnosis of PCa includes multiparametric magnetic resonance imaging acquisition (mp-MRI) - which combines T2 weighted (T2-w), diffusion weighted imaging (DWI) and dynamic contrast enhanced (DCE) sequences - prior to any biopsy. The joint analysis of these multimodal images is time demanding and challenging, especially when individual MR sequences yield conflicting findings. In addition, the sensitivity of MRI is low for less aggressive cancers and inter-reader reproducibility remains moderate at best. Moreover, visual analysis does not currently allow to determine the cancer aggressiveness, characterized by the Gleason score (GS). This is why computer-aided diagnosis (CAD) systems based on statistical learning models have been proposed in recent years, to assist radiologists in their diagnostic task, but the vast majority of these models focus on the binary detection of clinically significant (CS) lesions. The objective of this thesis is to develop a CAD system to detect and segment PCa on mp-MRI images but also to characterize their aggressiveness, by predicting the associated GS. In a first part, we present a supervised CAD system to segment PCa by aggressiveness from T2-w and ADC maps. This end-to-end multi-class neural network jointly segments the prostate gland and cancer lesions with GS group grading. The model was trained and validated with a 5-fold cross-validation on a heterogeneous series of 219 MRI exams acquired on three different scanners prior prostatectomy. Regarding the automatic GS group grading, Cohen’s quadratic weighted kappa coefficient (κ) is 0.418 ± 0.138, which is the best reported lesion-wise kappa for GS segmentation to our knowledge. The model has also encouraging generalization capacities on the PROSTATEx-2 public dataset. In a second part, we focus on a weakly supervised model that allows the inclusion of partly annotated data, where the lesions are identified by points only, for a consequent saving of time and the inclusion of biopsy-based databases. Regarding the automatic GS group grading on our private dataset, we show that we can approach performance achieved with the baseline fully supervised model while considering 6% of annotated voxels only for training. In the last part, we study the contribution of DCE MRI, a sequence often omitted as input to deep models, for the detection and characterization of PCa. We evaluate several ways to encode the perfusion from the DCE MRI information in a U-Net like architecture. Parametric maps derived from DCE MR exams are shown to positively impact segmentation and grading performance of PCa lesions

Los estilos APA, Harvard, Vancouver, ISO, etc.

14

Ho, Phuoc Tien. "Développement et mise en oeuvre de modèles d'attention visuelle". Phd thesis, 2010. http://tel.archives-ouvertes.fr/tel-00495365.

Texto completo

Resumen

Pour explorer le monde qui nous entoure nous bougeons sans cesse les yeux alternant entre des mouvements rapides ``les saccades'' et des moments d'immobilisation ``les fixations''. Quels sont les facteurs guidant ces mouvements oculaires? Comment les interpréter et les évaluer quantitativement? Cette thèse aborde ces questions lors de l'exploration libre de scènes naturelles, sous deux aspects: la modélisation et le recueil de données comportementales avec des enregistrements oculométriques. Le modèle proposé s'inspire fortement de la biologie et propose de prédire les régions dites saillantes (qui attirent les yeux) en utilisant un certain nombre de caractéristiques visuelles de bas niveaux, selon une démarche de traitement ascendante (``bottom-up'') compatible avec le contexte choisi d'exploration libre des scènes naturelles. Bien qu'il s'agisse de l'exploration de scènes statiques, un modèle dynamique spatio-temporel est également proposé considérant les séquences temporelles alternant les phases de stabilisation durant les fixations et les phases de déplacement durant les saccades. Les données comportementales et les données physiologiques ont permis l'établissement du modèle, ses évolutions et améliorations successives, puis sa validation. Ainsi, nous montrons que bien que la couleur soit présente partout et apparaisse dans plusieurs modèles de la littérature, celle-ci influence peu les mouvements oculaires des sujets. De même nous montrons que programmer plusieurs saccades en parallèle à partir d'un point de fixation comme cela a été montré dans des expériences de recherche de cible n'est pas compatible avec les données comportementales. Cette thèse propose aussi de nombreux outils méthodologiques pour comparer des données comportementales à des données issues d'un modèle et propose également une manière de tester l'importance relative de plusieurs caractéristiques visuelles de bas niveau sur la prédiction des mouvements oculaires.

Los estilos APA, Harvard, Vancouver, ISO, etc.

15

Archambault, Kim. "Déficit d'attention et tabagisme : mise à l'épreuve d'un modèle médiationnel hypothétique impliquant la réussite scolaire et l'affiliation à des pairs déviants". Thèse, 2007. http://hdl.handle.net/1866/7850.

Texto completo

Los estilos APA, Harvard, Vancouver, ISO, etc.

Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!