To see the other types of publications on this topic, follow the link: Apprentissage de la représentation visuelle.

Dissertations / Theses on the topic 'Apprentissage de la représentation visuelle'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage de la représentation visuelle.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Risser-Maroix, Olivier. "Similarité visuelle et apprentissage de représentations." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7327.

Full text
Abstract:
L’objectif de cette thèse CIFRE est de développer un moteur de recherche par image, basé sur la vision par ordinateur, afin d’assister les officiers des douanes. En effet, nous constatons, paradoxalement, une augmentation des menaces sécuritaires (terrorisme, trafic, etc.) couplée d’une diminution des effectifs en Douane. Les images de cargos acquises par des scanners à rayons X permettent déjà l’inspection d’un chargement sans nécessiter l’ouverture et la fouille complète d’un chargement contrôlé. En proposant automatiquement des images similaires, un tel moteur de recherche permettrait d’aider le douanier dans sa prise de décision face à des signatures visuelles de produits peu fréquents ou suspects. Grâce à l’essor des techniques modernes en intelligence artificielle (IA), notre époque subit de grands changements : l’IA transforme tous les secteurs de l’économie. Certains voient dans cet avènement de la "robotisation" la déshumanisation de la force de travail, voire son remplacement. Cependant, réduire l’utilisation de l’IA à la simple recherche de gains de productivité serait réducteur. En réalité, l’IA pourrait permettre d’augmenter la capacité de travail des humains et non à les concurrencer en vue de les remplacer. C’est dans ce contexte, la naissance de l’Intelligence Augmentée, que s’inscrit cette thèse. Ce manuscrit consacré à la question de la similarité visuelle se décompose en deux parties. Deux cas pratiques où la collaboration entre l’Homme et l’IA est bénéfique sont ainsi proposés. Dans la première partie, le problème de l’apprentissage de représentations pour la recherche d’images similaires fait encore l’objet d’investigations approfondies. Après avoir implémenté un premier système semblable à ceux proposés par l’état de l’art, l’une des principales limitations est pointée du doigt : le biais sémantique. En effet, les principales méthodes contemporaines utilisent des jeux de données d’images couplées de labels sémantiques uniquement. Les travaux de la littérature considèrent que deux images sont similaires si elles partagent le même label. Cette vision de la notion de similarité, pourtant fondamentale en IA, est réductrice. Elle sera donc remise en question à la lumière des travaux en psychologie cognitive afin de proposer une amélioration : la prise en compte de la similarité visuelle. Cette nouvelle définition permet une meilleure synergie entre le douanier et la machine. Ces travaux font l’objet de publications scientifiques et d’un brevet. Dans la seconde partie, après avoir identifié les composants clefs permettant d’améliorer les performances du système précédemment proposé, une approche mêlant recherche empirique et théorique est proposée. Ce second cas, l’intelligence augmentée est inspirée des développements récents en mathématiques et physique. D’abord appliquée à la com- préhension d’un hyperparamètre important (la température), puis à une tâche plus large (la classification), la méthode proposée permet de fournir une intuition sur l’importance et le rôle de facteurs corrélés à la variable étudiée (ex. hyperparamètre, score, etc.). La chaîne de traitement ainsi mise en place a démontré son efficacité en fournissant une solution hautement explicable et en adéquation avec des décennies de recherches en apprentissage automatique. Ces découvertes permettront l’amélioration des solutions précédemment développées
The objective of this CIFRE thesis is to develop an image search engine, based on computer vision, to assist customs officers. Indeed, we observe, paradoxically, an increase in security threats (terrorism, trafficking, etc.) coupled with a decrease in the number of customs officers. The images of cargoes acquired by X-ray scanners already allow the inspection of a load without requiring the opening and complete search of a controlled load. By automatically proposing similar images, such a search engine would help the customs officer in his decision making when faced with infrequent or suspicious visual signatures of products. Thanks to the development of modern artificial intelligence (AI) techniques, our era is undergoing great changes: AI is transforming all sectors of the economy. Some see this advent of "robotization" as the dehumanization of the workforce, or even its replacement. However, reducing the use of AI to the simple search for productivity gains would be reductive. In reality, AI could allow to increase the work capacity of humans and not to compete with them in order to replace them. It is in this context, the birth of Augmented Intelligence, that this thesis takes place. This manuscript devoted to the question of visual similarity is divided into two parts. Two practical cases where the collaboration between Man and AI is beneficial are proposed. In the first part, the problem of learning representations for the retrieval of similar images is still under investigation. After implementing a first system similar to those proposed by the state of the art, one of the main limitations is pointed out: the semantic bias. Indeed, the main contemporary methods use image datasets coupled with semantic labels only. The literature considers that two images are similar if they share the same label. This vision of the notion of similarity, however fundamental in AI, is reductive. It will therefore be questioned in the light of work in cognitive psychology in order to propose an improvement: the taking into account of visual similarity. This new definition allows a better synergy between the customs officer and the machine. This work is the subject of scientific publications and a patent. In the second part, after having identified the key components allowing to improve the performances of thepreviously proposed system, an approach mixing empirical and theoretical research is proposed. This secondcase, augmented intelligence, is inspired by recent developments in mathematics and physics. First applied tothe understanding of an important hyperparameter (temperature), then to a larger task (classification), theproposed method provides an intuition on the importance and role of factors correlated to the studied variable(e.g. hyperparameter, score, etc.). The processing chain thus set up has demonstrated its efficiency byproviding a highly explainable solution in line with decades of research in machine learning. These findings willallow the improvement of previously developed solutions
APA, Harvard, Vancouver, ISO, and other styles
2

Saxena, Shreyas. "Apprentissage de représentations pour la reconnaissance visuelle." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM080/document.

Full text
Abstract:
Dans cette dissertation, nous proposons des méthodes d’apprentissage automa-tique aptes à bénéficier de la récente explosion des volumes de données digitales.Premièrement nous considérons l’amélioration de l’efficacité des méthodes derécupération d’image. Nous proposons une approche d’apprentissage de métriques locales coordonnées (Coordinated Local Metric Learning, CLML) qui apprends des métriques locales de Mahalanobis, puis les intègre dans une représentation globale où la distance l2 peut être utilisée. Ceci permet de visualiser les données avec une unique représentation 2D, et l’utilisation de méthodes de récupération efficaces basées sur la distance l2. Notre approche peut être interprétée comme l’apprentissage d’une projection linéaire de descripteurs donnés par une méthode a noyaux de grande dimension définie explictement. Cette interprétation permet d’appliquer des outils existants pour l’apprentissage de métriques de Mahalanobis à l’apprentissage de métriques locales coordonnées. Nos expériences montrent que la CLML amé-liore les résultats en matière de récupération de visage obtenues par les approches classiques d’apprentissage de métriques locales et globales.Deuxièmement, nous présentons une approche exploitant les modèles de ré-seaux neuronaux convolutionnels (CNN) pour la reconnaissance faciale dans lespectre visible. L’objectif est l’amélioration de la reconnaissance faciale hétérogène, c’est à dire la reconnaissance faciale à partir d’images infra-rouges avec des images d’entraînement dans le spectre visible. Nous explorerons différentes stratégies d’apprentissage de métriques locales à partir des couches intermédiaires d’un CNN, afin de faire le rapprochement entre des images de sources différentes. Dans nos expériences, la profondeur de la couche optimale pour une tâche donnée est positivement corrélée avec le changement entre le domaine source (données d’entraînement du CNN) et le domaine cible. Les résultats montrent que nous pouvons utiliser des CNN entraînés sur des images du spectre visible pour obtenir des résultats meilleurs que l’état de l’art pour la reconnaissance faciale hétérogène (images et dessins quasi-infrarouges).Troisièmement, nous présentons les "tissus de neurones convolutionnels" (Convolutional Neural Fabrics) permettant l’exploration de l’espace discret et exponentiellement large des architectures possibles de réseaux neuronaux, de manière efficiente et systématique. Au lieu de chercher à sélectionner une seule architecture optimale, nous proposons d’utiliser un "tissu" d’architectures combinant un nombre exponentiel d’architectures en une seule. Le tissu est une représentation 3D connectant les sorties de CNNs à différentes couches, échelles et canaux avec un motif de connectivité locale, homogène et creux. Les seuls hyper-paramètres du tissu (le nombre de canaux et de couches) ne sont pas critiques pour la performance. La nature acyclique du tissu nous permet d’utiliser la rétro-propagation du gradient durant la phase d’apprentissage. De manière automatique, nous pouvons donc configurer le tissu de manière à implémenter l’ensemble de toutes les architectures possibles (un nombre exponentiel) et, plus généralement, des ensembles (combinaisons) de ces modèles. La complexité de calcul et de taille mémoire du tissu évoluent de manière linéaire alors qu’il permet d’exploiter un nombre exponentiel d’architectures en parallèle, en partageant les paramètres entre architectures. Nous présentons des résultats à l’état de l’art pour la classification d’images sur le jeu de données MNIST et CIFAR10, et pour la segmentation sémantique sur le jeu de données Part Labels
In this dissertation, we propose methods and data driven machine learning solutions which address and benefit from the recent overwhelming growth of digital media content.First, we consider the problem of improving the efficiency of image retrieval. We propose a coordinated local metric learning (CLML) approach which learns local Mahalanobis metrics, and integrates them in a global representation where the l2 distance can be used. This allows for data visualization in a single view, and use of efficient ` 2 -based retrieval methods. Our approach can be interpreted as learning a linear projection on top of an explicit high-dimensional embedding of a kernel. This interpretation allows for the use of existing frameworks for Mahalanobis metric learning for learning local metrics in a coordinated manner. Our experiments show that CLML improves over previous global and local metric learning approaches for the task of face retrieval.Second, we present an approach to leverage the success of CNN models forvisible spectrum face recognition to improve heterogeneous face recognition, e.g., recognition of near-infrared images from visible spectrum training images. We explore different metric learning strategies over features from the intermediate layers of the networks, to reduce the discrepancies between the different modalities. In our experiments we found that the depth of the optimal features for a given modality, is positively correlated with the domain shift between the source domain (CNN training data) and the target domain. Experimental results show the that we can use CNNs trained on visible spectrum images to obtain results that improve over the state-of-the art for heterogeneous face recognition with near-infrared images and sketches.Third, we present convolutional neural fabrics for exploring the discrete andexponentially large CNN architecture space in an efficient and systematic manner. Instead of aiming to select a single optimal architecture, we propose a “fabric” that embeds an exponentially large number of architectures. The fabric consists of a 3D trellis that connects response maps at different layers, scales, and channels with a sparse homogeneous local connectivity pattern. The only hyperparameters of the fabric (the number of channels and layers) are not critical for performance. The acyclic nature of the fabric allows us to use backpropagation for learning. Learning can thus efficiently configure the fabric to implement each one of exponentially many architectures and, more generally, ensembles of all of them. While scaling linearly in terms of computation and memory requirements, the fabric leverages exponentially many chain-structured architectures in parallel by massively sharing weights between them. We present benchmark results competitive with the state of the art for image classification on MNIST and CIFAR10, and for semantic segmentation on the Part Labels dataset
APA, Harvard, Vancouver, ISO, and other styles
3

Tamaazousti, Youssef. "Vers l’universalité des représentations visuelle et multimodales." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC038/document.

Full text
Abstract:
En raison de ses enjeux sociétaux, économiques et culturels, l’intelligence artificielle (dénotée IA) est aujourd’hui un sujet d’actualité très populaire. L’un de ses principaux objectifs est de développer des systèmes qui facilitent la vie quotidienne de l’homme, par le biais d’applications telles que les robots domestiques, les robots industriels, les véhicules autonomes et bien plus encore. La montée en popularité de l’IA est fortement due à l’émergence d’outils basés sur des réseaux de neurones profonds qui permettent d’apprendre simultanément, la représentation des données (qui était traditionnellement conçue à la main), et la tâche à résoudre (qui était traditionnellement apprise à l’aide de modèles d’apprentissage automatique). Ceci résulte de la conjonction des avancées théoriques, de la capacité de calcul croissante ainsi que de la disponibilité de nombreuses données annotées. Un objectif de longue date de l’IA est de concevoir des machines inspirées des humains, capables de percevoir le monde, d’interagir avec les humains, et tout ceci de manière évolutive (c’est `a dire en améliorant constamment la capacité de perception du monde et d’interaction avec les humains). Bien que l’IA soit un domaine beaucoup plus vaste, nous nous intéressons dans cette thèse, uniquement à l’IA basée apprentissage (qui est l’une des plus performante, à ce jour). Celle-ci consiste `a l’apprentissage d’un modèle qui une fois appris résoud une certaine tâche, et est généralement composée de deux sous-modules, l’un représentant la donnée (nommé ”représentation”) et l’autre prenant des décisions (nommé ”résolution de tâche”). Nous catégorisons, dans cette thèse, les travaux autour de l’IA, dans les deux approches d’apprentissage suivantes : (i) Spécialisation : apprendre des représentations à partir de quelques tâches spécifiques dans le but de pouvoir effectuer des tâches très spécifiques (spécialisées dans un certain domaine) avec un très bon niveau de performance; ii) Universalité : apprendre des représentations à partir de plusieurs tâches générales dans le but d’accomplir autant de tâches que possible dansdifférents contextes. Alors que la spécialisation a été largement explorée par la communauté de l’apprentissage profond, seules quelques tentatives implicites ont été réalisée vers la seconde catégorie, à savoir, l’universalité. Ainsi, le but de cette thèse est d’aborder explicitement le problème de l’amélioration de l’universalité des représentations avec des méthodes d’apprentissage profond, pour les données d’image et de texte. [...]
Because of its key societal, economic and cultural stakes, Artificial Intelligence (AI) is a hot topic. One of its main goal, is to develop systems that facilitates the daily life of humans, with applications such as household robots, industrial robots, autonomous vehicle and much more. The rise of AI is highly due to the emergence of tools based on deep neural-networks which make it possible to simultaneously learn, the representation of the data (which were traditionally hand-crafted), and the task to solve (traditionally learned with statistical models). This resulted from the conjunction of theoretical advances, the growing computational capacity as well as the availability of many annotated data. A long standing goal of AI is to design machines inspired humans, capable of perceiving the world, interacting with humans, in an evolutionary way. We categorize, in this Thesis, the works around AI, in the two following learning-approaches: (i) Specialization: learn representations from few specific tasks with the goal to be able to carry out very specific tasks (specialized in a certain field) with a very good level of performance; (ii) Universality: learn representations from several general tasks with the goal to perform as many tasks as possible in different contexts. While specialization was extensively explored by the deep-learning community, only a few implicit attempts were made towards universality. Thus, the goal of this Thesis is to explicitly address the problem of improving universality with deep-learning methods, for image and text data. We have addressed this topic of universality in two different forms: through the implementation of methods to improve universality (“universalizing methods”); and through the establishment of a protocol to quantify its universality. Concerning universalizing methods, we proposed three technical contributions: (i) in a context of large semantic representations, we proposed a method to reduce redundancy between the detectors through, an adaptive thresholding and the relations between concepts; (ii) in the context of neural-network representations, we proposed an approach that increases the number of detectors without increasing the amount of annotated data; (iii) in a context of multimodal representations, we proposed a method to preserve the semantics of unimodal representations in multimodal ones. Regarding the quantification of universality, we proposed to evaluate universalizing methods in a Transferlearning scheme. Indeed, this technical scheme is relevant to assess the universal ability of representations. This also led us to propose a new framework as well as new quantitative evaluation criteria for universalizing methods
APA, Harvard, Vancouver, ISO, and other styles
4

Lienou, Marie Lauginie. "Apprentissage automatique des classes d'occupation du sol et représentation en mots visuels des images satellitaires." Phd thesis, Paris, ENST, 2009. https://pastel.hal.science/pastel-00005585.

Full text
Abstract:
Dans le cadre de la reconnaissance de la couverture des sols à partir de classifications automatiques en télédétection, l'obtention de résultats fidèles aux attentes des utilisateurs nécessite d'aborder la classification d'un point de vue sémantique. Cette thèse s'inscrit dans ce contexte, et vise l'élaboration de méthodes automatiques capables d'apprendre des classes sémantiques définies par des experts de la cartographie, et d'annoter automatiquement de nouvelles images à l'aide de cette classification. A partir des cartes issues de la classification CORINE Land Cover, et des images satellitaires multispectrales ayant contribué à la constitution de ces cartes, nous montrons tout d'abord que si les approches classiques de la littérature basées sur le pixel ou la région sont suffisantes pour identifier les classes homogènes d'occupation du sol telles que les champs, elles peinent cependant à retrouver les classes de haut-niveau sémantique, dites de mélange, parce qu'étant composées de différents types de couverture des terres. Pour détecter de telles classes complexes, nous représentons les images sous une forme particulière basée sur les régions ou objets. Cette représentation de l'image, dite en mots visuels, permet d'exploiter des outils de l'analyse de textes qui ont montré leur efficacité dans le domaine de la fouille de données textuelles et en classification d'images multimédia. A l'aide d'approches supervisées et non supervisées, nous exploitons d'une part, la notion de compositionnalité sémantique, en mettant en évidence l'importance des relations spatiales entre les mots visuels dans la détermination des classes de haut-niveau sémantique. D'autre part, nous proposons une méthode d'annotation utilisant un modèle d'analyse statistique de textes : l'Allocation Dirichlet Latente. Nous nous basons sur ce modèle de mélange, qui requiert une représentation de l'image dite en sacs-de-mots visuels, pour modéliser judicieusement les classes riches en sémantique. Les évaluations des approches proposées et des études comparatives menées avec les modèles gaussiens et dérivés, ainsi qu'avec le classificateur SVM, sont illustrées sur des images SPOT et QuickBird entre autres
Land cover recognition from automatic classifications is one of the important methodological researches in remote sensing. Besides, getting results corresponding to the user expectations requires approaching the classification from a semantic point of view. Within this frame, this work aims at the elaboration of automatic methods capable of learning classes defined by cartography experts, and of automatically annotating unknown images based on this classification. Using corine land cover maps, we first show that classical approaches in the state-of-the-art are able to well-identify homogeneous classes such as fields, but have difficulty in finding high-level semantic classes, also called mixed classes because they consist of various land cover categories. To detect such classes, we represent images into visual words, in order to use text analysis tools which showed their efficiency in the field of text mining. By means of supervised and not supervised approaches on one hand, we exploit the notion of semantic compositionality: image structures which are considered as mixtures of land cover types, are detected by bringing out the importance of spatial relations between the visual words. On the other hand, we propose a semantic annotation method using a statistical text analysis model: latent dirichlet allocation. We rely on this mixture model, which requires a bags-of-words representation of images, to properly model high-level semantic classes. The proposed approach and the comparative studies with gaussian and gmm models, as well as svm classifier, are assessed using spot and quickbird images among others
APA, Harvard, Vancouver, ISO, and other styles
5

Lienou, Marie Lauginie. "Apprentissage automatique des classes d'occupation du sol et représentation en mots visuels des images satellitaires." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005585.

Full text
Abstract:
La reconnaissance de la couverture des sols à partir de classifications automatiques est l'une des recherches méthodologiques importantes en télédétection. Par ailleurs, l'obtention de résultats fidèles aux attentes des utilisateurs nécessite d'aborder la classification d'un point de vue sémantique. Cette thèse s'inscrit dans ce contexte, et vise l'élaboration de méthodes automatiques capables d'apprendre des classes sémantiques définies par des experts de la production des cartes d'occupation du sol, et d'annoter automatiquement de nouvelles images à l'aide de cette classification. A partir des cartes issues de la classification CORINE Land Cover, et des images satellitaires multispectrales ayant contribué à la constitution de ces cartes, nous montrons tout d'abord que si les approches classiques de la littérature basées sur le pixel ou la région sont suffisantes pour identifier les classes homogènes d'occupation du sol telles que les champs, elles peinent cependant à retrouver les classes de haut-niveau sémantique, dites de mélange, parce qu'étant composées de différents types de couverture des terres. Pour détecter de telles classes complexes, nous représentons les images sous une forme particulière basée sur les régions ou objets. Cette représentation de l'image, dite en mots visuels, permet d'exploiter des outils de l'analyse de textes qui ont montré leur efficacité dans le domaine de la fouille de données textuelles et en classification d'images multimédia. A l'aide d'approches supervisées et non supervisées, nous exploitons d'une part, la notion de compositionnalité sémantique, en mettant en évidence l'importance des relations spatiales entre les mots visuels dans la détermination des classes de haut-niveau sémantique. D'autre part, nous proposons une méthode d'annotation utilisant un modèle d'analyse statistique de textes : l'Allocation Dirichlet Latente. Nous nous basons sur ce modèle de mélange, qui requiert une représentation de l'image dite en sacs-de-mots visuels, pour modéliser judicieusement les classes riches en sémantique. Les évaluations des approches proposées et des études comparatives menées avec les modèles gaussiens et dérivés, ainsi qu'avec le classificateur SVM, sont illustrées sur des images SPOT et QuickBird entre autres.
APA, Harvard, Vancouver, ISO, and other styles
6

El-Zakhem, Imad. "Modélisation et apprentissage des perceptions humaines à travers des représentations floues : le cas de la couleur." Reims, 2009. http://theses.univ-reims.fr/exl-doc/GED00001090.pdf.

Full text
Abstract:
L'objectif de ce travail de thèse est de mettre en œuvre une démarche interactive de construction du profil utilisateur modélisant sa propre perception. Nous présenterons deux démarches pour construire le profil représentant la perception d'un utilisateur à travers des sous-ensembles flous. Une démarche descriptive dans le cas d'un utilisateur expert et une démarche constructive dans le cas d'un utilisateur non-expert. Pour la démarche descriptive, nous proposerons une procédure de questionnement de l'utilisateur permettant de définir complètement l'ensemble des sous-ensembles flous représentant sa perception. Dans le cas d'un utilisateur non-expert, celui-ci pourra définir sa propre perception en comparant et en sélectionnant quelques profils reflétant la perception d'utilisateurs experts. Nous présenterons une procédure d'agrégation permettant de construire le profil de l'utilisateur à partir des profils experts sélectionnés et des taux de satisfaction. Une application de la démarche dans le cas de la perception de la couleur sera également présentée. Par la suite, on exploite les profils déjà construits pour la classification d'images. Nous proposerons une démarche permettant de construire le profil d'une image selon la perception d'un utilisateur en utilisant le profil standard de l'image et le profil représentant la perception de l'utilisateur. Dans cette démarche nous utiliserons une nouvelle définition de la comparabilité et de la compatibilité de deux sous-ensembles flous. Pour finir, nous présenterons une implémentation informatique de la démarche. La structure de la base de données ainsi que quelques exemples seront également présentés
The target of this thesis is to implement an interactive modeling of the user perception and a creation of an appropriate profile. We present two methods to build the profile representing the perception of the user through fuzzy subsets. The first method is a descriptive method used by an expert user and the second one is a constructive method used by a none-expert user. For the descriptive method, we propose a questioning procedure allowing the user to define completely his profile. For the constructive method, the user will be able to define his perception while comparing and selecting some profiles reflecting the perception of other expert users. We present a procedure of aggregation allowing building the profile of the user starting from the selected expert profiles and the rates of satisfaction. As a case study, we describe an application to model the color perception. Thereafter, we exploit the profiles already built for image classification. We propose a procedure that allows building the profile of an image according to the user perception, by using the standard profile of the image and the user’s profile representing his perception. In this method we use new definitions for the notions of comparability and compatibility of two fuzzy subsets. At the end, we present an implementation of the all procedure, the structure of the database as some examples and results
APA, Harvard, Vancouver, ISO, and other styles
7

Engilberge, Martin. "Deep Inside Visual-Semantic Embeddings." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS150.

Full text
Abstract:
De nos jours l’Intelligence artificielle (IA) est omniprésente dans notre société. Le récent développement des méthodes d’apprentissage basé sur les réseaux de neurones profonds aussi appelé “Deep Learning” a permis une nette amélioration des modèles de représentation visuelle et textuelle. Cette thèse aborde la question de l’apprentissage de plongements multimodaux pour représenter conjointement des données visuelles et sémantiques. C’est une problématique centrale dans le contexte actuel de l’IA et du deep learning, qui présente notamment un très fort potentiel pour l’interprétabilité des modèles. Nous explorons dans cette thèse les espaces de représentations conjoints visuels et sémantiques. Nous proposons deux nouveaux modèles permettant de construire de tels espaces. Nous démontrons également leur capacité à localiser des concepts sémantiques dans le domaine visuel. Nous introduisons également une nouvelle méthode permettant d’apprendre une approximation différentiable des fonctions d’évaluation basée sur le rang
Nowadays Artificial Intelligence (AI) is omnipresent in our society. The recentdevelopment of learning methods based on deep neural networks alsocalled "Deep Learning" has led to a significant improvement in visual representation models.and textual.In this thesis, we aim to further advance image representation and understanding.Revolving around Visual Semantic Embedding (VSE) approaches, we explore different directions: We present relevant background covering images and textual representation and existing multimodal approaches. We propose novel architectures further improving retrieval capability of VSE and we extend VSE models to novel applications and leverage embedding models to visually ground semantic concept. Finally, we delve into the learning process andin particular the loss function by learning differentiable approximation of ranking based metric
APA, Harvard, Vancouver, ISO, and other styles
8

Venkataramanan, Shashanka. "Metric learning for instance and category-level visual representation." Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS022.

Full text
Abstract:
Le principal objectif de la vision par ordinateur est de permettre aux machines d'extraire des informations significatives à partir de données visuelles, telles que des images et des vidéos, et de tirer parti de ces informations pour effectuer une large gamme de tâches. À cette fin, de nombreuses recherches se sont concentrées sur le développement de modèles d'apprentissage profond capables de coder des représentations visuelles complètes et robustes. Une stratégie importante dans ce contexte consiste à préentraîner des modèles sur des ensembles de données à grande échelle, tels qu'ImageNet, pour apprendre des représentations qui peuvent présenter une applicabilité transversale aux tâches et faciliter la gestion réussie de diverses tâches en aval avec un minimum d'effort. Pour faciliter l'apprentissage sur ces ensembles de données à grande échelle et coder de bonnes représentations, des stratégies complexes d'augmentation des données ont été utilisées. Cependant, ces augmentations peuvent être limitées dans leur portée, étant soit conçues manuellement et manquant de diversité, soit générant des images qui paraissent artificielles. De plus, ces techniques d'augmentation se sont principalement concentrées sur le jeu de données ImageNet et ses tâches en aval, limitant leur applicabilité à un éventail plus large de problèmes de vision par ordinateur. Dans cette thèse, nous visons à surmonter ces limitations en explorant différentes approches pour améliorer l'efficacité et l'efficience de l'apprentissage des représentations. Le fil conducteur des travaux présentés est l'utilisation de techniques basées sur l'interpolation, telles que mixup, pour générer des exemples d'entraînement diversifiés et informatifs au-delà du jeu de données original. Dans le premier travail, nous sommes motivés par l'idée de la déformation comme un moyen naturel d'interpoler des images plutôt que d'utiliser une combinaison convexe. Nous montrons que l'alignement géométrique des deux images dans l'espace des caractéristiques permet une interpolation plus naturelle qui conserve la géométrie d'une image et la texture de l'autre, la reliant au transfert de style. En nous appuyant sur ces observations, nous explorons la combinaison de mix6up et de l'apprentissage métrique profond. Nous développons une formulation généralisée qui intègre mix6up dans l'apprentissage métrique, conduisant à des représentations améliorées qui explorent des zones de l'espace d'embedding au-delà des classes d'entraînement. En nous appuyant sur ces insights, nous revisitons la motivation originale de mixup et générons un plus grand nombre d'exemples interpolés au-delà de la taille du mini-lot en interpolant dans l'espace d'embedding. Cette approche nous permet d'échantillonner sur l'ensemble de l'enveloppe convexe du mini-lot, plutôt que juste le long des segments linéaires entre les paires d'exemples. Enfin, nous explorons le potentiel de l'utilisation d'augmentations naturelles d'objets à partir de vidéos. Nous introduisons un ensemble de données "Walking Tours" de vidéos égocentriques en première personne, qui capturent une large gamme d'objets et d'actions dans des transitions de scènes naturelles. Nous proposons ensuite une nouvelle méthode de préentraînement auto-supervisée appelée DoRA, qui détecte et suit des objets dans des images vidéo, dérivant de multiples vues à partir des suivis et les utilisant de manière auto-supervisée
The primary goal in computer vision is to enable machines to extract meaningful information from visual data, such as images and videos, and leverage this information to perform a wide range of tasks. To this end, substantial research has focused on developing deep learning models capable of encoding comprehensive and robust visual representations. A prominent strategy in this context involves pretraining models on large-scale datasets, such as ImageNet, to learn representations that can exhibit cross-task applicability and facilitate the successful handling of diverse downstream tasks with minimal effort. To facilitate learning on these large-scale datasets and encode good representations, com- plex data augmentation strategies have been used. However, these augmentations can be limited in their scope, either being hand-crafted and lacking diversity, or generating images that appear unnatural. Moreover, the focus of these augmentation techniques has primarily been on the ImageNet dataset and its downstream tasks, limiting their applicability to a broader range of computer vision problems. In this thesis, we aim to tackle these limitations by exploring different approaches to en- hance the efficiency and effectiveness in representation learning. The common thread across the works presented is the use of interpolation-based techniques, such as mixup, to generate diverse and informative training examples beyond the original dataset. In the first work, we are motivated by the idea of deformation as a natural way of interpolating images rather than using a convex combination. We show that geometrically aligning the two images in the fea- ture space, allows for more natural interpolation that retains the geometry of one image and the texture of the other, connecting it to style transfer. Drawing from these observations, we explore the combination of mixup and deep metric learning. We develop a generalized formu- lation that accommodates mixup in metric learning, leading to improved representations that explore areas of the embedding space beyond the training classes. Building on these insights, we revisit the original motivation of mixup and generate a larger number of interpolated examples beyond the mini-batch size by interpolating in the embedding space. This approach allows us to sample on the entire convex hull of the mini-batch, rather than just along lin- ear segments between pairs of examples. Finally, we investigate the potential of using natural augmentations of objects from videos. We introduce a "Walking Tours" dataset of first-person egocentric videos, which capture a diverse range of objects and actions in natural scene transi- tions. We then propose a novel self-supervised pretraining method called DoRA, which detects and tracks objects in video frames, deriving multiple views from the tracks and using them in a self-supervised manner
APA, Harvard, Vancouver, ISO, and other styles
9

Nguyen, Nhu Van. "Représentations visuelles de concepts textuels pour la recherche et l'annotation interactives d'images." Phd thesis, Université de La Rochelle, 2011. http://tel.archives-ouvertes.fr/tel-00730707.

Full text
Abstract:
En recherche d'images aujourd'hui, nous manipulons souvent de grands volumes d'images, qui peuvent varier ou même arriver en continu. Dans une base d'images, on se retrouve ainsi avec certaines images anciennes et d'autres nouvelles, les premières déjà indexées et possiblement annotées et les secondes en attente d'indexation ou d'annotation. Comme la base n'est pas annotée uniformément, cela rend l'accès difficile par le biais de requêtes textuelles. Nous présentons dans ce travail différentes techniques pour interagir, naviguer et rechercher dans ce type de bases d'images. Premièrement, un modèle d'interaction à court terme est utilisé pour améliorer la précision du système. Deuxièmement, en se basant sur un modèle d'interaction à long terme, nous proposons d'associer mots textuels et caractéristiques visuelles pour la recherche d'images par le texte, par le contenu visuel, ou mixte texte/visuel. Ce modèle de recherche d'images permet de raffiner itérativement l'annotation et la connaissance des images. Nous identifions quatre contributions dans ce travail. La première contribution est un système de recherche multimodale d'images qui intègre différentes sources de données, comme le contenu de l'image et le texte. Ce système permet l'interrogation par l'image, l'interrogation par mot-clé ou encore l'utilisation de requêtes hybrides. La deuxième contribution est une nouvelle technique pour le retour de pertinence combinant deux techniques classiques utilisées largement dans la recherche d'information~: le mouvement du point de requête et l'extension de requêtes. En profitant des images non pertinentes et des avantages de ces deux techniques classiques, notre méthode donne de très bons résultats pour une recherche interactive d'images efficace. La troisième contribution est un modèle nommé "Sacs de KVR" (Keyword Visual Representation) créant des liens entre des concepts sémantiques et des représentations visuelles, en appui sur le modèle de Sac de Mots. Grâce à une stratégie d'apprentissage incrémental, ce modèle fournit l'association entre concepts sémantiques et caractéristiques visuelles, ce qui contribue à améliorer la précision de l'annotation sur l'image et la performance de recherche. La quatrième contribution est un mécanisme de construction incrémentale des connaissances à partir de zéro. Nous ne séparons pas les phases d'annotation et de recherche, et l'utilisateur peut ainsi faire des requêtes dès la mise en route du système, tout en laissant le système apprendre au fur et à mesure de son utilisation. Les contributions ci-dessus sont complétées par une interface permettant la visualisation et l'interrogation mixte textuelle/visuelle. Même si pour l'instant deux types d'informations seulement sont utilisées, soit le texte et le contenu visuel, la généricité du modèle proposé permet son extension vers d'autres types d'informations externes à l'image, comme la localisation (GPS) et le temps.
APA, Harvard, Vancouver, ISO, and other styles
10

Defrasne, Ait-Said Elise. "Perception et représentation du mouvement : influences de la verbalisation sur la reconnaissance de mouvements d'escrime en fonction de l'expertise." Thesis, Besançon, 2014. http://www.theses.fr/2014BESA1023/document.

Full text
Abstract:
Faut-il verbaliser pour mémoriser et apprendre ? D’après la littérature examinant l’influence des verbalisations sur l’apprentissage et la mémoire, la réponse à cette question dépend du type de matériel utilisé (matériel conceptuel versus matériel perceptif) et du niveau d’expertise des apprenants. Dans l’Étude 1, nous avons examiné l’incidence de descriptions verbales sur la reconnaissance visuelle de séquences de mouvements d’escrime, avec des participants de trois niveaux d’expertise (novices, intermédiaires et experts). Dans l’Étude 2, nous avons étudié l’influence de différents contenus de descriptions verbales sur la reconnaissance de séquences de mouvements d’escrime, en fonction de l’expertise. L’objectif de l’Étude 3 était d’examiner l’effet sur la mémoire d’une trace autre que verbale : une trace motrice. Les résultats de l’Étude 1 montrent que verbaliser améliore la reconnaissance des novices, altère celle des intermédiaires et n’a aucun effet sur la reconnaissance des experts. Les résultats de l’Étude 2 montrent que le contenu des descriptions verbales a une incidence sur la mémoire, en fonction du niveau d’expertise des participants. Les résultats de l’étude 3 montrent que reproduire le mouvement d’escrime, sans feedback, nuit à la reconnaissance visuelle des participants novices. Ces résultats élargissent le phénomène d’ombrage verbal à un matériel nettement plus conceptuel que celui qui est classiquement utilisé dans ce domaine de recherche. Ils apportent un étayage solide à la proposition théorique de l’interférence résultant d’un recodage verbal (Schooler, 1990). Ils montrent également qu’une trace motrice additionnelle peut nuire à la reconnaissance visuelle de séquences de mouvements
Is it necessary to verbalize in order to memorize and learn a material? According to the literature examining the influence of verbalizations on learning and memory, the answer to this question depends on the type of material used (conceptual material versus perceptive material) and on the learners’ level of expertise. In Study 1, we examined the influence of verbal descriptions on the visual recognition of sequences of fencing movements, with participants of the three levels of expertise (novices, intermediates, experts). In Study 2, we studied the influence of different content of verbal descriptions on the recognition of sequences of fencing movements, according to the level of expertise. The goal of Study 3 was to examine the effect on memory of a trace distinct from a verbal trace: a motor trace. The findings of Study 1 show that verbalizing improves novices’ recognition, impairs intermediates’ recognition and has no effect on experts’ recognition. The results of Study 2 show that the content of verbal descriptions has an effect on memory, according to the participants’ level of expertise. The findings of Study 3 show that duplicating the fencing movement, with no feedback, strongly impedes beginners’ visual recognition. These findings broaden the verbal overshadowing phenomena to a material distinctly more conceptual than the one classically used in this field of research. They bring strong support to the theoretical hypothesis of interference resulting from a verbal recoding (Schooler, 1990). They also show that an additional motor trace can harm visual recognition of movement sequences
APA, Harvard, Vancouver, ISO, and other styles
11

Mazari, Ahmed. "Apprentissage profond pour la reconnaissance d’actions en vidéos." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS171.

Full text
Abstract:
De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées pour traiter les données vidéos. Il devient nécessaire de développer des moyens automatiques pour analyser et interpréter la grande quantité de données vidéo disponibles. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème de l'attribution de catégories d'actions aux séquences vidéos. Cela peut être considéré comme un ingrédient clé pour construire la prochaine génération de systèmes visuels. Nous l'abordons avec des méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs. Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est donc tributaire de l'abondance de données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité à la disponibilité de données étiquetées)
Nowadays, video contents are ubiquitous through the popular use of internet and smartphones, as well as social media. Many daily life applications such as video surveillance and video captioning, as well as scene understanding require sophisticated technologies to process video data. It becomes of crucial importance to develop automatic means to analyze and to interpret the large amount of available video data. In this thesis, we are interested in video action recognition, i.e. the problem of assigning action categories to sequences of videos. This can be seen as a key ingredient to build the next generation of vision systems. It is tackled with AI frameworks, mainly with ML and Deep ConvNets. Current ConvNets are increasingly deeper, data-hungrier and this makes their success tributary of the abundance of labeled training data. ConvNets also rely on (max or average) pooling which reduces dimensionality of output layers (and hence attenuates their sensitivity to the availability of labeled data); however, this process may dilute the information of upstream convolutional layers and thereby affect the discrimination power of the trained video representations, especially when the learned action categories are fine-grained
APA, Harvard, Vancouver, ISO, and other styles
12

Caissié, André. "Étude des transferts intermodaux lors de taches de rotation mentale : spécificité tactile, indépendance sensorielle ou dépendance visuelle ?" Thesis, Poitiers, 2012. http://www.theses.fr/2012POIT5002/document.

Full text
Abstract:
Ce travail de thèse repose sur la combinaison de deux paradigmes de recherche en psychologie cognitive : la rotation mentale et les transferts intermodaux/inter-tâches. Dans notre première étude (Expériences 1a, 1b, 1c, 2a, et 2b), l'objectif était d'évaluer la dépendance/indépendance des traitements visuel et tactile, lors de tâches de rotation mentale : le Test des Rotations Mentales (Vandenberg & Kuse, 1978) et une tâche élémentaire de rotation mentale (Shepard & Metzler, 1971). En utilisant un plan expérimental intra-sujet, nous avons comparé quatre conditions expérimentales incluant des apprentissages intramodaux : 1. Visuel-Visuel ; 2. Tactile-Tactile, et des transferts intermodaux : 3. Visuel-Tactile ; 4. Tactile-Visuel. Les participants ont ainsi réalisé deux tâches successives dans des conditions sensorielles similaires ou différentes (session 1 et session 2). Nos résultats révèlent que la rotation mentale peut dépendre de processus de traitement des représentations spécifiques à la modalité sensorielle utilisée. Les informations découlant d'une expérience visuelle sont réutilisables dans la condition tactile, alors qu'à l'inverse, nous n'avons observé que très peu de transferts tactiles en condition visuelle. Les traitements visuels et tactiles, sur des objets tridimensionnels complexes, permettent ainsi le développement de stratégies d'imagerie mentale spécifiques (Visuel-Visuel-IM vs. Tactile-Spatial-IM), découlant de différents modes de traitements perceptifs (visuel-global vs. tactile-spatial)
The work presented in this dissertation is based on the combination of two research paradigms in the field of cognitive psychology: mental rotation and intermodal/inter-task transfer of learning. In our first study (Experiments 1a, 1b, 1c, 2a, and 2b), the objective was to evaluate the processing dependence/independence of visual and tactile information during two mental rotation tasks: the Mental Rotation Test (Vandenberg & Kuse, 1978) and an object mental rotation task (Shepard & Metzler, 1971). Using an intra-subject experimental design, we compared four experimental conditions including intramodal learning: 1. Visual-Visual ; 2. Tactile-Tactile, and intermodal transfer: 3. Visual-Tactile ; 4. Tactile-Visual. Subjects performed two successive tasks in similar perceptual conditions or different perceptual conditions (session 1 and session 2). Our results revealed that mental rotation can depend on treatment processes of mental representations specific to the perceptual modality being used. The information derived from visual prior experience can be used in the tactile condition, whereas we observed few significant tactile transfers in the visual condition. Visual and tactile treatments on complex three-dimensional objects thus permit specific mental imagery strategies (Visual-Visual-IM vs. Tactile-Spatial-IM), derived from different perceptual exploration strategies (visual-global vs. tactile-spatial)
APA, Harvard, Vancouver, ISO, and other styles
13

Goh, Hanlin. "Apprentissage de Représentations Visuelles Profondes." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00948376.

Full text
Abstract:
Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important.
APA, Harvard, Vancouver, ISO, and other styles
14

Lerner, Paul. "Répondre aux questions visuelles à propos d'entités nommées." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG074.

Full text
Abstract:
Cette thèse se positionne à l'intersection de plusieurs domaines de recherche, le traitement automatique des langues, la Recherche d'Information (RI) et la vision par ordinateur, qui se sont unifiés autour des méthodes d'apprentissage de représentation et de pré-entraînement. Dans ce contexte, nous avons défini et étudié une nouvelle tâche multimodale : répondre aux questions visuelles à propos d'entités nommées (KVQAE). Dans ce cadre, nous nous sommes particulièrement intéressés aux interactions cross-modales et aux différentes façons de représenter les entités nommées. Nous avons également été attentifs aux données utilisées pour entraîner mais surtout évaluer les systèmes de question-réponse à travers différentes métriques. Plus précisément, nous avons proposé à cet effet un jeu de données, le premier de KVQAE comprenant divers types d'entités. Nous avons également défini un cadre expérimental pour traiter la KVQAE en deux étapes grâce à une base de connaissances non-structurée et avons identifié la RI comme principal verrou de la KVQAE, en particulier pour les questions à propos d'entités non-personnes. Afin d'améliorer l'étape de RI, nous avons étudié différentes méthodes de fusion multimodale, lesquelles sont pré-entraînées à travers une tâche originale : l'Inverse Cloze Task multimodale. Nous avons trouvé que ces modèles exploitaient une interaction cross-modale que nous n'avions pas considéré à l'origine, et qui permettrait de traiter l'hétérogénéité des représentations visuelles des entités nommées. Ces résultats ont été renforcés par une étude du modèle CLIP qui permet de modéliser cette interaction cross-modale directement. Ces expériences ont été menées tout en restant attentif aux biais présents dans le jeu de données ou les métriques d'évaluation, notamment les biais textuels qui affectent toute tâche multimodale
This thesis is positioned at the intersection of several research fields, Natural Language Processing, Information Retrieval (IR) and Computer Vision, which have unified around representation learning and pre-training methods. In this context, we have defined and studied a new multimodal task: Knowledge-based Visual Question Answering about Named Entities (KVQAE).In this context, we were particularly interested in cross-modal interactions and different ways of representing named entities. We also focused on data used to train and, more importantly, evaluate Question Answering systems through different metrics.More specifically, we proposed a dataset for this purpose, the first in KVQAE comprising various types of entities. We also defined an experimental framework for dealing with KVQAE in two stages through an unstructured knowledge base and identified IR as the main bottleneck of KVQAE, especially for questions about non-person entities. To improve the IR stage, we studied different multimodal fusion methods, which are pre-trained through an original task: the Multimodal Inverse Cloze Task. We found that these models leveraged a cross-modal interaction that we had not originally considered, and which may address the heterogeneity of visual representations of named entities. These results were strengthened by a study of the CLIP model, which allows this cross-modal interaction to be modeled directly. These experiments were carried out while staying aware of biases present in the dataset or evaluation metrics, especially of textual biases, which affect any multimodal task
APA, Harvard, Vancouver, ISO, and other styles
15

Senoussi, Medhi. "Flexibilité temporelle et spatiale des représentations neurales d'objets visuels lors d'apprentissages." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30162.

Full text
Abstract:
Les travaux présentés dans cette thèse portent sur l'effet d'apprentissages à court et long terme sur le système visuel. Nous avons d'abord montré grâce à des enregistrements Éléctroencéphalographiques que l'apprentissage d'une séquence de stimuli visuels induisait une activité cérébrale spontanée et sélective au prochain stimulus devant apparaitre et que cette activité sélective s'exprimait dans les bandes alpha et beta de l'activité électrique cérébrale. Par la suite nous avons montré grâce à de l'Imagerie par Résonance Magnétique fonctionnelle que lors d'apprentissages longs (trois semaines) les représentations neurales de catégories visuelles associées étaient modulées et devenaient plus similaires après l'apprentissage. Les travaux présentés dans cette thèse ont donc permis de mieux caractériser l'impact d'apprentissages à différentes échelles de temps sur les représentations neurales d'objets visuels
The work presented in this thesis deals with the effect of short- and long-term learning on the visual system. We first demonstrated through electroencephalographic recordings that learning a sequence of visual stimuli induced spontaneous and selective cerebral activity to the next-to-appear stimulus and that this selective activity was expressed in the alpha and beta bands of cerebral electrical activity. Subsequently, we showed through functional magnetic resonance imaging that during long learning (three weeks) the neural representations of associated visual categories were modulated and became more similar due to learning. The work presented in this thesis has thus made it possible to better characterize the impact of learning at different time scales on the neural representations of visual objects
APA, Harvard, Vancouver, ISO, and other styles
16

Bigot, Damien. "Représentation et apprentissage de préférences." Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30031/document.

Full text
Abstract:
La modélisation des préférences par le biais de formalismes de représentation compacte fait l'objet de travaux soutenus en intelligence artificielle depuis plus d'une quinzaine d'années. Ces formalismes permettent l'expression de modèles suffisamment flexibles et riches pour décrire des comportements de décision complexes. Pour être intéressants en pratique, ces formalismes doivent de plus permettre l'élicitation des préférences de l'utilisateur, et ce en restant à un niveau admissible d'interaction. La configuration de produits combinatoires dans sa version business to customer et la recherche à base de préférences constituent de bons exemples de ce type de problème de décision où les préférences de l'utilisateur ne sont pas connues a priori. Dans un premier temps, nous nous sommes penchés sur l'apprentissage de GAI-décompositions. Nous verrons qu'il est possible d'apprendre une telle représentation en temps polynomial en passant par un système d'inéquations linéaires. Dans un second temps, nous proposerons une version probabiliste des CP-nets permettant la représentation de préférences multi-utilisateurs afin de réduire le temps nécessaire à l'apprentissage des préférences d'un utilisateur. Nous étudierons les différentes requêtes que l'on peut utiliser avec une telle représentation, puis nous nous pencherons sur la complexité de ces requêtes. Enfin, nous verrons comment apprendre ce nouveau formalisme, soit grâce à un apprentissage hors ligne à partir d'un ensemble d'objets optimaux, soit grâce à un apprentissage en ligne à partir d'un ensemble de questions posées à l'utilisateur
--
APA, Harvard, Vancouver, ISO, and other styles
17

Mordan, Taylor. "Conception d'architectures profondes pour l'interprétation de données visuelles." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS270.

Full text
Abstract:
Aujourd’hui, les images sont omniprésentes à travers les smartphones et les réseaux sociaux. Il devient alors nécessaire d’avoir des moyens de traitement automatiques, afin d’analyser et d’interpréter les grandes quantités de données disponibles. Dans cette thèse, nous nous intéressons à la détection d’objets, i.e. au problème d’identification et de localisation de tous les objets présents dans une image. Cela peut être vu comme une première étape vers une interprétation complète des scènes. Nous l’abordons avec des réseaux de neurones profonds à convolutions, sous le paradigme de l’apprentissage profond. Un inconvénient de cette approche est le besoin de données annotées pour l’apprentissage. Puisque les annotations précises sont longues à produire, des jeux de données plus gros peuvent être construits à l’aide d’annotations partielles. Nous concevons des fonctions d’agrégation globale pour travailler avec celles-ci et retrouver l’information latente dans deux cas : l’apprentissage de représentations spatialement localisée et par parties, à partir de supervisions aux niveaux de l’image et des objets respectivement. Nous traitons la question de l’efficacité dans l’apprentissage de bout en bout de ces représentations en tirant parti de réseaux complètement convolutionnels. En outre, l’exploitation d’annotations supplémentaires sur les images disponibles peut être une alternative à l’obtention de plus d’images, particulièrement quand il y a peu d’images. Nous formalisons ce problème comme un type spécifique d’apprentissage multi-tâche avec un objectif primaire, et concevons une méthode pour apprendre de cette supervision auxiliaire
Nowadays, images are ubiquitous through the use of smartphones and social media. It then becomes necessary to have automatic means of processing them, in order to analyze and interpret the large amount of available data. In this thesis, we are interested in object detection, i.e. the problem of identifying and localizing all objects present in an image. This can be seen as a first step toward a complete visual understanding of scenes. It is tackled with deep convolutional neural networks, under the Deep Learning paradigm. One drawback of this approach is the need for labeled data to learn from. Since precise annotations are time-consuming to produce, bigger datasets can be built with partial labels. We design global pooling functions to work with them and to recover latent information in two cases: learning spatially localized and part-based representations from image- and object-level supervisions respectively. We address the issue of efficiency in end-to-end learning of these representations by leveraging fully convolutional networks. Besides, exploiting additional annotations on available images can be an alternative to having more images, especially in the data-deficient regime. We formalize this problem as a specific kind of multi-task learning with a primary objective to focus on, and design a way to effectively learn from this auxiliary supervision under this framework
APA, Harvard, Vancouver, ISO, and other styles
18

Paulin, Mattis. "De l'apprentissage de représentations visuelles robustes aux invariances pour la classification et la recherche d'images." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM007/document.

Full text
Abstract:
Ce mémoire de thèse porte sur l’élaboration de systèmes de reconnaissance d’image qui sont robustes à la variabilité géométrique. La compréhension d’une image est un problème difficile, de par le fait qu’elles sont des projections en deux dimensions d’objets 3D. Par ailleurs, des représentations qui doivent appartenir à la même catégorie, par exemple des objets de la même classe en classification, peuvent être visuellement très différentes. Notre but est de rendre ces systèmes robustes à la juste quantité de déformations, celle-ci étant automatiquement déterminée à partir des données. Nos deux contributions sont les suivantes. Nous montrons tout d’abord comment utiliser des exemples virtuels pour rendre les systèmes de classification d’images robustes et nous proposons ensuite une méthodologie pour apprendre des descripteurs de bas niveau robustes, pour la recherche d’image.Nous étudions tout d’abord les exemples virtuels, en tant que transformations de vrais exemples. En représentant une image en tant que sac de descripteurs transformés, nous montrons que l’augmentation de données, c’est-à-dire le fait de les considérer comme de nouveaux exemples iid, est la meilleure manière de les utiliser, pourvu qu’une étape de vote avec les descripteurs transformés soit opérée lors du test. Du fait que les transformations apportent différents niveaux d’information, peuvent être redondants, voire nuire à la performance, nous pro-posons un nouvel algorithme capable de sélectionner un petit nombre d’entre elles,en maximisant la justesse de classification. Nous montrons par ailleurs comment remplacer de vrais exemples par des virtuels, pour alléger les couts d’annotation.Nous rapportons de bons résultats sur des bancs d’essai de classification.Notre seconde contribution vise à améliorer les descripteurs de régions locales utilisés en recherche d’image, et en particulier nous proposons une alternative au populaire descripteur SIFT. Nous proposons un nouveau descripteur, appelé patch-CKN, appris sans supervision. Nous introduisons un nouvel ensemble de données liant les images et les imagettes, construit à partir de reconstruction3D automatique d’images récupérées sur Internet. Nous définissons une méthode pour tester précisément la performance des descripteurs locaux au niveau de l’imagette et de l’image. Notre approche dépasse SIFT et les autres approches à base d’architectures convolutionnelles sur notre banc d’essai, et d’autres couramment utilisés dans la littérature
This dissertation focuses on designing image recognition systems which are robust to geometric variability. Image understanding is a difficult problem, as images are two-dimensional projections of 3D objects, and representations that must fall into the same category, for instance objects of the same class in classification can display significant differences. Our goal is to make systems robust to the right amount of deformations, this amount being automatically determined from data. Our contributions are twofolds. We show how to use virtual examples to enforce robustness in image classification systems and we propose a framework to learn robust low-level descriptors for image retrieval. We first focus on virtual examples, as transformation of real ones. One image generates a set of descriptors –one for each transformation– and we show that data augmentation, ie considering them all as iid samples, is the best performing method to use them, provided a voting stage with the transformed descriptors is conducted at test time. Because transformations have various levels of information, can be redundant, and can even be harmful to performance, we propose a new algorithm able to select a set of transformations, while maximizing classification accuracy. We show that a small amount of transformations is enough to considerably improve performance for this task. We also show how virtual examples can replace real ones for a reduced annotation cost. We report good performance on standard fine-grained classification datasets. In a second part, we aim at improving the local region descriptors used in image retrieval and in particular to propose an alternative to the popular SIFT descriptor. We propose new convolutional descriptors, called patch-CKN, which are learned without supervision. We introduce a linked patch- and image-retrieval dataset based on structure from motion of web-crawled images, and design a method to accurately test the performance of local descriptors at patch and image levels. Our approach outperforms both SIFT and all tested approaches with convolutional architectures on our patch and image benchmarks, as well as several styate-of-theart datasets
APA, Harvard, Vancouver, ISO, and other styles
19

Tomasini, Linda. "Apprentissage d'une représentation statistique et topologique d'un environnement." Toulouse, ENSAE, 1993. http://www.theses.fr/1993ESAE0024.

Full text
Abstract:
Cette thèse porte sur l'apprentissage d'une représentation d'un environnement par un réseau de neurones. L’algorithme d'apprentissage non supervisé que nous proposons est basé sur l'identification d'un mélange de gaussiennes et est mis en œuvre sur une carte topologique du type de celles de Kohonen. Une relation formelle est établie avec les algorithmes de classification automatique floue. Nous traitons ensuite deux applications directes de cet algorithme à la vision artificielle: en segmentation d'images par analyse de texture et en imagerie médicale pour la visualisation de données tomographiques de débit sanguin cérébral. Dans la dernière partie, deux architectures hybrides sont définies dans les buts d'apprendre, respectivement, une suite récurrente et les corrélations entre deux variables représentées sur deux cartes topologiques. Dans les deux cas, l'apprentissage fait coopérer l'algorithme précédent de classification automatique avec une règle d'apprentissage supervisée.
APA, Harvard, Vancouver, ISO, and other styles
20

Chabiron, Olivier. "Apprentissage d'arbres de convolutions pour la représentation parcimonieuse." Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30213/document.

Full text
Abstract:
Le domaine de l'apprentissage de dictionnaire est le sujet d'attentions croissantes durant cette dernière décennie. L'apprentissage de dictionnaire est une approche adaptative de la représentation parcimonieuse de données. Les méthodes qui constituent l'état de l'art en DL donnent d'excellentes performances en approximation et débruitage. Cependant, la complexité calculatoire associée à ces méthodes restreint leur utilisation à de toutes petites images ou "patchs". Par conséquent, il n'est pas possible d'utiliser l'apprentissage de dictionnaire pour des applications impliquant de grandes images, telles que des images de télédétection. Dans cette thèse, nous proposons et étudions un modèle original d'apprentissage de dictionnaire, combinant une méthode de décomposition des images par convolution et des structures d'arbres de convolution pour les dictionnaires. Ce modèle a pour but de fournir des algorithmes efficaces pour traiter de grandes images, sans les décomposer en patchs. Dans la première partie, nous étudions comment optimiser une composition de convolutions de noyaux parcimonieux, un problème de factorisation matricielle non convexe. Ce modèle est alors utilisé pour construire des atomes de dictionnaire. Dans la seconde partie, nous proposons une structure de dictionnaire basée sur des arbres de convolution, ainsi qu'un algorithme de mise à jour de dictionnaire adapté à cette structure. Enfin, une étape de décomposition parcimonieuse est ajoutée à cet algorithme dans la dernière partie. À chaque étape de développement de la méthode, des expériences numériques donnent un aperçu de ses capacités d'approximation
The dictionary learning problem has received increasing attention for the last ten years. DL is an adaptive approach for sparse data representation. Many state-of-the-art DL methods provide good performances for problems such as approximation, denoising and inverse problems. However, their numerical complexity restricts their use to small image patches. Thus, dictionary learning does not capture large features and is not a viable option for many applications handling large images, such as those encountered in remote sensing. In this thesis, we propose and study a new model for dictionary learning, combining convolutional sparse coding and dictionaries defined by convolutional tree structures. The aim of this model is to provide efficient algorithms for large images, avoiding the decomposition of these images into patches. In the first part, we study the optimization of a composition of convolutions with sparse kernels, to reach a target atom (such as a cosine, wavelet or curvelet). This is a non-convex matrix factorization problem. We propose a resolution method based on a Gaus-Seidel scheme, which produces good approximations of target atoms and whose complexity is linear with respect to the image size. Moreover, numerical experiments show that it is possible to find a global minimum. In the second part, we introduce a dictionary structure based on convolutional trees. We propose a dictionary update algorithm adapted to this structure and which complexity remains linear with respect to the image size. Finally, a sparse coding step is added to the algorithm in the last part. For each evolution of the proposed method, we illustrate its approximation abilities with numerical experiments
APA, Harvard, Vancouver, ISO, and other styles
21

El, Sayad Ismail. "Une représentation visuelle avancée pour l'apprentissage sémantique dans les bases d'images." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00666531.

Full text
Abstract:
Avec l'augmentation exponentielle de nombre d'images disponibles sur Internet, le besoin en outils efficaces d'indexation et de recherche d'images est devenu important. Dans cette thèse, nous nous baserons sur le contenu visuel des images comme source principale d'informations pour leur représentation. Basés sur l'approche des sacs de mots visuels, nous proposons une représentation visuelle avancée. Chaque image est modélisée par un mélange de catégories visuelles sémantiques, reliées à des catégories de haut niveau. Dans un premier temps, nous améliorons l'approche des sacs de mots visuels en caractérisant la constitution spatio-colorimétrique d'une image par le biais d'un mélange de n Gaussiennes dans l'espace de caractéristiques. Cela permet de proposer un nouveau descripteur de contour qui joue un rôle complémentaire avec le descripteur SURF. Cette proposition nous permet de résoudre le problème lié à la perte d'informations spatiales des sacs de mots visuels, et d'incorporer différentes informations relatives au contenu de l'image. Dans un deuxième temps, nous introduisons un nouveau modèle probabiliste basé sur les catégories : le modèle MSSA Multilayer Semantic Significance Analysis ou Analyse multi-niveaux de la pertinence sémantique dans le but d'étudier la sémantique des mots visuels construits. Ce modèle permet de construire des mots visuels sémantiquement cohérents (SSVW - Semantically Significant Visual Word). Ensuite, nous renforçons la capacité de catégorisation des SSVW en construisant des phrases visuelles sémantiquement cohérentes (SSVP - \textit{Semantically Significant Visual Phrase}), à partir des SSVW qui apparaissent fréquemment. Nous améliorons également l'invariance intra-classes des SSVW et des SSVP en les indexant en fonction de leur répartition, ce qui nous amène à générer une représentation d'un glossaire visuel invariant et sémantiquement cohérent (SSIVG - Semantically Significant Invariant Visual Glossary). Enfin, nous proposons un nouveau schéma de pondération spatiale ainsi qu'un classifieur multi-classes basé sur un vote. Nos résultats expérimentaux extensifs démontrent que la représentation visuelle proposée permet d'atteindre de meilleures performances comparativement aux représentations traditionnelles utilisées dans le domaine de la recherche, la classification et de la reconnaissance d'objets.
APA, Harvard, Vancouver, ISO, and other styles
22

Lauret, Gérard. "Représentation en architecture et image informatique." Paris 8, 1995. http://www.theses.fr/1995PA081081.

Full text
Abstract:
L'architecture est grosse consommatrice d'images et de representation. Les nouvelles technologies, et notamment les images de synthese apportent-elles de nouveaux modes d'expression de cette representation, ou ne s'inscrivent-elles pas plutot dans la continuite des modes de representation existants ? une approche a la fois historique, technique et philosophique qui fait le point sur la specificite de l'architecture, et sur les nouveaux outils technologiques permet de definir la place de l'image informatique dans la representation du batiment et de l'architecture
Architecture is a big consumer of pictures and representation. Do the new technologies, and in particular synthesis pictures bring a new method of representation, or do they inscribe themselves in the following of old manners ? an approach historical, technical and philosophical, who is setting the specificity of architecture and new technological instrument, and define the place of synthesis pictures in the representation of building in architecture
APA, Harvard, Vancouver, ISO, and other styles
23

Lekdioui, Khadija. "Reconnaissance d'états émotionnels par analyse visuelle du visage et apprentissage machine." Thesis, Bourgogne Franche-Comté, 2018. http://www.theses.fr/2018UBFCA042/document.

Full text
Abstract:
Dans un contexte présentiel, un acte de communication comprend des expressions orales et émotionnelles. A partir de l’observation, du diagnostic et de l’identification de l’état émotionnel d’un individu, son interlocuteur pourra entreprendre des actions qui influenceraient la qualité de la communication. A cet égard, nous pensons améliorer la manière dont les individus perçoivent leurs échanges en proposant d’enrichir la CEMO (communication écrite médiatisée par ordinateur) par des émotions ressenties par les collaborateurs. Pour ce faire, nous proposons d’intégrer un système de reconnaissance, en temps réel, des émotions (joie, peur, surprise, colère, dégoût, tristesse, neutralité) à la plate-forme pédagogique “Moodle”, à partir de l’analyse des expressions faciales de l’apprenant à distance lors des activités collaboratives. La reconnaissance des expressions faciales se fait en trois étapes. Tout d’abord, le visage et ses composants (sourcils, nez, bouche, yeux) sont détectés à partir de la configuration de points caractéristiques. Deuxièmement, une combinaison de descripteurs hétérogènes est utilisée pour extraire les traits caractéristiques du visage. Finalement, un classifieur est appliqué pour classer ces caractéristiques en six émotions prédéfinies ainsi que l’état neutre. Les performances du système proposé seront évaluées sur des bases publiques d’expressions faciales posées et spontanées telles que Cohn-Kanade (CK), Karolinska Directed Emotional Faces (KDEF) et Facial Expressions and Emotion Database (FEED)
In face-to-face settings, an act of communication includes verbal and emotional expressions. From observation, diagnosis and identification of the individual's emotional state, the interlocutor will undertake actions that would influence the quality of the communication. In this regard, we suggest to improve the way that the individuals perceive their exchanges by proposing to enrich the textual computer-mediated communication by emotions felt by the collaborators. To do this, we propose to integrate a real time emotions recognition system in a platform “Moodle”, to extract them from the analysis of facial expressions of the distant learner in collaborative activities. There are three steps to recognize facial expressions. First, the face and its components (eyebrows, nose, mouth, eyes) are detected from the configuration of facial landmarks. Second, a combination of heterogeneous descriptors is used to extract the facial features. Finally, a classifier is applied to classify these features into six predefined emotions as well as the neutral state. The performance of the proposed system will be assessed on a public basis of posed and spontaneous facial expressions such as Cohn-Kanade (CK), Karolinska Directed Emotional Faces (KDEF) and Facial Expressions and Emotion Database (FEED)
APA, Harvard, Vancouver, ISO, and other styles
24

Deschamps, Sébastien. "Apprentissage actif profond pour la reconnaissance visuelle à partir de peu d’exemples." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS199.

Full text
Abstract:
L’analyse automatique d’images a permis d’améliorer l’exploitation des capteurs d’image, avec des données qui proviennent de différents capteurs tels que des caméras de téléphone, des caméras de surveillance, des imageurs satellites ou encore des drones. L’apprentissage profond obtient d’excellents résultats dans les applications d’analyse d’images où de grandes quantités de données annotées sont disponibles, mais apprendre un nouveau classifieur d’images à partir de zéro est une tâche difficile. La plupart des méthodes de classification d’images sont supervisées, nécessitant des annotations, ce qui représente un investissement important. Différentes solutions d’apprentissage frugal (avec peu d’exemples annotés) existent, notamment l’apprentissage par transfert, l’apprentissage actif, l’apprentissage semi-supervisé ou bien le méta-apprentissage. L’objectif de cette thèse est d’étudier ces solutions d’apprentissage frugal pour des tâches de reconnaissance visuelle, notamment la classification d’images et la détection des changements dans des images satellites. Ainsi, le classifieur est entraîné de façon itérative en commençant avec très peu de données, et en demandant à l’utilisateur d’annoter le moins possible de données pour obtenir des performances satisfaisantes. L’apprentissage actif profond a été étudié initialement avec d’autres méthodes et nous a semblé le plus adapté à notre problématique métier, nous avons donc privilégié cette solution. Nous avons développé dans cette thèse une première approche interactive, où nous posons les questions les plus informatives sur la pertinence des données à un oracle (annotateur). En fonction de ses réponses, une fonction de décision est mise à jour itérativement. Nous modélisons la probabilité que les échantillons soient pertinents, en minimisant une fonction objectif capturant la représentativité, la diversité et l’ambiguïté des données. Les données avec une probabilité élevée sont ensuite sélectionnées pour annotation. Nous avons fait évoluer cette approche, en utilisant l’apprentissage par renforcement pour pondérer dynamiquement et précisément l’importance de la représentativité, l’ambiguïté et la diversité des données à chaque cycle d’apprentissage actif. Finalement, notre dernière approche consiste en un modèle d’affichage qui sélectionne des exemples virtuels les plus représentatifs et divers, qui remettent en question le modèle appris, de sorte à obtenir un modèle très discriminatoire dans les itérations suivantes de l’apprentissage actif. Les bons résultats obtenus face aux différentes baselines et l’état de l’art, en détection de changements dans des images satellites et en classification d’images, ont permis de démontrer la pertinence des modèles d'apprentissage frugal proposés, et ont donné lieu à diverses publications (Sahbi et al. 2021 ; Deschamps et Sahbi 2022b ; Deschamps et Sahbi 2022a ; Sahbi et Deschamps 2022)
Automatic image analysis has improved the exploitation of image sensors, with data coming from different sensors such as phone cameras, surveillance cameras, satellite imagers or even drones. Deep learning achieves excellent results in image analysis applications where large amounts of annotated data are available, but learning a new image classifier from scratch is a difficult task. Most image classification methods are supervised, requiring annotations, which is a significant investment. Different frugal learning solutions (with few annotated examples) exist, including transfer learning, active learning, semi-supervised learning or meta-learning. The goal of this thesis is to study these frugal learning solutions for visual recognition tasks, namely image classification and change detection in satellite images. The classifier is trained iteratively by starting with only a few annotated samples, and asking the user to annotate as little data as possible to obtain satisfactory performance. Deep active learning was initially studied with other methods and suited our operational problem the most, so we chose this solution. In this thesis, we have developed an interactive approach, where we ask the most informative questions about the relevance of the data to an oracle (annotator). Based on its answers, a decision function is iteratively updated. We model the probability that the samples are relevant, by minimizing an objective function capturing the representativeness, diversity and ambiguity of the data. Data with high probability are then selected for annotation. We have improved this approach, using reinforcement learning to dynamically and accurately weight the importance of representativeness, diversity and ambiguity of the data in each active learning cycle. Finally, our last approach consists of a display model that selects the most representative and diverse virtual examples, which adversely challenge the learned model, in order to obtain a highly discriminative model in subsequent iterations of active learning. The good results obtained against the different baselines and the state of the art in the tasks of satellite image change detection and image classification have demonstrated the relevance of the proposed frugal learning models, and have led to various publications (Sahbi et al. 2021; Deschamps and Sahbi 2022b; Deschamps and Sahbi 2022a; Sahbi and Deschamps2022)
APA, Harvard, Vancouver, ISO, and other styles
25

Poussevin, Mickael. "Apprentissage de représentation pour des données générées par des utilisateurs." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066040/document.

Full text
Abstract:
Dans cette thèse, nous étudions comment les méthodes d'apprentissage de représentations peuvent être appliquées à des données générées par l'utilisateur. Nos contributions couvrent trois applications différentes, mais partagent un dénominateur commun: l'extraction des représentations d'utilisateurs concernés. Notre première application est la tâche de recommandation de produits, où les systèmes existant créent des profils utilisateurs et objets qui reflètent les préférences des premiers et les caractéristiques des derniers, en utilisant l'historique. De nos jours, un texte accompagne souvent cette note et nous proposons de l'utiliser pour enrichir les profils extraits. Notre espoir est d'en extraire une connaissance plus fine des goûts des utilisateurs. Nous pouvons, en utilisant ces modèles, prédire le texte qu'un utilisateur va écrire sur un objet. Notre deuxième application est l'analyse des sentiments et, en particulier, la classification de polarité. Notre idée est que les systèmes de recommandation peuvent être utilisés pour une telle tâche. Les systèmes de recommandation et classificateurs de polarité traditionnels fonctionnent sur différentes échelles de temps. Nous proposons deux hybridations de ces modèles: la première a de meilleures performances en classification, la seconde exhibe un vocabulaire de surprise. La troisième et dernière application que nous considérons est la mobilité urbaine. Elle a lieu au-delà des frontières d'Internet, dans le monde physique. Nous utilisons les journaux d'authentification des usagers du métro, enregistrant l'heure et la station d'origine des trajets, pour caractériser les utilisateurs par ses usages et habitudes temporelles
In this thesis, we study how representation learning methods can be applied to user-generated data. Our contributions cover three different applications but share a common denominator: the extraction of relevant user representations. Our first application is the item recommendation task, where recommender systems build user and item profiles out of past ratings reflecting user preferences and item characteristics. Nowadays, textual information is often together with ratings available and we propose to use it to enrich the profiles extracted from the ratings. Our hope is to extract from the textual content shared opinions and preferences. The models we propose provide another opportunity: predicting the text a user would write on an item. Our second application is sentiment analysis and, in particular, polarity classification. Our idea is that recommender systems can be used for such a task. Recommender systems and traditional polarity classifiers operate on different time scales. We propose two hybridizations of these models: the former has better classification performance, the latter highlights a vocabulary of surprise in the texts of the reviews. The third and final application we consider is urban mobility. It takes place beyond the frontiers of the Internet, in the physical world. Using authentication logs of the subway users, logging the time and station at which users take the subway, we show that it is possible to extract robust temporal profiles
APA, Harvard, Vancouver, ISO, and other styles
26

Poussevin, Mickael. "Apprentissage de représentation pour des données générées par des utilisateurs." Electronic Thesis or Diss., Paris 6, 2015. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2015PA066040.pdf.

Full text
Abstract:
Dans cette thèse, nous étudions comment les méthodes d'apprentissage de représentations peuvent être appliquées à des données générées par l'utilisateur. Nos contributions couvrent trois applications différentes, mais partagent un dénominateur commun: l'extraction des représentations d'utilisateurs concernés. Notre première application est la tâche de recommandation de produits, où les systèmes existant créent des profils utilisateurs et objets qui reflètent les préférences des premiers et les caractéristiques des derniers, en utilisant l'historique. De nos jours, un texte accompagne souvent cette note et nous proposons de l'utiliser pour enrichir les profils extraits. Notre espoir est d'en extraire une connaissance plus fine des goûts des utilisateurs. Nous pouvons, en utilisant ces modèles, prédire le texte qu'un utilisateur va écrire sur un objet. Notre deuxième application est l'analyse des sentiments et, en particulier, la classification de polarité. Notre idée est que les systèmes de recommandation peuvent être utilisés pour une telle tâche. Les systèmes de recommandation et classificateurs de polarité traditionnels fonctionnent sur différentes échelles de temps. Nous proposons deux hybridations de ces modèles: la première a de meilleures performances en classification, la seconde exhibe un vocabulaire de surprise. La troisième et dernière application que nous considérons est la mobilité urbaine. Elle a lieu au-delà des frontières d'Internet, dans le monde physique. Nous utilisons les journaux d'authentification des usagers du métro, enregistrant l'heure et la station d'origine des trajets, pour caractériser les utilisateurs par ses usages et habitudes temporelles
In this thesis, we study how representation learning methods can be applied to user-generated data. Our contributions cover three different applications but share a common denominator: the extraction of relevant user representations. Our first application is the item recommendation task, where recommender systems build user and item profiles out of past ratings reflecting user preferences and item characteristics. Nowadays, textual information is often together with ratings available and we propose to use it to enrich the profiles extracted from the ratings. Our hope is to extract from the textual content shared opinions and preferences. The models we propose provide another opportunity: predicting the text a user would write on an item. Our second application is sentiment analysis and, in particular, polarity classification. Our idea is that recommender systems can be used for such a task. Recommender systems and traditional polarity classifiers operate on different time scales. We propose two hybridizations of these models: the former has better classification performance, the latter highlights a vocabulary of surprise in the texts of the reviews. The third and final application we consider is urban mobility. It takes place beyond the frontiers of the Internet, in the physical world. Using authentication logs of the subway users, logging the time and station at which users take the subway, we show that it is possible to extract robust temporal profiles
APA, Harvard, Vancouver, ISO, and other styles
27

LERCH, CHRISTOPHE. "Une nouvelle représentation du contrôle organisationnel : le pilotage des processus." Université Louis Pasteur (Strasbourg) (1971-2008), 1998. http://www.theses.fr/1998STR1EC01.

Full text
Abstract:
La crise de l'instrumentation de gestion apparue au debut des annees 80 peut etre interpretee comme une crise des modes de representation de l'organisation. Cette these propose en reponse une reflexion sur le controle organisationnel a partir d'une modelisation a base d'activites. En premier lieu, l'analyse porte sur la construction de representations graphiques, modelisant de maniere specifique le comportement des activites reelles d'une organisation. Notre etude identifie certaines limites des outils de modelisation fonctionnels les plus couramment employes, et propose des solutions palliatives fondees sur une modelisation cognitive de l'activite. En second lieu, nous developpons une typologie qui permet d'analyser la diversite des processus a l'aide de trois ideotypes : les processus structures, les processus semi-structures et les processus non- structures. Ces configurations se distinguent notamment par leur strategie d'adaptation a l'environnement et leur structure de pilotage. Cette conceptualisation constitue un langage visant a faciliter la realisation d'un diagnostic sur le fonctionnement des processus. Notre recherche aboutit a la construction d'un tableau de bord dont le but est d'inflechir les mecanismes collectifs d'adaptation et de creation des connaissances des processus. Nous mettons en evidence a la fois des leviers d'action qui agissent sur ces mecanismes et les risques potentiels de blocages de la dynamique d'apprentissage inherents a leur utilisation. Finalement, le controle des processus apparait comme un moyen de mobiliser l'attention cognitive des operateurs vers l'exploration des savoirs de comprehension portant sur des problemes mal elucides ayant une importance strategique pour l'organisation. Il permet en contre-partie d'economiser l'attention des membres de l'organisation en optant pour l'exploitation des connaissances factuelles et des savoir-faire techniques portant sur des problemes de moindre importance ou deja bien elucides
The crisis of management instrumentation wich appeared in the 80's can be interpreted as a crisis of the representation modes of organization. Therfore this thesis offers some thoughts on the type of organization aimed at controlling, starting from a model based an activities. First, we use graphical representations in order to model the activities of organisations in applied cases. Our analysis identifies some limits the functional tools which are most frequently used. We then suggest some solutions by resorting to a cognitive representation of the activities. Secondly, we develop a typology which structures the diversity of the processes. We distinguish three categories : the structured process, the semi-structured process, the non structured process. Those configurations can in particular be differentiated by their strategies of environmental adaptation and their structure of management. The objective to provide a language so as to facilitate the diagnosis on the functioning of the processes. Our study resulted in devising a dashboard intended to drive the collective mechanisms of adaptation and knowledge creation. Our analysis emphasises both the parameters of control of these mechanisms and the impact of those parameters on the dynamic of the learning processes. Finally, managing the processes appears to be a way to mobilise the cognitive attention of the actors of the organisation. The point is especially important when the operators have to solve radically new problems of strategic importance for the organisation and thus need to explore new. Fields of knowledge. Conversely, managing the processes helps to save the cognitive resources of the organisation in situations where the members have to solve well-defined and well-known problems by exploiting available and explicit knowledge
APA, Harvard, Vancouver, ISO, and other styles
28

Liucci, Nicolas. "Le spectateur en place : représentation des classes sociales dans l'imagerie contemporaine." Paris, EHESS, 2010. http://www.theses.fr/2010EHES0150.

Full text
Abstract:
Durant les trente dernières années, l'existence des classes sociales a été largement remise en question. Toutefois, l'évolution sociale récente amène peu à peu à la réhabilitation de la notion de classes sociales. Publicité. Certaines marchandises, comme le vêtement, ou bien l'automobile, permettent aux consommateurs d'exprimer un certain statut social. L’interprétation montre l'existence de différences marquées entre le bas de gamme et le haut de gamme. L'étude des éléments iconiques montre que la manière dont les personnages se manifestent dans l’image correspond largement aux modes et représentation historiques des classes sociales. Tout indique clairement l'existence d'une hiérarchie de styles, très semblable la hiérarchie de styles dressée par l'ancienne Rhétorique. Sous la forme de la familiarité, la publicité diffuse une représentation idéologiquement marquée. Elle remet inexorablement le spectateur à sa place. Les classes dominées y sont décrites comme une version « avilie » des classes dominantes, une classe privée de moyens. Art. Comparé à la publicité, l'art produit des images perturbantes -des images qui pourraient véhiculer une autre vision de la structure de classe, ou au moins mettre en question sa distribution symbolique. L'analyse montre que les œuvres d'art étudiées renversent chacune à sa manière la hiérarchie mise à jour dans la partie précédente. Qu'elles s'efforcent de perdre le spectateur grâce à la juxtaposition d'éléments incongrus -i. E le collage -afin de susciter sa réflexion. Mais il apparaît également que le contexte« exclusif » ou « exceptionnel »au sein duquel l'œuvre d'art existe neutralise considérablement son potentiel subversif
Issues. During the last three decades, the existence of social classes has been questioned. The recent social evolution has led to the rehabilitation of the "class-conscious" sociological standpoint. Advertising. Some goods, such as clothes and cars, allow their owner to express a certain social status. The interpretation demonstrates marked differences between down-market and up-market advertisements. The iconic analysis shows that the characters are represented in various ways, recalling the topical descriptions of the class structure. This makes clear that a hierarchy of styles exists very similar to the ancient Rhetoric hierarchy. Not only advertising carries a quintessentially conservative representation of the c1ass structure, addressing each one in a hierarchical style, in order to put the viewer in his due place. It is also supporting an ideological vision of the social structure, where the Iower class is merely depicted as debased version of the upper class, as a class deprived of means, a class defined according to what it does not have. Art. The more you climb up to the up-market, in advertising, the more you notice the use of "artistic" languages -including the absence of stereotypes and the manipulation of specific lexicons. Compared to advertising, Art produces "disturbing" pictures -pictures, which would try to challenge the symbolic distribution of places. The analysis shows that specific artworks overthrow the previously established hierarchies, and endeavor to loose the viewer in collages of incongruous elements, in order to arouse his reflection. But it also appears that the "exclusive" context in which the artwork exists alters its subversive potential
APA, Harvard, Vancouver, ISO, and other styles
29

Chessel, Anatole. "Vision par ordinateur et otolithe : de la perception visuelle à une représentation des connaissances." Rennes 1, 2007. http://www.theses.fr/2007REN1S184.

Full text
Abstract:
Cette thèse s'intéresse à l'application des techniques de vision par ordinateur aux images d'otolithes de poisson, de petites concrétions calcaires d'un grand intérêt en biologie et écologie marine. Des considérations tant biologiques que perceptuelles permettent d'identifier dans les images de coupes d'otolithes deux informations comme étant utiles et importantes à l'analyse et l'utilisation des otolithes: l'évolution géométrique de la forme de l'otolithe, et les marques de croissances, des courbes correspondant localement à des crêtes et vallées. Un algorithme basé sur la détection a contrario est proposé pour extraire itérativement ces deux informations. Celui-ci passe par une reconstruction par interpolation de l'orientation en chaque point de l'image. Les buts incluent à la fois une meilleure compréhension et modélisation des otolithes et l'automatisation de processus fastidieux manuellement, comme l'estimation de l'âge pour la gestion des stock de poissons
This work studies the application of computer vision methods to the analysis of fish otoliths. Fish otoliths are small calcerous concretions set in fishes inner ears of much interest in biology and ecology. From both biological and perceptual analysis, two informations from otoliths sections images are characterised as being useful and important in the analysis and use of otolith: the global geometrical evolution of the outline, and the growth rings, corresponding to ridges and valley of the image. An algorithm based on an a contrario detection is proposed to iteratively compute both of those informations. An orientation field of the tangent to the locally relevant structures is estimated in this algorithm using orientation interpolation techniques. Biological aims include a better understanding of otolith formation and automating tedious tasks such as fish age estimation, of key importance in fish stock management
APA, Harvard, Vancouver, ISO, and other styles
30

Pastergue-Ruiz, Isabelle. "La représentation visuelle de l'espace chez un insecte : la fourmi Cataglyphis cursor (Hymenoptera, Formicidae)." Toulouse 3, 1995. http://www.theses.fr/1995TOU30261.

Full text
Abstract:
L'orientation lors du retour au gite sert souvent de cadre a l'etude de la representation spatiale animale, notamment chez les insectes sociaux ou tous les deplacements sont organises autour d'un point fixe, le nid. Notre etude met en evidence, chez les fourmis de l'espece cataglyphis cursor, une etonnante capacite de memorisation des reperes terrestres avec un traitement des informations leur donnant la faculte de reconstruire l'univers visuel pres du nid a partir de plusieurs images percues sur la retine. On propose alors l'existence d'une representation du monde visuel de cet insecte sous la forme d'images memorisees. Si de nombreux auteurs ont decrit chez les insectes la possibilite d'encodage des relations spatiales entre le but a atteindre et les elements du panorama, il n'avait jamais ete demontre auparavant l'existence d'une memorisation des relations spatiales generales entre les differents reperes independamment de la localisation du but. Cette representation globale de l'environnement proche du nid repose donc non seulement sur l'encodage des relations topologiques entre les reperes et le nid, mais aussi sur celui des relations entre les reperes selon un nouveau modele explicatif, le croquis topographique, qui se refere a une representation geocentree. Celle-ci permet notamment aux ouvrieres de cataglyphis cursor de se deplacer selon un nouveau chemin en percevant les reperes sous un autre angle que celui initialement appris. L'auteur a egalement montre que lors de l'apprentissage d'une sequence d'informations visuelles, les fourmis memorisent et identifient les reperes en liaison avec le contexte particulier forme par l'ensemble des indices visuels proches tel que le propose le modele de representation du croquis topographique. Cette memorisation permet un rappel des informations qui, tout en etant facilite par cette mise en forme, n'est pas strictement limite par la sequence spatio-temporelle d'acquisition
APA, Harvard, Vancouver, ISO, and other styles
31

Scherrer, Bruno. "Apprentissage de représentation et auto-organisation modulaire pour un agent autonome." Phd thesis, Université Henri Poincaré - Nancy I, 2003. http://tel.archives-ouvertes.fr/tel-00003377.

Full text
Abstract:
Cette thèse étudie l'utilisation d'algorithmes connexionnistes pour résoudre des problèmes d'apprentissage par renforcement. Les algorithmes connexionnistes sont inspirés de la manière dont le cerveau traite l'information : ils impliquent un grand nombre d'unités simples fortement interconnectées, manipulant des informations numériques de manière distribuée et massivement parallèle. L'apprentissage par renforcement est une théorie computationnelle qui permet de décrire l'interaction entre un agent et un environnement : elle permet de formaliser précisément le problème consistant à atteindre un certain nombre de buts via l'interaction.

Nous avons considéré trois problèmes de complexité croissante et montré qu'ils admettaient des solutions algorithmiques connexionnistes : 1) L'apprentissage par renforcement dans un petit espace d'états : nous nous appuyons sur un algorithme de la littérature pour construire un réseau connexionniste ; les paramètres du problème sont stockés par les poids des unités et des connexions et le calcul du plan est le résultat d'une activité distribuée dans le réseau. 2) L'apprentissage d'une représentation pour approximer un problème d'apprentissage par renforcement ayant un grand espace d'états : nous automatisons le procédé consistant à construire une partition de l'espace d'états pour approximer un problème de grande taille. 3) L'auto-organisation en modules spécialisés pour approximer plusieurs problèmes d'apprentissage par renforcement ayant un grand espace d'états : nous proposons d'exploiter le principe "diviser pour régner" et montrons comment plusieurs tâches peuvent être réparties efficacement sur un petit nombre de modules fonctionnels spécialisés.
APA, Harvard, Vancouver, ISO, and other styles
32

Delteil, Alexandre. "Représentation et apprentissage de concepts et d'ontologies pour le web sémantique." Nice, 2002. http://www.theses.fr/2002NICE5786.

Full text
Abstract:
Nous présentons dans cette thèse des langages de représentation des connaissances pour le Web Sémantique, dans l'objectif de fournir une expressivité supérieure aux formalismes actuels comme RDF(S). Le premier langage est une extension de RDF(S) fondée sur les Graphes Conceptuels Simples. Le deuxième langage, GDL, intègre à la fois les caractéristiques des Graphes Conceptuels (GCs) et des Logiques de Description (LDs). Par rapport aux GCs, ce langage peut être vu comme la clôture des GCs sous les opérateurs booléens. Par rapport aux LDs, GDL peut être vu comme la généralisation de ALC permettant de définir n'importe quel motif graphique dans les définitions de concepts. Dans l'objectif de mettre à jour et enrichir les ontologies, nous proposons un algorithme incrémental d'apprentissage de concepts et d'ontologie pour le Web Sémantique. Notre algorithme classe les objets d'une façon systématique selon les motifs relationnels qui les décrivent.
APA, Harvard, Vancouver, ISO, and other styles
33

Mazard, Angélique. "Bases neurales de l'imagerie mentale visuelle : effet du contenu de l'image mentale et implication de l'aire visuelle primaire." Caen, 2002. http://www.theses.fr/2002CAEN3078.

Full text
Abstract:
Nos travaux de thèse présentent l'influence de différents facteurs (nature de la tâche, contenu sémantique de l'image mentale, variabilité inter-individuelle) sur la nature des substrats neuraux impliqués dans des tâches d'imagerie mentale visuelle, et particulièrement sur la présence et l'absence d'activation de l'aire visuelle primaire (AVP). En Tomographie par Emission de Positon, nous avons montré que la réalisation d'une tâche d'imagerie mentale dans un environnement sonore bruyant induit l'activation d'un réseau d'aires attentionnelles, et de l'AVP, absente lors de la réalisation de la même tâche dans le silence. Nous avons également montré l'influence de la nature spatiale ou figurative de la tâche d'imagerie mentale sur l'activité de l'AVP. Enfin, en IRMf, nous avons observé un effet du caractère signifiant de l'image mentale, à l'origine d'un réseau d'activation latéralisé à gauche ainsi qu'une variabilité interindividuelle de l'activité de l'AVP.
APA, Harvard, Vancouver, ISO, and other styles
34

Goujon, Annabelle. "Apprentissage implicite de régularités contextuelles au cours de l'analyse de scènes visuelles." Aix-Marseille 1, 2007. http://www.theses.fr/2007AIX10099.

Full text
Abstract:
En structurant le monde visuel, les connaissances relatives aux régularités de l'environnement facilitent l'orientation des processus de sélection attentionnelle vers les aspects pertinents. Dans ce cadre, quel rôle peut-on accorder aux traitements non conscients dans l'appentissage de régularités contextuelles ? Dans quelle mesure des connaissances inaccessibles à la conscience influencent-elles la perception ? Le travail de recherche rapporté dans ce mémoire de thèse visait à mieux comprendre les mécanismes d'apprentissage, implicite ou explicite, impliquées lors de l'exploration d'une scène visuelle. Nos travaux expérimentaux montent que les connaissances relatives aux régularités contextuelles peuvent être actquises de manière implicite et faciliter le guidage de l'attention au sein d'une image. Ils révèlent que des mécanismes d'apprentissage implicite peuvent reposer sur des régularités contextuelles spécifiques, mais également sur des régularités catégorielles et sémantiques. En outre, ces mécanismes d'apprentissage implicite peuvent être déployés sur des régularités sémantiques hors du focus attentionnel, mais pour que la connaissance s'exprime une attention sélective était ici requise. Par ailleurs, nos travaux montent que si l'apprentissage de régularités contextuelles peut faciliter la prise de décision dans une tâche écologique telle que la conduie automobile, il peut également conduire à l'émergence de défaillances fonctionnelles. Sans minimiser le caractère adaptatif de la conscience dans la perception de scènes visuelles complexes, nos recheches amènent à défendre la thèse selon laquelle "l'inconscient cognitif" est capale d'encoder des régularités perceptives ou sémantiques présentes dans l'environnement, et de guider l'attention dans l'analyse d'une scène visuelle.
APA, Harvard, Vancouver, ISO, and other styles
35

Boloix, Emmanuelle. "INFLUENCE DE LA TÂCHE SUR LE TRAITEMENT DES SCÈNES VISUELLES COMPLEXES : UNE MODÉLISATION DES NIVEAUX DE REPRÉSENTATION." Phd thesis, Université de Provence - Aix-Marseille I, 2005. http://tel.archives-ouvertes.fr/tel-00011364.

Full text
Abstract:
Cette thèse examine l'influence de la tâche sur la représentation en mémoire de scènes visuelles complexes. Dans un premier temps, elle étudie comment sont représentées les informations visuelles portées par une scène naturelle, selon qu'elles sont pertinentes par rapport à une tâche de recherche visuelle ou d'intérêt sémantique pour la compréhension et l'interprétation de la scène. Les résultats de plusieurs expériences montrent que les informations visuelles pertinentes par rapport à une tâche de recherche visuelle sont extraites de la scène, traitées, et représentées de manière plus précise que les autres informations de la scène. Ils suggèrent également que ces informations sont codées au sein d'un haut niveau de représentation visuelle, quel que soit leur intérêt sémantique, c'est-à-dire leur implication dans la compréhension et l'interprétation de la tâche. Dans un second temps, cette thèse étudie les modalités de la représentation fonctionnelle de ces informations visuelles en mémoire. Les résultats de plusieurs expériences révèlent que le niveau fonctionnel de nos représentations est de nature transitoire, et qu'il ne code à chaque instant que le détail des informations visuelles qui sont immédiatement requises par la tâche. Enfin, cette thèse propose un modèle multinomial de l'influence de la tâche sur la perception et la représentation d'une scène visuelle complexe. Mis à l'épreuve à partir de données expérimentales recueillies auprès de sujets humains dont la perception d'une scène visuelle est assujettie à la réalisation d'une tâche complexe, le modèle prouve son adéquation aux données. Ce faisant, il valide l'hypothèse selon laquelle les représentations visuelles stockées en mémoire contiennent majoritairement des informations pertinentes par rapport aux exigences de la tâche, avec une priorité représentationnelle allouée aux éléments de la scène qui sont directement et immédiatement pertinents pour la réalisation de cette tâche.
APA, Harvard, Vancouver, ISO, and other styles
36

Aissa, Wafa. "Réseaux de modules neuronaux pour un raisonnement visuel compositionnel." Electronic Thesis or Diss., Paris, HESAM, 2023. http://www.theses.fr/2023HESAC033.

Full text
Abstract:
Cette thèse de doctorat porte sur le raisonnement visuel compositionnel. Lorsqu'on présente une paire image-question à un modèle de réseau de neurones, notre objectif est que le modèle réponde à la question en suivant une chaîne de raisonnement définie par un programme. Nous évaluons la capacité de raisonnement du modèle dans le cadre de la Question Réponse Visuelle (QRV). La QRV compositionnelle décompose les questions complexes en sous-problèmes modulaires plus simples. Ces sous-problèmes incluent des compétences de raisonnement telles que la détection d'objets et d'attributs, la détection de relations, les opérations logiques, le dénombrement et les comparaisons. Chaque sous-problème est attribué à un module différent. Cette approche décourage les raccourcis, exigeant une compréhension explicite du problème. Elle favorise également la transparence et l'explicabilité.Les réseaux de modules neuronaux (NMN) sont utilisés pour permettre un raisonnement compositionnel. Il sont basés sur un cadre de générateur-exécuteur, le générateur apprend la traduction de la question vers son programme de fonctions. L'exécuteur instancie un NMN où chaque fonction est attribuée à un module spécifique. Nous développons également un catalogue de modules neuronaux et définissons leurs fonctions et leurs structures. Les entraînements et les évaluations sont effectués sur l'ensemble de données GQA [3], qui comprend des questions, des programmes fonctionnels, des images et des réponses.L'une des principales contributions implique l'intégration de représentations pré-entraînées multi-modales dans la QRV modulaire. Cette intégration sert à initialiser le processus de raisonnement. Les expériences démontrent que les représentations multimodales surpassent les unimodales. Ceci permet de capturer des relations complexes intra-modales tout en facilitant l'alignement entre les différentes modalités, améliorant ainsi la précision globale de notre NMN.De plus, nous explorons différentes techniques d'entraînement pour améliorer le processus d'apprentissage et l'efficacité du coût de calcul. En plus d'optimiser les modules au sein de la chaîne de raisonnement pour produire collectivement des réponses précises, nous introduisons une approche d'apprentissage guidé pour optimiser les modules intermédiaires de la chaîne de raisonnement. Cela garantit que ces modules effectuent leurs sous-tâches de raisonnement spécifiques sans prendre de raccourcis ou compromettre l'intégrité du processus de raisonnement. L'une des techniques proposées s'inspire de la méthode d'apprentissage guidé couramment utilisée dans les modèles séquentiels. Des analyses comparatives démontrent les avantages de notre approche pour les NMN, comme détaillé dans notre article [1].Nous introduisons également une nouvelle stratégie d'apprentissage par Curriculum (CL) adaptée aux NMN pour réorganiser les exemples d'entraînement et définir une stratégie d'apprentissage progressif. Nous commençons par apprendre des programmes plus simples et augmentons progressivement la complexité des programmes d'entraînement. Nous utilisons plusieurs critères de difficulté pour définir l'approche du CL. Nos résultats montrent qu'en sélectionnant la méthode de CL appropriée, nous pouvons réduire considérablement le coût de l'entraînement et la quantité de données d'entraînement requise, avec un impact limité sur la précision finale de la QRV. Cette contribution importante constitue le cœur de notre article [2].[1] W. Aissa, M. Ferecatu, and M. Crucianu. Curriculum learning for compositional visual reasoning. In Proceedings of VISIGRAPP 2023, Volume 5: VISAPP, 2023.[2] W. Aissa, M. Ferecatu, and M. Crucianu. Multimodal representations for teacher-guidedcompositional visual reasoning. In Proceedings of ACIVS 2023. Springer International Publishing, 2023.[3] D. A. Hudson and C. D. Manning. GQA: A new dataset for real-world visual reasoning and compositional question answering. 2019
The context of this PhD thesis is compositional visual reasoning. When presented with an image and a question pair, our objective is to have neural networks models answer the question by following a reasoning chain defined by a program. We assess the model's reasoning ability through a Visual Question Answering (VQA) setup.Compositional VQA breaks down complex questions into modular easier sub-problems.These sub-problems include reasoning skills such as object and attribute detection, relation detection, logical operations, counting, and comparisons. Each sub-problem is assigned to a different module. This approach discourages shortcuts, demanding an explicit understanding of the problem. It also promotes transparency and explainability.Neural module networks (NMN) are used to enable compositional reasoning. The framework is based on a generator-executor framework, the generator learns the translation of the question to its function program. The executor instantiates a neural module network where each function is assigned to a specific module. We also design a neural modules catalog and define the function and the structure of each module. The training and evaluations are conducted using the pre-processed GQA dataset cite{gqa}, which includes natural language questions, functional programs representing the reasoning chain, images, and corresponding answers.The research contributions revolve around the establishment of an NMN framework for the VQA task.One primary contribution involves the integration of vision and language pre-trained (VLP) representations into modular VQA. This integration serves as a ``warm-start" mechanism for initializing the reasoning process.The experiments demonstrate that cross-modal vision and language representations outperform uni-modal ones. This utilization enables the capture of intricate relationships within each individual modality while also facilitating alignment between different modalities, consequently enhancing overall accuracy of our NMN.Moreover, we explore various training techniques to enhance the learning process and improve cost-efficiency. In addition to optimizing the modules within the reasoning chain to collaboratively produce accurate answers, we introduce a teacher-guidance approach to optimize the intermediate modules in the reasoning chain. This ensures that these modules perform their specific reasoning sub-tasks without taking shortcuts or compromising the reasoning process's integrity. We propose and implement several teacher-guidance techniques, one of which draws inspiration from the teacher-forcing method commonly used in sequential models. Comparative analyses demonstrate the advantages of our teacher-guidance approach for NMNs, as detailed in our paper [1].We also introduce a novel Curriculum Learning (CL) strategy tailored for NMNs to reorganize the training examples and define a start-small training strategy. We begin by learning simpler programs and progressively increase the complexity of the training programs. We use several difficulty criteria to define the CL approach. Our findings demonstrate that by selecting the appropriate CL method, we can significantly reduce the training cost and required training data, with only a limited impact on the final VQA accuracy. This significant contribution forms the core of our paper [2].[1] W. Aissa, M. Ferecatu, and M. Crucianu. Curriculum learning for compositional visual reasoning. In Proceedings of VISIGRAPP 2023, Volume 5: VISAPP, 2023.[2] W. Aissa, M. Ferecatu, and M. Crucianu. Multimodal representations for teacher-guidedcompositional visual reasoning. In Advanced Concepts for Intelligent Vision Systems, 21st International Conference (ACIVS 2023). Springer International Publishing, 2023.[3] D. A. Hudson and C. D. Manning. GQA: A new dataset for real-world visual reasoning and compositional question answering. 2019
APA, Harvard, Vancouver, ISO, and other styles
37

Pétreault-Vailleau, Françoise. "Méthode audio-visuelle et apprentissage de la lecture/écriture par des adolescents migrants." Besançon, 1987. http://www.theses.fr/1987BESA1002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Pétreault-Vailleau, Françoise. "Méthode audio-visuelle et apprentissage de la lecture-écriture par des adolescents migrants." Lille 3 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37610473w.

Full text
APA, Harvard, Vancouver, ISO, and other styles
39

Reveleau, Aurélien. "Représentation visuelle des sources sonores, des forces d'intéraction et intégration d'une représentation 3D de l'environnement dans une interface de téléopération pour robot mobile." Mémoire, Université de Sherbrooke, 2015. http://hdl.handle.net/11143/6064.

Full text
Abstract:
Ces dernières années, de nombreuses compagnies ont mis sur le marché des robots de téléprésence pour des usages de vidéoconférence mobile. Ces plateformes robotiques transmettent généralement la vidéo, l’audio et les données de capteurs de proximité à l’opérateur distant par l’intermédiaire d’une interface de téléopération s’exécutant sur un ordinateur de bureau standard. De nouvelles modalités d’interaction comme la localisation et le suivi de sources sonores, la capacité de ressentir les forces appliquées et la visualisation d’une représentation 3D de l’environnement sont développées et testées sur des plateformes robotique avancées. Il devient donc nécessaire d’explorer de nouvelles techniques pour intégrer ces informations supplémentaires au sein de l’interface. Ce projet de maîtrise propose une solution pour représenter visuellement les sources sonores et les forces d’interaction du robot à travers une interface de téléopération 3D. Cette interface inclut sous une seule vue les fonctionnalités de base comme la représentation du modèle du robot, la reconstruction 3D du nuage de points transmis par le capteur Kinect, la présentation des données des capteurs de proximité ainsi que la possibilité de passer d’une vue égocentrique à une vue exocentrique. L’affichage des sources sonores est réalisé avec des bulles de bandes dessinées pour la parole et des anneaux bleus pour tous les autres types de sons. L’intensité des forces d’interaction sur les bras du robot est affichée par changement de couleur et de taille du modèle 3D et avec des jauges. La direction des forces exercées est matérialisée par des flèches. Enfin, le champs de vision limité de la caméra est augmenté par l’affichage d’une représentation 3D de l’environnement construit dynamiquement par le robot. La phase de validation a été effectuée avec la plateforme robotique IRL-1 qui dispose des modalités perceptuelles nécessaires. Les performances de 31 participants ont été comparées dans l’exécution de trois sous-tâches réalisées avec et sans l’ajout des modalités supplémentaires. La première épreuve d’écoute visait à connaître l’impact de l’affichage de la position des sources sonores. La tâche de manipulation évaluait l’impact de l’affichage des forces ressenties sur les bras. Enfin, le pilotage du robot à travers un slalom avait pour but de tester l’impact de la représentation 3D de l’environnement. L’étude démontre que l’affichage visuel des modalités d’interaction sonores et de force du robot soulage et améliore les performances des utilisateurs dans la réalisation de certaines tâches précises d’écoute ou de manipulation. Cependant, les tests de pilotage du robot à travers un slalom autour de trois cylindres ne permettent pas d’affirmer que l’ajout d’une représentation 3D de l’environnement déjà visité par le robot améliore les performances de navigation.
APA, Harvard, Vancouver, ISO, and other styles
40

Bordes, Patrick. "Deep Multimodal Learning for Joint Textual and Visual Reasoning." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS370.

Full text
Abstract:
Au cours de la dernière décennie, l'évolution des techniques d'apprentissage en profondeur, combinée à une augmentation importante des données multimodales a suscité un intérêt croissant dans la communauté de recherche pour la compréhension conjointe du langage et de la vision. Le défi au cœur de l'apprentissage automatique multimodal est la différence sémantique entre le langage et la vision: alors que la vision représente fidèlement la réalité et transmet une sémantique de bas niveau, le langage porte un raisonnement de haut niveau. D'une part, le langage peut améliorer les performances des modèles de vision. L'hypothèse sous-jacente est que les représentations textuelles contiennent des informations visuelles. Nous appliquons ce principe au Zero-Shot Learning. Dans la première contribution en ZSL, nous étendons une hypothèse commune, qui stipule que les représentations textuelles codent des informations sur l'apparence visuelle des objets, en montrant qu'elles codent également des informations sur leur environnement visuel et leur fréquence réelle. Dans une seconde contribution, nous considérons le cadre transductif en ZSL. Nous proposons une solution aux limites des approches transductives actuelles, qui supposent que l'espace visuel est bien groupé, ce qui n'est pas vrai lorsque le nombre de classes inconnues est élevé. D'un autre côté, la vision peut élargir les capacités des modèles linguistiques. Nous le démontrons en abordant la génération de questions visuelles (VQG), qui étend la tâche standard de génération de questions en utilisant une image comme entrée complémentaire, en utilisant des représentations visuelles dérivées de la vision par ordinateur
In the last decade, the evolution of Deep Learning techniques to learn meaningful data representations for text and images, combined with an important increase of multimodal data, mainly from social network and e-commerce websites, has triggered a growing interest in the research community about the joint understanding of language and vision. The challenge at the heart of Multimodal Machine Learning is the intrinsic difference in semantics between language and vision: while vision faithfully represents reality and conveys low-level semantics, language is a human construction carrying high-level reasoning. One the one hand, language can enhance the performance of vision models. The underlying hypothesis is that textual representations contain visual information. We apply this principle to two Zero-Shot Learning tasks. In the first contribution on ZSL, we extend a common assumption in ZSL, which states that textual representations encode information about the visual appearance of objects, by showing that they also encode information about their visual surroundings and their real-world frequence. In a second contribution, we consider the transductive setting in ZSL. We propose a solution to the limitations of current transductive approaches, that assume that the visual space is well-clustered, which does not hold true when the number of unknown classes is high. On the other hand, vision can expand the capacities of language models. We demonstrate it by tackling Visual Question Generation (VQG), which extends the standard Question Generation task by using an image as complementary input, by using visual representations derived from Computer Vision
APA, Harvard, Vancouver, ISO, and other styles
41

Phenix, Thierry. "Modélisation bayésienne algorithmique de la reconnaissance visuelle de mots et de l'attention visuelle." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAV075/document.

Full text
Abstract:
Dans cette thèse, nous proposons un nouveau modèle conceptuel de la reconnaissance visuelle de mots implémenté sous forme mathématique de façon à évaluer sa capacité à reproduire les observations expérimentales du domaine. Une revue critique des modèles computationnels existants nous conduit à définir un cahier des charges sous la forme de cinq hypothèses qui sont à la base du modèle conceptuel proposé : le modèle est doté d'une architecture à trois niveaux (sensoriel, perceptif et lexical) ; le traitement est parallèle sur l'ensemble des lettres du stimulus ; l'encodage positionnel est distribué ; enfin, le traitement sensoriel des lettres intègre position du regard, acuité visuelle et distribution de l'attention visuelle. L'implémentation repose sur la méthodologie de la modélisation bayésienne algorithmique, conduisant au modèle BRAID (pour "Bayesian word Recognition with Attention, Interference and Dynamics").Nous vérifions la capacité du modèle à rendre compte des données obtenues en perceptibilité des lettres (par exemple, effets de supériorité des mots et des pseudo-mots, effets de contexte), en reconnaissance de mots et en décision lexicale (par exemple, effets de fréquence et de voisinage). Au total, nous simulons avec succès 28 expériences comportementales, permettant de rendre compte d'effets subtils dans chacun des domaines ciblés. Nous discutons les choix théoriques du modèle à la lumière de ces résultats expérimentaux, et proposons des perspectives d'extension du modèle, soulignant la flexibilité du formalisme choisi
In this thesis, we propose an original theoretical framework of visual word recognition, and implement it mathematically to evaluate its ability to reproduce experimental observations of the field. A critical review of previous computational models leads us to define specifications in the form of a set of five hypotheses, that form the basis of the proposed theoretical framework: the model is built on a three-layer architecture (sensory, perceptual, lexical); letter processing is parallel; positional coding is distributed; finally, sensory processing involves gaze position, visual acuity, and visual attention distribution. To implement the model, we rely on the Bayesian algorithmic modeling methodology, and define the BRAID model (for "Bayesian word Recognition with Attention, Interference and Dynamics")
APA, Harvard, Vancouver, ISO, and other styles
42

Aldea, Emanuel. "Apprentissage de données structurées pour l'interprétation d'images." Paris, Télécom ParisTech, 2009. http://www.theses.fr/2009ENST0053.

Full text
Abstract:
La plupart des méthodes de classification d’images s'appuient en premier lieu sur les attributs des objets d'intérêt. Cependant, les informations spatiales liées aux relations entre ces objets sont également utiles, comme cela a été montré en segmentation et reconnaissance de structures dans les images, et leur intégration dans des méthodes d'apprentissage et de classification commence à apparaître et évoluer. Les modélisations floues permettent de représenter à la fois l'imprécision de la relation et le passage graduel de la satisfaction à la non satisfaction de cette relation. L'objectif de ce travail est d'explorer les techniques de représentation de l’information spatiale et leur intégration dans les classifieurs d'images qui utilisent les noyaux de graphes. Nous justifions le choix de graphes étiquetés pour représenter les images dans le contexte de l'apprentissage SVM, ainsi que les adaptations nécessaires par rapport aux domaines connexes. A partir des mesures d’adjacence floues entre les objets d'intérêt, nous définissons une famille de représentations de graphes déterminés par des seuils différents appliqués à ces mesures spatiales. Enfin, nous employons plusieurs noyaux dans un apprentissage multiple afin de mettre en place des classifieurs qui peuvent tenir compte des différentes représentations graphiques de la même image à la fois. Les résultats montrent que l'information spatiale complète les caractéristiques visuelles des éléments distinctifs dans les images et que l'adaptation des fonctions noyau pour les représentations spatiales floues est bénéfique en termes de performances
Image interpretation methods use primarily the visual features of low-level or high-level interest elements. However, spatial information concerning the relative positioning of these elements is equally beneficial, as it has been shown previously in segmentation and structure recognition. Fuzzy representations permit to assess at the same time the imprecision degree of a relation and the gradual transition between the satisfiability and the non-satisfiability of a relation. The objective of this work is to explore techniques of spatial information representation and their integration in the learning process, within the context of image classifiers that make use of graph kernels. We motivate our choice of labeled graphs for representing images, in the context of learning with SVM classifiers. Graph kernels have been studied intensively in computational chemistry and biology, but an adaptation for image related graphs is necessary, since image structures and properties of the information encoded in the labeling are fundamentally different. We illustrate the integration of spatial information within the graphical model by considering fuzzy adjacency measures between interest elements, and we define a family of graph representations determined by different thresholds applied to these spatial measures. Finally, we employ multiple kernel learning in order to build up classifiers that can take into account different graphical representations of the same image at once. Results show that spatial information complements the visual features of distinctive elements in images and that adapting the discriminative kernel functions for the fuzzy spatial representations is beneficial in terms of performance
APA, Harvard, Vancouver, ISO, and other styles
43

Fusty-Raynaud, Sylvie. "Apprentissage et dysfonctionnement du langage écrit et représentation motrice de la parole." Paris 8, 2007. http://octaviana.fr/document/145514919#?c=0&m=0&s=0&cv=0.

Full text
Abstract:
Les travaux sur le lecteur expert, l'apprentissage de la lecture et ses dysfonctionnements ne conduisent ni à une définition homogène des sujets dyslexiques ni à une méthodologie cohérente de remédiation. Cette thèse propose d'analyser les problèmes d'apprentissage de la lecture sous un angle nouveau. Plutôt que de considérer le comportement du lecteur expert, elle examine les contraintes que le système alphabétique impose au sujet apprenant et les ressources qu'il mobilise en lui. Plutôt que d'examiner les caractéristiques du sujet dyslexique, elle observe comment la remédiation est conduite et adaptée en fonction de chaque sujet et comment elle agit sur lui. Le système alphabétique est fondé sur l'association graphème / phonème. Le phonème se définit essentiellement en termes articulatoires et non en termes acoustiques. La maîtrise de la lecture s'appuie donc en premier lieu sur la représentation motrice de la parole qui constitue le traitement actif permettant la connexion entre représentation visuelle et représentation auditive. La remédiation des troubles de la lecture est fondée sur l'oralisation. Cette dernière constitue le principe actif de toute rééducation, non parce qu'elle sonorise l'écrit, mais parce qu'elle permet au sujet de retrouver les gestes de parole symbolisés par les graphèmes. De ce point de vue, ce ne sont pas les dyslexiques, mais les normolecteurs qui ont une structure cognitive commune. Elle correspond à l'empreinte du système alphabétique qui génère une représentation audio-visuo-grapho-phonatoire de la parole
Data about expert reader, reading learning and reading disabilities lead neither to a homogeneous definition of dyslexics nor a coherent methodology of remediation. This thesis aims to analyse reading learning difficulties in a new way. Rather than considering the good reader's behavior, we examine the constraints imposed and the resources required by alphabetic system. Rather than examine the dyslexic’s characteristics, we observe how the remediation is adapted to the subjects and influences them. The alphabetic system is based on grapheme / phoneme association. The phoneme is defined by articulatory more than acoustic features. Thus, reading is primarily based on speech-motor representation which actively connects visual and auditory representations. Learning disabilities remediation is based on oral realization, which is the active principle of each remediation program, as it enables readers to recognize speech gesture symbolised by graphemes. Thus it appears that the normal readers and not the dyslexics share a cognitive structure which corresponds to the alphabetic system mark, generating an audio-visuo-grapho-phonatory representation of speech
APA, Harvard, Vancouver, ISO, and other styles
44

Ziat, Ali Yazid. "Apprentissage de représentation pour la prédiction et la classification de séries temporelles." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066324/document.

Full text
Abstract:
Nous nous intéressons au développement de méthodes qui répondent aux difficultés posées par l’analyse des séries temporelles. Nos contributions se focalisent sur deux tâches : la prédiction de séries temporelles et la classification de séries temporelles. Notre première contribution présente une méthode de prédiction et de complétion de séries temporelles multivariées et relationnelles. Le but est d’être capable de prédire simultanément l’évolution d’un ensemble de séries temporelles reliées entre elles selon un graphe, ainsi que de compléter les valeurs manquantes dans ces séries (pouvant correspondre par exemple à une panne d’un capteur pendant un intervalle de temps donné). On se propose d’utiliser des techniques d’apprentissage de représentation pour prédire l’évolution des séries considérées tout en complétant les valeurs manquantes et prenant en compte les relations qu’il peut exister entre elles. Des extensions de ce modèle sont proposées et décrites : d’abord dans le cadre de la prédiction de séries temporelles hétérogènes puis dans le cas de la prédiction de séries temporelles avec une incertitude exprimée. Un modèle de prédiction de séries spatio-temporelles est ensuiteproposé, avec lequel les relations entre les différentes séries peuvent être exprimées de manière plus générale, et où ces dernières peuvent être apprises.Enfin, nous nous intéressons à la classification de séries temporelles. Un modèle d’apprentissage joint de métrique et de classification de séries est proposé et une comparaison expérimentale est menée
This thesis deals with the development of time series analysis methods. Our contributions focus on two tasks: time series forecasting and classification. Our first contribution presents a method of prediction and completion of multivariate and relational time series. The aim is to be able to simultaneously predict the evolution of a group of time series connected to each other according to a graph, as well as to complete the missing values ​​in these series (which may correspond for example to a failure of a sensor during a given time interval). We propose to use representation learning techniques to forecast the evolution of the series while completing the missing values ​​and taking into account the relationships that may exist between them. Extensions of this model are proposed and described: first in the context of the prediction of heterogeneous time series and then in the case of the prediction of time series with an expressed uncertainty. A prediction model of spatio-temporal series is then proposed, in which the relations between the different series can be expressed more generally, and where these can be learned.Finally, we are interested in the classification of time series. A joint model of metric learning and time-series classification is proposed and an experimental comparison is conducted
APA, Harvard, Vancouver, ISO, and other styles
45

Ziat, Ali Yazid. "Apprentissage de représentation pour la prédiction et la classification de séries temporelles." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066324.

Full text
Abstract:
Nous nous intéressons au développement de méthodes qui répondent aux difficultés posées par l’analyse des séries temporelles. Nos contributions se focalisent sur deux tâches : la prédiction de séries temporelles et la classification de séries temporelles. Notre première contribution présente une méthode de prédiction et de complétion de séries temporelles multivariées et relationnelles. Le but est d’être capable de prédire simultanément l’évolution d’un ensemble de séries temporelles reliées entre elles selon un graphe, ainsi que de compléter les valeurs manquantes dans ces séries (pouvant correspondre par exemple à une panne d’un capteur pendant un intervalle de temps donné). On se propose d’utiliser des techniques d’apprentissage de représentation pour prédire l’évolution des séries considérées tout en complétant les valeurs manquantes et prenant en compte les relations qu’il peut exister entre elles. Des extensions de ce modèle sont proposées et décrites : d’abord dans le cadre de la prédiction de séries temporelles hétérogènes puis dans le cas de la prédiction de séries temporelles avec une incertitude exprimée. Un modèle de prédiction de séries spatio-temporelles est ensuiteproposé, avec lequel les relations entre les différentes séries peuvent être exprimées de manière plus générale, et où ces dernières peuvent être apprises.Enfin, nous nous intéressons à la classification de séries temporelles. Un modèle d’apprentissage joint de métrique et de classification de séries est proposé et une comparaison expérimentale est menée
This thesis deals with the development of time series analysis methods. Our contributions focus on two tasks: time series forecasting and classification. Our first contribution presents a method of prediction and completion of multivariate and relational time series. The aim is to be able to simultaneously predict the evolution of a group of time series connected to each other according to a graph, as well as to complete the missing values ​​in these series (which may correspond for example to a failure of a sensor during a given time interval). We propose to use representation learning techniques to forecast the evolution of the series while completing the missing values ​​and taking into account the relationships that may exist between them. Extensions of this model are proposed and described: first in the context of the prediction of heterogeneous time series and then in the case of the prediction of time series with an expressed uncertainty. A prediction model of spatio-temporal series is then proposed, in which the relations between the different series can be expressed more generally, and where these can be learned.Finally, we are interested in the classification of time series. A joint model of metric learning and time-series classification is proposed and an experimental comparison is conducted
APA, Harvard, Vancouver, ISO, and other styles
46

Prudhomme, Elie. "Représentation et fouille de données volumineuses." Thesis, Lyon 2, 2009. http://www.theses.fr/2009LYO20048/document.

Full text
Abstract:
Le stockage n'étant plus soumis à des contraintes de coût importantes, les systèmes d'information collectent une quantité croissante de données, souvent via des processus d'acquisition automatique. En parallèle, les objets d'intérêt sont devenus plus complexes. C'est le cas, par exemple, des images, du texte ou encore des puces à ADN. Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent. Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données. Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs. Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette. Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses. L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b). Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a). Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte. Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions. Dans ce cas, nous avons recours aux méthodes ensemblistes. Ces méthodes agrègent la prédiction de plusieurs classifieurs simples. En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur. Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage. La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème. Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble. Nous avons alors proposé deux heuristiques. La première heuristique est non-supervisée. Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007). La seconde heuristique, au contraire, est supervisée. Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b). Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs. Néanmoins, ils conduisent également à une multitude de représentations. Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique. (...)
/
APA, Harvard, Vancouver, ISO, and other styles
47

Guerry, Joris. "Reconnaissance visuelle robuste par réseaux de neurones dans des scénarios d'exploration robotique. Détecte-moi si tu peux !" Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLX080/document.

Full text
Abstract:
L'objectif principal ce travail de thèse est la reconnaissance visuelle pour un robot mobile dans des conditions difficiles. En particulier nous nous intéressons aux réseaux de neurones qui présentent aujourd'hui les meilleures performances en vision par ordinateur. Nous avons étudié le principe de sélection de méthodes pour la classification d'images 2D en utilisant un réseau de neurones sélecteur pour choisir le meilleur classifieur disponible étant donnée la situation observée. Cette stratégie fonctionne lorsque les données peuvent être facilement partitionnées vis-à-vis des classifieurs disponibles, ce qui est le cas quand des modalités complémentaires sont utilisées. Nous avons donc utilisé des données RGB-D (2.5D) en particulier appliquées à la détection de personnes. Nous proposons une combinaison de réseaux de neurones détecteurs indépendants propres à chaque modalité (couleur & carte de profondeur) basés sur une même architecture (le Faster RCNN). Nous partageons des résultats intermédiaires des détecteurs pour leur permettre de se compléter et d'améliorer la performance globale en situation difficile (perte de luminosité ou bruit d'acquisition de la carte de profondeur). Nous établissons un nouvel état de l'art dans le domaine et proposons un jeu de données plus complexe et plus riche à la communauté (ONERA.ROOM). Enfin, nous avons fait usage de l'information 3D contenue dans les images RGB-D au travers d'une méthode multi-vue. Nous avons défini une stratégie de génération de vues virtuelles 2D cohérentes avec la structure 3D. Pour une tâche de segmentation sémantique, cette approche permet d'augmenter artificiellement les données d'entraînement pour chaque image RGB-D et d'accumuler différentes prédictions lors du test. Nous obtenons de nouveaux résultats de référence sur les jeux de données SUNRGBD et NYUDv2. Ces travaux de thèse nous ont permis d'aborder de façon originale des données robotiques 2D, 2.5D et 3D avec des réseaux de neurones. Que ce soit pour la classification, la détection et la segmentation sémantique, nous avons non seulement validé nos approches sur des jeux de données difficiles, mais également amené l'état de l'art à un nouveau niveau de performance
The main objective of this thesis is visual recognition for a mobile robot in difficult conditions. We are particularly interested in neural networks which present today the best performances in computer vision. We studied the concept of method selection for the classification of 2D images by using a neural network selector to choose the best available classifier given the observed situation. This strategy works when data can be easily partitioned with respect to available classifiers, which is the case when complementary modalities are used. We have therefore used RGB-D data (2.5D) in particular applied to people detection. We propose a combination of independent neural network detectors specific to each modality (color & depth map) based on the same architecture (Faster RCNN). We share intermediate results of the detectors to allow them to complement and improve overall performance in difficult situations (luminosity loss or acquisition noise of the depth map). We are establishing new state of the art scores in the field and propose a more complex and richer data set to the community (ONERA.ROOM). Finally, we made use of the 3D information contained in the RGB-D images through a multi-view method. We have defined a strategy for generating 2D virtual views that are consistent with the 3D structure. For a semantic segmentation task, this approach artificially increases the training data for each RGB-D image and accumulates different predictions during the test. We obtain new reference results on the SUNRGBD and NYUDv2 datasets. All these works allowed us to handle in an original way 2D, 2.5D and 3D robotic data with neural networks. Whether for classification, detection and semantic segmentation, we not only validated our approaches on difficult data sets, but also brought the state of the art to a new level of performance
APA, Harvard, Vancouver, ISO, and other styles
48

Suret-Canale, Michel. "D'un atelier à l'autre : au regard des faits." Paris 1, 1996. http://www.theses.fr/1996PA010641.

Full text
Abstract:
La thèse consiste en une auto-analyse critique et en la mise au point d'une relation dialectique théorie pratique étayant le travail de son auteur. Ce qui est visé par cette recherche, formalisée par un dialogue entre la vue et la vision, pourrait se résumer par cette formule : dans l'image, montrer la part de l'ombre, cette cécité d'où vient le regard et dont l'image critique garde la mémoire. L'objectif, incertain, est de parvenir, par hybridations successives des techniques et par une réflexion critique, à la création d'images composites. Images composites, images qui témoignent banalement d'un ça a été, images quotidiennes débarrassées des enjeux stratégiques de l'art, libres de retrouver le lieu commun, non pas celui des cliches de l'art mais lieu commun du quotidien, espace de rassemblement ; parce que désœuvrée, l'image se met à nous ressembler, à nous rassembler. L'échec n'est pas redouté, il semble paradoxalement une condition de la réussite du projet
The thesis consists of a critical self-analysis and the clarification of the dialectical relationship (theoretical practical) supporting the artistic work of the author. The aim of this research, formalised by a dialogue between sight and vision, could be resumed as follows : in an image, to show that part which is shadow, the blindness from which one's viewpoint emerges and of which the critical image preserves the memory. The objective, uncertain, is to succed, both through the successive hybridzation of techniques and critical reflection, in the creation of composite images. Composite images, images which attest banally to a ça a été, everyday images that have rid themselves of the strategic stakes of art, free to return to a common ground, not on the grounds of artistic cliche, but rather the common ground of everday life, espace de ressemblement ; because once idle, the image comes to resemble us, to bring us together. Failure is not feared, it appears, to the contrary, to be a necessary condition to the succes of the project
APA, Harvard, Vancouver, ISO, and other styles
49

Guarda, Alvaro. "Apprentissage génétique de règles de reconnaissance visuelle : application à la reconnaissance d'éléments du visage." Grenoble INPG, 1998. http://www.theses.fr/1998INPG0110.

Full text
Abstract:
Depuis quelques annees, un interet croissant est constate dans l'utilisation de techniques d'apprentissage automatique en vision par ordinateur et domaines voisins. Cependant, toutes les possibilites sont loin d'etre suffisamment exploitees. Dans cette perspective, l'objectif de cette these est l'apprentissage automatique de modeles d'objets pour la reconnaissance visuelle dans le cadre de la vision par apparence. Les modeles sont representes par un ensemble de regles en logique floue. Une regle est un ensemble de caracteristiques locales combinees par les operateurs usuels de la logique floue (et, ou et non). Les caracteristiques sont representees par des masques de convolution. L'apprentissage procede par induction sur un ensemble d'exemples, de facon supervisee et incrementale. Des methodes d'apprentissage genetique sont utilisees a deux niveaux : un algorithme genetique fait evoluer des caracteristiques, et une methode de type programmation genetique emploie ces caracteristiques dans la construction de regles de reconnaissance. La methode proposee peut etre utilisee pour apprendre des modeles afin de detecter un objet dans une image ou dans une sequence d'images, ou afin de classifier l'image d'un objet. Nous presentons des resultats d'experimentation avec le prototype d'un tel systeme pour deux taches differentes : classification d'elements du visage humain - il droit, il gauche, bouche, nez ; et detection des yeux. Ce prototype est actuellement integre dans un programme de suivi de visage utilise dans un systeme d'interaction homme machine.
APA, Harvard, Vancouver, ISO, and other styles
50

Arneton, Mélissa. "Bilinguisme et apprentissage des mathématiques : études à la Martinique." Thesis, Nancy 2, 2010. http://www.theses.fr/2010NAN21009/document.

Full text
Abstract:
Cette thèse part du constat selon lequel les élèves domiens obtiennent, depuis plusieurs années déjà, des résultats inférieurs à ceux des élèves métropolitains aux évaluations nationales; le plus étonnant est que les écarts observés sont plus importants en mathématiques qu'en français. Nous nous intéressons alors à des caractéristiques culturelles (le bilinguisme et les représentations collectives) susceptibles d'influencer les apprentissages scolaires, dans un département français que l'on peut considérer comme un "laboratoire naturel": la Martinique. Quatre études sont menées auprès de deux niveaux scolaires (en cours élémentaire et en 6ème). La première étude consiste en analyses secondaires des données des évaluations nationales, portant sur plusieurs années. Elles confirment la réalité du constat posé éliminent l'hypothèse d'une difficulté particulière dans un champ spécifique des mathématiques (par exemple, la géométrie) et celle d'un biais d'items. La seconde étude, à travers un dispositif expérimental permettant 1) de mesurer le bilinguisme dans ses versants social et cognitif des élèves martiniquais 2) d'évaluer de façon diverse les performances des enfants en mathématiques et 3) de recueillir leurs résultats aux évaluations nationales, réfute l'hypothèse de l'influence du bilinguisme sur les apprentissages. La troisième étude s'intéresse alors au lien entre les représentations culturelles (et plus spécifiquement les représentations des enfants quant aux disciplines scolaires) et leurs performances. Les résultats obtenus ne permettent pas de conclure que les enfants martiniquais ont des représentations moins favorables envers les mathématiques que les enfants métropolitains. La dernière étude compile des données recueillies lors des dispositifs précédents afin de renforcer l'hypothèse réfutée quant à l'influence du bilinguisme français / créole sur les apprentissages. Tout en interprétant ces résultats, nous proposons enfin des pistes de réflexion que ce soit au niveau de la méthodologie et des instruments utilisés dans cette étude, ou au niveau d'autres pistes culturelles à explorer
In this thesis, we try to explain why French overseas pupils have got, for many years, inferior performances to their mainland French school fellows at national academic evaluations. The most surprising is that the observed differences are stronger in mathematics than in French. Then, we focus on the cultural characteristics (bilingualism and collective beliefs) able to influence the school learning, in a French Overseas Department considered as a ?natural laboratory?: Martinique. We carry out four studies with two educational levels (in elementary school and first year of the secondary school). In the first study, we make side analysis of several years' national academic data. They acknowledge the observation as a reality and they invalidate two hypotheses, one to a specific difference in a particular field of mathematics (in geometry for example) and a second relative to an item differential functioning. In the second study, an experimental procedure allows 1) to measure social and cognitive bilingualism of Martinican pupils, 2) to evaluate with different procedures the children performances in mathematics and 3) to collect their scores at national evaluations. This second study refutes the hypothesis of the influence of bilingualism on academic learning. In the third study, we deal with the link between social beliefs (specifically the children?s beliefs of the school disciplines) and their performances. The results do not allow to conclude that the martinican children have worst beliefs of the mathematics than the French mainland children. In the last study, we compile data collected in the precedent analysis, in order to refute the bilingualism?s influence on the school learning. Finally, in the same time, we explain our observations and we submit considered perspectives relatives, for one part, to methodology and the instruments used in this research and, for the second part, to others cultural perspectives, which could be explore
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography