Segui questo link per vedere altri tipi di pubblicazioni sul tema: Apprentissage de representation d'etats.

Tesi sul tema "Apprentissage de representation d'etats"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-50 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Apprentissage de representation d'etats".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Hautot, Julien. "Représentation à base radiale pour l'apprentissage par renforcement visuel". Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2024. http://www.theses.fr/2024UCFA0093.

Testo completo
Abstract (sommario):
Ce travail de thèse s'inscrit dans le contexte de l'apprentissage par renforcement (Renforcement Learning - RL) à partir de données image. Contrairement à l'apprentissage supervisé qui permet d'effectuer différentes tâches telles que la classification, la régression ou encore la segmentation à partir d'une base de données annotée, le RL permet d'apprendre, sans base de données, via des interactions avec un environnement. En effet, dans ces méthodes, un agent tel qu'un robot va effectuer différentes actions afin d'explorer son environnement et de récupérer les données d'entraînement. L'entraînement de ce type d'agent s'effectue par essais et erreurs ;lorsque l'agent échoue dans sa tâche, il est pénalisé, tandis que lorsqu'il réussit, il est récompensé. Le but pour l'agent est d'améliorer son comportement pour obtenir le plus de récompenses à long terme. Nous nous intéressons aux extractions visuelles dans des scénarios de RL utilisant des images vues à la première personne. L'utilisation de données visuelles fait souvent appel à des réseaux de convolution profonds permettant de travailler directement sur des images. Cependant, ces réseaux présentent une complexité calculatoire importante, manquent d'explicabilité et souffrent parfois d'instabilité. Pour surmonter ces difficultés, nous avons investigué le développement d'un réseau basé sur des fonctions à base radiales qui permettent des activations éparses et localisées dans l'espace d'entrée. Les réseaux à base radiale (RBFN ) ont connu leur apogée dans les années 90, puis ont été supplantés par les réseaux de convolution car ils étaient jugés difficilement utilisables sur des images en raison de leur coût en calcul. Dans cette thèse, nous avons développé un extracteur de caractéristiques visuelles inspiré des RBFN en simplifiant le coût calculatoire sur les images. Nous avons utilisé notre réseau pour la résolution de tâches visuelles à la première personne et nous avons comparé ses résultats avec différentes méthodes de l'état de l'art; en particulier, des méthodes d'apprentissage de bout-en-bout, des méthodes utilisant l'apprentissage de représentation d'état et des méthodes d'apprentissage machine extrême. Différents scénarios ont été testés issus du simulateur VizDoom, ainsi que du simulateur physique de robotique Pybullet. Outre la comparaison des récompenses obtenues après l'apprentissage, nous avons aussi effectué différents tests sur la robustesse au bruit, la génération des paramètres de notre réseau et le transfert d'une tâche dans la réalité.Le réseau proposé obtient les meilleures performances lors d'apprentissage par renforcement sur les scénarios testés, tout en étant plus simple d'utilisation et d'interprétation. De plus, notre réseau est robuste face à différents bruits, ce qui ouvre la voie à un transfert efficace des connaissances acquises en simulation à la réalité
This thesis work falls within the context of Reinforcement Learning (RL) from image data. Unlike supervised learning, which enables performing various tasks such as classification, regression, or segmentation from an annotated database, RL allows learning without a database through interactions with an environment. In these methods, an agent, such as a robot, performs different actions to explore its environment and gather training data. Training such an agent involves trial and error; the agent is penalized when it fails at its task and rewarded when it succeeds. The goal for the agent is to improve its behavior to obtain the most long-term rewards.We focus on visual extractions in RL scenarios using first-person view images. The use of visual data often involves deep convolutional networks that work directly on images. However, these networks have significant computational complexity, lack interpretability, and sometimes suffer from instability. To overcome these difficulties, we investigated the development of a network based on radial basis functions, which enable sparse and localized activations in the input space. Radial basis function networks (RBFNs) peaked in the 1990s but were later supplanted by convolutional networks due to their high computational cost on images. In this thesis, we developed a visual feature extractor inspired by RBFNs, simplifying the computational cost on images. We used our network for solving first-person visual tasks and compared its results with various state-of-the-art methods, including end-to-end learning methods, state representation learning methods, and extreme machine learning methods. Different scenarios were tested from the VizDoom simulator and the Pybullet robotics physics simulator. In addition to comparing the rewards obtained after learning, we conducted various tests on noise robustness, parameter generation of our network, and task transfer to reality.The proposed network achieves the best performance in reinforcement learning on the tested scenarios while being easier to use and interpret. Additionally, our network is robust to various noise types, paving the way for the effective transfer of knowledge acquired in simulation to reality
Gli stili APA, Harvard, Vancouver, ISO e altri
2

Dos, Santos Ludovic. "Representation learning for relational data". Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066480.

Testo completo
Abstract (sommario):
L'utilisation croissante des réseaux sociaux et de capteurs génère une grande quantité de données qui peuvent être représentées sous forme de graphiques complexes. Il y a de nombreuses tâches allant de l'analyse de l'information à la prédiction et à la récupération que l'on peut imaginer sur ces données où la relation entre les noeuds de graphes devrait être informative. Dans cette thèse, nous avons proposé différents modèles pour trois tâches différentes: - Classification des noeuds graphiques - Prévisions de séries temporelles relationnelles - Filtrage collaboratif. Tous les modèles proposés utilisent le cadre d'apprentissage de la représentation dans sa variante déterministe ou gaussienne. Dans un premier temps, nous avons proposé deux algorithmes pour la tâche de marquage de graphe hétérogène, l'un utilisant des représentations déterministes et l'autre des représentations gaussiennes. Contrairement à d'autres modèles de pointe, notre solution est capable d'apprendre les poids de bord lors de l'apprentissage simultané des représentations et des classificateurs. Deuxièmement, nous avons proposé un algorithme pour la prévision des séries chronologiques relationnelles où les observations sont non seulement corrélées à l'intérieur de chaque série, mais aussi entre les différentes séries. Nous utilisons des représentations gaussiennes dans cette contribution. C'était l'occasion de voir de quelle manière l'utilisation de représentations gaussiennes au lieu de représentations déterministes était profitable. Enfin, nous appliquons l'approche d'apprentissage de la représentation gaussienne à la tâche de filtrage collaboratif. Ceci est un travail préliminaire pour voir si les propriétés des représentations gaussiennes trouvées sur les deux tâches précédentes ont également été vérifiées pour le classement. L'objectif de ce travail était de généraliser ensuite l'approche à des données plus relationnelles et pas seulement des graphes bipartis entre les utilisateurs et les items
The increasing use of social and sensor networks generates a large quantity of data that can be represented as complex graphs. There are many tasks from information analysis, to prediction and retrieval one can imagine on those data where relation between graph nodes should be informative. In this thesis, we proposed different models for three different tasks: - Graph node classification - Relational time series forecasting - Collaborative filtering. All the proposed models use the representation learning framework in its deterministic or Gaussian variant. First, we proposed two algorithms for the heterogeneous graph labeling task, one using deterministic representations and the other one Gaussian representations. Contrary to other state of the art models, our solution is able to learn edge weights when learning simultaneously the representations and the classifiers. Second, we proposed an algorithm for relational time series forecasting where the observations are not only correlated inside each series, but also across the different series. We use Gaussian representations in this contribution. This was an opportunity to see in which way using Gaussian representations instead of deterministic ones was profitable. At last, we apply the Gaussian representation learning approach to the collaborative filtering task. This is a preliminary work to see if the properties of Gaussian representations found on the two previous tasks were also verified for the ranking one. The goal of this work was to then generalize the approach to more relational data and not only bipartite graphs between users and items
Gli stili APA, Harvard, Vancouver, ISO e altri
3

Dos, Santos Ludovic. "Representation learning for relational data". Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066480/document.

Testo completo
Abstract (sommario):
L'utilisation croissante des réseaux sociaux et de capteurs génère une grande quantité de données qui peuvent être représentées sous forme de graphiques complexes. Il y a de nombreuses tâches allant de l'analyse de l'information à la prédiction et à la récupération que l'on peut imaginer sur ces données où la relation entre les noeuds de graphes devrait être informative. Dans cette thèse, nous avons proposé différents modèles pour trois tâches différentes: - Classification des noeuds graphiques - Prévisions de séries temporelles relationnelles - Filtrage collaboratif. Tous les modèles proposés utilisent le cadre d'apprentissage de la représentation dans sa variante déterministe ou gaussienne. Dans un premier temps, nous avons proposé deux algorithmes pour la tâche de marquage de graphe hétérogène, l'un utilisant des représentations déterministes et l'autre des représentations gaussiennes. Contrairement à d'autres modèles de pointe, notre solution est capable d'apprendre les poids de bord lors de l'apprentissage simultané des représentations et des classificateurs. Deuxièmement, nous avons proposé un algorithme pour la prévision des séries chronologiques relationnelles où les observations sont non seulement corrélées à l'intérieur de chaque série, mais aussi entre les différentes séries. Nous utilisons des représentations gaussiennes dans cette contribution. C'était l'occasion de voir de quelle manière l'utilisation de représentations gaussiennes au lieu de représentations déterministes était profitable. Enfin, nous appliquons l'approche d'apprentissage de la représentation gaussienne à la tâche de filtrage collaboratif. Ceci est un travail préliminaire pour voir si les propriétés des représentations gaussiennes trouvées sur les deux tâches précédentes ont également été vérifiées pour le classement. L'objectif de ce travail était de généraliser ensuite l'approche à des données plus relationnelles et pas seulement des graphes bipartis entre les utilisateurs et les items
The increasing use of social and sensor networks generates a large quantity of data that can be represented as complex graphs. There are many tasks from information analysis, to prediction and retrieval one can imagine on those data where relation between graph nodes should be informative. In this thesis, we proposed different models for three different tasks: - Graph node classification - Relational time series forecasting - Collaborative filtering. All the proposed models use the representation learning framework in its deterministic or Gaussian variant. First, we proposed two algorithms for the heterogeneous graph labeling task, one using deterministic representations and the other one Gaussian representations. Contrary to other state of the art models, our solution is able to learn edge weights when learning simultaneously the representations and the classifiers. Second, we proposed an algorithm for relational time series forecasting where the observations are not only correlated inside each series, but also across the different series. We use Gaussian representations in this contribution. This was an opportunity to see in which way using Gaussian representations instead of deterministic ones was profitable. At last, we apply the Gaussian representation learning approach to the collaborative filtering task. This is a preliminary work to see if the properties of Gaussian representations found on the two previous tasks were also verified for the ranking one. The goal of this work was to then generalize the approach to more relational data and not only bipartite graphs between users and items
Gli stili APA, Harvard, Vancouver, ISO e altri
4

Zaiem, Mohamed Salah. "Informed Speech Self-supervised Representation Learning". Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAT009.

Testo completo
Abstract (sommario):
L'apprentissage des caractéristiques a été un des principaux moteurs des progrès de l'apprentissage automatique. L'apprentissage auto-supervisé est apparu dans ce contexte, permettant le traitement de données non étiquetées en vue d'une meilleure performance sur des tâches faiblement étiquetées. La première partie de mon travail de doctorat vise à motiver les choix dans les pipelines d'apprentissage auto-supervisé de la parole qui apprennent les représentations non supervisées. Dans cette thèse, je montre d'abord comment une fonction basée sur l'indépendance conditionnelle peut être utilisée pour sélectionner efficacement et de manière optimale des tâches de pré-entraînement adaptées à la meilleure performance sur une tâche cible. La deuxième partie de mon travail de doctorat étudie l'évaluation et l'utilisation de représentations auto-supervisées pré-entraînées. J'y explore d'abord la robustesse des benchmarks actuels d'auto-supervision de la parole aux changements dans les choix de modélisation en aval. Je propose, ensuite, de nouvelles approches d'entraînement en aval favorisant l'efficacité et la généralisation
Feature learning has been driving machine learning advancement with the recently proposed methods getting progressively rid of handcrafted parts within the transformations from inputs to desired labels. Self-supervised learning has emerged within this context, allowing the processing of unlabeled data towards better performance on low-labeled tasks. The first part of my doctoral work is aimed towards motivating the choices in the speech selfsupervised pipelines learning the unsupervised representations. In this thesis, I first show how conditional-independence-based scoring can be used to efficiently and optimally select pretraining tasks tailored for the best performance on a target task. The second part of my doctoral work studies the evaluation and usage of pretrained self-supervised representations. I explore, first, the robustness of current speech self-supervision benchmarks to changes in the downstream modeling choices. I propose, second, fine-tuning approaches for better efficicency and generalization
Gli stili APA, Harvard, Vancouver, ISO e altri
5

Carvalho, Micael. "Deep representation spaces". Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS292.

Testo completo
Abstract (sommario):
Ces dernières années, les techniques d’apprentissage profond ont fondamentalement transformé l'état de l'art de nombreuses applications de l'apprentissage automatique, devenant la nouvelle approche standard pour plusieurs d’entre elles. Les architectures provenant de ces techniques ont été utilisées pour l'apprentissage par transfert, ce qui a élargi la puissance des modèles profonds à des tâches qui ne disposaient pas de suffisamment de données pour les entraîner à partir de zéro. Le sujet d'étude de cette thèse couvre les espaces de représentation créés par les architectures profondes. Dans un premier temps, nous étudions les propriétés de leurs espaces, en prêtant un intérêt particulier à la redondance des dimensions et la précision numérique de leurs représentations. Nos résultats démontrent un fort degré de robustesse, pointant vers des schémas de compression simples et puissants. Ensuite, nous nous concentrons sur le l'affinement de ces représentations. Nous choisissons d'adopter un problème multi-tâches intermodal et de concevoir une fonction de coût capable de tirer parti des données de plusieurs modalités, tout en tenant compte des différentes tâches associées au même ensemble de données. Afin d'équilibrer correctement ces coûts, nous développons également un nouveau processus d'échantillonnage qui ne prend en compte que des exemples contribuant à la phase d'apprentissage, c'est-à-dire ceux ayant un coût positif. Enfin, nous testons notre approche sur un ensemble de données à grande échelle de recettes de cuisine et d'images associées. Notre méthode améliore de 5 fois l'état de l'art sur cette tâche, et nous montrons que l'aspect multitâche de notre approche favorise l'organisation sémantique de l'espace de représentation, lui permettant d'effectuer des sous-tâches jamais vues pendant l'entraînement, comme l'exclusion et la sélection d’ingrédients. Les résultats que nous présentons dans cette thèse ouvrent de nombreuses possibilités, y compris la compression de caractéristiques pour les applications distantes, l'apprentissage multi-modal et multitâche robuste et l'affinement de l'espace des caractéristiques. Pour l'application dans le contexte de la cuisine, beaucoup de nos résultats sont directement applicables dans une situation réelle, en particulier pour la détection d'allergènes, la recherche de recettes alternatives en raison de restrictions alimentaires et la planification de menus
In recent years, Deep Learning techniques have swept the state-of-the-art of many applications of Machine Learning, becoming the new standard approach for them. The architectures issued from these techniques have been used for transfer learning, which extended the power of deep models to tasks that did not have enough data to fully train them from scratch. This thesis' subject of study is the representation spaces created by deep architectures. First, we study properties inherent to them, with particular interest in dimensionality redundancy and precision of their features. Our findings reveal a strong degree of robustness, pointing the path to simple and powerful compression schemes. Then, we focus on refining these representations. We choose to adopt a cross-modal multi-task problem, and design a loss function capable of taking advantage of data coming from multiple modalities, while also taking into account different tasks associated to the same dataset. In order to correctly balance these losses, we also we develop a new sampling scheme that only takes into account examples contributing to the learning phase, i.e. those having a positive loss. Finally, we test our approach in a large-scale dataset of cooking recipes and associated pictures. Our method achieves a 5-fold improvement over the state-of-the-art, and we show that the multi-task aspect of our approach promotes a semantically meaningful organization of the representation space, allowing it to perform subtasks never seen during training, like ingredient exclusion and selection. The results we present in this thesis open many possibilities, including feature compression for remote applications, robust multi-modal and multi-task learning, and feature space refinement. For the cooking application, in particular, many of our findings are directly applicable in a real-world context, especially for the detection of allergens, finding alternative recipes due to dietary restrictions, and menu planning
Gli stili APA, Harvard, Vancouver, ISO e altri
6

Le, Naour Étienne. "Learning neural representation for time series". Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS211.

Testo completo
Abstract (sommario):
L'analyse des séries temporelles est cruciale dans divers domaines tels que l'industrie, la finance et la science du climat. La prolifération des capteurs et l'hétérogénéité croissante des données nécessitent des techniques efficaces de modélisation des séries temporelles. Alors que des modèles complexes d'apprentissage automatique supervisé ont été développés pour des tâches spécifiques, l'apprentissage de représentation offre une approche différente en apprenant des représentations des données dans un nouvel espace sans se concentrer explicitement sur une tâche particulière. Par la suite, les représentations extraites sont ré-utilisées pour améliorer les performances des tâches supervisées en aval. Récemment, l'apprentissage profond a révolutionné la modélisation des séries temporelles, avec des modèles tels que les réseaux de neurones convolutifs et les réseaux basés sur les mécanismes d'attention. Ces modèles atteignent des performances à l'état de l'art pour les tâches de classification, d'imputation ou encore de prévision. La fusion de l'apprentissage de représentation et de l'apprentissage profond a donné naissance au domaine de l'apprentissage de représentation neuronale. Les représentations neuronales pour les séries temporelles, comparées aux représentations non neuronales, possèdent une meilleure capacité à extraire des caractéristiques complexes au sein d'un nouvel espace structuré. Les progrès récents dans ce domaine ont considérablement amélioré la qualité des représentations des séries temporelles, améliorant ainsi leurs utilités pour les tâches en aval. Cette thèse vise à contribuer au domaine de l'apprentissage des représentations neuronales pour les séries temporelles, en ciblant à la fois les besoins industriels et académiques. Ce manuscrit aborde des problèmes ouverts dans le domaine, tels que la construction de représentations neuronales interprétables, le développement de modèles de représentations continues capables d'apprendre à partir de séries temporelles irrégulières et non alignées, ainsi que la création de modèles adaptés pour les changements de distribution. Ce manuscrit propose plusieurs contributions pour relever les défis mentionnés ci-dessus.- Premièrement, nous proposons un modèle de représentation neuronale discrète et interprétable pour les séries temporelles, basé sur une architecture encoder-decoder avec un mécanisme de discrétisation.- Deuxièmement, nous concevons un modèle continu en temps de représentation neuronale implicite pour l'imputation et la prévision des séries temporelles qui peut traiter des échantillons non alignés et irréguliers. Ce modèle se base sur des représentations modulables, ce qui lui permet de s'adapter à de nouveaux échantillons et à des contextes inédits en ajustant les représentations.- Enfin, nous démontrons que le modèle proposé ci-dessus apprend des caractéristiques pertinentes, créant un espace de représentation structuré et efficace pour des tâches en aval telle que la génération de données synthétiques
Time series analysis has become increasingly important in various fields, including industry, finance, and climate science. The proliferation of sensors and the data heterogeneity necessitate effective time series modeling techniques. While complex supervised machine learning models have been developed for specific tasks, representation learning offers a different approach by learning data representations in a new space without explicitly focusing on solving a supervised task. The learned representation is then reused to improve the performance of supervised tasks applied on top of it. Recently, deep learning has transformed time series modeling, with advanced models like convolutional and attention-based neural networks achieving state-of-the-art performance in classification, imputation, or forecasting. The fusion of representation learning and deep learning has given rise to the field of neural representation learning. Neural representations have a greater ability to extract intricate features and patterns compared to non-neural representations, making them more powerful and effective in handling complex time series data. Recent advances in the field have significantly improved the quality of time series representations, enhancing their usefulness for various downstream tasks. This thesis focuses on advancing the field of neural representation learning for time series, targeting both industrial and academic needs. This research addresses open problems in the domain, such as creating interpretable neural representations, developing continuous time series representations that handle irregular and unaligned time series, and creating adaptable models for distribution shifts. This manuscript offers multiple contributions to tackle the previously mentioned challenges in neural representation learning for time series.- First, we propose an interpretable discrete neural representation model for time series based on a vector quantization encoder-decoder architecture, which facilitates interpretable classification.- Secondly, we design a continuous implicit neural representation model, called TimeFlow, for time series imputation and forecasting that can handle unaligned and irregular samples. This model leverages time series data representation, enabling it to adapt to new samples and unseen contexts by adjusting the representations.- Lastly, we demonstrate that TimeFlow learns relevant features, making the representation space effective for downstream tasks such as data generation.These contributions aim to advance the field of neural representation learning for time series and provide practical solutions to real-world industrial challenges
Gli stili APA, Harvard, Vancouver, ISO e altri
7

Trottier, Ludovic, e Ludovic Trottier. "Sparse, hierarchical and shared-factors priors for representation learning". Doctoral thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/35777.

Testo completo
Abstract (sommario):
La représentation en caractéristiques est une préoccupation centrale des systèmes d’apprentissage automatique d’aujourd’hui. Une représentation adéquate peut faciliter une tâche d’apprentissage complexe. C’est le cas lorsque par exemple cette représentation est de faible dimensionnalité et est constituée de caractéristiques de haut niveau. Mais comment déterminer si une représentation est adéquate pour une tâche d’apprentissage ? Les récents travaux suggèrent qu’il est préférable de voir le choix de la représentation comme un problème d’apprentissage en soi. C’est ce que l’on nomme l’apprentissage de représentation. Cette thèse présente une série de contributions visant à améliorer la qualité des représentations apprises. La première contribution élabore une étude comparative des approches par dictionnaire parcimonieux sur le problème de la localisation de points de prises (pour la saisie robotisée) et fournit une analyse empirique de leurs avantages et leurs inconvénients. La deuxième contribution propose une architecture réseau de neurones à convolution (CNN) pour la détection de points de prise et la compare aux approches d’apprentissage par dictionnaire. Ensuite, la troisième contribution élabore une nouvelle fonction d’activation paramétrique et la valide expérimentalement. Finalement, la quatrième contribution détaille un nouveau mécanisme de partage souple de paramètres dans un cadre d’apprentissage multitâche.
La représentation en caractéristiques est une préoccupation centrale des systèmes d’apprentissage automatique d’aujourd’hui. Une représentation adéquate peut faciliter une tâche d’apprentissage complexe. C’est le cas lorsque par exemple cette représentation est de faible dimensionnalité et est constituée de caractéristiques de haut niveau. Mais comment déterminer si une représentation est adéquate pour une tâche d’apprentissage ? Les récents travaux suggèrent qu’il est préférable de voir le choix de la représentation comme un problème d’apprentissage en soi. C’est ce que l’on nomme l’apprentissage de représentation. Cette thèse présente une série de contributions visant à améliorer la qualité des représentations apprises. La première contribution élabore une étude comparative des approches par dictionnaire parcimonieux sur le problème de la localisation de points de prises (pour la saisie robotisée) et fournit une analyse empirique de leurs avantages et leurs inconvénients. La deuxième contribution propose une architecture réseau de neurones à convolution (CNN) pour la détection de points de prise et la compare aux approches d’apprentissage par dictionnaire. Ensuite, la troisième contribution élabore une nouvelle fonction d’activation paramétrique et la valide expérimentalement. Finalement, la quatrième contribution détaille un nouveau mécanisme de partage souple de paramètres dans un cadre d’apprentissage multitâche.
Feature representation is a central concern of today’s machine learning systems. A proper representation can facilitate a complex learning task. This is the case when for instance the representation has low dimensionality and consists of high-level characteristics. But how can we determine if a representation is adequate for a learning task? Recent work suggests that it is better to see the choice of representation as a learning problem in itself. This is called Representation Learning. This thesis presents a series of contributions aimed at improving the quality of the learned representations. The first contribution elaborates a comparative study of Sparse Dictionary Learning (SDL) approaches on the problem of grasp detection (for robotic grasping) and provides an empirical analysis of their advantages and disadvantages. The second contribution proposes a Convolutional Neural Network (CNN) architecture for grasp detection and compares it to SDL. Then, the third contribution elaborates a new parametric activation function and validates it experimentally. Finally, the fourth contribution details a new soft parameter sharing mechanism for multitasking learning.
Feature representation is a central concern of today’s machine learning systems. A proper representation can facilitate a complex learning task. This is the case when for instance the representation has low dimensionality and consists of high-level characteristics. But how can we determine if a representation is adequate for a learning task? Recent work suggests that it is better to see the choice of representation as a learning problem in itself. This is called Representation Learning. This thesis presents a series of contributions aimed at improving the quality of the learned representations. The first contribution elaborates a comparative study of Sparse Dictionary Learning (SDL) approaches on the problem of grasp detection (for robotic grasping) and provides an empirical analysis of their advantages and disadvantages. The second contribution proposes a Convolutional Neural Network (CNN) architecture for grasp detection and compares it to SDL. Then, the third contribution elaborates a new parametric activation function and validates it experimentally. Finally, the fourth contribution details a new soft parameter sharing mechanism for multitasking learning.
Gli stili APA, Harvard, Vancouver, ISO e altri
8

Gerald, Thomas. "Representation Learning for Large Scale Classification". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS316.

Testo completo
Abstract (sommario):
Ces précédentes décennies ont vu l'essor des nouvelles technologies simplifiant le partage de l'information. Aujourd'hui, une importante part des données est accessible pour un grand nombre d'utilisateurs. Dans cette thèse, nous proposons d'étudier les problématiques d'annotations de documents avec comme objectif à posteriori de faciliter l'accès à l'information à partir des mots clefs retrouvés. On s'intéressera au domaine de la classification extrême qui caractérise la tâche d'annotation automatique dès lors que le nombre d'étiquettes est important. De nombreuses difficultés découlent de la taille et de la complexité de ces données : le temps de prédiction, le stockage ainsi que la pertinence des annotations en sont les plus représentatifs. Les récentes recherches traitant de cette problématique reposent aujourd'hui sur trois types d'approches: les approches "un contre tous" apprenant autant de classifieurs que d'étiquettes; les méthodes "hiérarchiques" organisant une structure de classifieur simple ; les approches par représentations plongeant dans des espaces de faible dimension les documents. Dans cette thèse, nous étudions le schéma de classification par représentation. À travers nos contributions, nous étudions différentes approches soit pour accélérer la prédiction ou structurer les représentations. Dans un premier temps, nous étudierons des représentations discrètes à l'instar des méthodes "ECOC" pour accélérer le processus d'annotation. Dans un deuxième temps, nous considérerons les plongements hyperboliques afin de profiter des qualités de cet espace pour la représentation de données structurées
The past decades have seen the rise of new technologies that simplify information sharing. Today, a huge part of the data is accessible to most users. In this thesis, we propose to study the problems of document annotation to ease access to information thanks to retrieved annotations. We will be interested in extreme classification-related tasks which characterizes the tasks of automatic annotation when the number of labels is important. Many difficulties arise from the size and complexity of this data: prediction time, storage and the relevance of the annotations are the most representative. Recent research dealing with this issue is based on three classification schemes: "one against all" approaches learning as many classifiers as labels; "hierarchical" methods organizing a simple classifier structure; representation approaches embedding documents into small spaces. In this thesis, we study the representation classification scheme. Through our contributions, we study different approaches either to speed up prediction or to better structure representations. In a first part, we will study discrete representations such as "ECOC" methods to speed up the annotation process. In a second step, we will consider hyperbolic embeddings to take advantage of the qualities of this space for the representation of structured data
Gli stili APA, Harvard, Vancouver, ISO e altri
9

Coria, Juan Manuel. "Continual Representation Learning in Written and Spoken Language". Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG025.

Testo completo
Abstract (sommario):
L'apprentissage automatique a récemment connu des avancées majeures, mais les modèles actuels sont généralement entraînés une fois sur une tâche cible et leurs paramètres sont rarement révisés.Ce problème affecte les performances après la mise en production car les spécifications des tâches et les données peuvent évoluer avec le temps.Pour résoudre ce problème, l'apprentissage continu propose un entraînement au fil du temps, à mesure que de nouvelles données sont disponibles.Cependant, les modèles entraînés de cette manière souffrent d'une perte de performance sur les exemples déjà vus, un phénomène appelé oubli catastrophique.De nombreuses études ont proposé différentes stratégies pour prévenir l'oubli, mais elles s'appuient souvent sur des données étiquetées rarement disponibles en pratique. Dans cette thèse, nous étudions l'apprentissage continu pour la langue écrite et parlée.Notre objectif est de concevoir des systèmes autonomes et auto-apprenants capables d'exploiter les données disponibles sur le terrain pour s'adapter aux nouveaux environnements.Contrairement aux travaux récents sur l'apprentissage de représentations à usage général, nous proposons d'exploiter des représentations adaptées à une tâche cible.En effet, ces dernières pourraient être plus faciles à interpréter et à exploiter par des méthodes non supervisés et plus robustes à l'oubli, comme le clustering. Dans ce travail, nous améliorons notre compréhension de l'apprentissage continu dans plusieurs contextes.Nous montrons que les représentations spécifiques à une tâche permettent un apprentissage continu efficace à faibles ressources, et que les prédictions d'un modèle peuvent être exploitées pour l'auto-apprentissage
Although machine learning has recently witnessed major breakthroughs, today's models are mostly trained once on a target task and then deployed, rarely (if ever) revisiting their parameters.This problem affects performance after deployment, as task specifications and data may evolve with user needs and distribution shifts.To solve this, continual learning proposes to train models over time as new data becomes available.However, models trained in this way suffer from significant performance loss on previously seen examples, a phenomenon called catastrophic forgetting.Although many studies have proposed different strategies to prevent forgetting, they often rely on labeled data, which is rarely available in practice. In this thesis, we study continual learning for written and spoken language.Our main goal is to design autonomous and self-learning systems able to leverage scarce on-the-job data to adapt to the new environments they are deployed in.Contrary to recent work on learning general-purpose representations (or embeddings), we propose to leverage representations that are tailored to a downstream task.We believe the latter may be easier to interpret and exploit by unsupervised training algorithms like clustering, that are less prone to forgetting. Throughout our work, we improve our understanding of continual learning in a variety of settings, such as the adaptation of a language model to new languages for sequence labeling tasks, or even the adaptation to a live conversation in the context of speaker diarization.We show that task-specific representations allow for effective low-resource continual learning, and that a model's own predictions can be exploited for full self-learning
Gli stili APA, Harvard, Vancouver, ISO e altri
10

Venkataramanan, Shashanka. "Metric learning for instance and category-level visual representation". Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS022.

Testo completo
Abstract (sommario):
Le principal objectif de la vision par ordinateur est de permettre aux machines d'extraire des informations significatives à partir de données visuelles, telles que des images et des vidéos, et de tirer parti de ces informations pour effectuer une large gamme de tâches. À cette fin, de nombreuses recherches se sont concentrées sur le développement de modèles d'apprentissage profond capables de coder des représentations visuelles complètes et robustes. Une stratégie importante dans ce contexte consiste à préentraîner des modèles sur des ensembles de données à grande échelle, tels qu'ImageNet, pour apprendre des représentations qui peuvent présenter une applicabilité transversale aux tâches et faciliter la gestion réussie de diverses tâches en aval avec un minimum d'effort. Pour faciliter l'apprentissage sur ces ensembles de données à grande échelle et coder de bonnes représentations, des stratégies complexes d'augmentation des données ont été utilisées. Cependant, ces augmentations peuvent être limitées dans leur portée, étant soit conçues manuellement et manquant de diversité, soit générant des images qui paraissent artificielles. De plus, ces techniques d'augmentation se sont principalement concentrées sur le jeu de données ImageNet et ses tâches en aval, limitant leur applicabilité à un éventail plus large de problèmes de vision par ordinateur. Dans cette thèse, nous visons à surmonter ces limitations en explorant différentes approches pour améliorer l'efficacité et l'efficience de l'apprentissage des représentations. Le fil conducteur des travaux présentés est l'utilisation de techniques basées sur l'interpolation, telles que mixup, pour générer des exemples d'entraînement diversifiés et informatifs au-delà du jeu de données original. Dans le premier travail, nous sommes motivés par l'idée de la déformation comme un moyen naturel d'interpoler des images plutôt que d'utiliser une combinaison convexe. Nous montrons que l'alignement géométrique des deux images dans l'espace des caractéristiques permet une interpolation plus naturelle qui conserve la géométrie d'une image et la texture de l'autre, la reliant au transfert de style. En nous appuyant sur ces observations, nous explorons la combinaison de mix6up et de l'apprentissage métrique profond. Nous développons une formulation généralisée qui intègre mix6up dans l'apprentissage métrique, conduisant à des représentations améliorées qui explorent des zones de l'espace d'embedding au-delà des classes d'entraînement. En nous appuyant sur ces insights, nous revisitons la motivation originale de mixup et générons un plus grand nombre d'exemples interpolés au-delà de la taille du mini-lot en interpolant dans l'espace d'embedding. Cette approche nous permet d'échantillonner sur l'ensemble de l'enveloppe convexe du mini-lot, plutôt que juste le long des segments linéaires entre les paires d'exemples. Enfin, nous explorons le potentiel de l'utilisation d'augmentations naturelles d'objets à partir de vidéos. Nous introduisons un ensemble de données "Walking Tours" de vidéos égocentriques en première personne, qui capturent une large gamme d'objets et d'actions dans des transitions de scènes naturelles. Nous proposons ensuite une nouvelle méthode de préentraînement auto-supervisée appelée DoRA, qui détecte et suit des objets dans des images vidéo, dérivant de multiples vues à partir des suivis et les utilisant de manière auto-supervisée
The primary goal in computer vision is to enable machines to extract meaningful information from visual data, such as images and videos, and leverage this information to perform a wide range of tasks. To this end, substantial research has focused on developing deep learning models capable of encoding comprehensive and robust visual representations. A prominent strategy in this context involves pretraining models on large-scale datasets, such as ImageNet, to learn representations that can exhibit cross-task applicability and facilitate the successful handling of diverse downstream tasks with minimal effort. To facilitate learning on these large-scale datasets and encode good representations, com- plex data augmentation strategies have been used. However, these augmentations can be limited in their scope, either being hand-crafted and lacking diversity, or generating images that appear unnatural. Moreover, the focus of these augmentation techniques has primarily been on the ImageNet dataset and its downstream tasks, limiting their applicability to a broader range of computer vision problems. In this thesis, we aim to tackle these limitations by exploring different approaches to en- hance the efficiency and effectiveness in representation learning. The common thread across the works presented is the use of interpolation-based techniques, such as mixup, to generate diverse and informative training examples beyond the original dataset. In the first work, we are motivated by the idea of deformation as a natural way of interpolating images rather than using a convex combination. We show that geometrically aligning the two images in the fea- ture space, allows for more natural interpolation that retains the geometry of one image and the texture of the other, connecting it to style transfer. Drawing from these observations, we explore the combination of mixup and deep metric learning. We develop a generalized formu- lation that accommodates mixup in metric learning, leading to improved representations that explore areas of the embedding space beyond the training classes. Building on these insights, we revisit the original motivation of mixup and generate a larger number of interpolated examples beyond the mini-batch size by interpolating in the embedding space. This approach allows us to sample on the entire convex hull of the mini-batch, rather than just along lin- ear segments between pairs of examples. Finally, we investigate the potential of using natural augmentations of objects from videos. We introduce a "Walking Tours" dataset of first-person egocentric videos, which capture a diverse range of objects and actions in natural scene transi- tions. We then propose a novel self-supervised pretraining method called DoRA, which detects and tracks objects in video frames, deriving multiple views from the tracks and using them in a self-supervised manner
Gli stili APA, Harvard, Vancouver, ISO e altri
11

Wauquier, Pauline. "Task driven representation learning". Thesis, Lille 3, 2017. http://www.theses.fr/2017LIL30005/document.

Testo completo
Abstract (sommario):
De nombreux algorithmes d'Apprentissage automatique ont été proposés afin de résoudre les différentes tâches pouvant être extraites des problèmes de prédiction issus d'un contexte réel. Pour résoudre les différentes tâches pouvant être extraites, la plupart des algorithmes d'Apprentissage automatique se basent d'une manière ou d'une autre sur des relations liant les instances. Les relations entre paires d'instances peuvent être définies en calculant une distance entre les représentations vectorielles des instances. En se basant sur la représentation vectorielle des données, aucune des distances parmi celles communément utilisées n'est assurée d'être représentative de la tâche à résoudre. Dans ce document, nous étudions l'intérêt d'adapter la représentation vectorielle des données à la distance utilisée pour une meilleure résolution de la tâche. Nous nous concentrons plus précisément sur l'algorithme existant résolvant une tâche de classification en se basant sur un graphe. Nous décrivons d'abord un algorithme apprenant une projection des données dans un espace de représentation permettant une résolution, basée sur un graphe, optimale de la classification. En projetant les données dans un espace de représentation dans lequel une distance préalablement définie est représentative de la tâche, nous pouvons surpasser la représentation vectorielle des données lors de la résolution de la tâche. Une analyse théorique de l'algorithme décrit est développée afin de définir les conditions assurant une classification optimale. Un ensemble d'expériences nous permet finalement d'évaluer l'intérêt de l'approche introduite et de nuancer l'analyse théorique
Machine learning proposes numerous algorithms to solve the different tasks that can be extracted from real world prediction problems. To solve the different concerned tasks, most Machine learning algorithms somehow rely on relationships between instances. Pairwise instances relationships can be obtained by computing a distance between the vectorial representations of the instances. Considering the available vectorial representation of the data, none of the commonly used distances is ensured to be representative of the task that aims at being solved. In this work, we investigate the gain of tuning the vectorial representation of the data to the distance to more optimally solve the task. We more particularly focus on an existing graph-based algorithm for classification task. An algorithm to learn a mapping of the data in a representation space which allows an optimal graph-based classification is first introduced. By projecting the data in a representation space in which the predefined distance is representative of the task, we aim at outperforming the initial vectorial representation of the data when solving the task. A theoretical analysis of the introduced algorithm is performed to define the conditions ensuring an optimal classification. A set of empirical experiments allows us to evaluate the gain of the introduced approach and to temper the theoretical analysis
Gli stili APA, Harvard, Vancouver, ISO e altri
12

Ben-Younes, Hedi. "Multi-modal representation learning towards visual reasoning". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS173.

Testo completo
Abstract (sommario):
La quantité d'images présentes sur internet augmente considérablement, et il est nécessaire de développer des techniques permettant le traitement automatique de ces contenus. Alors que les méthodes de reconnaissance visuelle sont de plus en plus évoluées, la communauté scientifique s'intéresse désormais à des systèmes aux capacités de raisonnement plus poussées. Dans cette thèse, nous nous intéressons au Visual Question Answering (VQA), qui consiste en la conception de systèmes capables de répondre à une question portant sur une image. Classiquement, ces architectures sont conçues comme des systèmes d'apprentissage automatique auxquels on fournit des images, des questions et leur réponse. Ce problème difficile est habituellement abordé par des techniques d'apprentissage profond. Dans la première partie de cette thèse, nous développons des stratégies de fusion multimodales permettant de modéliser des interactions entre les représentations d'image et de question. Nous explorons des techniques de fusion bilinéaire, et assurons l'expressivité et la simplicité des modèles en utilisant des techniques de factorisation tensorielle. Dans la seconde partie, on s'intéresse au raisonnement visuel qui encapsule ces fusions. Après avoir présenté les schémas classiques d'attention visuelle, nous proposons une architecture plus avancée qui considère les objets ainsi que leurs relations mutuelles. Tous les modèles sont expérimentalement évalués sur des jeux de données standards et obtiennent des résultats compétitifs avec ceux de la littérature
The quantity of images that populate the Internet is dramatically increasing. It becomes of critical importance to develop the technology for a precise and automatic understanding of visual contents. As image recognition systems are becoming more and more relevant, researchers in artificial intelligence now seek for the next generation vision systems that can perform high-level scene understanding. In this thesis, we are interested in Visual Question Answering (VQA), which consists in building models that answer any natural language question about any image. Because of its nature and complexity, VQA is often considered as a proxy for visual reasoning. Classically, VQA architectures are designed as trainable systems that are provided with images, questions about them and their answers. To tackle this problem, typical approaches involve modern Deep Learning (DL) techniques. In the first part, we focus on developping multi-modal fusion strategies to model the interactions between image and question representations. More specifically, we explore bilinear fusion models and exploit concepts from tensor analysis to provide tractable and expressive factorizations of parameters. These fusion mechanisms are studied under the widely used visual attention framework: the answer to the question is provided by focusing only on the relevant image regions. In the last part, we move away from the attention mechanism and build a more advanced scene understanding architecture where we consider objects and their spatial and semantic relations. All models are thoroughly experimentally evaluated on standard datasets and the results are competitive with the literature
Gli stili APA, Harvard, Vancouver, ISO e altri
13

Dehouck, Mathieu. "Multi-lingual dependency parsing : word representation and joint training for syntactic analysis". Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I019/document.

Testo completo
Abstract (sommario):
Les parsers en dépendances modernes ont des résultats comparables à ceux d'experts humains. Cependant, ils sont encore gourmands en données annotées et ces données ne sont disponibles que pour quelques langues. Pour rendre l'analyse syntaxique accessible aussi aux langues peu dotées, de nombreuses méthodes sont apparues comme le transfert de modèle ou d'annotation. Dans cette thèse, nous proposons de nouvelles méthodes de partage de l'information entre plusieurs langues en utilisant leurs traits grammaticaux communs.Nous utilisons cette morphologie partagée pour apprendre des représentations de mots délexicalisés qui aideront l'apprentissage de modèles d'analyse syntaxique. Nous proposons aussi une nouvelle méthode d'apprentissage nommée apprentissage phylogénétique qui utilise l'arbre généalogique des langues pour guider l'apprentissage des modèles. Enfin, à l'aide de notre mesure de la complexité morphosyntaxique nous étudions le rôle de la morphologie pour l'analyse en dépendances
While modern dependency parsers have become as good as human experts, they still rely heavily on hand annotated training examples which are available for a handful of languages only. Several methods such as model and annotation transfer have been proposed to make high quality syntactic analysis available to low resourced languages as well. In this thesis, we propose new approaches for sharing information across languages relying on their shared morphological features. In a fist time, we propose to use shared morphological features to induce cross-lingual delexicalised word representations that help learning syntactic analysis models. Then, we propose a new multi-task learning framework called phylogenetic learning which learns models for related tasks/languages guided by the tasks/languages evolutionary tree. Eventually, with our new measure of morphosyntactic complexity we investigate the intrinsic role of morphological information for dependency parsing
Gli stili APA, Harvard, Vancouver, ISO e altri
14

Prang, Mathieu. "Representation learning for symbolic music". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS489.

Testo completo
Abstract (sommario):
Un élément clé du récent succès des modèles d'apprentissage profond de traitement du langage réside dans la capacité à apprendre des "embeddings" de mots efficaces. Ces méthodes fournissent des espaces vectoriels structurés de dimension réduite ayant des relations métriques intéressantes. Ceux-ci, à leur tour, peuvent être utilisés comme des représentations d'entrées efficaces pour traiter des tâches plus complexes. Dans cette thèse, nous nous concentrons sur la tâche d'apprentissage d'espaces "d'embedding" pour la musique polyphonique dans le domaine symbolique. Pour ce faire, nous explorons deux approches différentes.Tout d'abord, nous introduisons un modèle d'embedding basé sur un réseau convolutif avec un nouveau type de mécanisme d'attention hiérarchique auto-modulée, qui est calculé à chaque couche afin d'obtenir une vision hiérarchique de l'information musicale.Puis, nous proposons un autre système basé sur les VAE, un type d'auto-encodeur qui contraint la distribution des données de l'espace latent à être proche d'une distribution préalablement choisie. La musique polyphonique étant un type d'information complexe, le choix de la représentation d'entrée est un processus crucial. Nous introduisons donc une nouvelle représentation de données musicales symboliques, qui transforme une partition polyphonique en un signal continu.Enfin, nous montrons le potentiel de nos espaces d'embedding à travers le développement de plusieurs applications créatives utilisées pour améliorer la connaissance et l'expression musicales, à travers des tâches telles que la modification de mélodies ou l'identification de compositeurs
A key part in the recent success of deep language processing models lies in the ability to learn efficient word embeddings. These methods provide structured spaces of reduced dimensionality with interesting metric relationship properties. These, in turn, can be used as efficient input representations for handling more complex tasks. In this thesis, we focus on the task of learning embedding spaces for polyphonic music in the symbolic domain. To do so, we explore two different approaches.We introduce an embedding model based on a convolutional network with a novel type of self-modulated hierarchical attention, which is computed at each layer to obtain a hierarchical vision of musical information.Then, we propose another system based on VAEs, a type of auto-encoder that constrains the data distribution of the latent space to be close to a prior distribution. As polyphonic music information is very complex, the design of input representation is a crucial process. Hence, we introduce a novel representation of symbolic music data, which transforms a polyphonic score into a continuous signal.Finally, we show the potential of the resulting embedding spaces through the development of several creative applications used to enhance musical knowledge and expression, through tasks such as melodies modification or composer identification
Gli stili APA, Harvard, Vancouver, ISO e altri
15

Chameron, Stéphane. "Apprentissage et representation des informations spatiales chez la fourmi cataglyphis cursor (hymenoptera, formicidae)". Toulouse 3, 1999. http://www.theses.fr/1999TOU30081.

Testo completo
Abstract (sommario):
Les fourmis du genre cataglyphis s'orientent essentiellement grace a l'utilisation de reperes visuels celestes ou terrestres. L'objectif de notre travail est de caracteriser plus precisement l'apprentissage visuel chez cataglyphis cursor, ainsi que le format de representation utilise par ces insectes. Le modele de representation de l'espace le plus repandu postule une utilisation retinotopique de l'environnement visuel terrestre par les insectes. Nous avons developpe des outils trajectometriques permettant de reveler la stereotypie des trajets qui devrait resulter de ce mode de traitement de l'information. Nous avons notamment cherche a caracteriser les zones de l'espace a partir desquelles chaque insecte peut identifier et utiliser efficacement les reperes disponibles. L'analyse des trajets conclut a une forte variabilite intra-individuelle dans les deplacements observes. Nous proposons donc un format representationnel qui, se demarquant du modele retinotopique, permet de rendre compte de la souplesse d'utilisation de l'espace par les fourmis. Nous avons ensuite explore, en etroite collaboration avec le pr. T. S. Collett (universite du sussex, uk), l'apprentissage de reperes visuels terrestres le long d'une route et le role de l'integration du trajet dans la selection des reperes pertinents. En effet les fourmis integrent en permanence un vecteur (une direction et une distance) qui les relie en droite ligne au nid. Dans une premiere etude, des fourmis retournant au nid par un labyrinthe lineaire et parallele au trajet aller ont appris a discriminer et utiliser de facon sequentielle au moins quatre reperes visuels. Ensuite l'utilisation de dispositifs de formes variables a permis de mettre en evidence le role declencheur de l'integration de trajet dans cet apprentissage. Les fourmis n'apprennent les reperes que lorsqu'elles percoivent une decroissance du vecteur d'integration, c'est-a-dire lorsqu'elles se deplacent en direction du nid.
Gli stili APA, Harvard, Vancouver, ISO e altri
16

Denize, Julien. "Self-supervised representation learning and applications to image and video analysis". Electronic Thesis or Diss., Normandie, 2023. http://www.theses.fr/2023NORMIR37.

Testo completo
Abstract (sommario):
Dans cette thèse, nous développons des approches d'apprentissage auto-supervisé pour l'analyse d'images et de vidéos. L'apprentissage de représentation auto-supervisé permet de pré-entraîner les réseaux neuronaux à apprendre des concepts généraux sans annotations avant de les spécialiser plus rapidement à effectuer des tâches, et avec peu d'annotations. Nous présentons trois contributions à l'apprentissage auto-supervisé de représentations d'images et de vidéos. Premièrement, nous introduisons le paradigme théorique de l'apprentissage contrastif doux et sa mise en œuvre pratique appelée Estimation Contrastive de Similarité (SCE) qui relie l'apprentissage contrastif et relationnel pour la représentation d'images. Ensuite, SCE est étendue à l'apprentissage de représentation vidéo temporelle globale. Enfin, nous proposons COMEDIAN, un pipeline pour l'apprentissage de représentation vidéo locale-temporelle pour l'architecture transformer. Ces contributions ont conduit à des résultats de pointe sur de nombreux benchmarks et ont donné lieu à de multiples contributions académiques et techniques publiées
In this thesis, we develop approaches to perform self-supervised learning for image and video analysis. Self-supervised representation learning allows to pretrain neural networks to learn general concepts without labels before specializing in downstream tasks faster and with few annotations. We present three contributions to self-supervised image and video representation learning. First, we introduce the theoretical paradigm of soft contrastive learning and its practical implementation called Similarity Contrastive Estimation (SCE) connecting contrastive and relational learning for image representation. Second, SCE is extended to global temporal video representation learning. Lastly, we propose COMEDIAN a pipeline for local-temporal video representation learning for transformers. These contributions achieved state-of-the-art results on multiple benchmarks and led to several academic and technical published contributions
Gli stili APA, Harvard, Vancouver, ISO e altri
17

Dufumier, Benoit. "Representation learning in neuroimaging : transferring from big healthy data to small clinical cohorts". Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG093.

Testo completo
Abstract (sommario):
La physiopathologie des maladies mentales telles que la schizophrénie et le trouble bipolaire est encore mal comprise, cependant l'émergence de grandes bases de données transdiagnostiques d'images cérébrales offre une occasion unique d'étudier les signatures neuroanatomiques de ces maladies.Le développement de modèles d'apprentissage profonds pour l'imagerie médicale a ouvert la voie à des applications complexes comme la segmentation d'images. Néanmoins, l'applicabilité de telles méthodes aux problèmes de prédiction à l'échelle individuelle à partir d'IRM anatomique reste encore inconnue. Dans cette thèse, nous étudions d'abord la performance des réseaux de neurones actuels en fonction de la quantité de données disponibles. Nous comparons ces performances avec les modèles linéaires régularisés ainsi que les machines à vecteurs de support avec noyau. Nous constatons un problème de sur-ajustement important sur les jeux de données cliniques ainsi qu'une courbe d'apprentissage similaire aux modèles linéaires pour les tailles d'échantillon actuellement accessible en recherche clinique. Nous montrons que cet effet de sur-ajustement est en partie dû au biais induit par les scanners IRM et les protocoles d'acquisition (effet site).Ainsi, nous proposons une nouvelle solution d'apprentissage des représentations sur de grands jeux de données multi-site d'imagerie de la population saine, basée sur l'apprentissage auto-supervisé par contraste. En transférant ces connaissances à de nouveaux jeux de données cliniques, nous démontrons une amélioration des performances de classification et une plus grande robustesse à l'effet site. Par ailleurs, nous fournissons des garanties théoriques de généralisation de ces modèles pour les tâches de classification.Enfin, pour une meilleure reproductibilité et comparaison des modèles profonds en neuroimagerie, nous introduisons un nouveau jeu de données multi-site à large échelle: OpenBHB. Cette base de données est spécialement conçue pour la prédiction de l'âge cérébrale (tâche supervisée) ainsi que la suppression de l'effet site dans les représentations des modèles profonds. Nous proposong également un défi, accessible en ligne, pour l'apprentissage des représentations avec OpenBHB ainsi qu'une nouvelle méthode pour évaluer le biais dans les représentations des modèles soumis
Psychiatry currently lacks objective quantitative measures to guide the clinician in choosing the proper therapeutic treatment. The physio-pathology of mental illnesses such as schizophrenia and bipolar disorder is still poorly understood but the emergence of large-scale neuroimaging transdiagnostic datasets gives a unique opportunity for studying the neuroanatomical signatures of such diseases.While Deep Learning (DL) models for medical imaging unlocked unprecedented applications such as image segmentation, its applicability to single-subject prediction problems with neuroanatomical MRI remains limited. In this thesis, we first study the current performance and scaling trend of DL models, for several architectures representative of the recent progression in computer vision, as compared to regularized linear models and Kernel Support Vector Machine. We found a high over-fitting issue on clinical data-sets and a similar scaling trend with linear models, for the current accessible sample size in clinical research. This over-fitting effect was also due to the bias induced by MRI scanners and acquisition protocols.To tackle the sample size issue, we propose a new method to learn a representation of the healthy population brain anatomy on large multi-site cohorts with neural networks using contrastive learning, an innovative self-supervised framework. When transferring this knowledge to new datasets, we demonstrate an improvement in the classification performance of patients with mental illnesses. We provide a theoretical framework grounding these empirical results and we show good generalization properties of the model for downstream classification tasks with weaker hypotheses than in the literature.Moreover, as an advancement towards debiased deep models and reproducibility in neuroimaging, we introduce a new large-scale multi-site dataset, OpenBHB, for brain age prediction and site de-biasing as well as a permanent challenge focused on representation learning. We offer three pre-processing to study brain anatomical surface, geometry, and volume inside T1 images as well as a novel way to evaluate the bias in the model's representation
Gli stili APA, Harvard, Vancouver, ISO e altri
18

Renard, Xavier. "Time series representation for classification : a motif-based approach". Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066593/document.

Testo completo
Abstract (sommario):
Nos travaux décrits dans cette thèse portent sur l’apprentissage d’une représentation pour la classification automatique basée sur la découverte de motifs à partir de séries temporelles. L’information pertinente contenue dans une série temporelle peut être encodée temporellement sous forme de tendances, de formes ou de sous-séquences contenant habituellement des distorsions. Des approches ont été développées pour résoudre ces problèmes souvent au prix d’une importante complexité calculatoire. Parmi ces techniques nous pouvons citer les mesures de distance et les représentations de l’information contenue dans les séries temporelles. Nous nous concentrons sur la représentation de l’information contenue dans les séries temporelles. Nous proposons un cadre (framework) pour générer une nouvelle représentation de séries temporelles basée sur la découverte automatique d’ensembles discriminants de sous-séquences. Cette représentation est adaptée à l’utilisation d’algorithmes de classification classiques basés sur des attributs. Le framework proposé transforme un ensemble de séries temporelles en un espace d’attributs (feature space) à partir de sous-séquences énumérées des séries temporelles, de mesures de distance et de fonctions d’agrégation. Un cas particulier de ce framework est la méthode notoire des « shapelets ». L’inconvénient potentiel d’une telle approache est le nombre très important de sous-séquences à énumérer en ce qu’il induit un très grand feature space, accompagné d’une très grande complexité calculatoire. Nous montrons que la plupart des sous-séquences présentes dans un jeu de données composé de séries temporelles sont redondantes. De ce fait, un sous-échantillonnage aléatoire peut être utilisé pour générer un petit sous-ensemble de sous-séquences parmi l’ensemble exhaustif, en préservant l’information nécessaire pour la classification et tout en produisant un feature space de taille compatible avec l’utilisation d’algorithmes d’apprentissage automatique de l’état de l’art avec des temps de calculs raisonnable. On démontre également que le nombre de sous-séquences à tirer n’est pas lié avec le nombre de séries temporelles présent dans l’ensemble d’apprentissage, ce qui garantit le passage à l’échelle de notre approche. La combinaison de cette découverte dans le contexte de notre framework nous permet de profiter de techniques avancées (telles que des méthodes de sélection d’attributs multivariées) pour découvrir une représentation de séries temporelles plus riche, en prenant par exemple en considération les relations entre sous-séquences. Ces résultats théoriques ont été largement testés expérimentalement sur une centaine de jeux de données classiques de la littérature, composés de séries temporelles univariées et multivariées. De plus, nos recherches s’inscrivant dans le cadre d’une convention de recherche industrielle (CIFRE) avec Arcelormittal, nos travaux ont été appliqués à la détection de produits d’acier défectueux à partir des mesures effectuées par les capteurs sur des lignes de production
Our research described in this thesis is about the learning of a motif-based representation from time series to perform automatic classification. Meaningful information in time series can be encoded across time through trends, shapes or subsequences usually with distortions. Approaches have been developed to overcome these issues often paying the price of high computational complexity. Among these techniques, it is worth pointing out distance measures and time series representations. We focus on the representation of the information contained in the time series. We propose a framework to generate a new time series representation to perform classical feature-based classification based on the discovery of discriminant sets of time series subsequences (motifs). This framework proposes to transform a set of time series into a feature space, using subsequences enumerated from the time series, distance measures and aggregation functions. One particular instance of this framework is the well-known shapelet approach. The potential drawback of such an approach is the large number of subsequences to enumerate, inducing a very large feature space and a very high computational complexity. We show that most subsequences in a time series dataset are redundant. Therefore, a random sampling can be used to generate a very small fraction of the exhaustive set of subsequences, preserving the necessary information for classification and thus generating a much smaller feature space compatible with common machine learning algorithms with tractable computations. We also demonstrate that the number of subsequences to draw is not linked to the number of instances in the training set, which guarantees the scalability of the approach. The combination of the latter in the context of our framework enables us to take advantage of advanced techniques (such as multivariate feature selection techniques) to discover richer motif-based time series representations for classification, for example by taking into account the relationships between the subsequences. These theoretical results have been extensively tested on more than one hundred classical benchmarks of the literature with univariate and multivariate time series. Moreover, since this research has been conducted in the context of an industrial research agreement (CIFRE) with Arcelormittal, our work has been applied to the detection of defective steel products based on production line's sensor measurements
Gli stili APA, Harvard, Vancouver, ISO e altri
19

Belharbi, Soufiane. "Neural networks regularization through representation learning". Thesis, Normandie, 2018. http://www.theses.fr/2018NORMIR10/document.

Testo completo
Abstract (sommario):
Les modèles de réseaux de neurones et en particulier les modèles profonds sont aujourd'hui l'un des modèles à l'état de l'art en apprentissage automatique et ses applications. Les réseaux de neurones profonds récents possèdent de nombreuses couches cachées ce qui augmente significativement le nombre total de paramètres. L'apprentissage de ce genre de modèles nécessite donc un grand nombre d'exemples étiquetés, qui ne sont pas toujours disponibles en pratique. Le sur-apprentissage est un des problèmes fondamentaux des réseaux de neurones, qui se produit lorsque le modèle apprend par coeur les données d'apprentissage, menant à des difficultés à généraliser sur de nouvelles données. Le problème du sur-apprentissage des réseaux de neurones est le thème principal abordé dans cette thèse. Dans la littérature, plusieurs solutions ont été proposées pour remédier à ce problème, tels que l'augmentation de données, l'arrêt prématuré de l'apprentissage ("early stopping"), ou encore des techniques plus spécifiques aux réseaux de neurones comme le "dropout" ou la "batch normalization". Dans cette thèse, nous abordons le sur-apprentissage des réseaux de neurones profonds sous l'angle de l'apprentissage de représentations, en considérant l'apprentissage avec peu de données. Pour aboutir à cet objectif, nous avons proposé trois différentes contributions. La première contribution, présentée dans le chapitre 2, concerne les problèmes à sorties structurées dans lesquels les variables de sortie sont à grande dimension et sont généralement liées par des relations structurelles. Notre proposition vise à exploiter ces relations structurelles en les apprenant de manière non-supervisée avec des autoencodeurs. Nous avons validé notre approche sur un problème de régression multiple appliquée à la détection de points d'intérêt dans des images de visages. Notre approche a montré une accélération de l'apprentissage des réseaux et une amélioration de leur généralisation. La deuxième contribution, présentée dans le chapitre 3, exploite la connaissance a priori sur les représentations à l'intérieur des couches cachées dans le cadre d'une tâche de classification. Cet à priori est basé sur la simple idée que les exemples d'une même classe doivent avoir la même représentation interne. Nous avons formalisé cet à priori sous la forme d'une pénalité que nous avons rajoutée à la fonction de perte. Des expérimentations empiriques sur la base MNIST et ses variantes ont montré des améliorations dans la généralisation des réseaux de neurones, particulièrement dans le cas où peu de données d'apprentissage sont utilisées. Notre troisième et dernière contribution, présentée dans le chapitre 4, montre l'intérêt du transfert d'apprentissage ("transfer learning") dans des applications dans lesquelles peu de données d'apprentissage sont disponibles. L'idée principale consiste à pré-apprendre les filtres d'un réseau à convolution sur une tâche source avec une grande base de données (ImageNet par exemple), pour les insérer par la suite dans un nouveau réseau sur la tâche cible. Dans le cadre d'une collaboration avec le centre de lutte contre le cancer "Henri Becquerel de Rouen", nous avons construit un système automatique basé sur ce type de transfert d'apprentissage pour une application médicale où l'on dispose d’un faible jeu de données étiquetées. Dans cette application, la tâche consiste à localiser la troisième vertèbre lombaire dans un examen de type scanner. L’utilisation du transfert d’apprentissage ainsi que de prétraitements et de post traitements adaptés a permis d’obtenir des bons résultats, autorisant la mise en oeuvre du modèle en routine clinique
Neural network models and deep models are one of the leading and state of the art models in machine learning. They have been applied in many different domains. Most successful deep neural models are the ones with many layers which highly increases their number of parameters. Training such models requires a large number of training samples which is not always available. One of the fundamental issues in neural networks is overfitting which is the issue tackled in this thesis. Such problem often occurs when the training of large models is performed using few training samples. Many approaches have been proposed to prevent the network from overfitting and improve its generalization performance such as data augmentation, early stopping, parameters sharing, unsupervised learning, dropout, batch normalization, etc. In this thesis, we tackle the neural network overfitting issue from a representation learning perspective by considering the situation where few training samples are available which is the case of many real world applications. We propose three contributions. The first one presented in chapter 2 is dedicated to dealing with structured output problems to perform multivariate regression when the output variable y contains structural dependencies between its components. Our proposal aims mainly at exploiting these dependencies by learning them in an unsupervised way. Validated on a facial landmark detection problem, learning the structure of the output data has shown to improve the network generalization and speedup its training. The second contribution described in chapter 3 deals with the classification task where we propose to exploit prior knowledge about the internal representation of the hidden layers in neural networks. This prior is based on the idea that samples within the same class should have the same internal representation. We formulate this prior as a penalty that we add to the training cost to be minimized. Empirical experiments over MNIST and its variants showed an improvement of the network generalization when using only few training samples. Our last contribution presented in chapter 4 showed the interest of transfer learning in applications where only few samples are available. The idea consists in re-using the filters of pre-trained convolutional networks that have been trained on large datasets such as ImageNet. Such pre-trained filters are plugged into a new convolutional network with new dense layers. Then, the whole network is trained over a new task. In this contribution, we provide an automatic system based on such learning scheme with an application to medical domain. In this application, the task consists in localizing the third lumbar vertebra in a 3D CT scan. A pre-processing of the 3D CT scan to obtain a 2D representation and a post-processing to refine the decision are included in the proposed system. This work has been done in collaboration with the clinic "Rouen Henri Becquerel Center" who provided us with data
Gli stili APA, Harvard, Vancouver, ISO e altri
20

Celikkanat, Abdulkadir. "Graph Representation Learning with Random Walk Diffusions". Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG030.

Testo completo
Abstract (sommario):
L'objectif principal de l'Apprentissage de Représentations sur Graphes est de plonger les nœuds dans un espace vectoriel de petite dimension. Dans cette thèse, nous abordons plusieurs enjeux dans le domaine. Tout d'abord, nous étudions comment exploiter l'existence de communautés structurelles locales inhérentes aux graphes tout en apprenant les représentations. Nous apprenons des représentations améliorées de la communauté en combinant les informations latentes avec les représentations. De plus, nous nous concentrons sur l'expressivité des représentations. Nous mettons l'accent sur les distributions de familles exponentielles pour saisir des modèles d'interaction riches. Nous proposons un modèle qui combine les marches aléatoires avec une matrice de factorisation sous forme de noyau. Dans la dernière partie de la thèse, nous étudions des modèles permettant un bon compromis entre efficacité et précision. Nous proposons un modèle évolutif qui calcule des représentations binaires
Graph Representation Learning aims to embed nodes in a low-dimensional space. In this thesis, we tackle various challenging problems arising in the field. Firstly, we study how to leverage the inherent local community structure of graphs while learning node representations. We learn enhanced community-aware representations by combining the latent information with the embeddings. Moreover, we concentrate on the expressive- ness of node representations. We emphasize exponential family distributions to capture rich interaction patterns. We propose a model that combines random walks with kernelized matrix factorization. In the last part of the thesis, we study models balancing the trade-off between efficiency and accuracy. We propose a scalable embedding model which computes binary node representations
Gli stili APA, Harvard, Vancouver, ISO e altri
21

CADORET, VINCENT. "Determination d'actes de dialogue : une approche combinant representation explicite des connaissances et apprentissage connexionniste". Rennes 1, 1995. http://www.theses.fr/1996REN10059.

Testo completo
Abstract (sommario):
L'objet de cette these est la determination, en contexte de dialogue oral personne-machine cooperatif et finalise, des actions communicatives realisees par les enonces. Ces actions, appelees actes de dialogue, sont representees dans un modele logique des attitudes mentales et de l'action rationnelle. Nous avons defini une architecture de traitement integrant les techniques d'apprentissage connexionnistes et le pouvoir expressif des approches a connaissances explicites. Nous utilisons les memoires recursives auto-associatives etiquetees (lraams) pour developper des representations distribuees d'arbres syntaxiques, dont la classification en termes d'elements semantiques est ensuite apprise. Partant des elements semantiques reconnus, de l'arbre syntaxique de l'enonce, d'un modele semantique de l'application envisagee et du contexte de dialogue, nous produisons, dans un langage en logique modale du premier ordre des representations des actes de dialogue verbalises. Cette construction se fonde, en premier lieu, sur la syntaxe du formalisme final de representation et, en second lieu, sur des criteres linguistiques simples et generaux, sans avoir a decrire ni contraindre la combinatoire langagiere des enonces acceptes. L'approche generale adoptee autorise, en particulier, la capacite a reagir a de nouveaux enonces pouvant inclure des erreurs de reconnaissance de la parole. Nous ponderons, cependant, ces positions en mettant en evidence leurs limites
Gli stili APA, Harvard, Vancouver, ISO e altri
22

Germani, Élodie. "Exploring and mitigating analytical variability in fMRI results using representation learning". Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS031.

Testo completo
Abstract (sommario):
Dans cette thèse, nous nous intéressons aux variations induites par différentes méthodes d'analyse, ou variabilité analytique, dans les études d'imagerie cérébrale. C'est un phénomène qui est désormais connu dans la communauté, et notre objectif est maintenant de mieux comprendre les facteurs menant à cette variabilité et de trouver des solutions pour mieux la prendre en compte. Pour cela, j’analyse des données et j’explore les relations entre les résultats de différentes méthodes. Parallèlement, j’étudie les contraintes liées à la réutilisation de données et je propose des solutions basées sur l'intelligence artificielle afin de rendre les études plus robustes
In this thesis, we focus on the variations induced by different analysis methods, also known as analytical variability, in brain imaging studies. This phenomenon is now well known in the community, and our aim is now to better understand the factors leading to this variability and to find solutions to better account for it. To do so, I analyse data and explore the relationships between the results of different methods. At the same time, I study the constraints related to data reuse and I propose solutions based on artificial intelligence to build more robust studies
Gli stili APA, Harvard, Vancouver, ISO e altri
23

Tinas, Jean-louis. "Apprentissage d’un concept scientifique : statut de l’hypothese dans la demarche d’investigation en sciences physiques". Thesis, Bordeaux 2, 2013. http://www.theses.fr/2013BOR22051/document.

Testo completo
Abstract (sommario):
Apprendre un concept scientifique procède d’un processus de déconstruction-reconstruction. Enseigner signifie aider l’élève dans cette démarche qui lui demande de rejouer, pour lui le parcours d’invention qui a permis l’émergence du concept. C’est justement pour faire face à la crise que traverse l’enseignement scientifique en France et dans le monde et parce que l’on considère que les pratiques pédagogiques habituelles, encore utilisées, en sont pour partie responsables, que la démarche d’investigation est universellement proposée. Procéder par investigation est une méthode qui demande à l’élève de construire son savoir. Elle est présentée comme étant plus efficace pour apprendre. Une réflexion autour de la raison de cette efficacité nous conduit à nous arrêter au niveau de l’étape de formulation d’hypothèse qui semble constituer le pivot de la démarche. Des énoncés d’élèves pour lesquels nous inférons qu’ils sont la traduction de leur représentation montrent qu’il est possible d’explorer leur état de pensée dans une situation d’apprentissage et mieux, de suivre des processus de pensée. Les méthodes élaborées pour cela semblent efficaces puisque nous parvenons à montrer à l’échelle d’une classe que grâce à la formulation d’hypothèses tous les élèves parviennent, à leur rythme, à atteindre le savoir scientifique. Ainsi, nous constatons que l’hypothèse joue un rôle structurant pour le savoir en construction. Elle le façonne à mesure du processus de déconstruction-reconstruction. Ces considérations nous autorisent à penser que l’utilisation de la formulation d’hypothèse contribue à l’efficacité de la démarche par investigation par rapport à une démarche plus classique pour apprendre un savoir scientifique
To learn a scientific concept proceeds of a process of demolition-reconstruction. To teach means helping the pupil in this approach which asks him to replay, for him the route of invention which allowed the emergence of the concept. It is exactly to face the crisis which crosses the scientific education in France and in the world and because we consider that the usual, still used educational practices, are partly responsible for it, that the approach of investigation is universally proposed. To proceed by investigation is a method which asks to the pupil to build his knowledge. She is presented as being more effective to learn. A reflection around the reason of this efficiency leads us to stop at the level of the stage of formulation of hypothesis which seems to constitute the pivot of the approach. Pupils’ statements for which we deduce that they are the translation of their representation show that it is possible to explore their state of thought in a situation of learning and better, to follow processes of thought. The methods developed for it seem effective because we succeed in showing on the scale of a class that thanks to the formulation of hypotheses all the pupils succeed, with their rhythm, in reaching the scientific knowledge. So, we notice that the hypothesis plays a role structuring for the knowledge under construction. She trains it for measure of the process of demolition-reconstruction. These considerations authorize us to think that the use of the formulation of hypothesis contributes to the efficiency of the approach by investigation compared with a more classic approach to learn a scientific knowledge
Gli stili APA, Harvard, Vancouver, ISO e altri
24

Dalens, Théophile. "Learnable factored image representation for visual discovery". Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEE036.

Testo completo
Abstract (sommario):
L'objectif de cette thèse est de développer des outils pour analyser les collections d'images temporelles afin d'identifier et de mettre en évidence les tendances visuelles à travers le temps. Cette thèse propose une approche pour l'analyse de données visuelles non appariées annotées avec le temps en générant à quoi auraient ressemblé les images si elles avaient été d'époques différentes. Pour isoler et transférer les variations d'apparence dépendantes du temps, nous introduisons un nouveau module bilinéaire de séparation de facteurs qui peut être entraîné. Nous analysons sa relation avec les représentations factorisées classiques et les auto-encodeurs basés sur la concaténation. Nous montrons que ce nouveau module présente des avantages par rapport à un module standard de concaténation lorsqu'il est utilisé dans une architecture de réseau de neurones convolutionnel encodeur-décodeur à goulot. Nous montrons également qu'il peut être inséré dans une architecture récente de traduction d'images à adversaire, permettant la transformation d'images à différentes périodes de temps cibles en utilisant un seul réseau
This thesis proposes an approach for analyzing unpaired visual data annotated with time stamps by generating how images would have looked like if they were from different times. To isolate and transfer time dependent appearance variations, we introduce a new trainable bilinear factor separation module. We analyze its relation to classical factored representations and concatenation-based auto-encoders. We demonstrate this new module has clear advantages compared to standard concatenation when used in a bottleneck encoder-decoder convolutional neural network architecture. We also show that it can be inserted in a recent adversarial image translation architecture, enabling the image transformation to multiple different target time periods using a single network
Gli stili APA, Harvard, Vancouver, ISO e altri
25

Dagher, Antoine. "Environnement informatique et apprentissage de l'articulation entre registres graphiques et algebrique de representation des fonctions". Paris 7, 1993. http://www.theses.fr/1993PA077038.

Testo completo
Abstract (sommario):
L'etude des questions relatives a l'apport de l'utilisation des logiciels pedagogiques en mathematiques a l'enseignement et a l'apprentissage est un theme particulierement important en didactique. Cette recherche s'interesse a deux de ces questions: 1) la possibilite d'apprentissage par adaptation a un environnement informatique et les processus par lesquels peut passer cet apprentissage; 2) l'analyse du travail de l'eleve a partir des informations recueillies automatiquement sur son interaction avec le logiciel et a l'automatisation de cette analyse. L'etude de ces questions est faite a travers l'experimentation a deux niveaux differents, dans des conditions differentes, d'un logiciel de type jeu realise pour le besoin de cette recherche. Il est base sur l'interaction des deux registres algebrique et graphique de representation des fonctions. La notion de savoir atomique a ete creee et introduite pour permettre la construction d'un outil d'analyse adapte a cette etude
Gli stili APA, Harvard, Vancouver, ISO e altri
26

Liu, Jingshu. "Unsupervised cross-lingual representation modeling for variable length phrases". Thesis, Nantes, 2020. http://www.theses.fr/2020NANT4009.

Testo completo
Abstract (sommario):
L’étude de l’extraction de lexiques bilingues à partir de corpus comparables a été souvent circonscrite aux mots simples. Les méthodes classiques ne peuvent gérer les expressions complexes que si elles sont de longueur identique, tandis que les méthodes de plongements de mots modélisent les expressions comme une seule unité. Ces dernières nécessitent beaucoup de données, et ne peuvent pas gérer les expressions hors vocabulaire. Dans cette thèse, nous nous intéressons à la modélisation d’expressions de longueur variable par co-occurrences et par les méthodes neuronales état de l’art. Nous étudions aussi l’apprentissage de représentation d’expressions supervisé et non-supervisé. Nous proposons deux contributions majeures. Premièrement, une nouvelle architecture appelée tree-free recursive neural network (TFRNN) pour la modélisation d’expressions indépendamment de leur longueur. En apprenant à prédire le contexte de l’expression à partir de son vecteur encodé, nous surpassons les systèmes état de l’art de synonymie monolingue en utilisant seulement le texte brut pour l’entraînement. Deuxièmement, pour la modélisation cross-lingue, nous incorporons une architecture dérivée de TF-RNN dans un modèle encodeur-décodeur avec un mécanisme de pseudo contre-traduction inspiré de travaux sur la traduction automatique neurale nonsupervisée. Notre système améliore significativement l’alignement bilingue des expressions de longueurs différentes
Significant advances have been achieved in bilingual word-level alignment from comparable corpora, yet the challenge remains for phrase-level alignment. Traditional methods to phrase alignment can only handle phrase of equal length, while word embedding based approaches learn phrase embeddings as individual vocabulary entries suffer from the data sparsity and cannot handle out of vocabulary phrases. Since bilingual alignment is a vector comparison task, phrase representation plays a key role. In this thesis, we study the approaches for unified phrase modeling and cross-lingual phrase alignment, ranging from co-occurrence models to most recent neural state-of-the-art approaches. We review supervised and unsupervised frameworks for modeling cross-lingual phrase representations. Two contributions are proposed in this work. First, a new architecture called tree-free recursive neural network (TF-RNN) for modeling phrases of variable length which, combined with a wrapped context prediction training objective, outperforms the state-of-the-art approaches on monolingual phrase synonymy task with only plain text training data. Second, for cross-lingual modeling, we propose to incorporate an architecture derived from TF-RNN in an encoder-decoder model with a pseudo back translation mechanism inspired by unsupervised neural machine translation. Our proposition improves significantly bilingual alignment of different length phrases
Gli stili APA, Harvard, Vancouver, ISO e altri
27

Sadok, Samir. "Audiovisual speech representation learning applied to emotion recognition". Electronic Thesis or Diss., CentraleSupélec, 2024. http://www.theses.fr/2024CSUP0003.

Testo completo
Abstract (sommario):
Les émotions sont vitales dans notre quotidien, devenant un centre d'intérêt majeur de la recherche en cours. La reconnaissance automatique des émotions a suscité beaucoup d'attention en raison de ses applications étendues dans des secteurs tels que la santé, l'éducation, le divertissement et le marketing. Ce progrès dans la reconnaissance émotionnelle est essentiel pour favoriser le développement de l'intelligence artificielle centrée sur l'humain. Les systèmes de reconnaissance des émotions supervisés se sont considérablement améliorés par rapport aux approches traditionnelles d’apprentissage automatique. Cependant, cette progression rencontre des limites en raison de la complexité et de la nature ambiguë des émotions. La création de vastes ensembles de données étiquetées émotionnellement est coûteuse, chronophage et souvent impraticable. De plus, la nature subjective des émotions entraîne des ensembles de données biaisés, impactant l'applicabilité des modèles d'apprentissage dans des scénarios réels.Motivé par la manière dont les humains apprennent et conceptualisent des représentations complexes dès un jeune âge avec un minimum de supervision, cette approche démontre l'efficacité de tirer parti de l'expérience antérieure pour s'adapter à de nouvelles situations. Les modèles d'apprentissage non supervisé ou auto-supervisé s'inspirent de ce paradigme. Initialement, ils visent à établir une représentation générale à partir de données non étiquetées, semblable à l'expérience préalable fondamentale dans l'apprentissage humain. Ces représentations doivent répondre à des critères tels que l'invariance, l'interprétabilité et l'efficacité. Ensuite, ces représentations apprises sont appliquées à des tâches ultérieures avec des données étiquetées limitées, telles que la reconnaissance des émotions. Cela reflète l'assimilation de nouvelles situations dans l'apprentissage humain. Dans cette thèse, nous visons à proposer des méthodes d'apprentissage de représentations non supervisées et auto-supervisées conçues spécifiquement pour des données multimodales et séquentielles, et à explorer leurs avantages potentiels dans le contexte des tâches de reconnaissance des émotions. Les principales contributions de cette thèse comprennent :1. Le développement de modèles génératifs via l'apprentissage non supervisé ou auto-supervisé pour l'apprentissage de la représentation audiovisuelle de la parole, en intégrant une modélisation temporelle et multimodale (audiovisuelle) conjointe.2. La structuration de l'espace latent pour permettre des représentations désentrelacées, améliorant l'interprétabilité en contrôlant les facteurs latents interprétables par l'humain.3. La validation de l'efficacité de nos approches à travers des analyses qualitatives et quantitatives, en particulier sur la tâche de reconnaissance des émotions. Nos méthodes facilitent l'analyse, la transformation et la génération de signaux
Emotions are vital in our daily lives, becoming a primary focus of ongoing research. Automatic emotion recognition has gained considerable attention owing to its wide-ranging applications across sectors such as healthcare, education, entertainment, and marketing. This advancement in emotion recognition is pivotal for fostering the development of human-centric artificial intelligence. Supervised emotion recognition systems have significantly improved over traditional machine learning approaches. However, this progress encounters limitations due to the complexity and ambiguous nature of emotions. Acquiring extensive emotionally labeled datasets is costly, time-intensive, and often impractical.Moreover, the subjective nature of emotions results in biased datasets, impacting the learning models' applicability in real-world scenarios. Motivated by how humans learn and conceptualize complex representations from an early age with minimal supervision, this approach demonstrates the effectiveness of leveraging prior experience to adapt to new situations. Unsupervised or self-supervised learning models draw inspiration from this paradigm. Initially, they aim to establish a general representation learning from unlabeled data, akin to the foundational prior experience in human learning. These representations should adhere to criteria like invariance, interpretability, and effectiveness. Subsequently, these learned representations are applied to downstream tasks with limited labeled data, such as emotion recognition. This mirrors the assimilation of new situations in human learning. In this thesis, we aim to propose unsupervised and self-supervised representation learning methods designed explicitly for multimodal and sequential data and to explore their potential advantages in the context of emotion recognition tasks. The main contributions of this thesis encompass:1. Developing generative models via unsupervised or self-supervised learning for audiovisual speech representation learning, incorporating joint temporal and multimodal (audiovisual) modeling.2. Structuring the latent space to enable disentangled representations, enhancing interpretability by controlling human-interpretable latent factors.3. Validating the effectiveness of our approaches through both qualitative and quantitative analyses, in particular on emotion recognition task. Our methods facilitate signal analysis, transformation, and generation
Gli stili APA, Harvard, Vancouver, ISO e altri
28

Feutry, Clément. "Two sides of relevant information : anonymized representation through deep learning and predictor monitoring". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS479.

Testo completo
Abstract (sommario):
Le travail présenté ici est pour une première partie à l'intersection de l'apprentissage profond et anonymisation. Un cadre de travail complet est développé dans le but d'identifier et de retirer, dans une certaine mesure et de manière automatique, les caractéristiques privées d'une identité pour des données de type image. Deux méthodes différentes de traitement des données sont étudiées. Ces deux méthodes partagent une même architecture de réseau en forme de Y et cela malgré des différences concernant les types de couches de neurones utilisés conséquemment à leur objectif d'utilisation. La première méthode de traitement des données concerne la création ex nihilo de représentations anonymisées permettant un compromis entre la conservation des caractéristiques pertinentes et l'altération des caractéristiques privées. Ce cadre de travail a abouti à une nouvelle fonction de perte.Le deuxième type de traitement des données ne fait usage d'aucune information pertinente sur ces données et utilise uniquement des informations privées; ceci signifie que tout ce qui n'est pas une caractéristiques privées est supposé pertinent. Par conséquent les représentations anonymisées sont de même nature que les données initiales (une image est transformée en une image anonymisée). Cette tâche a conduit à un autre type d'architecture (toujours en forme de Y) et a fourni des résultats fortement sensibles au type des données. La seconde partie de mon travail concerne une autre sorte d'information utile : cette partie se concentre sur la surveillance du comportement des prédicteurs. Dans le cadre de l'analyse de "modèle boîte noire", on a uniquement accès aux probabilités que le prédicteur fournit (sans aucune connaissance du type de structure/architecture qui produit ces probabilités). Cette surveillance est effectuée pour détecter des comportements anormaux. L'étude de ces probabilités peut servir d'indicateur d'inadéquation potentiel entre les statistiques des données et les statistiques du modèle. Deux méthodes utilisant différents outils sont présentées. La première compare la fonction de répartition des statistiques de sortie d'un ensemble connu et d'un ensemble de données à tester. La seconde fait intervenir deux outils : un outil reposant sur l'incertitude du classifieur et un autre outil reposant sur la matrice de confusion. Ces méthodes produisent des résultats concluants
The work presented here is for a first part at the cross section of deep learning and anonymization. A full framework was developed in order to identify and remove to a certain extant, in an automated manner, the features linked to an identity in the context of image data. Two different kinds of processing data were explored. They both share the same Y-shaped network architecture despite components of this network varying according to the final purpose. The first one was about building from the ground an anonymized representation that allowed a trade-off between keeping relevant features and tampering private features. This framework has led to a new loss. The second kind of data processing specified no relevant information about the data, only private information, meaning that everything that was not related to private features is assumed relevant. Therefore the anonymized representation shares the same nature as the initial data (e.g. an image is transformed into an anonymized image). This task led to another type of architecture (still in a Y-shape) and provided results strongly dependent on the type of data. The second part of the work is relative to another kind of relevant information: it focuses on the monitoring of predictor behavior. In the context of black box analysis, we only have access to the probabilities outputted by the predictor (without any knowledge of the type of structure/architecture producing these probabilities). This monitoring is done in order to detect abnormal behavior that is an indicator of a potential mismatch between the data statistics and the model statistics. Two methods are presented using different tools. The first one is based on comparing the empirical cumulative distribution of known data and to be tested data. The second one introduces two tools: one relying on the classifier uncertainty and the other relying on the confusion matrix. These methods produce concluding results
Gli stili APA, Harvard, Vancouver, ISO e altri
29

Karpate, Yogesh. "Enhanced representation & learning of magnetic resonance signatures in multiple sclerosis". Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S068/document.

Testo completo
Abstract (sommario):
La sclérose en plaques (SEP) est une maladie auto-immune inflammatoire du jeune adulte causant des handicaps variables et progressifs irréversibles. Cette maladie est présente de manière prépondérante dans l’hémisphère nord. Cette thèse s’attache à la caractérisation et à la modélisation de signatures IRM multimodales des lésions de sclérose en plaques. L’objectif est d’améliorer les modèles de représentation de l’image et d’adapter les méthodes d’apprentissage pour la reconnaissance visuelle, dans le cas où des informations de haut niveau telles que les lésions SEP incluses dans l’IRM sont extraites. Nous proposons dans cette thèse un nouvel algorithme de normalisation d’intensité en IRM, particulièrement centré sur la normalisation d’images longitudinales multimodales, afin de produire des détections d’évolution de lésion robustes. Cette normalisation est centrée sur la modélisation de l’histogramme de l’image par un modèle de mixture de Gaussiennes robuste à la présence de lésions. Faisant suite à cet algorithme, nous proposons également deux nouvelles méthodes de détection de lésions SEP basées sur (1) une comparaison statistique du patient vis à vis d’une population de sujets contrôle et (2) un cadre probabiliste de détection basé sur un apprentissage d’une classe (tissus sains). Nous avons évalué les algorithmes proposés sur plusieurs jeux de données multi-centriques et vérifié leur efficacité dans la détection de lésions
Multiple Sclerosis (MS) is an acquired inflammatory disease, which causes disabilities in young adults and it is common in northern hemisphere. This PhD work focuses on characterization and modeling of multidimensional MRI signatures in MS Lesions (MSL). The objective is to improve image representation and learning for visual recognition, where high level information such as MSL contained in MRI are automatically extracted. We propose a new longitudinal intensity normalization algorithm for multichannel MRI in the presence of MS lesions, which provides consistent and reliable longitudinal detections. This is primarily based on learning the tissue intensities from multichannel MRI using robust Gaussian Mixture Modeling. Further, we proposed two MSL detection methods based on a statistical patient to population comparison framework and probabilistic one class learning. We evaluated our proposed algorithms on multi-center databases to verify its efficacy
Gli stili APA, Harvard, Vancouver, ISO e altri
30

Maraš, Mirjana. "Learning efficient signal representation in sparse spike-coding networks". Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEE023.

Testo completo
Abstract (sommario):
La complexité de l’entrée sensorielle est parallèle à la complexité de sa représentation dans l’activité neurale des systèmes biologiques. Partant de l’hypothèse que les réseaux biologiques sont réglés pour atteindre une efficacité et une robustesse maximales, nous étudions comment une représentation efficace peut être réalisée dans des réseaux avec des probabilités de connexion locale et une dynamique synaptique observée de manière expérimentale. Nous développons une règle synaptique locale régularisée de type Lasso, qui optimise le nombre et l’efficacité des connexions récurrentes. Les connexions qui affectent le moins le rendement sont élaguées, et la force des connexions restantes est optimisée pour une meilleure représentation du signal. Notre théorie prédit que la probabilité de connexion locale détermine le compromis entre le nombre de potentiels d’action de la population et le nombre de connexions synaptiques qui sont développées et maintenues dans le réseau. Les réseaux plus faiblement connectés représentent des signaux avec des fréquences de déclenchement plus élevées que ceux avec une connectivité plus dense. La variabilité des probabilités de connexion observées dans les réseaux biologiques pourrait alors être considérée comme une conséquence de ce compromis et serait liée à différentes conditions de fonctionnement des circuits. Les connexions récurrentes apprises sont structurées et la plupart des connexions sont réciproques. La dimensionnalité des poids synaptiques récurrents peut être déduite de la probabilité de connexion du réseau et de la dimensionnalité du stimulus. La connectivité optimale d’un réseau avec des délais synaptiques se situe quelque part à un niveau intermédiaire, ni trop faible ni trop dense. De plus, lorsque nous ajoutons une autre contrainte biologique comme la régulation des taux de décharge par adaptation, notre règle d’apprentissage conduit à une mise à l’échelle observée de manière expérimentale des poids synaptiques. Nos travaux soutiennent l’idée que les micro-circuits biologiques sont hautement organisés et qu’une étude détaillée de leur organisation nous aidera à découvrir les principes de la représentation sensorielle
The complexity of sensory input is paralleled by the complexity of its representation in the neural activity of biological systems. Starting from the hypothesis that biological networks are tuned to achieve maximal efficiency and robustness, we investigate how efficient representation can be accomplished in networks with experimentally observed local connection probabilities and synaptic dynamics. We develop a Lasso regularized local synaptic rule, which optimizes the number and efficacy of recurrent connections. The connections that impact the efficiency the least are pruned, and the strength of the remaining ones is optimized for efficient signal representation. Our theory predicts that the local connection probability determines the trade-off between the number of population spikes and the number of recurrent synapses, which are developed and maintained in the network. The more sparsely connected networks represent signals with higher firing rates than those with denser connectivity. The variability of observed connection probabilities in biological networks could then be seen as a consequence of this trade-off, and related to different operating conditions of the circuits. The learned recurrent connections are structured, with most connections being reciprocal. The dimensionality of the recurrent weights can be inferred from the network’s connection probability and the dimensionality of the feedforward input. The optimal connectivity of a network with synaptic delays is somewhere at an intermediate level, neither too sparse nor too dense. Furthermore, when we add another biological constraint, adaptive regulation of firing rates, our learning rule leads to an experimentally observed scaling of the recurrent weights. Our work supports the notion that biological micro-circuits are highly organized and principled. A detailed examination of the local circuit organization can help us uncover the finer aspects of the principles which govern sensory representation
Gli stili APA, Harvard, Vancouver, ISO e altri
31

Renard, Xavier. "Time series representation for classification : a motif-based approach". Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066593.

Testo completo
Abstract (sommario):
Nos travaux décrits dans cette thèse portent sur l’apprentissage d’une représentation pour la classification automatique basée sur la découverte de motifs à partir de séries temporelles. L’information pertinente contenue dans une série temporelle peut être encodée temporellement sous forme de tendances, de formes ou de sous-séquences contenant habituellement des distorsions. Des approches ont été développées pour résoudre ces problèmes souvent au prix d’une importante complexité calculatoire. Parmi ces techniques nous pouvons citer les mesures de distance et les représentations de l’information contenue dans les séries temporelles. Nous nous concentrons sur la représentation de l’information contenue dans les séries temporelles. Nous proposons un cadre (framework) pour générer une nouvelle représentation de séries temporelles basée sur la découverte automatique d’ensembles discriminants de sous-séquences. Cette représentation est adaptée à l’utilisation d’algorithmes de classification classiques basés sur des attributs. Le framework proposé transforme un ensemble de séries temporelles en un espace d’attributs (feature space) à partir de sous-séquences énumérées des séries temporelles, de mesures de distance et de fonctions d’agrégation. Un cas particulier de ce framework est la méthode notoire des « shapelets ». L’inconvénient potentiel d’une telle approache est le nombre très important de sous-séquences à énumérer en ce qu’il induit un très grand feature space, accompagné d’une très grande complexité calculatoire. Nous montrons que la plupart des sous-séquences présentes dans un jeu de données composé de séries temporelles sont redondantes. De ce fait, un sous-échantillonnage aléatoire peut être utilisé pour générer un petit sous-ensemble de sous-séquences parmi l’ensemble exhaustif, en préservant l’information nécessaire pour la classification et tout en produisant un feature space de taille compatible avec l’utilisation d’algorithmes d’apprentissage automatique de l’état de l’art avec des temps de calculs raisonnable. On démontre également que le nombre de sous-séquences à tirer n’est pas lié avec le nombre de séries temporelles présent dans l’ensemble d’apprentissage, ce qui garantit le passage à l’échelle de notre approche. La combinaison de cette découverte dans le contexte de notre framework nous permet de profiter de techniques avancées (telles que des méthodes de sélection d’attributs multivariées) pour découvrir une représentation de séries temporelles plus riche, en prenant par exemple en considération les relations entre sous-séquences. Ces résultats théoriques ont été largement testés expérimentalement sur une centaine de jeux de données classiques de la littérature, composés de séries temporelles univariées et multivariées. De plus, nos recherches s’inscrivant dans le cadre d’une convention de recherche industrielle (CIFRE) avec Arcelormittal, nos travaux ont été appliqués à la détection de produits d’acier défectueux à partir des mesures effectuées par les capteurs sur des lignes de production
Our research described in this thesis is about the learning of a motif-based representation from time series to perform automatic classification. Meaningful information in time series can be encoded across time through trends, shapes or subsequences usually with distortions. Approaches have been developed to overcome these issues often paying the price of high computational complexity. Among these techniques, it is worth pointing out distance measures and time series representations. We focus on the representation of the information contained in the time series. We propose a framework to generate a new time series representation to perform classical feature-based classification based on the discovery of discriminant sets of time series subsequences (motifs). This framework proposes to transform a set of time series into a feature space, using subsequences enumerated from the time series, distance measures and aggregation functions. One particular instance of this framework is the well-known shapelet approach. The potential drawback of such an approach is the large number of subsequences to enumerate, inducing a very large feature space and a very high computational complexity. We show that most subsequences in a time series dataset are redundant. Therefore, a random sampling can be used to generate a very small fraction of the exhaustive set of subsequences, preserving the necessary information for classification and thus generating a much smaller feature space compatible with common machine learning algorithms with tractable computations. We also demonstrate that the number of subsequences to draw is not linked to the number of instances in the training set, which guarantees the scalability of the approach. The combination of the latter in the context of our framework enables us to take advantage of advanced techniques (such as multivariate feature selection techniques) to discover richer motif-based time series representations for classification, for example by taking into account the relationships between the subsequences. These theoretical results have been extensively tested on more than one hundred classical benchmarks of the literature with univariate and multivariate time series. Moreover, since this research has been conducted in the context of an industrial research agreement (CIFRE) with Arcelormittal, our work has been applied to the detection of defective steel products based on production line's sensor measurements
Gli stili APA, Harvard, Vancouver, ISO e altri
32

Laugier, Catherine. "Apprentissage par observation en danse : rôle des processus représentatifs dans la reproduction de mouvements". Montpellier 1, 1995. http://www.theses.fr/1995MON14002.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
33

Gainon, de Forsan de Gabriac Clara. "Deep Natural Language Processing for User Representation". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS274.

Testo completo
Abstract (sommario):
La dernière décennie a vu s’imposer le développement des méthodes de Deep Learning (DL), aussi bien dans le monde académique qu’industriel. Ce succès peut s’expliquer par la capacité du DL à modéliser des entités toujours plus complexes. En particulier, les méthodes de Representation Learning se concentrent sur l’apprentissage de représentations latentes issues de données hétérogènes, à la fois versatiles et réutilisables, notamment en Natural Language Processing (NLP). En parallèle, le nombre grandissant de systèmes reposant sur des données utilisateurs entraînent leur lot de défis.Cette thèse propose des méthodes tirant partie du pouvoir de représentation du NLP pour apprendre des représentations d’utilisateur riches et versatiles. D'abord, nous étudions la Recommandation. Nous parlons ensuite des récentes avancées du NLP et des moyens de les appliquer de façon à tirer partie des textes écrits par les utilisateurs, pour enfin détailler les modèles génératifs. Puis, nous présentons un Système de Recommandation fondé sur la combinaison, d’une méthode de représentation par factorisation matricielle traditionnelle, et d’un modèle d’analyse de sentiments. Nos expériences montrent que, en plus d’améliorer les performances, ce modèle nous permet de comprendre ce qui intéresse l’utilisateur chez un produit, et de fournir des explications concernant les suggestions émises par le modèle. Enfin, nous présentons une nouvelle tâche centrée sur la représentation d’utilisateur : l’apprentissage de profil professionnel. Nous proposons un cadre de travail pour l’apprentissage et l’évaluation des profils professionnels sur différentes tâches, notamment la génération du prochain job
The last decade has witnessed the impressive expansion of Deep Learning (DL) methods, both in academic research and the private sector. This success can be explained by the ability DL to model ever more complex entities. In particular, Representation Learning methods focus on building latent representations from heterogeneous data that are versatile and re-usable, namely in Natural Language Processing (NLP). In parallel, the ever-growing number of systems relying on user data brings its own lot of challenges. This work proposes methods to leverage the representation power of NLP in order to learn rich and versatile user representations.Firstly, we detail the works and domains associated with this thesis. We study Recommendation. We then go over recent NLP advances and how they can be applied to leverage user-generated texts, before detailing Generative models.Secondly, we present a Recommender System (RS) that is based on the combination of a traditional Matrix Factorization (MF) representation method and a sentiment analysis model. The association of those modules forms a dual model that is trained on user reviews for rating prediction. Experiments show that, on top of improving performances, the model allows us to better understand what the user is really interested in in a given item, as well as to provide explanations to the suggestions made.Finally, we introduce a new task-centered on UR: Professional Profile Learning. We thus propose an NLP-based framework, to learn and evaluate professional profiles on different tasks, including next job generation
Gli stili APA, Harvard, Vancouver, ISO e altri
34

Moulouel, Koussaila. "Hybrid AI approaches for context recognition : application to activity recognition and anticipation and context abnormalities handling in Ambient Intelligence environments". Electronic Thesis or Diss., Paris Est, 2023. http://www.theses.fr/2023PESC0014.

Testo completo
Abstract (sommario):
Les systèmes d'intelligence ambiante (AmI) visent à fournir aux utilisateurs des services d'assistance destinés à améliorer leur qualité de vie en termes d'autonomie, de sécurité et de bien-être. La conception de systèmes AmI capables d'une reconnaissance précise, fine et cohérente du contexte spatial et/ou temporel de l'utilisateur, en tenant compte de l'incertitude et de l'observabilité partielle des environnements AmI, pose plusieurs défis pour permettre une meilleure adaptation des services d'assistance au contexte de l'utilisateur. L'objectif de cette thèse est de proposer un ensemble de contributions qui répondent à ces défis. Premièrement, une ontologie de contexte est proposée pour modéliser les connaissances contextuelles dans les environnements AmI. L'objectif de cette ontologie est la modélisation du contexte de l'utilisateur en prenant en compte les différents attributs du contexte et en définissant les axiomes du raisonnement de bon sens nécessaire pour déduire et mettre à jour le contexte. La deuxième contribution est un cadre hybride basé sur une ontologie qui combine le raisonnement de bon sens probabiliste et la planification probabiliste pour reconnaître le contexte, en particulier les anomalies du contexte, et fournir des services d'assistance, en présence d'incertitude et d'observabilité partielle des environnements. Ce cadre exploite les prédictions des attributs du contexte, à savoir l'activité et la localisation de l'utilisateur, fournies par des modèles d'apprentissage profond. Dans ce cadre, le raisonnement probabiliste de bon sens est basé sur l'ontologie de contexte proposée pour définir l'axiomatisation de l'inférence de contexte et de la planification sous incertitude. La planification probabiliste est utilisée pour caractériser un contexte anormal en faisant face à l'incomplétude de la connaissance contextuelle due à l'observabilité partielle. Le cadre proposé a été évalué à l'aide de modèles transformateur et CNN-LSTM en considérant les datasets Orange4Home et SIMADL. Les résultats montrent l'efficacité du cadre pour reconnaître les contextes, en termes d'activité et de localisation de l'utilisateur, ainsi que les anomalies du contexte. Troisièmement, un cadre hybride combinant l'apprentissage profond et le raisonnement probabiliste pour anticiper les activités humaines est proposé. Le raisonnement de bon sens probabiliste exploité dans ce cadre est basé sur le raisonnement abductif pour anticiper les activités humaines atomiques et composites, et sur le raisonnement temporel pour saisir les changements d'attributs du contexte. Des modèles d'apprentissage profond ont été exploités pour reconnaître les attributs du contexte, tels que les objets, les mains humaines et les emplacements des personnes. L'ontologie du contexte est utilisée pour modéliser les relations entre les activités atomiques et les activités composites. L'évaluation du cadre montre sa capacité à anticiper les activités composites sur un horizon temporel de quelques minutes, contrairement aux approches de l'état de l'art qui ne peuvent anticiper les activités atomiques que sur un horizon temporel de quelques secondes. Enfin, un cadre basé sur le raisonnement par flux est proposé pour anticiper les activités humaines atomiques et composites à partir de flux de données d'attributs contextuels collectés à la volée. Le système de raisonnement par flux effectue un raisonnement causal, abductif et temporel avec les connaissances contextuelles obtenues en cours d'exécution. Des axiomes d'effets dynamiques ont été introduits pour anticiper les activités composites qui peuvent être soumises à des événements imprévus. Le cadre proposé a été validé par des expériences menées dans un environnement de cuisine. La performance remarquablement élevée en termes de nombre d'anticipations d'activités montre la capacité du cadre à prendre en compte la connaissance contextuelle des épisodes passés nécessaire pour anticiper les activités composites
Ambient Intelligence (AmI) systems aim to provide users with assistance services intended to improve the quality of their lives in terms of autonomy, safety, and well-being. The design of AmI systems capable of accurate, fine-grained and consistent recognition of the spatial and/or temporal user's context, taking into account the uncertainty and partial observability of AmI environments, poses several challenges to enable a better adaptation of the assistance services to the user's context. The purpose of this thesis is to propose a set of contributions that address these challenges. Firstly, a context ontology is proposed to model contextual knowledge in AmI environments. The purpose of this ontology is the modeling of the user's context taking into account different context attributes and defining axioms of the commonsense reasoning necessary to infer and update the context of the user. The second contribution is an ontology-based hybrid framework that combine probabilistic commonsense reasoning and probabilistic planning to recognize the user's context, in particular, context abnormalities, and provide context-aware assistance services, in presence of uncertainty and partial observability of the environments. This framework exploits context attribute predictions, namely user's activity and user's location, provided by deep learning models. In this framework, the probabilistic commonsense reasoning is based on the proposed context ontology to define the axiomatization of the context inference and planning under uncertainty. Probabilistic planning is used to characterize abnormal context by coping with the incompleteness of contextual knowledge due to the partial observability of AmI environments. The proposed framework was evaluated using transformers and CNN-LSTM models considering Orange4Home and SIMADL datasets. The results show the effectiveness of the framework to recognize user's contexts, in terms of user's activity and location, along with context abnormalities. Thirdly, a hybrid framework combining deep learning and probabilistic commonsense reasoning for anticipating human activities based on egocentric videos is proposed. The probabilistic commonsense reasoning exploited in this framework is based on abductive reasoning to anticipate both human atomic and composite activities, and temporal reasoning to capture context attribute changes. Deep learning models were exploited to recognize context attributes, such as objects, human hands, and human locations. The context ontology is used to model the relationships between atomic activities and composite activities. The evaluation of the framework shows its ability to anticipate composite activities over a time horizon of minutes, in contrast to state-of-the-art approaches that can only anticipate atomic activities over a time horizon of seconds. It also showed good performance in terms of accuracy of classification of anticipated activities and computation time. Lastly, a stream reasoning-based framework is proposed to anticipate atomic and composite human activities from data streams of context attributes collected on-the-fly. Deep learning models were used to recognize context attributes, such as objects used in activities, hands and user locations. The stream reasoning system performs causal, abductive and temporal reasoning with contextual knowledge obtained at run-time. Dynamic effect axioms were introduced to anticipate composite activities that can be subject to unforeseen events, such as skipping an atomic activity and delay an atomic activity. The proposed framework was validated through experiments conducted in a kitchen environment. The remarkably high performance in terms of the number of activity anticipations shows the ability of the framework to take into account the contextual knowledge of past episodes needed to anticipate composite activities
Gli stili APA, Harvard, Vancouver, ISO e altri
35

Pineau, Edouard. "Contributions to representation learning of multivariate time series and graphs". Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT037.

Testo completo
Abstract (sommario):
Les algorithmes de machine learning sont construits pour apprendre, à partir de données, des modèles statistiques de décision ou de prédiction, sur un large panel de tâches. En général, les modèles appris sont des approximations d'un "vrai" modèle de décision, dont la pertinence dépend d'un équilibre entre la richesse du modèle appris, la complexité de la distribution des données et la complexité de la tâche à résoudre à partir des données. Cependant, il est souvent nécessaire d'adopter des hypothèses simplificatrices sur la donnée (e.g. séparabilité linéaire, indépendance des observations, etc.). Quand la distribution des donnée est complexe (e.g. grande dimension avec des interactions non-linéaires entre les variables observées), les hypothèses simplificatrices peuvent être contre-productives. Il est alors nécessaire de trouver une représentation alternatives des données avant d'apprendre le modèle de décision. L'objectif de la représentation des données est de séparer l'information pertinente du bruit, en particulier quand l'information est latente (i.e. cachée dans la donnée), pour aider le modèle statistique de décision. Jusqu'à récemment, beaucoup de représentations standards étaient construites à la main par des experts. Avec l'essor des techniques nouvelles de machine learning, et en particulier l'utilisation de réseaux de neurones, des techniques d'apprentissage de représentation ont surpassées les représentations manuelles dans de nombreux domaines. Dans cette thèse, nous nous sommes intéressés à l'apprentissage de représentation de séries temporelles multivariées (STM) et de graphes. STM et graphes sont des objets complexes qui ont des caractéristiques les rendant difficilement traitables par des algorithmes standards de machine learning. Par exemple, ils peuvent avoir des tailles variables et ont des alignements non-triviaux, qui empêchent l'utilisation de métriques standards pour les comparer entre eux. Il est alors nécessaire de trouver pour les échantillons observés (STM ou graphes) une représentation alternatives qui les rend comparables. Les contributions de ma thèses sont un ensemble d'analyses, d'approches pratiques et de résultats théoriques présentant des nouvelles manières d'apprendre une représentation de STM et de graphes. Deux méthodes de représentation de STM ont dédiées au suivi d'état caché de systèmes mécaniques. La première propose une représentation basée "model-based" appelée Sequence-to-graph (Seq2Graph). Seq2Graph se base sur l'hypothèse que les données observées ont été généré par un modèle causal simple, dont l'espace des paramètres sert d'espace de représentation. La second méthode propose une méthode générique de détection de tendances dans des séries temporelles, appelée Contrastive Trend Estimation (CTE), qui fait l'hypothèse que le vieillissement d'un système mécanique est monotone. Une preuve d'identifiabilité et une extension à des problèmes d'analyse de survie rendent cette approche puissante pour le suivi d'état de système mécaniques. Deux méthodes de représentation de graphes pour la classification sont aussi proposées. Une première propose de voir les graphes comme des séquences de nœuds et donc de les traiter avec un outil standard de représentation de séquences : un réseau de neurones récurrents. Une second méthode propose une analyse théorique et pratique du spectre du Laplacien pour la classification de graphes
Machine learning (ML) algorithms are designed to learn models that have the ability to take decisions or make predictions from data, in a large panel of tasks. In general, the learned models are statistical approximations of the true/optimal unknown decision models. The efficiency of a learning algorithm depends on an equilibrium between model richness, complexity of the data distribution and complexity of the task to solve from data. Nevertheless, for computational convenience, the statistical decision models often adopt simplifying assumptions about the data (e.g. linear separability, independence of the observed variables, etc.). However, when data distribution is complex (e.g. high-dimensional with nonlinear interactions between observed variables), the simplifying assumptions can be counterproductive. In this situation, a solution is to feed the model with an alternative representation of the data. The objective of data representation is to separate the relevant information with respect to the task to solve from the noise, in particular if the relevant information is hidden (latent), in order to help the statistical model. Until recently and the rise of modern ML, many standard representations consisted in an expert-based handcrafted preprocessing of data. Recently, a branch of ML called deep learning (DL) completely shifted the paradigm. DL uses neural networks (NNs), a family of powerful parametric functions, as learning data representation pipelines. These recent advances outperformed most of the handcrafted data in many domains.In this thesis, we are interested in learning representations of multivariate time series (MTS) and graphs. MTS and graphs are particular objects that do not directly match standard requirements of ML algorithms. They can have variable size and non-trivial alignment, such that comparing two MTS or two graphs with standard metrics is generally not relevant. Hence, particular representations are required for their analysis using ML approaches. The contributions of this thesis consist of practical and theoretical results presenting new MTS and graphs representation learning frameworks.Two MTS representation learning frameworks are dedicated to the ageing detection of mechanical systems. First, we propose a model-based MTS representation learning framework called Sequence-to-graph (Seq2Graph). Seq2Graph assumes that the data we observe has been generated by a model whose graphical representation is a causality graph. It then represents, using an appropriate neural network, the sample on this graph. From this representation, when it is appropriate, we can find interesting information about the state of the studied mechanical system. Second, we propose a generic trend detection method called Contrastive Trend Estimation (CTE). CTE learns to classify pairs of samples with respect to the monotony of the trend between them. We show that using this method, under few assumptions, we identify the true state underlying the studied mechanical system, up-to monotone scalar transform.Two graph representation learning frameworks are dedicated to the classification of graphs. First, we propose to see graphs as sequences of nodes and create a framework based on recurrent neural networks to represent and classify them. Second, we analyze a simple baseline feature for graph classification: the Laplacian spectrum. We show that this feature matches minimal requirements to classify graphs when all the meaningful information is contained in the structure of the graphs
Gli stili APA, Harvard, Vancouver, ISO e altri
36

Louis, Thibault. "Implémentation et bénéfices des systèmes d'interaction haute-fidélité : d'un contrôle plus performant à un apprentissage d'objets 3D plus rapide". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM047.

Testo completo
Abstract (sommario):
Interagir avec des scènes virtuelles 3D est nécessaire à de nombreuses applications. Parmi elles : la visualisation de données 3D, la conception assistée par ordinateur, les simulateurs d’entraînement ou encore les jeux vidéos. Effectuer cette tâche par l'intermédiaire de systèmes en 2D tels que des ordinateurs de bureau ou des tablettes tactiles peut s’avérer fastidieux. Pour interagir plus efficacement avec des contenus 3D, les systèmes d'interaction haute-fidélité tels que les casques de réalité virtuelle tentent de reproduire les modalités d'interaction dont nous disposons dans le monde réel. Ces systèmes offrent un rendu visuel stéréoscopique couplé à la position de l'utilisateur et un contrôle isomorphe des objets 3D. Cependant, la littérature manque de résultats issus d'expériences rigoureuses montrant leurs bénéfices. L'objectif de cette thèse est double. Nous cherchons d'une part à étoffer la littérature par l'intermédiaire d'études utilisateur contrôlées permettant d'apporter des résultats robustes sur les bénéfices de ces systèmes. D'autre part, nous nous efforçons de fournir les moyens d'implémenter les expériences haute fidélité les plus performantes.Dans ce manuscrit, nous présentons, tout d'abord, un état de l'art des dispositifs haute-fidélité existants et de leurs bénéfices potentiels. Nous introduisons notamment une approche prometteuse appelée appareil à perspective corrigée déplaçable (APCD), que nous avons particulièrement étudiée dans cette thèse.Nous détaillons ensuite deux contributions qui nous ont permis de quantifier les bénéfices des systèmes haute-fidélité. Afin de témoigner du potentiel applicatif de ces systèmes, nous avons étudié leur apport dans la réalisation de deux tâches mettant en jeu des processus cognitifs très différents. La première étude concerne une tâche de positionnement d'objets 3D dans l'espace. Les deux systèmes haute-fidélité que nous avons testés : un APCD et un casque de réalité virtuelle, se sont respectivement montrés 43% et 29% plus efficaces que le statu quo (un bras articulé utilisé avec un écran plat). La seconde étude concerne une tâche d'apprentissage de la forme d'un objet 3D. Pour cette tâche, les deux mêmes systèmes haute-fidélité ont permis d'améliorer de 27% les performances de reconnaissance de l'objet par rapport à un apprentissage via une tablette tactile.Nous présentons ensuite deux contributions apportant des solutions pour faciliter l'implémentation matérielle et logicielle des systèmes d'interaction haute-fidélité.Nous proposons une méthode permettant d'évaluer l'impact de différents paramètres techniques sur le sentiment de présence éprouvée au cours d'une expérience interactive : un sentiment qui témoigne de la fidélité de l'expérience relativement à la réalité simulée. Mettre en jeu cette méthode dans une étude utilisateur nous a permis d'identifier que la stabilité du système de suivi et la fréquence d'affichage sont les paramètres les plus critiques avec l'APCD que nous avons testé.Nous proposons enfin une panoplie de techniques d'interaction permettant l'implémentation d'applications adaptées aux APCD sphériques et à tout autre système fournissant un écran manipulable à deux mains. Les interactions que nous proposons tirent parti du contrôle efficace des rotations de l'appareil et se sont montrées intuitives et efficaces lors d'un test qualitatif dans une application d'apprentissage d'anatomie
Interacting with 3D virtual scenes is essential for numerous applications. Among others: 3D data visualization, computer assisted design, training simulators and video games. Performing this task through 2D systems like desktop computers or multi-touch tablets can be tedious. To interact more efficiently with 3D contents, high fidelity interactive systems such as virtual reality head-mounted displays try to reproduce the interactive modalities available in real life. Such systems offer a stereoscopic head-coupled rendering and an isomorphic control of 3D objects. However, there is a lack of rigorous studies that showed their benefits in the literature. This thesis has two purposes. We want to enrich the literature through controlled user studies that bring robust results on high fidelity systems' benefits. We also seek to provide the means to implement the most efficient high fidelity experiences.In this manuscript, we start by presenting a state of the art of existing high fidelity devices and their potential benefits. We especially introduce a promising approach called handheld perspective corrected displays (HPCD), that we particularly studied through this thesis.We then present two contributions that allowed us to quantify high fidelity systems benefits. We studied two tasks involving very different cognitive processes in order to attest the variety of applications that could benefit from those systems. The first study concerns a 6D docking task. The two high fidelity systems that we tested, an HPCD and a virtual reality head mounted display, performed respectively 43% and 29% more efficiently than the status quo (an articulated arm used alongside a flat screen). The second study focuses on the task of learning the shape of an unknown 3D object. Regarding this task, the two previously studied high fidelity systems allowed to enhance by 27% the object's recognition performances when compared to the use of a multi-touch tablet.We then present two other contributions that bring solutions to ease both hardware and software implementation of high fidelity systems. We provide a method to evaluate the impact of several technical parameters on the presence felt during an interactive experience, which is a feeling that testifies to the experience’s fidelity with regard to the simulated reality. Using this method in a user study allowed us to identify the fact that, with the tested HPCD, the tracking stability and the rendering frame rate were the most critical parameters concerning presence. We finally suggest a suit of interacting techniques that enable the implementation of applications well suited for spherical HPCD, and any other devices that provide a manipulable screen held with both hands. The proposed interactions take advantage of the efficient control of the device rotations and appeared to be both intuitive and efficient during a qualitative test in an anatomy learning application
Gli stili APA, Harvard, Vancouver, ISO e altri
37

Harrando, Ismail. "Representation, information extraction, and summarization for automatic multimedia understanding". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS097.

Testo completo
Abstract (sommario):
Que ce soit à la télévision ou sur internet, la production de contenu vidéo connaît un essor sans précédent. La vidéo est devenu non seulement le support dominant pour le divertissement, mais elle est également considérée comme l'avenir de l'éducation, l'information et le loisir. Néanmoins, le paradigme traditionnel de la gestion du multimédia s'avère incapable de suivre le rythme imposé par l'ampleur du volume de contenu créé chaque jour sur les différents canaux de distribution. Ainsi, les tâches de routine telles que l'archivage, l'édition, l'organisation et la recherche de contenu par les créateurs multimédias deviennent d'un coût prohibitif. Du côté de l'utilisateur, la quantité de contenu multimédia distribuée quotidiennement peut être écrasante ; le besoin d'un contenu plus court et plus personnalisé n'a jamais été aussi prononcé. Pour faire progresser l'état de l'art sur ces deux fronts, un certain niveau de compréhension du multimédia doit être atteint par nos ordinateurs. Dans cette thèse, nous proposons d'aborder les multiples défis auxquels sont confrontés le traitement et l'analyse automatique de contenu multimédia, en orientant notre exploration autour de trois axes : 1. la représentation: avec toute sa richesse et sa variété, la modélisation et la représentation du contenu multimédia peut être un défi en soi. 2. la description: La composante textuelle du multimédia peut être exploitée pour générer des descripteurs de haut niveau (annotation) pour le contenu en question. 3. le résumé: où nous étudions la possibilité d'extraire les moments d'intérêt de ce contenu, à la fois pour un résumé centré sur la narration et pour maximiser la mémorabilité
Whether on TV or on the internet, video content production is seeing an unprecedented rise. Not only is video the dominant medium for entertainment purposes, but it is also reckoned to be the future of education, information and leisure. Nevertheless, the traditional paradigm for multimedia management proves to be incapable of keeping pace with the scale brought about by the sheer volume of content created every day across the disparate distribution channels. Thus, routine tasks like archiving, editing, content organization and retrieval by multimedia creators become prohibitively costly. On the user side, too, the amount of multimedia content pumped daily can be simply overwhelming; the need for shorter and more personalized content has never been more pronounced. To advance the state of the art on both fronts, a certain level of multimedia understanding has to be achieved by our computers. In this research thesis, we aim to go about the multiple challenges facing automatic media content processing and analysis, mainly gearing our exploration to three axes: 1. Representing multimedia: With all its richness and variety, modeling and representing multimedia content can be a challenge in itself. 2. Describing multimedia: The textual component of multimedia can be capitalized on to generate high-level descriptors, or annotations, for the content at hand. 3. Summarizing multimedia: we investigate the possibility of extracting highlights from media content, both for narrative-focused summarization and for maximising memorability
Gli stili APA, Harvard, Vancouver, ISO e altri
38

Tamaazousti, Youssef. "Vers l’universalité des représentations visuelle et multimodales". Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC038/document.

Testo completo
Abstract (sommario):
En raison de ses enjeux sociétaux, économiques et culturels, l’intelligence artificielle (dénotée IA) est aujourd’hui un sujet d’actualité très populaire. L’un de ses principaux objectifs est de développer des systèmes qui facilitent la vie quotidienne de l’homme, par le biais d’applications telles que les robots domestiques, les robots industriels, les véhicules autonomes et bien plus encore. La montée en popularité de l’IA est fortement due à l’émergence d’outils basés sur des réseaux de neurones profonds qui permettent d’apprendre simultanément, la représentation des données (qui était traditionnellement conçue à la main), et la tâche à résoudre (qui était traditionnellement apprise à l’aide de modèles d’apprentissage automatique). Ceci résulte de la conjonction des avancées théoriques, de la capacité de calcul croissante ainsi que de la disponibilité de nombreuses données annotées. Un objectif de longue date de l’IA est de concevoir des machines inspirées des humains, capables de percevoir le monde, d’interagir avec les humains, et tout ceci de manière évolutive (c’est `a dire en améliorant constamment la capacité de perception du monde et d’interaction avec les humains). Bien que l’IA soit un domaine beaucoup plus vaste, nous nous intéressons dans cette thèse, uniquement à l’IA basée apprentissage (qui est l’une des plus performante, à ce jour). Celle-ci consiste `a l’apprentissage d’un modèle qui une fois appris résoud une certaine tâche, et est généralement composée de deux sous-modules, l’un représentant la donnée (nommé ”représentation”) et l’autre prenant des décisions (nommé ”résolution de tâche”). Nous catégorisons, dans cette thèse, les travaux autour de l’IA, dans les deux approches d’apprentissage suivantes : (i) Spécialisation : apprendre des représentations à partir de quelques tâches spécifiques dans le but de pouvoir effectuer des tâches très spécifiques (spécialisées dans un certain domaine) avec un très bon niveau de performance; ii) Universalité : apprendre des représentations à partir de plusieurs tâches générales dans le but d’accomplir autant de tâches que possible dansdifférents contextes. Alors que la spécialisation a été largement explorée par la communauté de l’apprentissage profond, seules quelques tentatives implicites ont été réalisée vers la seconde catégorie, à savoir, l’universalité. Ainsi, le but de cette thèse est d’aborder explicitement le problème de l’amélioration de l’universalité des représentations avec des méthodes d’apprentissage profond, pour les données d’image et de texte. [...]
Because of its key societal, economic and cultural stakes, Artificial Intelligence (AI) is a hot topic. One of its main goal, is to develop systems that facilitates the daily life of humans, with applications such as household robots, industrial robots, autonomous vehicle and much more. The rise of AI is highly due to the emergence of tools based on deep neural-networks which make it possible to simultaneously learn, the representation of the data (which were traditionally hand-crafted), and the task to solve (traditionally learned with statistical models). This resulted from the conjunction of theoretical advances, the growing computational capacity as well as the availability of many annotated data. A long standing goal of AI is to design machines inspired humans, capable of perceiving the world, interacting with humans, in an evolutionary way. We categorize, in this Thesis, the works around AI, in the two following learning-approaches: (i) Specialization: learn representations from few specific tasks with the goal to be able to carry out very specific tasks (specialized in a certain field) with a very good level of performance; (ii) Universality: learn representations from several general tasks with the goal to perform as many tasks as possible in different contexts. While specialization was extensively explored by the deep-learning community, only a few implicit attempts were made towards universality. Thus, the goal of this Thesis is to explicitly address the problem of improving universality with deep-learning methods, for image and text data. We have addressed this topic of universality in two different forms: through the implementation of methods to improve universality (“universalizing methods”); and through the establishment of a protocol to quantify its universality. Concerning universalizing methods, we proposed three technical contributions: (i) in a context of large semantic representations, we proposed a method to reduce redundancy between the detectors through, an adaptive thresholding and the relations between concepts; (ii) in the context of neural-network representations, we proposed an approach that increases the number of detectors without increasing the amount of annotated data; (iii) in a context of multimodal representations, we proposed a method to preserve the semantics of unimodal representations in multimodal ones. Regarding the quantification of universality, we proposed to evaluate universalizing methods in a Transferlearning scheme. Indeed, this technical scheme is relevant to assess the universal ability of representations. This also led us to propose a new framework as well as new quantitative evaluation criteria for universalizing methods
Gli stili APA, Harvard, Vancouver, ISO e altri
39

Bitton, Adrien. "Meaningful audio synthesis and musical interactions by representation learning of sound sample databases". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS362.

Testo completo
Abstract (sommario):
La musique assistée par ordinateur fait beaucoup usage de librairies d’échantillons audios et d'instruments numériques qui offrent des possibilités de composition sans précédent. L’abondance des matériaux sonores disponibles nécessite de nouvelles méthodes d’interaction en adéquation avec ceux-ci sans quoi le parcours des échantillons audios est inefficace et arbitraire. En effet, les métadonnées qui structurent traditionnellement ces librairies ne peuvent que traduire grossièrement les caractéristiques acoustiques des différentes catégories sonores. Notamment, les variations continues du timbre musical ne sont pas exprimées alors qu’elles jouent un rôle significatif dans la production et la créativité musicale. Les progrès des modèles d’apprentissage génératif ont démontré des capacités sans précédent pour le traitement des données à grande échelle. Ces méthodes probabilistes permettent la construction d’espaces non supervisés pour la synthèse de données et ont permis de nouvelles interactions telles que la conversion automatique d’images et la manipulation d’attributs perceptifs et stylistiques. Au cours de cette thèse, nous développons des techniques d’analyse/synthèse efficaces basées sur les modèles auto-encodeurs afin d’apprendre des représentations acoustiques inversibles de basse dimensionnalité pour la manipulation intuitive du timbre musical. En premier lieu, nous adaptons les techniques non supervisées de conversion d’images au transfert de propriétés de timbre. Ensuite, nous introduisons de nouveaux modèles pour l’apprentissage explicite de représentations du timbre musical et l’échantillonnage avec contrôle des propriétés acoustiques et sémantiques
Computer assisted music extensively relies on audio sample libraries and virtual instruments which provide users an ever increasing amount of contents to produce music with. However, principled methods for large-scale interactions are lacking so that browsing samples and presets with respect to a target sound idea is a tedious and arbitrary process. Indeed, library metadata can only describe coarse categories of sounds but do not meaningfully traduce the underlying acoustic contents and continuous variations in timbre which are key elements of music production and creativity. The recent advances in deep generative modelling show unprecedented successes at learning large-scale unsupervised representations which invert to data as diverse as images, texts and audio. These probabilistic models could be refined to specific generative tasks such as unpaired image translation and semantic manipulations of visual features, demonstrating the ability of learning transformations and representations that are perceptually meaningful. In this thesis, we target efficient analysis and synthesis with auto-encoders to learn low dimensional acoustic representations for timbre manipulations and intuitive interactions for music production. In the first place we adapt domain translation techniques to timbre transfer and propose alternatives to adversarial learning for many-to-many transfers. Then we develop models for explicit modelling of timbre variations and controllable audio sampling using conditioning for semantic attribute manipulations and hierarchical learning to represent both acoustic and temporal variations
Gli stili APA, Harvard, Vancouver, ISO e altri
40

Cheikhrouhou, Ikram. "Contribution à l'étude du changement conceptuel : les concepts de fermeture de circuit et de conservation de l'intensité dans un circuit en série chez les adultes, avant et après une formation en électricité". Paris 8, 1998. http://www.theses.fr/1998PA081497.

Testo completo
Abstract (sommario):
Le changement conceptuel est un champ de recherche qui s'interesse a la nature des preconceptions et leur modification par un apprentissage. Dans ce travail, nous proposons d'etudier le changement conceptuel via la comprehension de deux concepts interdependants appartenant a l'electricite : le concept de "circuit ferme" et celui de "conservation de l'intensite" dans un circuit en serie. Ces concepts sont examines notamment dans deux situations. La premiere est familiere aux sujets et a pour but de diagnostiquer les representations des sujets. La seconde est moins familiere et a l'avantage d'ecarter la possibilite de repeter des "recettes" apprises au cours. Les concepts sont examines aupres de 24 adultes novices avant et apres une formation de deux semaines en electricite. La methodologieque nous avons utilisee pour identifier les representations des sujets est basee sur l'analyse des verbalisations obtenues a l'aide d'une methode d'entretien-critique inspiree de l'interrogation-critique de piaget. L'analyse des verbalisations est menee a partir d'une description des representations sous forme de graphes et de suites de symboles. Deduite directement des graphes, chaque suite de symboles donne la representation du sujet concernant les notions de conservation de l'intensite et de circuit ferme. Dans le cas d'une situation familiere, les resultats montrent qu'il y a une amelioration des representations notamment en ce qui concerne la notion de circuit ferme qui semble mieux acquise que celle de conservation de l'intensite qui vient a l'encontre de l'experience quotidienne ("substantialisation" de l'electricite). Cette "amelioration" suggere que le changement conceptuel peut etre envisage en termes d'evolution. Cependant, les resultats de l'etude de la situation non familiere montrent la reapparition de certaines representations d'avant formation suggerant que le changement n'etait que superficiel, que les structures conceptuelles profondes n'ont pas ete modifiees
Several verbal terms that refer to scientific concepts are also those used in everyday life. Therefore, before beginning the formal curriculum, learners have already built their own representation of some of these concepts. Formal-concept learning comes up against the existence of these preconceptions. Conceptual change is a research area studying the nature of these preconceptions and their modification after instruction. In this work, we propose to examine conceptual change by studying changes in the comprehension of two interdependent electrical concepts: closed circuit and intensity conservation of electric current in series circuit. These concepts were examined essentially in two situations. The first is familiar and aims to diagnose the subject's representations. The second situation is unfamiliar and aims to reveal the kinds of representations the subjects use to explain novel situations not usually taught. These concepts were examined for 24 novice adults before and after a two-week vocational training session in electricity. The methodology used to identify subject's representations consists of an analysis of verbalisations. These are collected with a "critical interview" method inspired by piaget's critical interrogation method. Verbalisations are analysed by describing representations in graph form and a series of symbols. Deduced on graphs, every series of symbols gives the subject's representation of intensity conservation and closed circuit notions. In the familiar situation, the results show an improvement of subject's representations especially for the closed circuit notion which seems more "acquired" than "intensity conservation". This latter notion is in contradiction with everyday experience (the materialization of electricity). This improvement suggests that conceptual change can be gradual. Nevertheless, the non-familiar situation results show the reappearance of some representations found before training. This reappearance suggests that the observed change was superficial and that the deep conceptual structures were not modified
Gli stili APA, Harvard, Vancouver, ISO e altri
41

Ouzir, Nora Leïla. "Cardiac motion estimation in ultrasound images using a sparse representation and dictionary learning". Thesis, Toulouse 3, 2018. http://www.theses.fr/2018TOU30149.

Testo completo
Abstract (sommario):
Les maladies cardiovasculaires sont de nos jours un problème de santé majeur. L'amélioration des méthodes liées au diagnostic de ces maladies représente donc un réel enjeu en cardiologie. Le coeur étant un organe en perpétuel mouvement, l'analyse du mouvement cardiaque est un élément clé pour le diagnostic. Par conséquent, les méthodes dédiées à l'estimation du mouvement cardiaque à partir d'images médicales, plus particulièrement en échocardiographie, font l'objet de nombreux travaux de recherches. Cependant, plusieurs difficultés liées à la complexité du mouvement du coeur ainsi qu'à la qualité des images échographiques restent à surmonter afin d'améliorer la qualité et la précision des estimations. Dans le domaine du traitement d'images, les méthodes basées sur l'apprentissage suscitent de plus en plus d'intérêt. Plus particulièrement, les représentations parcimonieuses et l'apprentissage de dictionnaires ont démontré leur efficacité pour la régularisation de divers problèmes inverses. Cette thèse a ainsi pour but d'explorer l'apport de ces méthodes, qui allient parcimonie et apprentissage, pour l'estimation du mouvement cardiaque. Trois principales contributions sont présentées, chacune traitant différents aspects et problématiques rencontrées dans le cadre de l'estimation du mouvement en échocardiographie. Dans un premier temps, une méthode d'estimation du mouvement cardiaque se basant sur une régularisation parcimonieuse est proposée. Le problème d'estimation du mouvement est formulé dans le cadre d'une minimisation d'énergie, dont le terme d'attache aux données est construit avec l'hypothèse d'un bruit de Rayleigh multiplicatif. Une étape d'apprentissage de dictionnaire permet une régularisation exploitant les propriétés parcimonieuses du mouvement cardiaque, combinée à un terme classique de lissage spatial. Dans un second temps, une méthode robuste de flux optique est présentée. L'objectif de cette approche est de robustifier la méthode d'estimation développée au premier chapitre de manière à la rendre moins sensible aux éléments aberrants. Deux régularisations sont mises en oeuvre, imposant d'une part un lissage spatial et de l'autre la parcimonie des champs de mouvements dans un dictionnaire approprié. Afin d'assurer la robustesse de la méthode vis-à-vis des anomalies, une stratégie de minimisation récursivement pondérée est proposée. Plus précisément, les fonctions employées pour cette pondération sont basées sur la théorie des M-estimateurs. Le dernier travail présenté dans cette thèse, explore une méthode d'estimation du mouvement cardiaque exploitant une régularisation parcimonieuse combinée à un lissage à la fois dans les domaines spatial et temporel. Le problème est formulé dans un cadre général d'estimation de flux optique. La régularisation temporelle proposée impose des trajectoires de mouvement lisses entre images consécutives. De plus, une méthode itérative d'estimation permet d'incorporer les trois termes de régularisations, tout en rendant possible le traitement simultané d'un ensemble d'images. Dans cette thèse, les contributions proposées sont validées en employant des images synthétiques et des simulations réalistes d'images ultrasonores. Ces données avec vérité terrain permettent d'évaluer la précision des approches considérées, et de souligner leur compétitivité par rapport à des méthodes de l'état-del'art. Pour démontrer la faisabilité clinique, des images in vivo de patients sains ou atteints de pathologies sont également considérées pour les deux premières méthodes. Pour la dernière contribution de cette thèse, i.e., exploitant un lissage temporel, une étude préliminaire est menée en utilisant des données de simulation
Cardiovascular diseases have become a major healthcare issue. Improving the diagnosis and analysis of these diseases have thus become a primary concern in cardiology. The heart is a moving organ that undergoes complex deformations. Therefore, the quantification of cardiac motion from medical images, particularly ultrasound, is a key part of the techniques used for diagnosis in clinical practice. Thus, significant research efforts have been directed toward developing new cardiac motion estimation methods. These methods aim at improving the quality and accuracy of the estimated motions. However, they are still facing many challenges due to the complexity of cardiac motion and the quality of ultrasound images. Recently, learning-based techniques have received a growing interest in the field of image processing. More specifically, sparse representations and dictionary learning strategies have shown their efficiency in regularizing different ill-posed inverse problems. This thesis investigates the benefits that such sparsity and learning-based techniques can bring to cardiac motion estimation. Three main contributions are presented, investigating different aspects and challenges that arise in echocardiography. Firstly, a method for cardiac motion estimation using a sparsity-based regularization is introduced. The motion estimation problem is formulated as an energy minimization, whose data fidelity term is built using the assumption that the images are corrupted by multiplicative Rayleigh noise. In addition to a classical spatial smoothness constraint, the proposed method exploits the sparse properties of the cardiac motion to regularize the solution via an appropriate dictionary learning step. Secondly, a fully robust optical flow method is proposed. The aim of this work is to take into account the limitations of ultrasound imaging and the violations of the regularization constraints. In this work, two regularization terms imposing spatial smoothness and sparsity of the motion field in an appropriate cardiac motion dictionary are also exploited. In order to ensure robustness to outliers, an iteratively re-weighted minimization strategy is proposed using weighting functions based on M-estimators. As a last contribution, we investigate a cardiac motion estimation method using a combination of sparse, spatial and temporal regularizations. The problem is formulated within a general optical flow framework. The proposed temporal regularization enforces smoothness of the motion trajectories between consecutive images. Furthermore, an iterative groupewise motion estimation allows us to incorporate the three regularization terms, while enabling the processing of the image sequence as a whole. Throughout this thesis, the proposed contributions are validated using synthetic and realistic simulated cardiac ultrasound images. These datasets with available groundtruth are used to evaluate the accuracy of the proposed approaches and show their competitiveness with state-of-the-art algorithms. In order to demonstrate clinical feasibility, in vivo sequences of healthy and pathological subjects are considered for the first two methods. A preliminary investigation is conducted for the last contribution, i.e., exploiting temporal smoothness, using simulated data
Gli stili APA, Harvard, Vancouver, ISO e altri
42

Bisot, Victor. "Apprentissage de représentations pour l'analyse de scènes sonores". Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0016.

Testo completo
Abstract (sommario):
Ce travail de thèse s’intéresse au problème de l’analyse des sons environnementaux avec pour objectif d’extraire automatiquement de l’information sur le contexte dans lequel un son a été enregistré. Ce domaine de recherche a connu un succès grandissant ces dernières années entraînant une rapide évolution du nombre de travaux et des méthodes employées. Nos travaux explorent et contribuent à plusieurs grandes familles d’approches pour l’analyse de scènes et événements sonores allant de l’ingénierie de descripteurs jusqu’aux réseaux de neurones profonds. Notre travail se focalise sur les techniques d’apprentissage de représentations par factorisation en matrices positives (NMF), qui sont particulièrement adaptées à l’analyse d’environnements multi-sources tels que les scènes sonores. Nous commençons par montrer que les spectrogrammes contiennent suffisamment d’information pour discriminer les scènes sonores en proposant une combinaison de descripteurs d’images extraits à partir des images temps-fréquence. Nous quittons ensuite le monde de l’ingénierie de descripteurs pour aller vers un apprentissage automatique des représentations. Nous entamons cette partie du travail en nous intéressant aux approches non-supervisées, en particulier à l’apprentissage de descripteurs par différentes variantes de la NMF. Plusieurs des approches proposées confirment l’intérêt de l’apprentissage de caractéristiques par NMF en obtenant des performances supérieures aux meilleures approches par extraction de descripteurs. Nous proposons ensuite d’améliorer les représentations apprises en introduisant le modèle TNMF, une variante supervisée de la NMF. Les modèles et algorithmes TNMF proposés se basent sur un apprentissage conjoint du classifieur et du dictionnaire de sorte à minimiser un coût de classification. Dans une dernière partie, nous discutons des liens de compatibilité entre la NMF et certaines approches par réseaux de neurones profonds. Nous proposons et adaptons des architectures de réseaux de neurones à l’utilisation de la NMF. Les modèles introduits nous permettent d’atteindre des performances état de l’art sur des tâches de classification de scènes et de détection d’événements sonores. Enfin nous explorons la possibilité d’entraîner conjointement la NMF et les paramètres du réseau, regroupant ainsi les différentes étapes de nos systèmes en un seul problème d’optimisation
This thesis work focuses on the computational analysis of environmental sound scenes and events. The objective of such tasks is to automatically extract information about the context in which a sound has been recorded. The interest for this area of research has been rapidly increasing in the last few years leading to a constant growth in the number of works and proposed approaches. We explore and contribute to the main families of approaches to sound scene and event analysis, going from feature engineering to deep learning. Our work is centered at representation learning techniques based on nonnegative matrix factorization, which are particularly suited to analyse multi-source environments such as acoustic scenes. As a first approach, we propose a combination of image processing features with the goal of confirming that spectrograms contain enough information to discriminate sound scenes and events. From there, we leave the world of feature engineering to go towards automatically learning the features. The first step we take in that direction is to study the usefulness of matrix factorization for unsupervised feature learning techniques, especially by relying on variants of NMF. Several of the compared approaches allow us indeed to outperform feature engineering approaches to such tasks. Next, we propose to improve the learned representations by introducing the TNMF model, a supervised variant of NMF. The proposed TNMF models and algorithms are based on jointly learning nonnegative dictionaries and classifiers by minimising a target classification cost. The last part of our work highlights the links and the compatibility between NMF and certain deep neural network systems by proposing and adapting neural network architectures to the use of NMF as an input representation. The proposed models allow us to get state of the art performance on scene classification and overlapping event detection tasks. Finally we explore the possibility of jointly learning NMF and neural networks parameters, grouping the different stages of our systems in one optimisation problem
Gli stili APA, Harvard, Vancouver, ISO e altri
43

Lagrange, Adrien. "From representation learning to thematic classification - Application to hierarchical analysis of hyperspectral images". Thesis, Toulouse, INPT, 2019. http://www.theses.fr/2019INPT0095.

Testo completo
Abstract (sommario):
De nombreuses approches ont été développées pour analyser la quantité croissante de donnée image disponible. Parmi ces méthodes, la classification supervisée a fait l'objet d'une attention particulière, ce qui a conduit à la mise au point de méthodes de classification efficaces. Ces méthodes visent à déduire la classe de chaque observation en se basant sur une nomenclature de classes prédéfinie et en exploitant un ensemble d'observations étiquetées par des experts. Grâce aux importants efforts de recherche de la communauté, les méthodes de classification sont devenues très précises. Néanmoins, les résultats d'une classification restent une interprétation haut-niveau de la scène observée puisque toutes les informations contenues dans une observation sont résumées en une unique classe. Contrairement aux méthodes de classification, les méthodes d'apprentissage de représentation sont fondées sur une modélisation des données et conçues spécialement pour traiter des données de grande dimension afin d'en extraire des variables latentes pertinentes. En utilisant une modélisation basée sur la physique des observations, ces méthodes permettent à l'utilisateur d'extraire des variables très riches de sens et d'obtenir une interprétation très fine de l'image considérée. L'objectif principal de cette thèse est de développer un cadre unifié pour l'apprentissage de représentation et la classification. Au vu de la complémentarité des deux méthodes, le problème est envisagé à travers une modélisation hiérarchique. L'approche par apprentissage de représentation est utilisée pour construire un modèle bas-niveau des données alors que la classification, qui peut être considérée comme une interprétation haut-niveau des données, est utilisée pour incorporer les informations supervisées. Deux paradigmes différents sont explorés pour mettre en place ce modèle hiérarchique, à savoir une modélisation bayésienne et la construction d'un problème d'optimisation. Les modèles proposés sont ensuite testés dans le contexte particulier de l'imagerie hyperspectrale où la tâche d'apprentissage de représentation est spécifiée sous la forme d'un problème de démélange spectral
Numerous frameworks have been developed in order to analyze the increasing amount of available image data. Among those methods, supervised classification has received considerable attention leading to the development of state-of-the-art classification methods. These methods aim at inferring the class of each observation given a specific class nomenclature by exploiting a set of labeled observations. Thanks to extensive research efforts of the community, classification methods have become very efficient. Nevertheless, the results of a classification remains a highlevel interpretation of the scene since it only gives a single class to summarize all information in a given pixel. Contrary to classification methods, representation learning methods are model-based approaches designed especially to handle high-dimensional data and extract meaningful latent variables. By using physic-based models, these methods allow the user to extract very meaningful variables and get a very detailed interpretation of the considered image. The main objective of this thesis is to develop a unified framework for classification and representation learning. These two methods provide complementary approaches allowing to address the problem using a hierarchical modeling approach. The representation learning approach is used to build a low-level model of the data whereas classification is used to incorporate supervised information and may be seen as a high-level interpretation of the data. Two different paradigms, namely Bayesian models and optimization approaches, are explored to set up this hierarchical model. The proposed models are then tested in the specific context of hyperspectral imaging where the representation learning task is specified as a spectral unmixing problem
Gli stili APA, Harvard, Vancouver, ISO e altri
44

Barlaam, Fanny. "Maturation et apprentissage du contrôle postural anticipé au cours de l'adolescence : expressions motrice et cérébrale". Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM4778.

Testo completo
Abstract (sommario):
La fonction d’anticipation programmant l'action et ses conséquences sur la posture s’appuie sur les représentations sensorimotrice. L’adolescence étant caractérisée par des modifications du corps et du cerveau, cette thése évalue les liens qui unissent anticipation, représentations sensorimotrices et maturation cérébrale. La tâche bimanuelle de délestage met en jeu l’utilisation d’un bras postural, supportant le poids, et d’un bras manipulateur, qui le déleste. Dans cette tâche, l'anticipation s'exprime par les ajustements posturaux anticipés (APA), annulant la déstabilisation posturale causée par l'action. Des enregistrements cinématiques, EMG et EEG ont été utilisés. Bien qu’une stabilisation posturale stable soit reportée, les APAs à l’adolescence se caractérisent par une amélioration de la latence de l’inhibition des fléchisseurs. Chez l’adulte, les APA s’expriment par une désynchronisation du rythme mu et une onde positive au dessus de M1 impliqué dans la posture. Les caractéristiques temporelles de ces signatures varient à l’adolescence. L’apprentissage d’un nouveau contrôle postural est caractérisé par une amélioration rapide puis plus lente de la stabilisation posturale. Plus tardive à l'adolescence, cette acquisition repose sur la maitrise du réglage temporel de l’inhibition des fléchisseurs. Une intégration des retours proprioceptifs issus de l’action permettrait la construction d’une représentation sensorimotrice. Exprimée par la maitrise des paramètres temporels, la réactualisation des représentations sensorimotrice à l’adolescence passerait par une meilleure intégration des retours proprioceptifs. La maturation des régions cérébrales serait aussi capitale
Voluntary action requires an anticipation, which predicts the consequence of action on posture. Anticipation rests on action and body representations. Adolescence is characterized by body modifications and cerebral maturation. This thesis explored the link between the anticipatory function, action and body representations, and the cerebral maturation. The bimanual load-lifting task engages a postural arm, supporting the load, and a motor arm, lifting the load. In this task, the anticipation, expressed by anticipatory postural adjustments (APA) cancelled the destabilizing effect of movement on the posture. Kinematics, EMG and EEG were recorded. Although performances of postural stabilization were stable, APAs at the adolescence were characterized by an earlier latency of inhibition on the postural flexors. In adults, APA are expressed by a mu rhythm desynchronization and a positive wave over M1involved in posture, which presented different temporal characteristics in adolescents. Thus, the improvement of APA would be underlain by a maturation of these EEG activities. Learning a new postural control was characterized by a rapid followed by a slow improvement of the postural stabilisation. This acquisition rested on the mastering of the temporal parameters of the flexors inhibition, which took more time at the adolescence. Integration of proprioceptive feedback coming from action allowed an update of sensorimotor representation. Expressed by the mastering of the temporal parameters, the update of body and action representations at adolescence would imply an enhancement of the integration of proprioceptive information. Maturation of the cerebral areas would be a key element
Gli stili APA, Harvard, Vancouver, ISO e altri
45

Nguyen, Dinh Quoc Dang. "Representation of few-group homogenized cross sections by polynomials and tensor decomposition". Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASP142.

Testo completo
Abstract (sommario):
Cette thèse se concentre sur l'étude de la modélisation mathématique des sections efficaces homogénéisées à peu de groupes, un élément essentiel du schéma à deux étapes, qui est largement utilisé dans les simulations de réacteurs nucléaires. À mesure que les demandes industrielles nécessitent de plus en plus des maillages spatiaux et énergétiques fins pour améliorer la précision des calculs cœur, la taille de la bibliothèque des sections efficaces peut devenir excessive, entravant ainsi les performances des calculs cœur. Il est donc essentiel de développer une représentation qui minimise l'utilisation de la mémoire tout en permettant une interpolation des données efficace.Deux approches, la représentation polynomiale et la décomposition "Canonical Polyadic" des tenseurs, sont présentées et appliquées aux données de sections efficaces homogénéisées à peu de groupes. Les données sont préparées à l'aide d'APOLLO3 sur la géométrie de deux assemblages dans le benchmark X2 VVER-1000. Le taux de compression et la précision sont évalués et discutés pour chaque approche afin de déterminer leur applicabilité au schéma standard en deux étapes.De plus, des implémentations sur GPUs des deux approches sont testées pour évaluer la scalabilité des algorithmes en fonction du nombre de threads impliqués. Ces implémentations sont encapsulées dans une bibliothèque appelée Merlin, destinée à la recherche future et aux applications industrielles utilisant ces approches.Les deux approches, en particulier la méthode de décomposition des tenseurs, montrent des résultats prometteurs en termes de compression des données et de précision de reconstruction. L'intégration de ces méthodes dans le schéma standard en deux étapes permettrait non seulement de réduire considérablement l'utilisation de la mémoire pour le stockage des sections efficaces, mais aussi de diminuer significativement l'effort de calcul requis pour l'interpolation des sections efficaces lors des calculs cœur, réduisant donc le temps de calcul global pour les simulations de réacteurs industriels
This thesis focuses on studying the mathematical modeling of few-group homogenized cross sections, a critical element in the two-step scheme widely used in nuclear reactor simulations. As industrial demands increasingly require finer spatial and energy meshes to improve the accuracy of core calculations, the size of the cross section library can become excessive, hampering the performance of core calculations. Therefore, it is essential to develop a representation that minimizes memory usage while still enabling efficient data interpolation.Two approaches, polynomial representation and Canonical Polyadic decomposition of tensors, are presented and applied to few-group homogenized cross section data. The data is prepared using APOLLO3 on the geometry of two assemblies in the X2 VVER-1000 benchmark. The compression rate and accuracy are evaluated and discussed for each approach to determine their applicability to the standard two-step scheme.Additionally, GPU implementations of both approaches are tested to assess the scalability of the algorithms based on the number of threads involved. These implementations are encapsulated in a library called Merlin, intended for future research and industrial applications that involve these approaches.Both approaches, particularly the method of tensor decomposition, demonstrate promising results in terms of data compression and reconstruction accuracy. Integrating these methods into the standard two-step scheme would not only substantially reduce memory usage for storing cross sections, but also significantly decrease the computational effort required for interpolating cross sections during core calculations, thereby reducing overall calculation time for industrial reactor simulations
Gli stili APA, Harvard, Vancouver, ISO e altri
46

Gaudiello, Ilaria. "Learning robotics, with robotics, by robotics : a study on three paradigms of educational robotics, under the issues of robot representation, robot acceptance, and robot impact on learning". Thesis, Paris 8, 2015. http://www.theses.fr/2015PA080081.

Testo completo
Abstract (sommario):
La relation entre progrès technologique et innovation pédagogique a récemment engendré un nouveau champ de recherche, à la croisée des chemins entre la Psychologie, les Sciences de l’Education et l’Intelligence Artificielle : la Robotique Educationnelle (RE). La présente thèse fournit un état de l’art critique sur la RE, ses origines et son positionnement au sein des technologies de l’information et de la communication pour l’enseignement (TICE). A travers une analyse des finalités éducatives atteignables en fonction du statut technologique et des modalités d’apprentissage spécifiques aux différents types de robots, nous définissons trois paradigmes pédagogiques : (i) l’apprentissage de la robotique, (ii) l'apprentissage avec la robotique, et (iii) l'apprentissage par la robotique. Ces trois paradigmes sont abordés à travers trois thématiques, dans une perspective de recherche fondamentale en Psychologie : (i) les représentations mentales que les humains ont du robot, (ii) l’acceptation et la confiance dans les interactions homme-robot et (iii) les apprentissages favorisés par les robots en contexte éducatif
Through a psychological perspective, the thesis concerns the three ER learning paradigms that are distinguished upon the different hardware, software, and correspondent modes of interaction allowed by the robot. Learning robotics was investigated under the issue of robot representation. By robot representation, we mean its ontological and pedagogical status and how such status change when users learn robotics. In order to answer this question, we carried out an experimental study based on pre- and post-inquiries, involving 79 participants. Learning with robotics was investigated under the issue of robot’s functional and social acceptance. Here, the underlying research questions were as follows: do students trust in robot’s functional and social savvy? Is trust in functional savvy a pre-requisite for trust in social savvy? Which individuals and contextual factors are more likely to influence this trust? In order to answer these questions, we have carried an experimental study with 56 participants and an iCub robot. Trust in the robot has been considered as a main indicator of acceptance in situations of perceptual and socio-cognitive uncertainty and was measured by participants’ conformation to answers given by iCub. Learning by robotics was investigated under the issue of robot’s impact on learning. The research questions were the following: to what extent the combined RBI & IBSE frame has a positive impact on cognitive, affective, social and meta-cognitive dimensions of learning? Does this combined educational frame improve both domain-specific and non-domain specific knowledge and competences of students? In order to answer these questions, we have carried a one-year RBI & IBSE experimental study in the frame of RObeeZ, a research made through the FP7 EU project Pri-Sci-Net. The longitudinal experiments involved 26 pupils and 2 teachers from a suburb parisian primary school
Gli stili APA, Harvard, Vancouver, ISO e altri
47

Bourigault, Simon. "Apprentissage de représentations pour la prédiction de propagation d'information dans les réseaux sociaux". Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066368/document.

Testo completo
Abstract (sommario):
Dans ce manuscrit, nous étudions la diffusion d'information dans les réseaux sociaux en ligne. Des sites comme Facebook ou Twitter sont en effet devenus aujourd'hui des media d'information à part entière, sur lesquels les utilisateurs échangent de grandes quantités de données. La plupart des modèles existant pour expliquer ce phénomène de diffusion sont des modèles génératifs, basés sur des hypothèses fortes concernant la structure et la dynamique temporelle de la diffusion d'information. Nous considérerons dans ce manuscrit le problème de la prédiction de diffusion dans le cas où le graphe social est inconnu, et où seules les actions des utilisateurs peuvent être observées. - Nous proposons, dans un premier temps, une méthode d'apprentissage du modèle independent cascade consistant à ne pas prendre en compte la dimension temporelle de la diffusion. Des résultats expérimentaux obtenus sur des données réelles montrent que cette approche permet d'obtenir un modèle plus performant et plus robuste. - Nous proposons ensuite plusieurs méthodes de prédiction de diffusion reposant sur des technique d'apprentissage de représentations. Celles-ci nous permettent de définir des modèles plus compacts, et plus robustes à la parcimonie des données. - Enfin, nous terminons en appliquant une approche similaire au problème de détection de source, consistant à retrouver l'utilisateur ayant lancé une rumeur sur un réseau social. En utilisant des méthodes d'apprentissage de représentations, nous obtenons pour cette tâche un modèle beaucoup plus rapide et performant que ceux de l'état de l'art
In this thesis, we study information diffusion in online social networks. Websites like Facebook or Twitter have indeed become information medias, on which users create and share a lot of data. Most existing models of the information diffusion phenomenon relies on strong hypothesis about the structure and dynamics of diffusion. In this document, we study the problem of diffusion prediction in the context where the social graph is unknown and only user actions are observed. - We propose a learning algorithm for the independant cascades model that does not take time into account. Experimental results show that this approach obtains better results than time-based learning schemes. - We then propose several representations learning methods for this task of diffusion prediction. This let us define more compact and faster models. - Finally, we apply our representation learning approach to the source detection task, where it obtains much better results than graph-based approaches
Gli stili APA, Harvard, Vancouver, ISO e altri
48

Laforgue, Pierre. "Deep kernel representation learning for complex data and reliability issues". Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT006.

Testo completo
Abstract (sommario):
Cette thèse débute par l'étude d'architectures profondes à noyaux pour les données complexes. L'une des clefs du succès des algorithmes d'apprentissage profond est la capacité des réseaux de neurones à extraire des représentations pertinentes. Cependant, les raisons théoriques de ce succès nous sont encore largement inconnues, et ces approches sont presque exclusivement réservées aux données vectorielles. D'autre part, les méthodes à noyaux engendrent des espaces fonctionnels étudiés de longue date, les Espaces de Hilbert à Noyau Reproduisant (Reproducing Kernel Hilbert Spaces, RKHSs), dont la complexité est facilement contrôlée par le noyau ou la pénalisation, tout en autorisant les prédictions dans les espaces structurés complexes via les RKHSs à valeurs vectorielles (vv-RKHSs).L'architecture proposée consiste à remplacer les blocs élémentaires des réseaux usuels par des fonctions appartenant à des vv-RKHSs. Bien que très différents à première vue, les espaces fonctionnels ainsi définis sont en réalité très similaires, ne différant que par l'ordre dans lequel les fonctions linéaires/non-linéaires sont appliquées. En plus du contrôle théorique sur les couches, considérer des fonctions à noyau permet de traiter des données structurées, en entrée comme en sortie, étendant le champ d'application des réseaux aux données complexes. Nous conclurons cette partie en montrant que ces architectures admettent la plupart du temps une paramétrisation finie-dimensionnelle, ouvrant la voie à des méthodes d'optimisation efficaces pour une large gamme de fonctions de perte.La seconde partie de cette thèse étudie des alternatives à la moyenne empirique comme substitut de l'espérance dans le cadre de la Minimisation du Risque Empirique (Empirical Risk Minimization, ERM). En effet, l'ERM suppose de manière implicite que la moyenne empirique est un bon estimateur. Cependant, dans de nombreux cas pratiques (e.g. données à queue lourde, présence d'anomalies, biais de sélection), ce n'est pas le cas.La Médiane-des-Moyennes (Median-of-Means, MoM) est un estimateur robuste de l'espérance construit comme suit: des moyennes empiriques sont calculées sur des sous-échantillons disjoints de l'échantillon initial, puis est choisie la médiane de ces moyennes. Nous proposons et analysons deux extensions de MoM, via des sous-échantillons aléatoires et/ou pour les U-statistiques. Par construction, les estimateurs MoM présentent des propriétés de robustesse, qui sont exploitées plus avant pour la construction de méthodes d'apprentissage robustes. Il est ainsi prouvé que la minimisation d'un estimateur MoM (aléatoire) est robuste aux anomalies, tandis que les méthodes de tournoi MoM sont étendues au cas de l'apprentissage sur les paires.Enfin, nous proposons une méthode d'apprentissage permettant de résister au biais de sélection. Si les données d'entraînement proviennent d'échantillons biaisés, la connaissance des fonctions de biais permet une repondération non-triviale des observations, afin de construire un estimateur non biaisé du risque. Nous avons alors démontré des garanties non-asymptotiques vérifiées par les minimiseurs de ce dernier, tout en supportant empiriquement l'analyse
The first part of this thesis aims at exploring deep kernel architectures for complex data. One of the known keys to the success of deep learning algorithms is the ability of neural networks to extract meaningful internal representations. However, the theoretical understanding of why these compositional architectures are so successful remains limited, and deep approaches are almost restricted to vectorial data. On the other hand, kernel methods provide with functional spaces whose geometry are well studied and understood. Their complexity can be easily controlled, by the choice of kernel or penalization. In addition, vector-valued kernel methods can be used to predict kernelized data. It then allows to make predictions in complex structured spaces, as soon as a kernel can be defined on it.The deep kernel architecture we propose consists in replacing the basic neural mappings functions from vector-valued Reproducing Kernel Hilbert Spaces (vv-RKHSs). Although very different at first glance, the two functional spaces are actually very similar, and differ only by the order in which linear/nonlinear functions are applied. Apart from gaining understanding and theoretical control on layers, considering kernel mappings allows for dealing with structured data, both in input and output, broadening the applicability scope of networks. We finally expose works that ensure a finite dimensional parametrization of the model, opening the door to efficient optimization procedures for a wide range of losses.The second part of this thesis investigates alternatives to the sample mean as substitutes to the expectation in the Empirical Risk Minimization (ERM) paradigm. Indeed, ERM implicitly assumes that the empirical mean is a good estimate of the expectation. However, in many practical use cases (e.g. heavy-tailed distribution, presence of outliers, biased training data), this is not the case.The Median-of-Means (MoM) is a robust mean estimator constructed as follows: the original dataset is split into disjoint blocks, empirical means on each block are computed, and the median of these means is finally returned. We propose two extensions of MoM, both to randomized blocks and/or U-statistics, with provable guarantees. By construction, MoM-like estimators exhibit interesting robustness properties. This is further exploited by the design of robust learning strategies. The (randomized) MoM minimizers are shown to be robust to outliers, while MoM tournament procedure are extended to the pairwise setting.We close this thesis by proposing an ERM procedure tailored to the sample bias issue. If training data comes from several biased samples, computing blindly the empirical mean yields a biased estimate of the risk. Alternatively, from the knowledge of the biasing functions, it is possible to reweight observations so as to build an unbiased estimate of the test distribution. We have then derived non-asymptotic guarantees for the minimizers of the debiased risk estimate thus created. The soundness of the approach is also empirically endorsed
Gli stili APA, Harvard, Vancouver, ISO e altri
49

Vukotic, Verdran. "Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data". Thesis, Rennes, INSA, 2017. http://www.theses.fr/2017ISAR0015/document.

Testo completo
Abstract (sommario):
La thèse porte sur le développement d'architectures neuronales profondes permettant d'analyser des contenus textuels ou visuels, ou la combinaison des deux. De manière générale, le travail tire parti de la capacité des réseaux de neurones à apprendre des représentations abstraites. Les principales contributions de la thèse sont les suivantes: 1) Réseaux récurrents pour la compréhension de la parole: différentes architectures de réseaux sont comparées pour cette tâche sur leurs facultés à modéliser les observations ainsi que les dépendances sur les étiquettes à prédire. 2) Prédiction d’image et de mouvement : nous proposons une architecture permettant d'apprendre une représentation d'une image représentant une action humaine afin de prédire l'évolution du mouvement dans une vidéo ; l'originalité du modèle proposé réside dans sa capacité à prédire des images à une distance arbitraire dans une vidéo. 3) Encodeurs bidirectionnels multimodaux : le résultat majeur de la thèse concerne la proposition d'un réseau bidirectionnel permettant de traduire une modalité en une autre, offrant ainsi la possibilité de représenter conjointement plusieurs modalités. L'approche été étudiée principalement en structuration de collections de vidéos, dons le cadre d'évaluations internationales où l'approche proposée s'est imposée comme l'état de l'art. 4) Réseaux adverses pour la fusion multimodale: la thèse propose d'utiliser les architectures génératives adverses pour apprendre des représentations multimodales en offrant la possibilité de visualiser les représentations dans l'espace des images
In this dissertation, the thesis that deep neural networks are suited for analysis of visual, textual and fused visual and textual content is discussed. This work evaluates the ability of deep neural networks to learn automatic multimodal representations in either unsupervised or supervised manners and brings the following main contributions:1) Recurrent neural networks for spoken language understanding (slot filling): different architectures are compared for this task with the aim of modeling both the input context and output label dependencies.2) Action prediction from single images: we propose an architecture that allow us to predict human actions from a single image. The architecture is evaluated on videos, by utilizing solely one frame as input.3) Bidirectional multimodal encoders: the main contribution of this thesis consists of neural architecture that translates from one modality to the other and conversely and offers and improved multimodal representation space where the initially disjoint representations can translated and fused. This enables for improved multimodal fusion of multiple modalities. The architecture was extensively studied an evaluated in international benchmarks within the task of video hyperlinking where it defined the state of the art today.4) Generative adversarial networks for multimodal fusion: continuing on the topic of multimodal fusion, we evaluate the possibility of using conditional generative adversarial networks to lean multimodal representations in addition to providing multimodal representations, generative adversarial networks permit to visualize the learned model directly in the image domain
Gli stili APA, Harvard, Vancouver, ISO e altri
50

Gaudiello, Ilaria. "Learning robotics, with robotics, by robotics : a study on three paradigms of educational robotics, under the issues of robot representation, robot acceptance, and robot impact on learning". Electronic Thesis or Diss., Paris 8, 2015. http://www.theses.fr/2015PA080081.

Testo completo
Abstract (sommario):
La relation entre progrès technologique et innovation pédagogique a récemment engendré un nouveau champ de recherche, à la croisée des chemins entre la Psychologie, les Sciences de l’Education et l’Intelligence Artificielle : la Robotique Educationnelle (RE). La présente thèse fournit un état de l’art critique sur la RE, ses origines et son positionnement au sein des technologies de l’information et de la communication pour l’enseignement (TICE). A travers une analyse des finalités éducatives atteignables en fonction du statut technologique et des modalités d’apprentissage spécifiques aux différents types de robots, nous définissons trois paradigmes pédagogiques : (i) l’apprentissage de la robotique, (ii) l'apprentissage avec la robotique, et (iii) l'apprentissage par la robotique. Ces trois paradigmes sont abordés à travers trois thématiques, dans une perspective de recherche fondamentale en Psychologie : (i) les représentations mentales que les humains ont du robot, (ii) l’acceptation et la confiance dans les interactions homme-robot et (iii) les apprentissages favorisés par les robots en contexte éducatif
Through a psychological perspective, the thesis concerns the three ER learning paradigms that are distinguished upon the different hardware, software, and correspondent modes of interaction allowed by the robot. Learning robotics was investigated under the issue of robot representation. By robot representation, we mean its ontological and pedagogical status and how such status change when users learn robotics. In order to answer this question, we carried out an experimental study based on pre- and post-inquiries, involving 79 participants. Learning with robotics was investigated under the issue of robot’s functional and social acceptance. Here, the underlying research questions were as follows: do students trust in robot’s functional and social savvy? Is trust in functional savvy a pre-requisite for trust in social savvy? Which individuals and contextual factors are more likely to influence this trust? In order to answer these questions, we have carried an experimental study with 56 participants and an iCub robot. Trust in the robot has been considered as a main indicator of acceptance in situations of perceptual and socio-cognitive uncertainty and was measured by participants’ conformation to answers given by iCub. Learning by robotics was investigated under the issue of robot’s impact on learning. The research questions were the following: to what extent the combined RBI & IBSE frame has a positive impact on cognitive, affective, social and meta-cognitive dimensions of learning? Does this combined educational frame improve both domain-specific and non-domain specific knowledge and competences of students? In order to answer these questions, we have carried a one-year RBI & IBSE experimental study in the frame of RObeeZ, a research made through the FP7 EU project Pri-Sci-Net. The longitudinal experiments involved 26 pupils and 2 teachers from a suburb parisian primary school
Gli stili APA, Harvard, Vancouver, ISO e altri
Offriamo sconti su tutti i piani premium per gli autori le cui opere sono incluse in raccolte letterarie tematiche. Contattaci per ottenere un codice promozionale unico!

Vai alla bibliografia