Dissertationen zum Thema „Apprentissage profond – Apprentissage non supervisé (intelligence artificielle)“

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit Top-50 Dissertationen für die Forschung zum Thema "Apprentissage profond – Apprentissage non supervisé (intelligence artificielle)" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Sehen Sie die Dissertationen für verschiedene Spezialgebieten durch und erstellen Sie Ihre Bibliographie auf korrekte Weise.

1

Boussik, Amine. „Apprentissage profond non-supervisé : Application à la détection de situations anormales dans l’environnement du train autonome“. Electronic Thesis or Diss., Valenciennes, Université Polytechnique Hauts-de-France, 2023. http://www.theses.fr/2023UPHF0040.

Der volle Inhalt der Quelle
Annotation:
La thèse aborde les défis du monitoring de l’environnement et de détection des anomalies, notamment des obstacles, pour un train de fret autonome. Bien que traditionnellement, les transports ferroviaires étaient sous la supervision humaine, les trains autonomes offrent des perspectives d’avantages en termes de coûts, de temps et de sécurité. Néanmoins, leur exploitation dans des environnements complexes pose d’importants enjeux de sûreté. Au lieu d’une approche supervisée nécessitant des données annotées onéreuses et limitées, cette recherche adopte une technique non supervisée, utilisant des données non étiquetées pour détecter les anomalies en s’appuyant sur des techniques capables d’identifier les comportements atypiques.Deux modèles de surveillance environnementale sont présentés : le premier, basé sur un autoencodeur convolutionnel (CAE), est dédié à l’identification d’obstacles sur la voie principale; le second, une version avancée incorporant le transformeur de vision (ViT), se concentre sur la surveillance générale de l’environnement. Tous deux exploitent des techniques d’apprentissage non supervisé pour la détection d’anomalies.Les résultats montrent que la méthode mise en avant apporte des éléments pertinents pour le monitoring de l’environnement du train de fret autonome, ayant un potentiel pour renforcer sa fiabilité et sécurité. L’utilisation de techniques non supervisées démontre ainsi l’utilité et la pertinence de leur adoption dans un contexte d’application pour le train autonome
The thesis addresses the challenges of monitoring the environment and detecting anomalies, especially obstacles, for an autonomous freight train. Although traditionally, rail transport was under human supervision, autonomous trains offer potential advantages in terms of costs, time, and safety. However, their operation in complex environments poses significant safety concerns. Instead of a supervised approach that requires costly and limited annotated data, this research adopts an unsupervised technique, using unlabeled data to detect anomalies based on methods capable of identifying atypical behaviors.Two environmental surveillance models are presented : the first, based on a convolutional autoencoder (CAE), is dedicated to identifying obstacles on the main track; the second, an advanced version incorporating the vision transformer (ViT), focuses on overall environmental surveillance. Both employ unsupervised learning techniques for anomaly detection.The results show that the highlighted method offers relevant insights for monitoring the environment of the autonomous freight train, holding potential to enhance its reliability and safety. The use of unsupervised techniques thus showcases the utility and relevance of their adoption in an application context for the autonomous train
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Chen, Hao. „Vers la ré-identification de personnes non-supervisée“. Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4014.

Der volle Inhalt der Quelle
Annotation:
En tant que composant central des systèmes de vidéo-surveillance intelligents, la ré-identification de personnes (ReID) vise à rechercher une personne d'intérêt à travers des caméras qui ne se chevauchent pas. Malgré des améliorations significatives de la ReID supervisée, le processus d'annotation encombrant le rend moins évolutif dans les déploiements réels. De plus, comme les représentations d'apparence peuvent être affectées par des facteurs bruyants, tels que le niveau d'éclairage et les propriétés de la caméra, entre différents domaines, les modèles ReID de personnes subissent une baisse de performances importante en présence d'écarts de domaine. Nous sommes particulièrement intéressés par la conception d'algorithmes capables d'adapter un modèle ReID de personnes à un domaine cible sans supervision humaine. Dans un tel contexte, nous nous concentrons principalement sur la conception de méthodes d'adaptation de domaine non-supervisée et d'apprentissage de représentation non-supervisée pour le ReID de personnes.Dans cette thèse, nous explorons d'abord comment construire des représentations robustes en combinant à la fois des caractéristiques globales et locales sous la condition supervisée. Ensuite, vers un système ReID adaptatif au domaine non-supervisé, nous proposons trois méthodes non-supervisées pour la ReID de personnes, notamment 1) la distillation des connaissances enseignant-étudiant avec des structures de réseau asymétriques pour encourager la diversité des caractéristiques, 2) un cadre d'apprentissage conjoint génératif et contrastif qui génère des vues augmentées avec un réseau génératif pour l'apprentissage contrastif, et 3) explorer les relations inter-instances et concevoir des fonctions de perte conscientes des relations pour une meilleure ReID de personnes basée sur l'apprentissage contrastif.Nos méthodes ont été largement évaluées sur des benchmarks de ReID, tels que Market-1501, DukeMTMC-reID et MSMT17. Les méthodes proposées surpassent considérablement les méthodes précédentes sur les benchmarks de ReID, poussant considérablement la ReID de personnes vers des déploiements dans le monde réel
As a core component of intelligent video surveillance systems, person re-identification (ReID) targets at retrieving a person of interest across non-overlapping cameras. Despite significant improvements in supervised ReID, cumbersome annotation process makes it less scalable in real-world deployments. Moreover, as appearance representations can be affected by noisy factors, such as illumination level and camera properties, between different domains, person ReID models suffer a large performance drop in the presence of domain gaps. We are particularly interested in designing algorithms that can adapt a person ReID model to a target domain without human supervision. In such context, we mainly focus on designing unsupervised domain adaptation and unsupervised representation learning methods for person ReID.In this thesis, we first explore how to build robust representations by combining both global and local features under the supervised condition. Then, towards an unsupervised domain adaptive ReID system, we propose three unsupervised methods for person ReID, including 1) teacher-student knowledge distillation with asymmetric network structures for feature diversity encouragement, 2) joint generative and contrastive learning framework that generates augmented views with a generative adversarial network for contrastive learning, and 3) exploring inter-instance relations and designing relation-aware loss functions for better contrastive learning based person ReID.Our methods have been extensively evaluated on main-stream ReID datasets, such as Market-1501, DukeMTMC-reID and MSMT17. The proposed methods significantly outperform previous methods on the ReID datasets, significantly pushing person ReID to real-world deployments
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Chareyre, Maxime. „Apprentissage non-supervisé pour la découverte de propriétés d'objets par découplage entre interaction et interprétation“. Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2023. http://www.theses.fr/2023UCFA0122.

Der volle Inhalt der Quelle
Annotation:
Les robots sont de plus en plus utilisés pour réaliser des tâches dans des environnements contrôlés. Leur utilisation en milieu ouvert est cependant encore confrontée à des difficultés. L'agent robotique est en effet susceptible de rencontrer des objets dont il ignore le comportement et la fonction. Dans certains cas, il doit interagir avec ces éléments pour réaliser sa mission en les collectant ou en les déplaçant mais, sans la connaissance de leurs propriétés dynamiques il n'est pas possible de mettre en place une stratégie de résolution de la mission efficace.Dans cette thèse, nous présentons une méthode visant à apprendre à un robot autonome une stratégie d'interaction physique avec des objets inconnus, sans aucune connaissance a priori, l'objectif étant d'extraire de l'information sur un maximum de propriétés physiques de l'objet à partir des interactions observées par ses capteurs. Les méthodes existantes pour la caractérisation d'objets par interactions physiques ne répondent pas entièrement à ces critères. En effet, les interactions établies ne permettent qu'une représentation implicite de la dynamique des objets, nécessitant une supervision pour identifier leurs propriétés. D'autre part, la solution proposée s'appuie sur des scénarios peu réalistes sans agent. Notre approche se distingue de l'état de l'art en proposant une méthode générique pour l'apprentissage de l'interaction, indépendante de l'objet et de ses propriétés, et pouvant donc être découplée de la phase de leurs prédictions. Cela permet notamment de mener à un pipeline global totalement non-supervisé.Dans une première phase, nous proposons d'apprendre une stratégie d'interaction avec l'objet via une méthode d'apprentissage par renforcement non-supervisée, en utilisant un signal de motivation intrinsèque qui repose sur l'idée de maximisation des variations d'un vecteur d'état de l'objet. Le but est d'obtenir une série d'interactions contenant des informations fortement corrélées aux propriétés physiques de l'objet. Cette méthode a été testée sur un robot simulé interagissant par poussée et a permis d'identifier avec précision des propriétés telles que la masse, la forme de l'objet et les frottements.Dans une seconde phase, nous réalisons l'hypothèse que les vraies propriétés physiques définissent un espace latent explicatif des comportements de l'objet et que cet espace peut être identifié à partir des observations recueillies grâce aux interactions de l'agent. Nous mettons en place une tâche de prédiction auto-supervisée dans laquelle nous adaptons une architecture de l'état de l'art pour construire cet espace latent. Nos simulations confirment que la combinaison du modèle comportemental avec cette architecture permet de faire émerger une représentation des propriétés de l'objet dont les composantes principales s'avèrent fortement corrélées avec les propriétés physiques de l'objet.Les propriétés des objets étant extraites, l'agent peut les exploiter pour améliorer son efficacité dans des tâches impliquant ces objets. Nous concluons cette étude par une mise en avant du gain de performance de l'agent au travers d'un entraînement via l'apprentissage par renforcement sur une tâche simplifiée de repositionnement d'objet où les propriétés sont parfaitement connues.L'intégralité du travail effectué en simulation confirme l'efficacité d'une méthode novatrice visant à découvrir en autonomie les propriétés physiques d'un objet au travers d'interactions physiques d'un robot. Les perspectives d'extension de ces travaux concernent le transfert vers un robot réel en milieu encombré
Robots are increasingly used to achieve tasks in controlled environments. However, their use in open environments is still fraught with difficulties. Robotic agents are likely to encounter objects whose behaviour and function they are unaware of. In some cases, it must interact with these elements to carry out its mission by collecting or moving them, but without knowledge of their dynamic properties it is not possible to implement an effective strategy for resolving the mission.In this thesis, we present a method for teaching an autonomous robot a physical interaction strategy with unknown objects, without any a priori knowledge, the aim being to extract information about as many of the object's physical properties as possible from the interactions observed by its sensors. Existing methods for characterising objects through physical interactions do not fully satisfy these criteria. Indeed, the interactions established only provide an implicit representation of the object's dynamics, requiring supervision to identify their properties. Furthermore, the proposed solution is based on unrealistic scenarios without an agent. Our approach differs from the state of the art by proposing a generic method for learning interaction that is independent of the object and its properties, and can therefore be decoupled from the prediction phase. In particular, this leads to a completely unsupervised global pipeline.In the first phase, we propose to learn an interaction strategy with the object via an unsupervised reinforcement learning method, using an intrinsic motivation signal based on the idea of maximising variations in a state vector of the object. The aim is to obtain a set of interactions containing information that is highly correlated with the object's physical properties. This method has been tested on a simulated robot interacting by pushing and has enabled properties such as the object's mass, shape and friction to be accurately identified.In a second phase, we make the assumption that the true physical properties define a latent space that explains the object's behaviours and that this space can be identified from observations collected through the agent's interactions. We set up a self-supervised prediction task in which we adapt a state-of-the-art architecture to create this latent space. Our simulations confirm that combining the behavioural model with this architecture leads to the emergence of a representation of the object's properties whose principal components are shown to be strongly correlated with the object's physical properties.Once the properties of the objects have been extracted, the agent can use them to improve its efficiency in tasks involving these objects. We conclude this study by highlighting the performance gains achieved by the agent through training via reinforcement learning on a simplified object repositioning task where the properties are perfectly known.All the work carried out in simulation confirms the effectiveness of an innovative method aimed at autonomously discovering the physical properties of an object through the physical interactions of a robot. The prospects for extending this work involve transferring it to a real robot in a cluttered environment
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Monnier, Tom. „Unsupervised image analysis by synthesis“. Electronic Thesis or Diss., Marne-la-vallée, ENPC, 2023. http://www.theses.fr/2023ENPC0037.

Der volle Inhalt der Quelle
Annotation:
Le but de cette thèse est de développer des approches d'intelligence artificielle (IA) pour analyser des collections d'images sans annotations. Des avancées dans ce domaine sont prometteuses pour des applications à fort impact reliées à la 3D (e.g., reconstruire une scène avec des composantes 3D manipulables pour les films d'animation ou les jeux vidéos) où annoter des exemples pour entrainer l'IA est difficile, et aussi pour des applications plus spécifiques (e.g., analyser l'évolution des charactères dans des documents du 12ème siècle) où employer des efforts conséquents pour annoter de larges bases de données pose question. L'idée centrale de cette dissertation est de construire des IA qui apprennent l'analyse d'une collection d'images en synthétisant ces mêmes images. Apprendre des modèles d'analyse par synthèse est difficile car cela nécessite la conception d'un système de génération d'images apprenable qui exhibite explicitement l'analyse voulue. Pour atteindre notre but, nous présentons trois contributions clés.La première contribution de cette thèse est une nouvelle approche conceptuelle à la modélisation de catégorie. Nous proposons de représenter la catégorie d'une image, d'un objet 2D ou d'une forme 3D, avec un prototype qui est transformé via appprentissage profond pour modéliser les différentes instances au sein de la catégorie. Plus spécifiquement, nous introduisons des transformations paramétriques concrètes (e.g., des déformations géométriques ou des variations de couleurs) et utilisons des réseaux de neurones pour prédire les paramètres de transformations nécessaires pour instancier le prototype pour une image donnée. Nous démontrons l'efficacité de cette idée en regroupant des images et reconstruisant des objets 3D à part d'images d'une seule vue de l'objet. Nous obtenons des performances égales aux meilleures méthodes qui utilisent des représentations d'image ad-hoc ou des annotations.La deuxième contribution est une nouvelle manière de découvrir des éléments dans une collection d'images. Nous proposons de représenter une collection d'images par un ensemble d'éléments apprennables, composés pour synthétiser les images et optimisés par descente de gradient. Nous démontrons l'efficacité de cette idée en découvrant des éléments 2D reliées à des objets sémantiques représentés dans la collection d'images. Notre approche a des performances semblables aux meilleures méthodes qui synthétisent les images par réseaux de neurones, et est plus interprétable. Nous démontrons aussi son efficacité en découvrant des éléments 3D reliées à des formes primitives étant donnée une collection d'images illustrant une scène via différents points de vue. Comparé aux travaux précédents calculant des primitives dans des nuages de points 3D, nous obtenons des résultats qualitatifs et quantitatifs supérieurs.La troisième contribution est plus technique et consiste en une nouvelle formulation pour calculer le rendu differentiable d'un mesh. Plus spécifiquement, nous formulons le rendu différentiable d'un mesh 3D comme l'alpha composition des faces du mesh par ordre de profondeur croissante. Comparée aux travaux précédents, cette formulation est clé pour apprendre des meshes 3D sans utiliser des annotations représentant les régions d'objet. En outre, cette formulation nous permet de facilement introduire la possibilité d'apprendre des meshes transparents, que nous modélisons pour représenter une scène comme une composition d'un nombre variable de meshes
The goal of this thesis is to develop machine learning approaches to analyze collections of images without annotations. Advances in this area hold particular promises for high-impact 3D-related applications (e.g., reconstructing a real-world scene with 3D actionable components for animation movies or video games) where annotating examples to teach the machines is difficult, as well as more micro applications related to specific needs (e.g., analyzing the character evolution from 12th century documents) where spending significant effort on annotating large-scale database is debatable. The central idea of this dissertation is to build machines that learn to analyze an image collection by synthesizing the images in the collection. Learning analysis models by synthesis is difficult because it requires the design of a learnable image generation system that explicitly exhibits the desired analysis output. To achieve our goal, we present three key contributions.The first contribution of this thesis is a new conceptual approach to category modeling. We propose to represent the category of an image, a 2D object or a 3D shape, with a prototype that is transformed using deep learning to model the different instances within the category. Specifically, we design meaningful parametric transformations (e.g., geometric deformations or colorimetric variations) and use neural networks to predict the transformation parameters necessary to instantiate the prototype for a given image. We demonstrate the effectiveness of this idea to cluster images and reconstruct 3D objects from single-view images. We obtain performances on par with the best state-of-the-art methods which leverage handcrafted features or annotations.The second contribution is a new way to discover elements in a collection of images. We propose to represent an image collection by a set of learnable elements composed together to synthesize the images and optimized by gradient descent. We first demonstrate the effectiveness of this idea by discovering 2D elements related to semantic objects represented by a large image collection. Our approach have performances similar to the best concurrent methods which synthesize images with neural networks, and ours comes with better interpretability. We also showcase the capability of this idea by discovering 3D elements related to simple primitive shapes given as input a collection of images depicting a scene from multiple viewpoints. Compared to prior works finding primitives in 3D point clouds, we showcase much better qualitative and quantitative performances.The third contribution is more technical and consist in a new formulation to compute differentiable mesh rendering. Specifically, we formulate the differentiable rendering of a 3D mesh as the alpha compositing of the mesh faces in an increasing depth order. Compared to prior works, this formulation is key to enable us to learn 3D meshes without requiring object region annotations. In addition, it allows us to seamlessly introduce the possibility to learn transparent meshes, which we design to model a scene as a composition of a variable number of meshes
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Mehr, Éloi. „Unsupervised Learning of 3D Shape Spaces for 3D Modeling“. Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS566.

Der volle Inhalt der Quelle
Annotation:
Bien que les données 3D soient de plus en plus populaires, en particulier avec la démocratisation des expériences de réalité virtuelle et augmentée, il reste très difficile de manipuler une forme 3D, même pour des designers ou des experts. Partant d’une base de données d’instances 3D d’une ou plusieurs catégories d’objets, nous voulons apprendre la variété des formes plausibles en vue de développer de nouveaux outils intelligents de modélisation et d’édition 3D. Cependant, cette variété est souvent bien plus complexe comparée au domaine 2D. En effet, les surfaces 3D peuvent être représentées en utilisant plusieurs plongements distincts, et peuvent aussi exhiber des alignements ou des topologies différentes. Dans cette thèse, nous étudions la variété des formes plausibles à la lumière des défis évoqués précédemment, en approfondissant trois points de vue différents. Tout d'abord, nous considérons la variété comme un espace quotient, dans le but d’apprendre la géométrie intrinsèque des formes à partir d’une base de données où les modèles 3D ne sont pas co-alignés. Ensuite, nous supposons que la variété est non connexe, ce qui aboutit à un nouveau modèle d’apprentissage profond capable d’automatiquement partitionner et apprendre les formes selon leur typologie. Enfin, nous étudions la conversion d’une entrée 3D non structurée vers une géométrie exacte, représentée comme un arbre structuré de primitives solides continues
Even though 3D data is becoming increasingly more popular, especially with the democratization of virtual and augmented experiences, it remains very difficult to manipulate a 3D shape, even for designers or experts. Given a database containing 3D instances of one or several categories of objects, we want to learn the manifold of plausible shapes in order to develop new intelligent 3D modeling and editing tools. However, this manifold is often much more complex compared to the 2D domain. Indeed, 3D surfaces can be represented using various embeddings, and may also exhibit different alignments and topologies. In this thesis we study the manifold of plausible shapes in the light of the aforementioned challenges, by deepening three different points of view. First of all, we consider the manifold as a quotient space, in order to learn the shapes’ intrinsic geometry from a dataset where the 3D models are not co-aligned. Then, we assume that the manifold is disconnected, which leads to a new deep learning model that is able to automatically cluster and learn the shapes according to their typology. Finally, we study the conversion of an unstructured 3D input to an exact geometry, represented as a structured tree of continuous solid primitives
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Loiseau, Romain. „Real-World 3D Data Analysis : Toward Efficiency and Interpretability“. Electronic Thesis or Diss., Marne-la-vallée, ENPC, 2023. http://www.theses.fr/2023ENPC0028.

Der volle Inhalt der Quelle
Annotation:
Cette thèse explore de nouvelles approches d'apprentissage profond pour l'analyse des données 3D du monde réel. Le traitement des données 3D est utile pour de nombreuses applications telles que la conduite autonome, la gestion du territoire, la surveillance des installations industrielles, l'inventaire forestier et la mesure de biomasse. Cependant, l'annotation et l'analyse des données 3D peuvent être exigeantes. En particulier, il est souvent difficile de respecter des contraintes liées à l'utilisation des ressources de calcul ou à l'efficacité de l'annotation. La difficulté d'interpréter et de comprendre le fonctionnement interne des modèles d'apprentissage profond peut également limiter leur adoption.Des efforts considérables ont été déployés pour concevoir des méthodes d'analyse des données 3D, afin d'effectuer des tâches telles que la classification des formes ou la segmentation et la décomposition de scènes. Les premières analyses automatisées s'appuyaient sur des descripteurs créés à la main et incorporaient des connaissances préalables sur les acquisitions du monde réel. Les techniques modernes d'apprentissage profond ont de meilleures performances, mais, sont souvent coûteuses en calcul, dépendent de grands ensembles de données annotées, et sont peu interprétables. Les contributions de cette thèse répondent à ces limitations.La première contribution est une architecture d'apprentissage profond pour l’analyse efficace de séquences LiDAR en temps réel. Notre approche prend en compte la géométrie d'acquisition des capteurs LiDAR rotatifs, que de nombreuses pipelines de conduite autonome utilisent. Par rapport aux travaux antérieurs, qui considèrent les rotations complètes des capteurs LiDAR individuellement, notre modèle traite l'acquisition par petits incréments. L'architecture que nous proposons à une performance comparable à celle des meilleures méthodes, tout en réduisant le temps de traitement de plus de cinq fois, et la taille du modèle de plus de cinquante fois.La deuxième contribution est une méthode d'apprentissage profond permettant de résumer de vastes collections de formes 3D à l'aide d'un petit ensemble de formes 3D. Nous apprenons un faible nombre de formes prototypiques 3D qui sont alignées et déformées pour reconstruire les nuages de points d'entrée. Notre représentation compacte et interprétable des collections de formes 3D permet d'obtenir des résultats à l'état de l'art de la segmentation sémantique avec peu d'exemples annotés.La troisième contribution développe l'analyse non supervisée pour la décomposition de scans 3D du monde réel en parties interprétables. Nous introduisons un modèle de reconstruction probabiliste permettant de décomposer un nuage de points 3D à l'aide d'un petit ensemble de formes prototypiques apprises. Nous surpassons les méthodes non supervisées les plus récentes en termes de précision de décomposition, tout en produisant des représentations visuellement interprétables. Nous offrons des avantages significatifs par rapport aux approches existantes car notre modèle ne nécessite pas d'annotations lors de l'entraînement.Cette thèse présente également deux jeux de données annotés du monde réel en accès libre, HelixNet et Earth Parser Dataset, acquis respectivement avec des LiDAR terrestres et aériens. HelixNet est le plus grand jeu de données LiDAR de conduite autonome avec des annotations denses, et fournit les métadonnées du capteur pour chaque points, cruciales pour mesurer précisément la latence des méthodes de segmentation sémantique. Le Earth Parser Dataset se compose de sept scènes LiDAR aériennes, qui peuvent être utilisées pour évaluer les performances des techniques de traitement 3D dans divers environnements.Nous espérons que ces jeux de données, et ces méthodes fiables tenant compte des spécificités des acquisitions dans le monde réel, encourageront la poursuite de la recherche vers des modèles plus efficaces et plus interprétables
This thesis explores new deep-learning approaches for modeling and analyzing real-world 3D data. 3D data processing is helpful for numerous high-impact applications such as autonomous driving, territory management, industry facilities monitoring, forest inventory, and biomass measurement. However, annotating and analyzing 3D data can be demanding. Specifically, matching constraints regarding computing resources or annotation efficiency is often challenging. The difficulty of interpreting and understanding the inner workings of deep learning models can also limit their adoption.The computer vision community has made significant efforts to design methods to analyze 3D data, to perform tasks such as shape classification, scene segmentation, and scene decomposition. Early automated analysis relied on hand-crafted descriptors and incorporated prior knowledge about real-world acquisitions. Modern deep learning techniques demonstrate the best performances but are often computationally expensive, rely on large annotated datasets, and have low interpretability. In this thesis, we propose contributions that address these limitations.The first contribution of this thesis is an efficient deep-learning architecture for analyzing LiDAR sequences in real time. Our approach explicitly considers the acquisition geometry of rotating LiDAR sensors, which many autonomous driving perception pipelines use. Compared to previous work, which considers complete LiDAR rotations individually, our model processes the acquisition in smaller increments. Our proposed architecture achieves accuracy on par with the best methods while reducing processing time by more than five times and model size by more than fifty times.The second contribution is a deep learning method to summarize extensive 3D shape collections with a small set of 3D template shapes. We learn end-to-end a small number of 3D prototypical shapes that are aligned and deformed to reconstruct input point clouds. The main advantage of our approach is that its representations are in the 3D space and can be viewed and manipulated. They constitute a compact and interpretable representation of 3D shape collections and facilitate annotation, leading to emph{state-of-the-art} results for few-shot semantic segmentation.The third contribution further expands unsupervised analysis for parsing large real-world 3D scans into interpretable parts. We introduce a probabilistic reconstruction model to decompose an input 3D point cloud using a small set of learned prototypical shapes. Our network determines the number of prototypes to use to reconstruct each scene. We outperform emph{state-of-the-art} unsupervised methods in terms of decomposition accuracy while remaining visually interpretable. We offer significant advantages over existing approaches as our model does not require manual annotations.This thesis also introduces two open-access annotated real-world datasets, HelixNet and the Earth Parser Dataset, acquired with terrestrial and aerial LiDARs, respectively. HelixNet is the largest LiDAR autonomous driving dataset with dense annotations and provides point-level sensor metadata crucial for precisely measuring the latency of semantic segmentation methods. The Earth Parser Dataset consists of seven aerial LiDAR scenes, which can be used to evaluate 3D processing techniques' performances in diverse environments.We hope that these datasets and reliable methods considering the specificities of real-world acquisitions will encourage further research toward more efficient and interpretable models
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Manenti, Céline. „Découverte d'unités linguistiques à l'aide de méthodes d'apprentissage non supervisé“. Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30074.

Der volle Inhalt der Quelle
Annotation:
La découverte d'unités linguistiques élémentaires (phonèmes, mots) uniquement à partir d'enregistrements sonores est un problème non-résolu qui suscite un fort intérêt de la communauté du traitement automatique de la parole, comme en témoignent les nombreuses contributions récentes de l'état de l'art. Durant cette thèse, nous nous sommes concentrés sur l'utilisation de réseaux de neurones pour répondre au problème. Nous avons approché le problème en utilisant les réseaux de neurones de manière supervisée, faiblement supervisée et multilingue. Nous avons ainsi développé des outils de segmentation automatique en phonèmes et de classification phonétique fondés sur des réseaux de neurones convolutifs. L'outil de segmentation automatique a obtenu 79% de F-mesure sur le corpus de parole conversationnelle en anglais BUCKEYE. Ce résultat est similaire à un annotateur humain d'après l'accord inter-annotateurs fourni par les créateurs du corpus. De plus, il n'a pas besoin de beaucoup de données (environ une dizaine de minutes par locuteur et 5 locuteurs différents) pour être performant. De plus, il est portable à d'autres langues (notamment pour des langues peu dotées telle que le xitsonga). Le système de classification phonétique permet de fixer les différents paramètres et hyperparamètres utiles pour un scénario non supervisé. Dans le cadre non supervisé, les réseaux de neurones (Auto-Encodeurs) nous ont permis de générer de nouvelles représentations paramétriques, concentrant l'information de la trame d'entrée et ses trames voisines. Nous avons étudié leur utilité pour la compression audio à partir du signal brut, pour laquelle ils se sont montrés efficaces (faible taux de RMS, même avec une compression de 99%). Nous avons également réalisé une pré-étude novatrice sur une utilisation différente des réseaux de neurones, pour générer des vecteurs de paramètres non pas à partir des sorties des couches mais des valeurs des poids des couches. Ces paramètres visent à imiter les coefficients de prédiction linéaire (Linear Predictive Coefficients, LPC). Dans le contexte de la découverte non supervisée d'unités similaires à des phonèmes (dénommées pseudo-phones dans ce mémoire) et la génération de nouvelles représentations paramétriques phonétiquement discriminantes, nous avons couplé un réseau de neurones avec un outil de regroupement (k-means). L'alternance itérative de ces deux outils a permis la génération de paramètres phonétiquement discriminants pour un même locuteur : de faibles taux d'erreur ABx intra-locuteur de 7,3% pour l'anglais, 8,5% pour le français et 8,4% pour le mandarin ont été obtenus. Ces résultats permettent un gain absolu d'environ 4% par rapport à la baseline (paramètres classiques MFCC) et sont proches des meilleures approches actuelles (1% de plus que le vainqueur du Zero Ressource Speech Challenge 2017). Les résultats inter-locuteurs varient entre 12% et 15% suivant la langue, contre 21% à 25% pour les MFCC
The discovery of elementary linguistic units (phonemes, words) only from sound recordings is an unresolved problem that arouses a strong interest from the community of automatic speech processing, as evidenced by the many recent contributions of the state of the art. During this thesis, we focused on using neural networks to answer the problem. We approached the problem using neural networks in a supervised, poorly supervised and multilingual manner. We have developed automatic phoneme segmentation and phonetic classification tools based on convolutional neural networks. The automatic segmentation tool obtained 79% F-measure on the BUCKEYE conversational speech corpus. This result is similar to a human annotator according to the inter-annotator agreement provided by the creators of the corpus. In addition, it does not need a lot of data (about ten minutes per speaker and 5 different speakers) to be effective. In addition, it is portable to other languages (especially for poorly endowed languages such as xitsonga). The phonetic classification system makes it possible to set the various parameters and hyperparameters that are useful for an unsupervised scenario. In the unsupervised context, the neural networks (Auto-Encoders) allowed us to generate new parametric representations, concentrating the information of the input frame and its neighboring frames. We studied their utility for audio compression from the raw signal, for which they were effective (low RMS, even at 99% compression). We also carried out an innovative pre-study on a different use of neural networks, to generate vectors of parameters not from the outputs of the layers but from the values of the weights of the layers. These parameters are designed to mimic Linear Predictive Coefficients (LPC). In the context of the unsupervised discovery of phoneme-like units (called pseudo-phones in this memory) and the generation of new phonetically discriminative parametric representations, we have coupled a neural network with a clustering tool (k-means ). The iterative alternation of these two tools allowed the generation of phonetically discriminating parameters for the same speaker: low rates of intra-speaker ABx error of 7.3% for English, 8.5% for French and 8 , 4% for Mandarin were obtained. These results allow an absolute gain of about 4% compared to the baseline (conventional parameters MFCC) and are close to the best current approaches (1% more than the winner of the Zero Resource Speech Challenge 2017). The inter-speaker results vary between 12% and 15% depending on the language, compared to 21% to 25% for MFCCs
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Debard, Quentin. „Automatic learning of next generation human-computer interactions“. Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI036.

Der volle Inhalt der Quelle
Annotation:
L’Intelligence Artificielle (IA) et les Interfaces Homme-Machine (IHM) sont deux champs de recherche avec relativement peu de travaux communs. Les spécialistes en IHM conçoivent habituellement les interfaces utilisateurs directement à partir d’observations et de mesures sur les interactions humaines, optimisant manuellement l’interface pour qu’elle corresponde au mieux aux attentes des utilisateurs. Ce processus est difficile à optimiser : l’ergonomie, l’intuitivité et la facilité d’utilisation sont autant de propriétés clé d’une interface utilisateur (IU) trop complexes pour être simplement modélisées à partir de données d’interaction. Ce constat restreint drastiquement les utilisations potentielles de l’apprentissage automatique dans ce processus de conception. A l’heure actuelle, l’apprentissage automatique dans les IHMs se cantonne majoritairement à la reconnaissance de gestes et à l’automatisation d’affichage, par exemple à des fins publicitaires ou pour suggérer une sélection. L’apprentissage automatique peut également être utilisé pour optimiser une interface utilisateur existante, mais il ne participe pour l’instant pas à concevoir de nouvelles façons d’intéragir. Notre objectif avec cette thèse est de proposer grâce à l’apprentissage automatique de nouvelles stratégies pour améliorer le processus de conception et les propriétés des IUs. Notre but est de définir de nouvelles IUs intelligentes – comprendre précises, intuitives et adaptatives – requérant un minimum d’interventions manuelles. Nous proposons une nouvelle approche à la conception d’IU : plutôt que l’utilisateur s’adapte à l’interface, nous cherchons à ce que l’utilisateur et l’interface s’adaptent mutuellement l’un à l’autre. Le but est d’une part de réduire le biais humain dans la conception de protocoles d’interactions, et d’autre part de construire des interfaces co-adaptatives capables de correspondre d’avantage aux préférences individuelles des utilisateurs. Pour ce faire, nous allons mettre à contribution les différents outils disponibles en apprentissage automatique afin d’apprendre automatiquement des comportements, des représentations et des prises de décision. Nous expérimenterons sur les interfaces tactiles pour deux raisons majeures : celles-ci sont largement utilisées et fournissent des problèmes facilement interprétables. La première partie de notre travail se focalisera sur le traitement des données tactiles et l’utilisation d’apprentissage supervisé pour la construction de classifieurs précis de gestes tactiles. La seconde partie détaillera comment l’apprentissage par renforcement peut être utilisé pour modéliser et apprendre des protocoles d’interaction en utilisant des gestes utilisateur. Enfin, nous combinerons ces modèles d’apprentissage par renforcement avec de l’apprentissage non supervisé pour définir une méthode de conception de nouveaux protocoles d’interaction ne nécessitant pas de données d’utilisation réelles
Artificial Intelligence (AI) and Human-Computer Interactions (HCIs) are two research fields with relatively few common work. HCI specialists usually design the way we interact with devices directly from observations and measures of human feedback, manually optimizing the user interface to better fit users’ expectations. This process is hard to optimize: ergonomy, intuitivity and ease of use are key features in a User Interface (UI) that are too complex to be simply modelled from interaction data. This drastically restrains the possible uses of Machine Learning (ML) in this design process. Currently, ML in HCI is mostly applied to gesture recognition and automatic display, e.g. advertisement or item suggestion. It is also used to fine tune an existing UI to better optimize it, but as of now it does not participate in designing new ways to interact with computers. Our main focus in this thesis is to use ML to develop new design strategies for overall better UIs. We want to use ML to build intelligent – understand precise, intuitive and adaptive – user interfaces using minimal handcrafting. We propose a novel approach to UI design: instead of letting the user adapt to the interface, we want the interface and the user to adapt mutually to each other. The goal is to reduce human bias in protocol definition while building co-adaptive interfaces able to further fit individual preferences. In order to do so, we will put to use the different mechanisms available in ML to automatically learn behaviors, build representations and take decisions. We will be experimenting on touch interfaces, as these interfaces are vastly used and can provide easily interpretable problems. The very first part of our work will focus on processing touch data and use supervised learning to build accurate classifiers of touch gestures. The second part will detail how Reinforcement Learning (RL) can be used to model and learn interaction protocols given user actions. Lastly, we will combine these RL models with unsupervised learning to build a setup allowing for the design of new interaction protocols without the need for real user data
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Shahid, Mustafizur Rahman. „Deep learning for Internet of Things (IoT) network security“. Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS003.

Der volle Inhalt der Quelle
Annotation:
L’internet des objets (IoT) introduit de nouveaux défis pour la sécurité des réseaux. La plupart des objets IoT sont vulnérables en raison d'un manque de sensibilisation à la sécurité des fabricants d'appareils et des utilisateurs. En conséquence, ces objets sont devenus des cibles privilégiées pour les développeurs de malware qui veulent les transformer en bots. Contrairement à un ordinateur de bureau, un objet IoT est conçu pour accomplir des tâches spécifiques. Son comportement réseau est donc très stable et prévisible, ce qui le rend bien adapté aux techniques d'analyse de données. Ainsi, la première partie de cette thèse tire profit des algorithmes de deep learning pour développer des outils de surveillance des réseaux IoT. Deux types d'outils sont explorés: les systèmes de reconnaissance de type d’objets IoT et les systèmes de détection d'intrusion réseau IoT. Pour la reconnaissance des types d’objets IoT, des algorithmes d'apprentissage supervisé sont entrainés pour classifier le trafic réseau et déterminer à quel objet IoT le trafic appartient. Le système de détection d'intrusion consiste en un ensemble d'autoencoders, chacun étant entrainé pour un type d’objet IoT différent. Les autoencoders apprennent le profil du comportement réseau légitime et détectent tout écart par rapport à celui-ci. Les résultats expérimentaux en utilisant des données réseau produites par une maison connectée montrent que les modèles proposés atteignent des performances élevées. Malgré des résultats préliminaires prometteurs, l’entraînement et l'évaluation des modèles basés sur le machine learning nécessitent une quantité importante de données réseau IoT. Or, très peu de jeux de données de trafic réseau IoT sont accessibles au public. Le déploiement physique de milliers d’objets IoT réels peut être très coûteux et peut poser problème quant au respect de la vie privée. Ainsi, dans la deuxième partie de cette thèse, nous proposons d'exploiter des GAN (Generative Adversarial Networks) pour générer des flux bidirectionnels qui ressemblent à ceux produits par un véritable objet IoT. Un flux bidirectionnel est représenté par la séquence des tailles de paquets ainsi que de la durée du flux. Par conséquent, en plus de générer des caractéristiques au niveau des paquets, tel que la taille de chaque paquet, notre générateur apprend implicitement à se conformer aux caractéristiques au niveau du flux, comme le nombre total de paquets et d'octets dans un flux ou sa durée totale. Des résultats expérimentaux utilisant des données produites par un haut-parleur intelligent montrent que notre méthode permet de générer des flux bidirectionnels synthétiques réalistes et de haute qualité
The growing Internet of Things (IoT) introduces new security challenges for network activity monitoring. Most IoT devices are vulnerable because of a lack of security awareness from device manufacturers and end users. As a consequence, they have become prime targets for malware developers who want to turn them into bots. Contrary to general-purpose devices, an IoT device is designed to perform very specific tasks. Hence, its networking behavior is very stable and predictable making it well suited for data analysis techniques. Therefore, the first part of this thesis focuses on leveraging recent advances in the field of deep learning to develop network monitoring tools for the IoT. Two types of network monitoring tools are explored: IoT device type recognition systems and IoT network Intrusion Detection Systems (NIDS). For IoT device type recognition, supervised machine learning algorithms are trained to perform network traffic classification and determine what IoT device the traffic belongs to. The IoT NIDS consists of a set of autoencoders, each trained for a different IoT device type. The autoencoders learn the legitimate networking behavior profile and detect any deviation from it. Experiments using network traffic data produced by a smart home show that the proposed models achieve high performance.Despite yielding promising results, training and testing machine learning based network monitoring systems requires tremendous amount of IoT network traffic data. But, very few IoT network traffic datasets are publicly available. Physically operating thousands of real IoT devices can be very costly and can rise privacy concerns. In the second part of this thesis, we propose to leverage Generative Adversarial Networks (GAN) to generate bidirectional flows that look like they were produced by a real IoT device. A bidirectional flow consists of the sequence of the sizes of individual packets along with a duration. Hence, in addition to generating packet-level features which are the sizes of individual packets, our developed generator implicitly learns to comply with flow-level characteristics, such as the total number of packets and bytes in a bidirectional flow or the total duration of the flow. Experimental results using data produced by a smart speaker show that our method allows us to generate high quality and realistic looking synthetic bidirectional flows
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Hamis, Sébastien. „Compression de contenus visuels pour transmission mobile sur réseaux de très bas débit“. Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAS020.

Der volle Inhalt der Quelle
Annotation:
Le domaine de la compression de contenus visuels (image, vidéo, éléments graphiques 2D/3D) a connu, depuis maintenant plus de vingt ans, un essor considérable avec l’émergence notamment au fil des années de nombreuses normes internationales comme JPEG, JPEG2000 pour les images fixes ou les différentes versions de standards MPEG-1/2/4 pour les données vidéo et graphiques.L’apparition des smartphones et l’explosion des applications qui leur sont dédiées a également bénéficié de ces avancées, l’image étant aujourd’hui omniprésente dans un contexte de mobilité/itinérance. Néanmoins, cela nécessite toujours des réseaux fiables et disponibles, offrant un débit suffisant pour la transmission effective de ces données visuelles qui sont intrinsèquement gourmandes en bande passante. Si aujourd’hui les pays développés bénéficient de réseaux mobiles (3G, 4G…) hautement performantes, cela n’est pas le cas d’un certain nombre de régions du monde, en particulier dans les pays émergents, où les communications s’appuient encore sur des réseaux 2G SMS. Transmettre de contenus visuels dans un tel contexte devient un défi ambitieux, qui nécessite la mise en œuvre de nouveaux algorithmes de compression. Le défi à relever consiste à assurer une transmission des images sur une bande passante correspondant à un ensemble relativement réduit (10 à 20) de SMS (140 octets par SMS).Pour répondre à ces contraintes, de multiples pistes de développement ont été envisagées. Après un état de l’art des techniques de compression traditionnelles et de leurs améliorations futures, nous avons finalement orienté nos travaux vers des méthodes de deep learning, visant à réaliser des post-traitements pour améliorer la qualité des contenus compressés.Nos contributions s’articulent autour de la création d’un nouveau schéma de compression, incluant les codecs existants ainsi qu’un panel de briques de post-traitement permettant une meilleure exploitation des contenus fortement compressés. Ces briques sont des réseaux de neurones profonds dédiés, qui réalisent des opérations de super-résolution et/ou de réduction d’artéfacts de compression, spécifiquement entraînés pour répondre aux objectifs ciblés. Ces opérations interviennent du côté du décodeur et peuvent être interprétées comme des algorithmes de reconstruction d’images à partir de versions fortement compressées. Cette approche présente l’avantage de pouvoir s’appuyer des codecs existants, particulièrement légers et peu coûteux en ressources. Dans nos travaux, nous avons retenu le format BPG, qui fait état de l’art dans le domaine, mais d’autre schémas de compression peuvent être également considérés.Concernant le type de réseaux de neurones, nos recherches nous ont conduits vers les réseaux antagonistes génératifs (Generative Adversarials Nets–GAN), qui s‘avèrent particulièrement adaptés pour des objectifs de reconstruction à partir de données incomplètes. Plus précisément, les deux architectures retenues et adaptées à nos objectifs sont les réseaux SRGAN et ESRGAN. L’impact des différents éléments et paramètres impliqués, comme notamment les facteurs de super-résolution utilisés et les fonctions de pertes, sont analysés en détails.Enfin, une dernière contribution concerne l’évaluation expérimentale. Après avoir montré les limitations des métriques objectives, qui peinent à prendre en compte la qualité visuelle de l’image, nous avons mis en place un protocole d’évaluation subjective. Les résultats obtenus en termes de scores MOS (Mean Opinion Score) démontrent pleinement la pertinence des approches de reconstruction proposées.Enfin, nous analysons une ouverture de nos travaux à des cas d’utilisation différents, d’une nature plus grand public. C’est notamment le cas pour le traitement de contenus de grande résolution plus ou moins compressés et même pour l’amélioration de la qualité de vidéos
The field of visual content compression (image, video, 2D/3D graphics elements) has known spectacular achievements for more than twenty years, with the emergence numerous international standards such as JPEG, JPEG2000 for still image compression, or MPEG-1/2/4 for video and 3D graphics content coding.The apparition of smartphones and of their related applications have also benefited from these advances, the image being today ubiquitous in a context of mobility. Nevertheless, image transmission requires reliable and available networks, since such visual data that are inherently bandwidth-intensive. While developed countries benefit today from high-performance mobile networks (3G, 4G...), this is not the case in a certain number of regions of the world, particularly in emerging countries, where communications still rely on 2G SMS networks. Transmitting visual content in such a context becomes a highly ambitious challenge, requiring the elaboration of new, for very low bitrate compression algorithm. The challenge is to ensure images transmission over a narrow bandwidth corresponding to a relatively small set (10 to 20) of SMS (140 bytes per SMS).To meet such constraints, multiple axes of development have been considered. After a state-of-the-art of traditional image compression techniques, we have oriented our research towards deep learning methods, aiming achieve post-treatments over strongly compressed data in order to improve the quality of the decoded content.Our contributions are structures around the creation of a new compression scheme, including existing codecs and a panel of post-processing bricks aiming at enhancing highly compressed content. Such bricks represent dedicated deep neural networks, which perform super-resolution and/or compression artifact reduction operations, specifically trained to meet the targeted objectives. These operations are carried out on the decoder side and can be interpreted as image reconstruction algorithms from heavily compressed versions. This approach offers the advantage of being able to rely on existing codecs, which are particularly light and resource-efficient. In our work, we have retained the BPG format, which represents the state of art in the field, but other compression schemes can also be considered.Regarding the type of neural networks, we have adopted Generative Adversarials Nets-GAN, which are particularly well-suited for objectives of reconstruction from incomplete data. Specifically, the two architectures retained and adapted to our objectives are the SRGAN and ESRGAN networks. The impact of the various elements and parameters involved, such as the super-resolution factors and the loss functions, are analyzed in detail.A final contribution concerns experimental evaluation performed. After showing the limitations of objective metrics, which fail to take into account the visual quality of the image, we have put in place a subjective evaluation protocol. The results obtained in terms of MOS (Mean Opinion Score) fully demonstrate the relevance of the proposed reconstruction approaches.Finally, we open our work to different use cases, of a more general nature. This is particularly the case for high-resolution image processing and for video compression
APA, Harvard, Vancouver, ISO und andere Zitierweisen
11

Chafik, Sanaa. „Machine learning techniques for content-based information retrieval“. Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL008/document.

Der volle Inhalt der Quelle
Annotation:
Avec l’évolution des technologies numériques et la prolifération d'internet, la quantité d’information numérique a considérablement évolué. La recherche par similarité (ou recherche des plus proches voisins) est une problématique que plusieurs communautés de recherche ont tenté de résoudre. Les systèmes de recherche par le contenu de l’information constituent l’une des solutions prometteuses à ce problème. Ces systèmes sont composés essentiellement de trois unités fondamentales, une unité de représentation des données pour l’extraction des primitives, une unité d’indexation multidimensionnelle pour la structuration de l’espace des primitives, et une unité de recherche des plus proches voisins pour la recherche des informations similaires. L’information (image, texte, audio, vidéo) peut être représentée par un vecteur multidimensionnel décrivant le contenu global des données d’entrée. La deuxième unité consiste à structurer l’espace des primitives dans une structure d’index, où la troisième unité -la recherche par similarité- est effective.Dans nos travaux de recherche, nous proposons trois systèmes de recherche par le contenu de plus proches voisins. Les trois approches sont non supervisées, et donc adaptées aux données étiquetées et non étiquetées. Elles sont basées sur le concept du hachage pour une recherche efficace multidimensionnelle des plus proches voisins. Contrairement aux approches de hachage existantes, qui sont binaires, les approches proposées fournissent des structures d’index avec un hachage réel. Bien que les approches de hachage binaires fournissent un bon compromis qualité-temps de calcul, leurs performances en termes de qualité (précision) se dégradent en raison de la perte d’information lors du processus de binarisation. À l'opposé, les approches de hachage réel fournissent une bonne qualité de recherche avec une meilleure approximation de l’espace d’origine, mais induisent en général un surcoût en temps de calcul.Ce dernier problème est abordé dans la troisième contribution. Les approches proposées sont classifiées en deux catégories, superficielle et profonde. Dans la première catégorie, on propose deux techniques de hachage superficiel, intitulées Symmetries of the Cube Locality sensitive hashing (SC-LSH) et Cluster-Based Data Oriented Hashing (CDOH), fondées respectivement sur le hachage aléatoire et l’apprentissage statistique superficiel. SCLSH propose une solution au problème de l’espace mémoire rencontré par la plupart des approches de hachage aléatoire, en considérant un hachage semi-aléatoire réduisant partiellement l’effet aléatoire, et donc l’espace mémoire, de ces dernières, tout en préservant leur efficacité pour la structuration des espaces hétérogènes. La seconde technique, CDOH, propose d’éliminer l’effet aléatoire en combinant des techniques d’apprentissage non-supervisé avec le concept de hachage. CDOH fournit de meilleures performances en temps de calcul, en espace mémoire et en qualité de recherche.La troisième contribution est une approche de hachage basée sur les réseaux de neurones profonds appelée "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). UDN2H propose une indexation individuelle de la sortie de chaque neurone de la couche centrale d’un modèle non supervisé. Ce dernier est un auto-encodeur profond capturant une structure individuelle de haut niveau de chaque neurone de sortie.Nos trois approches, SC-LSH, CDOH et UDN2H, ont été proposées séquentiellement durant cette thèse, avec un niveau croissant, en termes de la complexité des modèles développés, et en termes de la qualité de recherche obtenue sur de grandes bases de données d'information
The amount of media data is growing at high speed with the fast growth of Internet and media resources. Performing an efficient similarity (nearest neighbor) search in such a large collection of data is a very challenging problem that the scientific community has been attempting to tackle. One of the most promising solutions to this fundamental problem is Content-Based Media Retrieval (CBMR) systems. The latter are search systems that perform the retrieval task in large media databases based on the content of the data. CBMR systems consist essentially of three major units, a Data Representation unit for feature representation learning, a Multidimensional Indexing unit for structuring the resulting feature space, and a Nearest Neighbor Search unit to perform efficient search. Media data (i.e. image, text, audio, video, etc.) can be represented by meaningful numeric information (i.e. multidimensional vector), called Feature Description, describing the overall content of the input data. The task of the second unit is to structure the resulting feature descriptor space into an index structure, where the third unit, effective nearest neighbor search, is performed.In this work, we address the problem of nearest neighbor search by proposing three Content-Based Media Retrieval approaches. Our three approaches are unsupervised, and thus can adapt to both labeled and unlabeled real-world datasets. They are based on a hashing indexing scheme to perform effective high dimensional nearest neighbor search. Unlike most recent existing hashing approaches, which favor indexing in Hamming space, our proposed methods provide index structures adapted to a real-space mapping. Although Hamming-based hashing methods achieve good accuracy-speed tradeoff, their accuracy drops owing to information loss during the binarization process. By contrast, real-space hashing approaches provide a more accurate approximation in the mapped real-space as they avoid the hard binary approximations.Our proposed approaches can be classified into shallow and deep approaches. In the former category, we propose two shallow hashing-based approaches namely, "Symmetries of the Cube Locality Sensitive Hashing" (SC-LSH) and "Cluster-based Data Oriented Hashing" (CDOH), based respectively on randomized-hashing and shallow learning-to-hash schemes. The SC-LSH method provides a solution to the space storage problem faced by most randomized-based hashing approaches. It consists of a semi-random scheme reducing partially the randomness effect of randomized hashing approaches, and thus the memory storage problem, while maintaining their efficiency in structuring heterogeneous spaces. The CDOH approach proposes to eliminate the randomness effect by combining machine learning techniques with the hashing concept. The CDOH outperforms the randomized hashing approaches in terms of computation time, memory space and search accuracy.The third approach is a deep learning-based hashing scheme, named "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). The UDN2H approach proposes to index individually the output of each neuron of the top layer of a deep unsupervised model, namely a Deep Autoencoder, with the aim of capturing the high level individual structure of each neuron output.Our three approaches, SC-LSH, CDOH and UDN2H, were proposed sequentially as the thesis was progressing, with an increasing level of complexity in terms of the developed models, and in terms of the effectiveness and the performances obtained on large real-world datasets
APA, Harvard, Vancouver, ISO und andere Zitierweisen
12

Dekhtiar, Jonathan. „Deep Learning and unsupervised learning to automate visual inspection in the manufacturing industry“. Thesis, Compiègne, 2019. http://www.theses.fr/2019COMP2513.

Der volle Inhalt der Quelle
Annotation:
La croissance exponentielle des besoins et moyens informatiques implique un besoin croissant d’automatisation des procédés industriels. Ce constat est en particulier visible pour l’inspection visuelle automatique sur ligne de production. Bien qu’étudiée depuis 1970, peine toujours à être appliquée à de larges échelles et à faible coûts. Les méthodes employées dépendent grandement de la disponibilité des experts métiers. Ce qui provoque inévitablement une augmentation des coûts et une réduction de la flexibilité des méthodes employées. Depuis 2012, les avancées dans le domaine associé à l’étude des réseaux neuronaux profonds (i.e. Deep Learning) a permis de nombreux progrès en ce sens, notamment grâce au réseaux neuronaux convolutif qui ont atteint des performances proches de l’humain dans de nombreux domaines associées à la perception visuelle (e.g. reconnaissance et détection d’objets, etc.). Cette thèse propose une approche non supervisée pour répondre aux besoins de l’inspection visuelle automatique. Cette méthode, baptisé AnoAEGAN, combine l’apprentissage adversaire et l’estimation d’une fonction de densité de probabilité. Ces deux approches complémentaires permettent d’estimer jointement la probabilité pixel par pixel d’un défaut visuel sur une image. Le modèle est entrainé à partir d’un nombre très limités d’images (i.e. inférieur à 1000 images) sans utilisation de connaissance expert pour « étiqueter » préalablement les données. Cette méthode permet une flexibilité accrue par la rapidité d’entrainement du modèle et une grande versatilité, démontrée sur dix tâches différentes sans la moindre modification du modèle. Cette méthode devrait permettre de réduire les coûts de développement et le temps nécessaire de déploiement en production. Cette méthode peut être également déployée de manière complémentaire à une approche supervisée afin de bénéficier des avantages de chaque approche
Although studied since 1970, automatic visual inspection on production lines still struggles to be applied on a large scale and at low cost. The methods used depend greatly on the availability of domain experts. This inevitably leads to increased costs and reduced flexibility in the methods used. Since 2012, advances in the field of Deep Learning have enabled many advances in this direction, particularly thanks to convolutional neura networks that have achieved near-human performance in many areas associated with visual perception (e.g. object recognition and detection, etc.). This thesis proposes an unsupervised approach to meet the needs of automatic visual inspection. This method, called AnoAEGAN, combines adversarial learning and the estimation of a probability density function. These two complementary approaches make it possible to jointly estimate the pixel-by-pixel probability of a visual defect on an image. The model is trained from a very limited number of images (i.e. less than 1000 images) without using expert knowledge to "label" the data beforehand. This method allows increased flexibility with a limited training time and therefore great versatility, demonstrated on ten different tasks without any modification of the model. This method should reduce development costs and the time required to deploy in production. This method can also be deployed in a complementary way to a supervised approach in order to benefit from the advantages of each approach
APA, Harvard, Vancouver, ISO und andere Zitierweisen
13

Bilodeau, Anthony. „Apprentissage faiblement supervisé appliqué à la segmentation d'images de protéines neuronales“. Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/39752.

Der volle Inhalt der Quelle
Annotation:
Titre de l'écran-titre (visionné le 9 juillet 2020)
Thèse ou mémoire avec insertion d'articles
Tableau d'honneur de la Faculté des études supérieures et postdoctorales, 2020-2021
En biologie cellulaire, la microscopie optique est couramment utilisée pour visualiser et caractériser la présence et la morphologie des structures biologiques. Suite à l’acquisition, un expert devra effectuer l’annotation des structures pour quantification. Cette tâche est ardue, requiert de nombreuses heures de travail, parfois répétitif, qui peut résulter en erreurs d’annotations causées par la fatigue d’étiquetage. L’apprentissage machine promet l’automatisation de tâches complexes à partir d’un grand lot de données exemples annotés. Mon projet de maîtrise propose d’utiliser des techniques faiblement supervisées, où les annotations requises pour l’entraînement sont réduites et/ou moins précises, pour la segmentation de structures neuronales. J’ai d’abord testé l’utilisation de polygones délimitant la structure d’intérêt pour la tâche complexe de segmentation de la protéine neuronale F-actine dans des images de microscopie à super-résolution. La complexité de la tâche est supportée par la morphologie hétérogène des neurones, le nombre élevé d’instances à segmenter dans une image et la présence de nombreux distracteurs. Malgré ces difficultés, l’utilisation d’annotations faibles a permis de quantifier un changement novateur de la conformation de la protéine F-actine en fonction de l’activité neuronale. J’ai simplifié davantage la tâche d’annotation en requérant seulement des étiquettes binaires renseignant sur la présence des structures dans l’image réduisant d’un facteur 30 le temps d’annotation. De cette façon, l’algorithme est entraîné à prédire le contenu d’une image et extrait ensuite les caractéristiques sémantiques importantes pour la reconnaissance de la structure d’intérêt à l’aide de mécanismes d’attention. La précision de segmentation obtenue sur les images de F-actine est supérieure à celle des annotations polygonales et équivalente à celle des annotations précises d’un expert. Cette nouvelle approche devrait faciliter la quantification des changements dynamiques qui se produisent sous le microscope dans des cellules vivantes et réduire les erreurs causées par l’inattention ou le biais de sélection des régions d’intérêt dans les images de microscopie.
In cell biology, optical microscopy is commonly used to visualize and characterize the presenceand morphology of biological structures. Following the acquisition, an expert will have toannotate the structures for quantification. This is a difficult task, requiring many hours ofwork, sometimes repetitive, which can result in annotation errors caused by labelling fatigue.Machine learning promises to automate complex tasks from a large set of annotated sampledata. My master’s project consists of using weakly supervised techniques, where the anno-tations required for training are reduced and/or less precise, for the segmentation of neuralstructures.I first tested the use of polygons delimiting the structure of interest for the complex taskof segmentation of the neuronal protein F-actin in super-resolution microscopy images. Thecomplexity of the task is supported by the heterogeneous morphology of neurons, the highnumber of instances to segment in an image and the presence of many distractors. Despitethese difficulties, the use of weak annotations has made it possible to quantify an innovativechange in the conformation of the F-actin protein as a function of neuronal activity. I furthersimplified the annotation task by requiring only binary labels that indicate the presence ofstructures in the image, reducing annotation time by a factor of 30. In this way, the algorithmis trained to predict the content of an image and then extract the semantic characteristicsimportant for recognizing the structure of interest using attention mechanisms. The segmen-tation accuracy obtained on F-actin images is higher than that of polygonal annotations andequivalent to that of an expert’s precise annotations. This new approach should facilitate thequantification of dynamic changes that occur under the microscope in living cells and reduceerrors caused by inattention or bias in the selection of regions of interest in microscopy images.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
14

Yin, Hao. „Étude des réseaux de neurones en mode non supervisé : application à la reconnaissance des formes“. Compiègne, 1992. http://www.theses.fr/1992COMPD524.

Der volle Inhalt der Quelle
Annotation:
Après avoir étudié différents modèles de RNA et les règles d'apprentissage en mode non supervisé, il est proposé une nouvelle règle, l'apprentissage compétitif avec un pas inverse, pour résoudre les problèmes provoqués par les données aberrantes. Il est proposé également une modification du réseau ART1 pour résoudre le problème du mauvais codage d'un prototype sur-ensemble. Après avoir constaté qu'un réseau en deux couches comme ART2 ne peut classifier correctement que les données de structure simple, nous avons développé un réseau NéoART, qui est basé sur une variante du réseau ART2 et combine l'apprentissage non-supervisé et supervisé pour améliorer les performances dans le cas où un ensemble d'apprentissage exhaustif n'est pas disponible, et une méthode de classification non supervisée, l'arbre de relation maximale, pour dépasser la limite intrinsèque des réseaux en deux couches.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
15

Tamaazousti, Youssef. „Vers l’universalité des représentations visuelle et multimodales“. Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC038/document.

Der volle Inhalt der Quelle
Annotation:
En raison de ses enjeux sociétaux, économiques et culturels, l’intelligence artificielle (dénotée IA) est aujourd’hui un sujet d’actualité très populaire. L’un de ses principaux objectifs est de développer des systèmes qui facilitent la vie quotidienne de l’homme, par le biais d’applications telles que les robots domestiques, les robots industriels, les véhicules autonomes et bien plus encore. La montée en popularité de l’IA est fortement due à l’émergence d’outils basés sur des réseaux de neurones profonds qui permettent d’apprendre simultanément, la représentation des données (qui était traditionnellement conçue à la main), et la tâche à résoudre (qui était traditionnellement apprise à l’aide de modèles d’apprentissage automatique). Ceci résulte de la conjonction des avancées théoriques, de la capacité de calcul croissante ainsi que de la disponibilité de nombreuses données annotées. Un objectif de longue date de l’IA est de concevoir des machines inspirées des humains, capables de percevoir le monde, d’interagir avec les humains, et tout ceci de manière évolutive (c’est `a dire en améliorant constamment la capacité de perception du monde et d’interaction avec les humains). Bien que l’IA soit un domaine beaucoup plus vaste, nous nous intéressons dans cette thèse, uniquement à l’IA basée apprentissage (qui est l’une des plus performante, à ce jour). Celle-ci consiste `a l’apprentissage d’un modèle qui une fois appris résoud une certaine tâche, et est généralement composée de deux sous-modules, l’un représentant la donnée (nommé ”représentation”) et l’autre prenant des décisions (nommé ”résolution de tâche”). Nous catégorisons, dans cette thèse, les travaux autour de l’IA, dans les deux approches d’apprentissage suivantes : (i) Spécialisation : apprendre des représentations à partir de quelques tâches spécifiques dans le but de pouvoir effectuer des tâches très spécifiques (spécialisées dans un certain domaine) avec un très bon niveau de performance; ii) Universalité : apprendre des représentations à partir de plusieurs tâches générales dans le but d’accomplir autant de tâches que possible dansdifférents contextes. Alors que la spécialisation a été largement explorée par la communauté de l’apprentissage profond, seules quelques tentatives implicites ont été réalisée vers la seconde catégorie, à savoir, l’universalité. Ainsi, le but de cette thèse est d’aborder explicitement le problème de l’amélioration de l’universalité des représentations avec des méthodes d’apprentissage profond, pour les données d’image et de texte. [...]
Because of its key societal, economic and cultural stakes, Artificial Intelligence (AI) is a hot topic. One of its main goal, is to develop systems that facilitates the daily life of humans, with applications such as household robots, industrial robots, autonomous vehicle and much more. The rise of AI is highly due to the emergence of tools based on deep neural-networks which make it possible to simultaneously learn, the representation of the data (which were traditionally hand-crafted), and the task to solve (traditionally learned with statistical models). This resulted from the conjunction of theoretical advances, the growing computational capacity as well as the availability of many annotated data. A long standing goal of AI is to design machines inspired humans, capable of perceiving the world, interacting with humans, in an evolutionary way. We categorize, in this Thesis, the works around AI, in the two following learning-approaches: (i) Specialization: learn representations from few specific tasks with the goal to be able to carry out very specific tasks (specialized in a certain field) with a very good level of performance; (ii) Universality: learn representations from several general tasks with the goal to perform as many tasks as possible in different contexts. While specialization was extensively explored by the deep-learning community, only a few implicit attempts were made towards universality. Thus, the goal of this Thesis is to explicitly address the problem of improving universality with deep-learning methods, for image and text data. We have addressed this topic of universality in two different forms: through the implementation of methods to improve universality (“universalizing methods”); and through the establishment of a protocol to quantify its universality. Concerning universalizing methods, we proposed three technical contributions: (i) in a context of large semantic representations, we proposed a method to reduce redundancy between the detectors through, an adaptive thresholding and the relations between concepts; (ii) in the context of neural-network representations, we proposed an approach that increases the number of detectors without increasing the amount of annotated data; (iii) in a context of multimodal representations, we proposed a method to preserve the semantics of unimodal representations in multimodal ones. Regarding the quantification of universality, we proposed to evaluate universalizing methods in a Transferlearning scheme. Indeed, this technical scheme is relevant to assess the universal ability of representations. This also led us to propose a new framework as well as new quantitative evaluation criteria for universalizing methods
APA, Harvard, Vancouver, ISO und andere Zitierweisen
16

Frery, Jordan. „Ensemble Learning for Extremely Imbalced Data Flows“. Thesis, Lyon, 2019. http://www.theses.fr/2019LYSES034.

Der volle Inhalt der Quelle
Annotation:
L'apprentissage machine est l'étude de la conception d'algorithmes qui apprennent à partir des données d'apprentissage pour réaliser une tâche spécifique. Le modèle résultant est ensuite utilisé pour prédire de nouveaux points de données (invisibles) sans aucune aide extérieure. Ces données peuvent prendre de nombreuses formes telles que des images (matrice de pixels), des signaux (sons,...), des transactions (âge, montant, commerçant,...), des journaux (temps, alertes, ...). Les ensembles de données peuvent être définis pour traiter une tâche spécifique telle que la reconnaissance d'objets, l'identification vocale, la détection d'anomalies, etc. Dans ces tâches, la connaissance des résultats escomptés encourage une approche d'apprentissage supervisé où chaque donnée observée est assignée à une étiquette qui définit ce que devraient être les prédictions du modèle. Par exemple, dans la reconnaissance d'objets, une image pourrait être associée à l'étiquette "voiture" qui suggère que l'algorithme d'apprentissage doit apprendre qu'une voiture est contenue dans cette image, quelque part. Cela contraste avec l'apprentissage non supervisé où la tâche à accomplir n'a pas d'étiquettes explicites. Par exemple, un sujet populaire dans l'apprentissage non supervisé est de découvrir les structures sous-jacentes contenues dans les données visuelles (images) telles que les formes géométriques des objets, les lignes, la profondeur, avant d'apprendre une tâche spécifique. Ce type d'apprentissage est évidemment beaucoup plus difficile car il peut y avoir un nombre infini de concepts à saisir dans les données. Dans cette thèse, nous nous concentrons sur un scénario spécifique du cadre d'apprentissage supervisé : 1) l'étiquette d'intérêt est sous-représentée (p. ex. anomalies) et 2) l'ensemble de données augmente avec le temps à mesure que nous recevons des données d'événements réels (p. ex. transactions par carte de crédit). En fait, ces deux problèmes sont très fréquents dans le domaine industriel dans lequel cette thèse se déroule
Machine learning is the study of designing algorithms that learn from trainingdata to achieve a specific task. The resulting model is then used to predict overnew (unseen) data points without any outside help. This data can be of manyforms such as images (matrix of pixels), signals (sounds,...), transactions (age,amount, merchant,...), logs (time, alerts, ...). Datasets may be defined to addressa specific task such as object recognition, voice identification, anomaly detection,etc. In these tasks, the knowledge of the expected outputs encourages a supervisedlearning approach where every single observed data is assigned to a label thatdefines what the model predictions should be. For example, in object recognition,an image could be associated with the label "car" which suggests that the learningalgorithm has to learn that a car is contained in this picture, somewhere. This is incontrast with unsupervised learning where the task at hand does not have explicitlabels. For example, one popular topic in unsupervised learning is to discoverunderlying structures contained in visual data (images) such as geometric formsof objects, lines, depth, before learning a specific task. This kind of learning isobviously much harder as there might be potentially an infinite number of conceptsto grasp in the data. In this thesis, we focus on a specific scenario of thesupervised learning setting: 1) the label of interest is under represented (e.g.anomalies) and 2) the dataset increases with time as we receive data from real-lifeevents (e.g. credit card transactions). In fact, these settings are very common inthe industrial domain in which this thesis takes place
APA, Harvard, Vancouver, ISO und andere Zitierweisen
17

Durand, Thibaut. „Weakly supervised learning for visual recognition“. Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066142/document.

Der volle Inhalt der Quelle
Annotation:
Cette thèse s'intéresse au problème de la classification d'images, où l'objectif est de prédire si une catégorie sémantique est présente dans l'image, à partir de son contenu visuel. Pour analyser des images de scènes complexes, il est important d'apprendre des représentations localisées. Pour limiter le coût d'annotation pendant l'apprentissage, nous nous sommes intéressé aux modèles d'apprentissage faiblement supervisé. Dans cette thèse, nous proposons des modèles qui simultanément classifient et localisent les objets, en utilisant uniquement des labels globaux pendant l'apprentissage. L'apprentissage faiblement supervisé permet de réduire le cout d'annotation, mais en contrepartie l'apprentissage est plus difficile. Le problème principal est comment agréger les informations locales (e.g. régions) en une information globale (e.g. image). La contribution principale de cette thèse est la conception de nouvelles fonctions de pooling (agrégation) pour l'apprentissage faiblement supervisé. En particulier, nous proposons une fonction de pooling « max+min », qui unifie de nombreuses fonctions de pooling. Nous décrivons comment utiliser ce pooling dans le framework Latent Structured SVM ainsi que dans des réseaux de neurones convolutifs. Pour résoudre les problèmes d'optimisation, nous présentons plusieurs solveurs, dont certains qui permettent d'optimiser une métrique d'ordonnancement (ranking) comme l'Average Precision. Expérimentalement, nous montrons l'intérêt nos modèles par rapport aux méthodes de l'état de l'art, sur dix bases de données standard de classification d'images, incluant ImageNet
This thesis studies the problem of classification of images, where the goal is to predict if a semantic category is present in the image, based on its visual content. To analyze complex scenes, it is important to learn localized representations. To limit the cost of annotation during training, we have focused on weakly supervised learning approaches. In this thesis, we propose several models that simultaneously classify and localize objects, using only global labels during training. The weak supervision significantly reduces the cost of full annotation, but it makes learning more challenging. The key issue is how to aggregate local scores - e.g. regions - into global score - e.g. image. The main contribution of this thesis is the design of new pooling functions for weakly supervised learning. In particular, we propose a “max + min” pooling function, which unifies many pooling functions. We describe how to use this pooling in the Latent Structured SVM framework as well as in convolutional networks. To solve the optimization problems, we present several solvers, some of which allow to optimize a ranking metric such as Average Precision. We experimentally show the interest of our models with respect to state-of-the-art methods, on ten standard image classification datasets, including the large-scale dataset ImageNet
APA, Harvard, Vancouver, ISO und andere Zitierweisen
18

Sarazin, Tugdual. „Apprentissage massivement distribué dans un environnement Big Data“. Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD050.

Der volle Inhalt der Quelle
Annotation:
Lors de ces dernières années les volumes de données analysées par les entreprises et les laboratoires de recherches ont fortement augment´es ouvrant ainsi l’`ere du BigData. Cependant ces données brutes sont fréquemment non catégorisées et difficilement exploitables. Cette thèse vise à améliorer et faciliter le pré-traitement et la comprehension de grands volumes de données en fournissant des algorithmes d’apprentissage non supervisés. La première partie de cette thèse est consacrée à un état de l’art des algorithmes de partitionnement et bi-partitionnement ainsi qu’une présentation des technologies du Big Data. La première contribution de cette thèse est dédiée à la conception de l’algorithme de clustering Self-Organizing Map ou carte auto-organisatrice [Kohonen,2001] dans un environnement Big data. Notre algorithme (SOM-MR) fournit les mêmes avantages que l’algorithme de base, à savoir la création de partition de données et leur visualisation sous la forme de carte. De plus il utilise la plateforme Spark, ce qui lui permet à la fois de traiter de grands volumes de données en peu de temps. De part la popularité de cette plateforme il s’intègre facilement dans dans de nombreux environnements de traitement de données. C’est ce que nous avons démontré dans notre projet “Square Predict” réalisé en partenariat avec l’assurance Axa. Ce projet avait pour objectif de fournir une plateforme d’analyse de données en temps r´eel afin d’évaluer la sévérité d’une catastrophe naturelle ou d’améliorer la connaissance des risques résidentiels. Durant ce projet nous avons démontré l’efficacité de notre algorithme pour analyser et fournir des visualisations à partir de grands volumes de données provenant des réseaux sociaux et d’Open data. La deuxième contribution de cette thèse est consacrée à un nouvel algorithme de BiClustering. Le BiClustering consiste `a réaliser un clustering simultanément sur les observations et les variables. Dans cette contribution nous proposons une nouvelle approche de biclustering bas´e sur l’algorithme self-organizing maps capable de passer `a l’échelle sur de grands volumes de données (BiTM-MR). Pour ce faire il est également basé sur la plateforme des technologies Big data. Mais il apporte davantage d’informations que notre algorithme SOM-MR car en plus de produire des groupes d’observations il associe des variables à ces groupes, formant ainsi des bi-groupes d’observations et variables
In recent years, the amount of data analysed by companies and research laboratories increased strongly, opening the era of BigData. However, these raw data are frequently non-categorized and uneasy to use. This thesis aims to improve and ease the pre-treatment and comprehension of these big amount of data by using unsupervised machine learning algorithms.The first part of this thesis is dedicated to a state-of-the-art of clustering and biclustering algorithms and to an introduction to big data technologies. The first part introduces the conception of clustering Self-Organizing Map algorithm [Kohonen,2001] in big data environment. Our algorithm (SOM-MR) provides the same advantages as the original algorithm, namely the creation of data visualisation map based on data clusters. Moreover, it uses the Spark platform that makes it able to treat a big amount of data in a short time. Thanks to the popularity of this platform, it easily fits in many data mining environments. This is what we demonstrated it in our project \Square Predict" carried out in partnership with Axa insurance. The aim of this project was to provide a real-time data analysing platform in order to estimate the severity of natural disasters or improve residential risks knowledge. Throughout this project, we proved the efficiency of our algorithm through its capacity to analyse and create visualisation out of a big volume of data coming from social networks and open data.The second part of this work is dedicated to a new bi-clustering algorithm. BiClustering consists in making a cluster of observations and variables at the same time. In this contribution we put forward a new approach of bi-clustering based on the self-organizing maps algorithm that can scale on big amounts of data (BiTM-MR). To reach this goal, this algorithm is also based on a the Spark platform. It brings out more information than the SOM-MR algorithm because besides producing observation groups, it also associates variables to these groups,thus creating bi-clusters of variables and observations
APA, Harvard, Vancouver, ISO und andere Zitierweisen
19

Thépaut, Solène. „Problèmes de clustering liés à la synchronie en écologie : estimation de rang effectif et détection de ruptures sur les arbres“. Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS477/document.

Der volle Inhalt der Quelle
Annotation:
Au vu des changements globaux actuels engendrés en grande partie par l'être humain, il devient nécessaire de comprendre les moteurs de la stabilité des communautés d'êtres vivants. La synchronie des séries temporelles d'abondances fait partie des mécanismes les plus importants. Cette thèse propose trois angles différents permettant de répondre à différentes questions en lien avec la synchronie interspécifique ou spatiale. Les travaux présentés trouvent des applications en dehors du cadre écologique. Un premier chapitre est consacré à l'estimation du rang effectif de matrices à valeurs dans ℝ ou ℂ. Nous apportons ainsi des outils permettant de mesurer le taux de synchronisation d'une matrice d'observations. Dans le deuxième chapitre, nous nous basons sur les travaux existants sur le problème de détection de ruptures sur les chaînes afin de proposer plusieurs algorithmes permettant d'adapter ce problème au cas des arbres. Les méthodes présentées peuvent être utilisées sur la plupart des données nécessitant d'être représentées sous la forme d'un arbre. Afin d'étudier les liens entre la synchronie interspécifique et les tendances à long termes ou les traits d'espèces de papillons, nous proposons dans le dernier chapitre d'adapter des méthodes de clustering et d'apprentissage supervisé comme les Random Forest ou les Réseaux de Neurones artificiels à des données écologiques
In the view of actual global changes widely caused by human activities, it becomes urgent to understand the drivers of communities' stability. Synchrony between time series of abundances is one of the most important mechanisms. This thesis offers three different angles in order to answer different questions linked to interspecific and spatial synchrony. The works presented find applications beyond the ecological frame. A first chapter is dedicated to the estimation of effective rank of matrices in ℝ or ℂ. We offer tools allowing to measure the synchronisation rate of observations matrices. In the second chapter, we base on the existing work on change-points detection problem on chains in order to offer algorithms which detects change-points on trees. The methods can be used with most data that have to be represented as a tree. In order to study the link between interspecific synchrony and long term tendencies or traits of butterflies species, we offer in the last chapter adaptation of clustering and supervised machine learning methods, such as Random Forest or Artificial Neural Networks to ecological data
APA, Harvard, Vancouver, ISO und andere Zitierweisen
20

Ghesmoune, Mohammed. „Apprentissage non supervisé de flux de données massives : application aux Big Data d'assurance“. Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCD061/document.

Der volle Inhalt der Quelle
Annotation:
Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de growing neural gas (GNG) pour le clustering de flux de données massives. Nous proposons trois extensions de l'approche GNG : séquentielle, distribuée et parallèle, et une méthode hiérarchique; ainsi qu'une nouvelle modélisation pour le passage à l'échelle en utilisant le paradigme MapReduce et l'application de ce modèle pour le clustering au fil de l'eau du jeu de données d'assurance. Nous avons d'abord proposé la méthode G-Stream. G-Stream, en tant que méthode "séquentielle" de clustering, permet de découvrir de manière incrémentale des clusters de formes arbitraires et en ne faisant qu'une seule passe sur les données. G-Stream utilise une fonction d'oubli an de réduire l'impact des anciennes données dont la pertinence diminue au fil du temps. Les liens entre les nœuds (clusters) sont également pondérés par une fonction exponentielle. Un réservoir de données est aussi utilisé an de maintenir, de façon temporaire, les observations très éloignées des prototypes courants. L'algorithme batchStream traite les données en micro-batch (fenêtre de données) pour le clustering de flux. Nous avons défini une nouvelle fonction de coût qui tient compte des sous ensembles de données qui arrivent par paquets. La minimisation de la fonction de coût utilise l'algorithme des nuées dynamiques tout en introduisant une pondération qui permet une pénalisation des données anciennes. Une nouvelle modélisation utilisant le paradigme MapReduce est proposée. Cette modélisation a pour objectif de passer à l'échelle. Elle consiste à décomposer le problème de clustering de flux en fonctions élémentaires (Map et Reduce). Ainsi de traiter chaque sous ensemble de données pour produire soit les clusters intermédiaires ou finaux. Pour l'implémentation de la modélisation proposée, nous avons utilisé la plateforme Spark. Dans le cadre du projet Square Predict, nous avons validé l'algorithme batchStream sur les données d'assurance. Un modèle prédictif combinant le résultat du clustering avec les arbres de décision est aussi présenté. L'algorithme GH-Stream est notre troisième extension de GNG pour la visualisation et le clustering de flux de données massives. L'approche présentée a la particularité d'utiliser une structure hiérarchique et topologique, qui consiste en plusieurs arbres hiérarchiques représentant des clusters, pour les tâches de clustering et de visualisation
The research outlined in this thesis concerns the development of approaches based on growing neural gas (GNG) for clustering of data streams. We propose three algorithmic extensions of the GNG approaches: sequential, distributed and parallel, and hierarchical; as well as a model for scalability using MapReduce and its application to learn clusters from the real insurance Big Data in the form of a data stream. We firstly propose the G-Stream method. G-Stream, as a “sequential" clustering method, is a one-pass data stream clustering algorithm that allows us to discover clusters of arbitrary shapes without any assumptions on the number of clusters. G-Stream uses an exponential fading function to reduce the impact of old data whose relevance diminishes over time. The links between the nodes are also weighted. A reservoir is used to hold temporarily the distant observations in order to reduce the movements of the nearest nodes to the observations. The batchStream algorithm is a micro-batch based method for clustering data streams which defines a new cost function taking into account that subsets of observations arrive in discrete batches. The minimization of this function, which leads to a topological clustering, is carried out using dynamic clusters in two steps: an assignment step which assigns each observation to a cluster, followed by an optimization step which computes the prototype for each node. A scalable model using MapReduce is then proposed. It consists of decomposing the data stream clustering problem into the elementary functions, Map and Reduce. The observations received in each sub-dataset (within a time interval) are processed through deterministic parallel operations (Map and Reduce) to produce the intermediate states or the final clusters. The batchStream algorithm is validated on the insurance Big Data. A predictive and analysis system is proposed by combining the clustering results of batchStream with decision trees. The architecture and these different modules from the computational core of our Big Data project, called Square Predict. GH-Stream for both visualization and clustering tasks is our third extension. The presented approach uses a hierarchical and topological structure for both of these tasks
APA, Harvard, Vancouver, ISO und andere Zitierweisen
21

Abou, Bakr Nachwa. „Reconnaissance et modélisation des actions de manipulation“. Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM010.

Der volle Inhalt der Quelle
Annotation:
Cette thèse aborde le problème de la reconnaissance, de la modélisation et de ladescription des activités humaines. Nous décrivons nos résultats sur trois problèmes : (1) l’utilisation de l’apprentissage par transfert pour la reconnaissance visuelle simultanée d’objets et de leur état, (2) la reconnaissance d’actions de manipulation à partir de transitions d’états, et (3) l’interprétation d’une série d’actions et d’états comme les événements d’une histoire prédéfinie afin d’en construire une description narrative.Ces résultats ont été développés en utilisant les activités culinaires comme domaine expérimental. Nous commençons par reconnaître les ingrédients comme les tomates et la laitue et les ingrédients tranchés et coupés en dés pendant la préparation d’un repas. Nous adaptons l’architecture VGG afin d’apprendre conjointement les représentations des ingrédients et de leurs états selon une approche par transfert d’apprentissage. Nous modélisons les actions en tant que transformations d’état d’objets. Nous détectons ainsi les actions de manipulation en suivant les transformations des propriétés correspondantes des objets (état et type) dans la vidéo. L’évaluation expérimentale de cette approche est réalisée en se servant des jeux de données 50 salads et EPIC-Kitchen. Nous utilisons les descriptions des actions qui en résultent pour construire les descriptions narratives des activités complexes observées dans les vidéos du jeu de données 50 salads
This thesis addresses the problem of recognition, modelling and description of human activities. We describe results on three problems: (1) the use of transfer learning for simultaneous visual recognition of objects and object states, (2) the recognition of manipulation actions from state transitions, and (3) the interpretation of a series of actions and states as events in a predefined story to construct a narrative description.These results have been developed using food preparation activities as an experimental domain. We start by recognising food classes such as tomatoes and lettuce and food states, such as sliced and diced, during meal preparation. We adapt the VGG network architecture to jointly learn the representations of food items and food states using transfer learning. We model actions as the transformation of object states. We use recognised object properties (state and type) to detect corresponding manipulation actions by tracking object transformations in the video. Experimental performance evaluation for this approach is provided using the 50 salads and EPIC-Kitchen datasets. We use the resulting action descriptions to construct narrative descriptions for complex activities observed in videos of 50 salads dataset
APA, Harvard, Vancouver, ISO und andere Zitierweisen
22

Peyrache, Jean-Philippe. „Nouvelles approches itératives avec garanties théoriques pour l'adaptation de domaine non supervisée“. Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET4023/document.

Der volle Inhalt der Quelle
Annotation:
Ces dernières années, l’intérêt pour l’apprentissage automatique n’a cessé d’augmenter dans des domaines aussi variés que la reconnaissance d’images ou l’analyse de données médicales. Cependant, une limitation du cadre classique PAC a récemment été mise en avant. Elle a entraîné l’émergence d’un nouvel axe de recherche : l’Adaptation de Domaine, dans lequel on considère que les données d’apprentissage proviennent d’une distribution (dite source) différente de celle (dite cible) dont sont issues les données de test. Les premiers travaux théoriques effectués ont débouché sur la conclusion selon laquelle une bonne performance sur le test peut s’obtenir en minimisant à la fois l’erreur sur le domaine source et un terme de divergence entre les deux distributions. Trois grandes catégories d’approches s’en inspirent : par repondération, par reprojection et par auto-étiquetage. Dans ce travail de thèse, nous proposons deux contributions. La première est une approche de reprojection basée sur la théorie du boosting et s’appliquant aux données numériques. Celle-ci offre des garanties théoriques intéressantes et semble également en mesure d’obtenir de bonnes performances en généralisation. Notre seconde contribution consiste d’une part en la proposition d’un cadre permettant de combler le manque de résultats théoriques pour les méthodes d’auto-étiquetage en donnant des conditions nécessaires à la réussite de ce type d’algorithme. D’autre part, nous proposons dans ce cadre une nouvelle approche utilisant la théorie des (epsilon, gamma, tau)-bonnes fonctions de similarité afin de contourner les limitations imposées par la théorie des noyaux dans le contexte des données structurées
During the past few years, an increasing interest for Machine Learning has been encountered, in various domains like image recognition or medical data analysis. However, a limitation of the classical PAC framework has recently been highlighted. It led to the emergence of a new research axis: Domain Adaptation (DA), in which learning data are considered as coming from a distribution (the source one) different from the one (the target one) from which are generated test data. The first theoretical works concluded that a good performance on the target domain can be obtained by minimizing in the same time the source error and a divergence term between the two distributions. Three main categories of approaches are derived from this idea : by reweighting, by reprojection and by self-labeling. In this thesis work, we propose two contributions. The first one is a reprojection approach based on boosting theory and designed for numerical data. It offers interesting theoretical guarantees and also seems able to obtain good generalization performances. Our second contribution consists first in a framework filling the gap of the lack of theoretical results for self-labeling methods by introducing necessary conditions ensuring the good behavior of this kind of algorithm. On the other hand, we propose in this framework a new approach, using the theory of (epsilon, gamma, tau)- good similarity functions to go around the limitations due to the use of kernel theory in the specific context of structured data
APA, Harvard, Vancouver, ISO und andere Zitierweisen
23

Allesiardo, Robin. „Bandits Manchots sur Flux de Données Non Stationnaires“. Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS334/document.

Der volle Inhalt der Quelle
Annotation:
Le problème des bandits manchots est un cadre théorique permettant d'étudier le compromis entre exploration et exploitation lorsque l'information observée est partielle. Dans celui-ci, un joueur dispose d'un ensemble de K bras (ou actions), chacun associé à une distribution de récompenses D(µk) de moyenne µk Є [0, 1] et de support [0, 1]. A chaque tour t Є [1, T], il choisit un bras kt et observe la récompense y kt tirée depuis D (µkt). La difficulté du problème vient du fait que le joueur observe uniquement la récompense associée au bras joué; il ne connaît pas celle qui aurait pu être obtenue en jouant un autre bras. À chaque choix, il est ainsi confronté au dilemme entre l'exploration et l'exploitation; explorer lui permet d'affiner sa connaissance des distributions associées aux bras explorés tandis qu'exploiter lui permet d'accumuler davantage de récompenses en jouant le meilleur bras empirique (sous réserve que le meilleur bras empirique soit effectivement le meilleur bras). Dans la première partie de la thèse nous aborderons le problème des bandits manchots lorsque les distributions générant les récompenses sont non-stationnaires. Nous étudierons dans un premier temps le cas où même si les distributions varient au cours du temps, le meilleur bras ne change pas. Nous étudierons ensuite le cas où le meilleur bras peut aussi changer au cours du temps. La seconde partie est consacrée aux algorithmes de bandits contextuels où les récompenses dépendent de l'état de l'environnement. Nous étudierons l'utilisation des réseaux de neurones et des forêts d'arbres dans le cas des bandits contextuels puis les différentes approches à base de méta-bandits permettant de sélectionner en ligne l'expert le plus performant durant son apprentissage
The multi-armed bandit is a framework allowing the study of the trade-off between exploration and exploitation under partial feedback. At each turn t Є [1,T] of the game, a player has to choose an arm kt in a set of K and receives a reward ykt drawn from a reward distribution D(µkt) of mean µkt and support [0,1]. This is a challeging problem as the player only knows the reward associated with the played arm and does not know what would be the reward if she had played another arm. Before each play, she is confronted to the dilemma between exploration and exploitation; exploring allows to increase the confidence of the reward estimators and exploiting allows to increase the cumulative reward by playing the empirical best arm (under the assumption that the empirical best arm is indeed the actual best arm).In the first part of the thesis, we will tackle the multi-armed bandit problem when reward distributions are non-stationary. Firstly, we will study the case where, even if reward distributions change during the game, the best arm stays the same. Secondly, we will study the case where the best arm changes during the game. The second part of the thesis tacles the contextual bandit problem where means of reward distributions are now dependent of the environment's current state. We will study the use of neural networks and random forests in the case of contextual bandits. We will then propose meta-bandit based approach for selecting online the most performant expert during its learning
APA, Harvard, Vancouver, ISO und andere Zitierweisen
24

Liu, Jingshu. „Unsupervised cross-lingual representation modeling for variable length phrases“. Thesis, Nantes, 2020. http://www.theses.fr/2020NANT4009.

Der volle Inhalt der Quelle
Annotation:
L’étude de l’extraction de lexiques bilingues à partir de corpus comparables a été souvent circonscrite aux mots simples. Les méthodes classiques ne peuvent gérer les expressions complexes que si elles sont de longueur identique, tandis que les méthodes de plongements de mots modélisent les expressions comme une seule unité. Ces dernières nécessitent beaucoup de données, et ne peuvent pas gérer les expressions hors vocabulaire. Dans cette thèse, nous nous intéressons à la modélisation d’expressions de longueur variable par co-occurrences et par les méthodes neuronales état de l’art. Nous étudions aussi l’apprentissage de représentation d’expressions supervisé et non-supervisé. Nous proposons deux contributions majeures. Premièrement, une nouvelle architecture appelée tree-free recursive neural network (TFRNN) pour la modélisation d’expressions indépendamment de leur longueur. En apprenant à prédire le contexte de l’expression à partir de son vecteur encodé, nous surpassons les systèmes état de l’art de synonymie monolingue en utilisant seulement le texte brut pour l’entraînement. Deuxièmement, pour la modélisation cross-lingue, nous incorporons une architecture dérivée de TF-RNN dans un modèle encodeur-décodeur avec un mécanisme de pseudo contre-traduction inspiré de travaux sur la traduction automatique neurale nonsupervisée. Notre système améliore significativement l’alignement bilingue des expressions de longueurs différentes
Significant advances have been achieved in bilingual word-level alignment from comparable corpora, yet the challenge remains for phrase-level alignment. Traditional methods to phrase alignment can only handle phrase of equal length, while word embedding based approaches learn phrase embeddings as individual vocabulary entries suffer from the data sparsity and cannot handle out of vocabulary phrases. Since bilingual alignment is a vector comparison task, phrase representation plays a key role. In this thesis, we study the approaches for unified phrase modeling and cross-lingual phrase alignment, ranging from co-occurrence models to most recent neural state-of-the-art approaches. We review supervised and unsupervised frameworks for modeling cross-lingual phrase representations. Two contributions are proposed in this work. First, a new architecture called tree-free recursive neural network (TF-RNN) for modeling phrases of variable length which, combined with a wrapped context prediction training objective, outperforms the state-of-the-art approaches on monolingual phrase synonymy task with only plain text training data. Second, for cross-lingual modeling, we propose to incorporate an architecture derived from TF-RNN in an encoder-decoder model with a pseudo back translation mechanism inspired by unsupervised neural machine translation. Our proposition improves significantly bilingual alignment of different length phrases
APA, Harvard, Vancouver, ISO und andere Zitierweisen
25

Gal, Jocelyn. „Application d’algorithmes de machine learning pour l’exploitation de données omiques en oncologie“. Electronic Thesis or Diss., Université Côte d'Azur (ComUE), 2019. http://theses.univ-cotedazur.fr/2019AZUR6026.

Der volle Inhalt der Quelle
Annotation:
Le développement de l’informatique en médecine et en biologie a permis de générer un grand volume de données. La complexité et la quantité d’informations à intégrer lors d’une prise de décision médicale ont largement dépassé les capacités humaines. Ces informations comprennent des variables démographiques, cliniques ou radiologiques mais également des variables biologiques et en particulier omiques (génomique, protéomique, transcriptomique et métabolomique) caractérisées par un grand nombre de variables mesurées relativement au faible nombre de patients. Leur analyse représente un véritable défi dans la mesure où elles sont fréquemment « bruitées » et associées à des situations de multi-colinéarité. De nos jours, la puissance de calcul permet d'identifier des modèles cliniquement pertinents parmi cet ensemble de données en utilisant des algorithmes d’apprentissage automatique. A travers cette thèse, notre objectif est d’appliquer des méthodes d’apprentissage supervisé et non supervisé, à des données biologiques de grande dimension, dans le but de participer à l’optimisation de la classification et de la prise en charge thérapeutique des patients atteints de cancers. La première partie de ce travail consiste à appliquer une méthode d’apprentissage supervisé à des données d’immunogénétique germinale pour prédire l’efficacité thérapeutique et la toxicité d’un traitement par inhibiteur de point de contrôle immunitaire. La deuxième partie compare différentes méthodes d’apprentissage non supervisé permettant d’évaluer l’apport de la métabolomique dans le diagnostic et la prise en charge des cancers du sein en situation adjuvante. Enfin la troisième partie de ce travail a pour but d’exposer l’apport que peuvent présenter les essais thérapeutiques simulés en recherche biomédicale. L’application des méthodes d’apprentissage automatique en oncologie offre de nouvelles perspectives aux cliniciens leur permettant ainsi de poser des diagnostics plus rapidement et plus précisément, ou encore d’optimiser la prise en charge thérapeutique en termes d’efficacité et de toxicité
The development of computer science in medicine and biology has generated a large volume of data. The complexity and the amount of information to be integrated for optimal decision-making in medicine have largely exceeded human capacities. These data includes demographic, clinical and radiological variables, but also biological variables and particularly omics (genomics, proteomics, transcriptomics and metabolomics) characterized by a large number of measured variables relatively to a generally small number of patients. Their analysis represents a real challenge as they are frequently "noisy" and associated with situations of multi-colinearity. Nowadays, computational power makes it possible to identify clinically relevant models within these sets of data by using machine learning algorithms. Through this thesis, our goal is to apply supervised and unsupervised learning methods, to large biological data, in order to participate in the optimization of the classification and therapeutic management of patients with various types of cancer. In the first part of this work a supervised learning method is applied to germline immunogenetic data to predict the efficacy and toxicity of immune checkpoint inhibitor therapy. In the second part, different unsupervised learning methods are compared to evaluate the contribution of metabolomics in the diagnosis and management of breast cancer. Finally, the third part of this work aims to expose the contribution that simulated therapeutic trials can make in biomedical research. The application of machine learning methods in oncology offers new perspectives to clinicians allowing them to make diagnostics faster and more accurately, or to optimize therapeutic management in terms of efficacy and toxicity
APA, Harvard, Vancouver, ISO und andere Zitierweisen
26

Cherfi, Zohra Leila. „Diagnostic de systèmes complexes en contextes non supervisé et partiellement supervisé : application au circuit de voie ferroviaire“. Phd thesis, UNIVERSITE DE TECHNOLOGIE DE COMPIEGNE, 2011. http://tel.archives-ouvertes.fr/tel-01006538.

Der volle Inhalt der Quelle
Annotation:
Ce travail de thèse présente l'élaboration de méthodes de diagnostic pour un système complexe de l'infrastructure ferroviaire, le circuit de voie. La tâche de diagnostic porte sur l'estimation de variables latentes, liées aux défauts, à partir de variables observées, extraites de signaux d'inspection et les solutions proposées s'appuient sur une approche générative permettant de modéliser les liens et relations entre ces variables. Dans le première partie de ces travaux, des méthodes non supervisées ont été envisagées pour le diagnostic. Les approches développées dans ce contexte ont montré l'intérêt de prendre en compte certaines informations a priori sur la structure du modèle ou sur l'aspect temporel de données prélevées séquentiellement. La seconde partie de cette thèse porte sur le diagnostic du système dans un cadre partiellement supervisé et consistait à utiliser des données réelles étiquetées de manière imprécise et incertaine par plusieurs experts lors de l'apprentissage. L'approche proposée repose sur l'utilisation de la théorie des fonctions de croyance pour modéliser et combiner les différents avis avant de les intégrer au modèle statistique proposé. Les résultats obtenus ont permis de montrer l'intérêt d'une telle démarche pour le diagnostic.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
27

Othmani-Guibourg, Mehdi. „Supervised learning for distribution of centralised multiagent patrolling strategies“. Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS534.

Der volle Inhalt der Quelle
Annotation:
Depuis presque deux décennies, la tâche de la patrouille a fait l'objet d'une attention toute particulière de la part de la communauté multi-agent. La patrouille multi-agent consiste à modéliser comme un système multi-agent une tâche de patrouille à optimiser. Cette optimisation revient à répartir dans l'espace et le temps les agents patrouilleurs sur la zone à surveiller, cela le plus efficacement possible; un tel problème constitue par là même un problème de décision. Un large éventail d'algorithmes basés sur des stratégies d’agent réactives, cognitives, d’apprentissage par renforcement, centralisées et décentralisées, entre autres, ont été développés pour rendre les stratégies de patrouille toujours plus performantes. Cependant, les approches existantes basées sur de l'apprentissage supervisé avaient peu été étudiées jusqu’à présent, bien que quelques travaux aient abordé cette question. L’idée principale et sous-jacente à l'apprentissage supervisé, qui n’est rien de plus qu’un ensemble de méthodes et d'outils permettant d’inférer de nouvelles connaissances, est d’apprendre une fonction associant à tout élément en entrée un élément en sortie, à partir d'un ensemble de données composé de paires d'éléments entrées-sorties; l'apprentissage, dans ce cas, permet au système de faire de la généralisation à de nouvelles données jamais observées auparavant. Jusqu'à présent, la meilleure stratégie de patrouille multi-agent en ligne, à savoir sans calcul préalable, s'est avérée être une stratégie centralisée à coordinateur. Cependant, comme pour tout processus de décision centralisé généralement, une telle stratégie est difficilement échelonnable. L'objectif de ce travail est alors de développer et de mettre en œuvre une nouvelle méthodologie visant à transformer toute stratégie centralisée performante en stratégie distribuée, c'est-à-dire par nature résiliente, plus adaptative aux changements de l'environnement et échelonnable. Ce faisant, le processus de décision centralisé, généralement représenté par un coordinateur dans la patrouille multi-agent, est distribué sur les agents patrouilleurs au moyen de méthodes d’apprentissage supervisé, de sorte que les agents de la stratégie distribuée résultante tendent chacun à capturer ou cristalliser une partie de l’algorithme exécuté par le processus de décision centralisé. Le résultat est alors un nouveau algorithme de prise de décision distribué, qui repose sur de l’apprentissage automatique. Dans cette thèse, une telle procédure de distribution de stratégie centralisée est établie, puis concrètement mise en œuvre en utilisant certaines architectures de réseaux de neurones. Ainsi, après avoir exposé le contexte et les motivations, nous posons la problématique étudiée. Les principales stratégies multi-agent élaborées jusqu'à présent dans le cadre de la patrouille multi-agent sont ensuite décrites, en particulier une stratégie centralisée à haute performance qui est la stratégie centralisée à distribuer ici étudiée, ainsi qu’une stratégie décentralisée assez simple qui est utilisée comme référence pour les stratégies décentralisées. Entre autres, quelques stratégies basées sur de l’apprentissage supervisé sont aussi décrites. Ensuite, le modèle ainsi que certains concept fondamentaux du problème de la patrouille multi-agent sont définis
For nearly two decades, patrolling has received significant attention from the multiagent community. Multiagent patrolling (MAP) consists in modelling a patrol task to optimise as a multiagent system. The problem of optimising a patrol task is to distribute the most efficiently agents over the area to patrol in space and time, which constitutes a decision-making problem. A range of algorithms based on reactive, cognitive, reinforcement learning, centralised and decentralised strategies, amongst others, have been developed to make such a task ever more efficient. However, the existing patrolling-specific approaches based on supervised learning were still at preliminary stages, although a few works addressed this issue. Central to supervised learning, which is a set of methods and tools that allow inferring new knowledge, is the idea of learning a function mapping any input to an output from a sample of data composed of input-output pairs; learning, in this case, enables the system to generalise to new data never observed before. Until now, the best online MAP strategy, namely without precalculation, has turned out to be a centralised strategy with a coordinator. However, as for any centralised decision process in general, such a strategy is hardly scalable. The purpose of this work is then to develop and implement a new methodology aiming at turning any high-performance centralised strategy into a distributed strategy. Indeed, distributed strategies are by design resilient, more adaptive to changes in the environment, and scalable. In doing so, the centralised decision process, generally represented in MAP by a coordinator, is distributed into patrolling agents by means of supervised learning methods, so that each agent of the resultant distributed strategy tends to capture a part of the algorithm executed by the centralised decision process. The outcome is a new distributed decision-making algorithm based on machine learning. In this dissertation therefore, such a procedure of distribution of centralised strategy is established, then concretely implemented using some artificial neural networks architectures. By doing so, after having exposed the context and motivations of this work, we pose the problematic that led our study. The main multiagent strategies devised until now as part of MAP are then described, particularly a high-performance coordinated strategy, which is the centralised strategy studied in this work, as well as a simple decentralised strategy used as reference for decentralised strategies. Among others, some existing strategies based on supervised learning are also described. Thereafter, the model as well as certain of key concepts of MAP are defined. We also define the methodology laid down to address and study this problematic. This methodology comes in the form of a procedure that allows decentralising any centralised strategy by means of supervised learning. Then, the software ecosystem we developed for the needs of this work is also described, particularly PyTrol a discrete-time simulator dedicated to MAP developed with the aim of performing MAP simulation, to assess strategies and generate data, and MAPTrainer, a framework hinging on the PyTorch machine learning library, dedicated to research in machine learning in the context of MAP
APA, Harvard, Vancouver, ISO und andere Zitierweisen
28

Chandra, Siddhartha. „Apprentissage Profond pour des Prédictions Structurées Efficaces appliqué à la Classification Dense en Vision par Ordinateur“. Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC033/document.

Der volle Inhalt der Quelle
Annotation:
Dans cette thèse, nous proposons une technique de prédiction structurée qui combine les vertus des champs aléatoires conditionnels Gaussiens (G-CRF) avec les réseaux de neurones convolutifs (CNN). L’idée à l’origine de cette thèse est l’observation que tout en étant d’une forme limitée, les GCRF nous permettent d’effectuer une inférence exacte de Maximum-A-Posteriori (MAP) de manière efficace. Nous préférons l’exactitude et la simplicité à la généralité et préconisons la prédiction structurée basée sur les G-CRFs dans les chaînes de traitement d’apprentissage en profondeur. Nous proposons des méthodes de prédiction structurées qui permettent de gérer (i) l’inférence exacte, (ii) les interactions par paires à court et à long terme, (iii) les expressions CNN riches pour les termes paires et (iv) l’entraînement de bout en bout aux côtés des CNN. Nous concevons de nouvelles stratégies de mise en œuvre qui nous permettent de surmonter les problèmes de mémoire et de calcul lorsque nous traitons des modèles graphiques entièrement connectés. Ces méthodes sont illustrées par des études expérimentales approfondies qui démontrent leur utilité. En effet, nos méthodes permettent une amélioration des résultats vis-à-vis de L’état de l’art sur des applications variées dans le domaine de la vision par ordinateur
In this thesis we propose a structured prediction technique that combines the virtues of Gaussian Conditional Random Fields (G-CRFs) with Convolutional Neural Networks (CNNs). The starting point of this thesis is the observation that while being of a limited form GCRFs allow us to perform exact Maximum-APosteriori (MAP) inference efficiently. We prefer exactness and simplicity over generality and advocate G-CRF based structured prediction in deep learning pipelines. Our proposed structured prediction methods accomodate (i) exact inference, (ii) both shortand long- term pairwise interactions, (iii) rich CNN-based expressions for the pairwise terms, and (iv) end-to-end training alongside CNNs. We devise novel implementation strategies which allow us to overcome memory and computational challenges
APA, Harvard, Vancouver, ISO und andere Zitierweisen
29

Chen, Mickaël. „Learning with weak supervision using deep generative networks“. Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS024.

Der volle Inhalt der Quelle
Annotation:
Nombre des succès de l’apprentissage profond reposent sur la disponibilité de données massivement collectées et annotées, exploités par des algorithmes supervisés. Ces annotations, cependant, peuvent s’avérer difficiles à obtenir. La conception de méthodes peu gourmandes en annotations est ainsi un enjeu important, abordé dans des approches semi-supervisées ou faiblement supervisées. Par ailleurs ont été récemment introduit les réseaux génératifs profonds, capable de manipuler des distributions complexes et à l’origine d’avancées majeures, en édition d’image et en adaptation de domaine par exemple. Dans cette thèse, nous explorons comment ces outils nouveaux peuvent être exploités pour réduire les besoins en annotations. En premier lieu, nous abordons la tâche de prédiction stochastique. Il s’agit de concevoir des systèmes de prédiction structurée tenant compte de la diversité des réponses possibles. Nous proposons dans ce cadre deux modèles, le premier pour des données multi-vues avec vues manquantes, et le second pour la prédiction de futurs possibles d'une séquence vidéo. Ensuite, nous étudions la décomposition en deux facteurs latents indépendants dans le cas où un seul facteur est annoté. Nous proposons des modèles qui visent à retrouver des représentations latentes sémantiquement cohérentes de ces facteurs explicatifs. Le premier modèle est appliqué en génération de données de capture de mouvements, le second, sur des données multi-vues. Enfin, nous nous attaquons au problème, crucial en vision par ordinateur, de la segmentation d’image. Nous proposons un modèle, inspiré des idées développées dans cette thèse, de segmentation d’objet entièrement non supervisé
Many successes of deep learning rely on the availability of massive annotated datasets that can be exploited by supervised algorithms. Obtaining those labels at a large scale, however, can be difficult, or even impossible in many situations. Designing methods that are less dependent on annotations is therefore a major research topic, and many semi-supervised and weakly supervised methods have been proposed. Meanwhile, the recent introduction of deep generative networks provided deep learning methods with the ability to manipulate complex distributions, allowing for breakthroughs in tasks such as image edition and domain adaptation. In this thesis, we explore how these new tools can be useful to further alleviate the need for annotations. Firstly, we tackle the task of performing stochastic predictions. It consists in designing systems for structured prediction that take into account the variability in possible outputs. We propose, in this context, two models. The first one performs predictions on multi-view data with missing views, and the second one predicts possible futures of a video sequence. Then, we study adversarial methods to learn a factorized latent space, in a setting with two explanatory factors but only one of them is annotated. We propose models that aim to uncover semantically consistent latent representations for those factors. One model is applied to the conditional generation of motion capture data, and another one to multi-view data. Finally, we focus on the task of image segmentation, which is of crucial importance in computer vision. Building on previously explored ideas, we propose a model for object segmentation that is entirely unsupervised
APA, Harvard, Vancouver, ISO und andere Zitierweisen
30

Duran, Audrey. „Intelligence artificielle pour la caractérisation du cancer de la prostate par agressivité en IRM multiparamétrique“. Thesis, Lyon, 2022. http://theses.insa-lyon.fr/publication/2022LYSEI008/these.pdf.

Der volle Inhalt der Quelle
Annotation:
Le cancer de la prostate (CaP) est le cancer le plus diagnostiqué dans plus de la moitié des pays du monde et le cinquième cancer le plus meurtrier chez les hommes en 2020. Le diagnostic du CaP inclut l'acquisition d'une imagerie par résonance magnétique multiparamétrique (IRM-mp) - qui combine une séquence T2-pondérée (T2-w), une imagerie pondérée en diffusion (DWI) et une séquence dynamique de contraste amélioré (DCE) - avant la réalisation de biopsies. L'analyse jointe de ces images multimodales est fastidieuse et chronophage, en particulier lorsque les séquences mènent à des conclusions différentes. En outre, la sensibilité de l'IRM reste faible pour les cancers peu agressifs et la variabilité inter-observateur élevée. De plus, l'analyse visuelle ne permet pas aujourd'hui de déterminer l'agressivité des cancers, caractérisée par le score de Gleason (GS). C'est pourquoi des systèmes d'aide au diagnostic (CAD) basés sur des modèles statistiques par apprentissage ont été proposés ces dernières années, pour d'assister les radiologues dans leur diagnostic. Toutefois, la majorité de ces systèmes se concentrent sur une tâche de détection binaire des lésions cliniquement significatives (CS). L'objectif de cette thèse est d'élaborer un système CAD pour détecter les CaP sur des IRM-mp, mais aussi de caractériser leur agressivité en prédisant le GS associé. Dans une première partie, nous présentons un système CAD supervisé permettant de segmenter le CaP par agressivité à partir des cartes T2-w et ADC. Ce réseau de neurones multiclasse segmente simultanément la prostate et les lésions par agressivité. Le modèle a été entraîné et évalué en validation croisée à 5 plis sur une base de données hétérogène de 219 examens IRM acquis avant prostatectomie. Pour la tâche de classification par GS, le kappa de Cohen quadratiquement pondéré (κ) est de 0.418 ± 0.138, ce qui représente le meilleur kappa par lésions pour une tâche de segmentation par GS à notre connaissance. Le modèle présente également des capacités de généralisation encourageantes sur le jeu de données public PROSTATEx-2. Dans une deuxième partie, nous nous penchons sur un modèle faiblement supervisé, permettant l'inclusion de données où les lésions sont identifiées par des points seulement, pour un gain de temps conséquent et l'inclusion de bases de données établies sur la biopsie. Concernant la tâche de classification par GS, les performances approchent celles obtenues avec le modèle totalement supervisé de référence, en n'ayant que 6% de voxels annotés pour l'entraînement. Dans une dernière partie, nous étudions l'apport de l'imagerie DCE, séquence souvent omise en entrée des modèles profonds, pour la détection et la caractérisation du CaP. Plusieurs stratégies d'encodage de la perfusion dans une architecture U-Net sont étudiées. Nous montrons que les cartes paramétriques dérivées des examens IRM DCE ont un impact positif sur les performances de segmentation et de classification du CaP
Prostate cancer (PCa) is the most frequently diagnosed cancer in men in more than half the countries in the world and the fifth leading cause of cancer death among men in 2020. Diagnosis of PCa includes multiparametric magnetic resonance imaging acquisition (mp-MRI) - which combines T2 weighted (T2-w), diffusion weighted imaging (DWI) and dynamic contrast enhanced (DCE) sequences - prior to any biopsy. The joint analysis of these multimodal images is time demanding and challenging, especially when individual MR sequences yield conflicting findings. In addition, the sensitivity of MRI is low for less aggressive cancers and inter-reader reproducibility remains moderate at best. Moreover, visual analysis does not currently allow to determine the cancer aggressiveness, characterized by the Gleason score (GS). This is why computer-aided diagnosis (CAD) systems based on statistical learning models have been proposed in recent years, to assist radiologists in their diagnostic task, but the vast majority of these models focus on the binary detection of clinically significant (CS) lesions. The objective of this thesis is to develop a CAD system to detect and segment PCa on mp-MRI images but also to characterize their aggressiveness, by predicting the associated GS. In a first part, we present a supervised CAD system to segment PCa by aggressiveness from T2-w and ADC maps. This end-to-end multi-class neural network jointly segments the prostate gland and cancer lesions with GS group grading. The model was trained and validated with a 5-fold cross-validation on a heterogeneous series of 219 MRI exams acquired on three different scanners prior prostatectomy. Regarding the automatic GS group grading, Cohen’s quadratic weighted kappa coefficient (κ) is 0.418 ± 0.138, which is the best reported lesion-wise kappa for GS segmentation to our knowledge. The model has also encouraging generalization capacities on the PROSTATEx-2 public dataset. In a second part, we focus on a weakly supervised model that allows the inclusion of partly annotated data, where the lesions are identified by points only, for a consequent saving of time and the inclusion of biopsy-based databases. Regarding the automatic GS group grading on our private dataset, we show that we can approach performance achieved with the baseline fully supervised model while considering 6% of annotated voxels only for training. In the last part, we study the contribution of DCE MRI, a sequence often omitted as input to deep models, for the detection and characterization of PCa. We evaluate several ways to encode the perfusion from the DCE MRI information in a U-Net like architecture. Parametric maps derived from DCE MR exams are shown to positively impact segmentation and grading performance of PCa lesions
APA, Harvard, Vancouver, ISO und andere Zitierweisen
31

Gal, Viviane. „Vers une nouvelle Interaction Homme Environnement dans les jeux vidéo et pervasifs : rétroaction biologique et états émotionnels : apprentissage profond non supervisé au service de l'affectique“. Electronic Thesis or Diss., Paris, CNAM, 2019. http://www.theses.fr/2019CNAM1269.

Der volle Inhalt der Quelle
Annotation:
Vivre des moments exceptionnels, connaître des sensations fortes, du bien-être, nous épanouir, font souvent partie de nos rêves ou aspirations. Nous choisissons des moyens divers pour y arriver comme le jeu. Que le joueur recherche l’originalité, les défis, la découverte, une histoire, ou d’autres buts, ce sont des états émotionnels qui sont l’objet de sa quête. Il attend que le jeu lui procure du plaisir, des sensations. Comment les lui apporter ? Mettre au point une nouvelle interaction humain environnement, dans les jeux vidéo ou pervasifs ou autres applications, prenant en compte et s’adaptant aux émotions de chacun, sans être gêné par les interfaces, biocapteurs de contact par exemple, est notre objectif. Cela soulève deux questions : - Peut-on découvrir des états émotionnels à partir de mesures physiologiques issues de biocapteurs de contact ? - Si oui, ces capteurs peuvent-ils être remplacés par des dispositifs distants, donc non invasifs, et produire les mêmes résultats ?Les modèles mis au point proposent des solutions à base de méthodes mathématiques d’apprentissage non supervisées. Nous présentons aussi des moyens de mesures à distance et expliquons les futurs travaux dans le domaine que nous baptisons affectique
Living exceptional moments, experiencing thrills, well-being, blooming, are often part of our dreams or aspirations. We choose various ways to get there like games. Whether the player is looking for originality, challenges, discovery, a story, or other goals, emotional states are the purpose of his quest. He remains until the game gives him pleasure, sensations. How bring them there? We are developing a new human environment interaction that takes into account and adapts to emotions. We address video or pervasive games or other applications. Through this goal, players should not be bothered by interfaces, or biosensors invasivness. This work raises two questions:- Can we discover emotional states based on physiological measurements from contact biosensors?- If so, can these sensors be replaced by remote, non-invasive devices and produce the same results?The models we have developed propose solutions based on unsupervised machine learning methods. We also present remote measurements technics and explain our future works in a new field we call affectics
APA, Harvard, Vancouver, ISO und andere Zitierweisen
32

Aversano, Gianmarco. „Development of physics-based reduced-order models for reacting flow applications“. Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLC095/document.

Der volle Inhalt der Quelle
Annotation:
L’objectif final étant de développer des modèles d’ordre réduit pour les applications de combustion, des techniques d’apprentissage automatique non supervisées et supervisées ont été testées et combinées dans les travaux de la présente thèse pour l’extraction de caractéristiques et la construction de modèles d’ordre réduit. Ainsi, l’application de techniques pilotées par les données pour la détection des caractéristiques d’ensembles de données de combustion turbulente (simulation numérique directe) a été étudiée sur deux flammes H2 / CO: une évolution spatiale (DNS1) et une jet à évolution temporelle (DNS2). Des méthodes telles que l’analyse en composantes principales (ACP), l’analyse en composantes principales locales (LPCA), la factorisation matricielle non négative (NMF) et les autoencodeurs ont été explorées à cette fin. Il a été démontré que divers facteurs pouvaient affecter les performances de ces méthodes, tels que les critères utilisés pour le centrage et la mise à l’échelle des données d’origine ou le choix du nombre de dimensions dans les approximations de rang inférieur. Un ensemble de lignes directrices a été présenté qui peut aider le processus d’identification de caractéristiques physiques significatives à partir de données de flux réactifs turbulents. Des méthodes de compression de données telles que l’analyse en composantes principales (ACP) et les variations ont été combinées à des méthodes d’interpolation telles que le krigeage, pour la construction de modèles ordonnées à prix réduits et calculables pour la prédiction de l’état d’un système de combustion dans des conditions de fonctionnement inconnues ou des combinaisons de modèles valeurs de paramètre d’entrée. La méthodologie a d’abord été testée pour la prévision des flammes 1D avec un nombre croissant de paramètres d’entrée (rapport d’équivalence, composition du carburant et température d’entrée), avec des variantes de l’approche PCA classique, à savoir PCA contrainte et PCA locale, appliquée aux cas de combustion la première fois en combinaison avec une technique d’interpolation. Les résultats positifs de l’étude ont conduit à l’application de la méthodologie proposée aux flammes 2D avec deux paramètres d’entrée, à savoir la composition du combustible et la vitesse d’entrée, qui ont donné des résultats satisfaisants. Des alternatives aux méthodes non supervisées et supervisées choisies ont également été testées sur les mêmes données 2D. L’utilisation de la factorisation matricielle non négative (FNM) pour l’approximation de bas rang a été étudiée en raison de la capacité de la méthode à représenter des données à valeur positive, ce qui permet de ne pas enfreindre des lois physiques importantes telles que la positivité des fractions de masse d’espèces chimiques et comparée à la PCA. Comme méthodes supervisées alternatives, la combinaison de l’expansion du chaos polynomial (PCE) et du Kriging et l’utilisation de réseaux de neurones artificiels (RNA) ont été testées. Les résultats des travaux susmentionnés ont ouvert la voie au développement d’un jumeau numérique d’un four à combustion à partir d’un ensemble de simulations 3D. La combinaison de PCA et de Kriging a également été utilisée dans le contexte de la quantification de l’incertitude (UQ), en particulier dans le cadre de collaboration de données lié (B2B-DC), qui a conduit à l’introduction de la procédure B2B-DC à commande réduite. Comme pour la première fois, le centre de distribution B2B a été développé en termes de variables latentes et non en termes de variables physiques originales
With the final objective being to developreduced-order models for combustion applications,unsupervised and supervised machine learningtechniques were tested and combined in the workof the present Thesis for feature extraction and theconstruction of reduced-order models. Thus, the applicationof data-driven techniques for the detection offeatures from turbulent combustion data sets (directnumerical simulation) was investigated on two H2/COflames: a spatially-evolving (DNS1) and a temporallyevolvingjet (DNS2). Methods such as Principal ComponentAnalysis (PCA), Local Principal ComponentAnalysis (LPCA), Non-negative Matrix Factorization(NMF) and Autoencoders were explored for this purpose.It was shown that various factors could affectthe performance of these methods, such as the criteriaemployed for the centering and the scaling of theoriginal data or the choice of the number of dimensionsin the low-rank approximations. A set of guidelineswas presented that can aid the process ofidentifying meaningful physical features from turbulentreactive flows data. Data compression methods suchas Principal Component Analysis (PCA) and variationswere combined with interpolation methods suchas Kriging, for the construction of computationally affordablereduced-order models for the prediction ofthe state of a combustion system for unseen operatingconditions or combinations of model input parametervalues. The methodology was first tested forthe prediction of 1D flames with an increasing numberof input parameters (equivalence ratio, fuel compositionand inlet temperature), with variations of the classicPCA approach, namely constrained PCA and localPCA, being applied to combustion cases for the firsttime in combination with an interpolation technique.The positive outcome of the study led to the applicationof the proposed methodology to 2D flames withtwo input parameters, namely fuel composition andinlet velocity, which produced satisfactory results. Alternativesto the chosen unsupervised and supervisedmethods were also tested on the same 2D data.The use of non-negative matrix factorization (NMF) forlow-rank approximation was investigated because ofthe ability of the method to represent positive-valueddata, which helps the non-violation of important physicallaws such as positivity of chemical species massfractions, and compared to PCA. As alternative supervisedmethods, the combination of polynomial chaosexpansion (PCE) and Kriging and the use of artificialneural networks (ANNs) were tested. Results from thementioned work paved the way for the developmentof a digital twin of a combustion furnace from a setof 3D simulations. The combination of PCA and Krigingwas also employed in the context of uncertaintyquantification (UQ), specifically in the bound-to-bounddata collaboration framework (B2B-DC), which led tothe introduction of the reduced-order B2B-DC procedureas for the first time the B2B-DC was developedin terms of latent variables and not in terms of originalphysical variables
APA, Harvard, Vancouver, ISO und andere Zitierweisen
33

Oquab, Maxime. „Convolutional neural networks : towards less supervision for visual recognition“. Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE061.

Der volle Inhalt der Quelle
Annotation:
Les réseaux de neurones à convolution sont des algorithmes d’apprentissage flexibles qui tirent efficacement parti des importantes masses de données qui leur sont fournies pour l’entraînement. Malgré leur utilisation dans des applications industrielles dès les années 90, ces algorithmes n’ont pas été utilisés pour la reconnaissance d’image à cause de leurs faibles performances avec les images naturelles. C’est finalement grâce a l’apparition d’importantes quantités de données et de puissance de calcul que ces algorithmes ont pu révéler leur réel potentiel lors de la compétition ImageNet, menant à un changement de paradigme en reconnaissance d’image. La première contribution de cette thèse est une méthode de transfert d’apprentissage dans les réseaux à convolution pour la classification d’image. À l’aide d’une procédure de pré-entraînement, nous montrons que les représentations internes d’un réseau à convolution sont assez générales pour être utilisées sur d’autres tâches, et meilleures lorsque le pré-entraînement est réalisé avec plus de données. La deuxième contribution de cette thèse est un système faiblement supervisé pour la classification d’images, pouvant prédire la localisation des objets dans des scènes complexes, en utilisant, lors de l’entraînement, seulement l’indication de la présence ou l’absence des objets dans les images. La troisième contribution de cette thèse est une recherche de pistes de progression en apprentissage non-supervisé. Nous étudions l’algorithme récent des réseaux génératifs adversariaux et proposons l’utilisation d’un test statistique pour l’évaluation de ces modèles. Nous étudions ensuite les liens avec le problème de la causalité, et proposons un test statistique pour la découverte causale. Finalement, grâce a un lien établi récemment avec les problèmes de transport optimal, nous étudions ce que ces réseaux apprennent des données dans le cas non-supervisé
Convolutional Neural Networks are flexible learning algorithms for computer vision that scale particularly well with the amount of data that is provided for training them. Although these methods had successful applications already in the ’90s, they were not used in visual recognition pipelines because of their lesser performance on realistic natural images. It is only after the amount of data and the computational power both reached a critical point that these algorithms revealed their potential during the ImageNet challenge of 2012, leading to a paradigm shift in visual recogntion. The first contribution of this thesis is a transfer learning setup with a Convolutional Neural Network for image classification. Using a pre-training procedure, we show that image representations learned in a network generalize to other recognition tasks, and their performance scales up with the amount of data used in pre-training. The second contribution of this thesis is a weakly supervised setup for image classification that can predict the location of objects in complex cluttered scenes, based on a dataset indicating only with the presence or absence of objects in training images. The third contribution of this thesis aims at finding possible paths for progress in unsupervised learning with neural networks. We study the recent trend of Generative Adversarial Networks and propose two-sample tests for evaluating models. We investigate possible links with concepts related to causality, and propose a two-sample test method for the task of causal discovery. Finally, building on a recent connection with optimal transport, we investigate what these generative algorithms are learning from unlabeled data
APA, Harvard, Vancouver, ISO und andere Zitierweisen
34

De, La Bourdonnaye François. „Learning sensori-motor mappings using little knowledge : application to manipulation robotics“. Thesis, Université Clermont Auvergne‎ (2017-2020), 2018. http://www.theses.fr/2018CLFAC037/document.

Der volle Inhalt der Quelle
Annotation:
La thèse consiste en l'apprentissage d'une tâche complexe de robotique de manipulation en utilisant très peu d'aprioris. Plus précisément, la tâche apprise consiste à atteindre un objet avec un robot série. L'objectif est de réaliser cet apprentissage sans paramètres de calibrage des caméras, modèles géométriques directs, descripteurs faits à la main ou des démonstrations d'expert. L'apprentissage par renforcement profond est une classe d'algorithmes particulièrement intéressante dans cette optique. En effet, l'apprentissage par renforcement permet d’apprendre une compétence sensori-motrice en se passant de modèles dynamiques. Par ailleurs, l'apprentissage profond permet de se passer de descripteurs faits à la main pour la représentation d'état. Cependant, spécifier les objectifs sans supervision humaine est un défi important. Certaines solutions consistent à utiliser des signaux de récompense informatifs ou des démonstrations d'experts pour guider le robot vers les solutions. D'autres consistent à décomposer l'apprentissage. Par exemple, l'apprentissage "petit à petit" ou "du simple au compliqué" peut être utilisé. Cependant, cette stratégie nécessite la connaissance de l'objectif en termes d'état. Une autre solution est de décomposer une tâche complexe en plusieurs tâches plus simples. Néanmoins, cela n'implique pas l'absence de supervision pour les sous tâches mentionnées. D'autres approches utilisant plusieurs robots en parallèle peuvent également être utilisés mais nécessite du matériel coûteux. Pour notre approche, nous nous inspirons du comportement des êtres humains. Ces derniers généralement regardent l'objet avant de le manipuler. Ainsi, nous décomposons la tâche d'atteinte en 3 sous tâches. La première tâche consiste à apprendre à fixer un objet avec un système de deux caméras pour le localiser dans l'espace. Cette tâche est apprise avec de l'apprentissage par renforcement profond et un signal de récompense faiblement supervisé. Pour la tâche suivante, deux compétences sont apprises en parallèle : la fixation d'effecteur et une fonction de coordination main-oeil. Comme la précédente tâche, un algorithme d'apprentissage par renforcement profond est utilisé avec un signal de récompense faiblement supervisé. Le but de cette tâche est d'être capable de localiser l'effecteur du robot à partir des coordonnées articulaires. La dernière tâche utilise les compétences apprises lors des deux précédentes étapes pour apprendre au robot à atteindre un objet. Cet apprentissage utilise les mêmes aprioris que pour les tâches précédentes. En plus de la tâche d'atteinte, un predicteur d'atteignabilité d'objet est appris. La principale contribution de ces travaux est l'apprentissage d'une tâche de robotique complexe en n'utilisant que très peu de supervision
The thesis is focused on learning a complex manipulation robotics task using little knowledge. More precisely, the concerned task consists in reaching an object with a serial arm and the objective is to learn it without camera calibration parameters, forward kinematics, handcrafted features, or expert demonstrations. Deep reinforcement learning algorithms suit well to this objective. Indeed, reinforcement learning allows to learn sensori-motor mappings while dispensing with dynamics. Besides, deep learning allows to dispense with handcrafted features for the state spacerepresentation. However, it is difficult to specify the objectives of the learned task without requiring human supervision. Some solutions imply expert demonstrations or shaping rewards to guiderobots towards its objective. The latter is generally computed using forward kinematics and handcrafted visual modules. Another class of solutions consists in decomposing the complex task. Learning from easy missions can be used, but this requires the knowledge of a goal state. Decomposing the whole complex into simpler sub tasks can also be utilized (hierarchical learning) but does notnecessarily imply a lack of human supervision. Alternate approaches which use several agents in parallel to increase the probability of success can be used but are costly. In our approach,we decompose the whole reaching task into three simpler sub tasks while taking inspiration from the human behavior. Indeed, humans first look at an object before reaching it. The first learned task is an object fixation task which is aimed at localizing the object in the 3D space. This is learned using deep reinforcement learning and a weakly supervised reward function. The second task consists in learning jointly end-effector binocular fixations and a hand-eye coordination function. This is also learned using a similar set-up and is aimed at localizing the end-effector in the 3D space. The third task uses the two prior learned skills to learn to reach an object and uses the same requirements as the two prior tasks: it hardly requires supervision. In addition, without using additional priors, an object reachability predictor is learned in parallel. The main contribution of this thesis is the learning of a complex robotic task with weak supervision
APA, Harvard, Vancouver, ISO und andere Zitierweisen
35

Aklil, Nassim. „Apprentissage actif sous contrainte de budget en robotique et en neurosciences computationnelles. Localisation robotique et modélisation comportementale en environnement non stationnaire“. Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066225/document.

Der volle Inhalt der Quelle
Annotation:
La prise de décision est un domaine très étudié en sciences, que ce soit en neurosciences pour comprendre les processus sous tendant la prise de décision chez les animaux, qu’en robotique pour modéliser des processus de prise de décision efficaces et rapides dans des tâches en environnement réel. En neurosciences, ce problème est résolu online avec des modèles de prises de décision séquentiels basés sur l’apprentissage par renforcement. En robotique, l’objectif premier est l’efficacité, dans le but d’être déployés en environnement réel. Cependant en robotique ce que l’on peut appeler le budget et qui concerne les limitations inhérentes au matériel, comme les temps de calculs, les actions limitées disponibles au robot ou la durée de vie de la batterie du robot, ne sont souvent pas prises en compte à l’heure actuelle. Nous nous proposons dans ce travail de thèse d’introduire la notion de budget comme contrainte explicite dans les processus d’apprentissage robotique appliqués à une tâche de localisation en mettant en place un modèle basé sur des travaux développés en apprentissage statistique qui traitent les données sous contrainte de budget, en limitant l’apport en données ou en posant une contrainte de temps plus explicite. Dans le but d’envisager un fonctionnement online de ce type d’algorithmes d’apprentissage budgétisé, nous discutons aussi certaines inspirations possibles qui pourraient être prises du côté des neurosciences computationnelles. Dans ce cadre, l’alternance entre recherche d’information pour la localisation et la décision de se déplacer pour un robot peuvent être indirectement liés à la notion de compromis exploration-exploitation. Nous présentons notre contribution à la modélisation de ce compromis chez l’animal dans une tâche non stationnaire impliquant différents niveaux d’incertitude, et faisons le lien avec les méthodes de bandits manchot
Decision-making is a highly researched field in science, be it in neuroscience to understand the processes underlying animal decision-making, or in robotics to model efficient and rapid decision-making processes in real environments. In neuroscience, this problem is resolved online with sequential decision-making models based on reinforcement learning. In robotics, the primary objective is efficiency, in order to be deployed in real environments. However, in robotics what can be called the budget and which concerns the limitations inherent to the hardware, such as computation times, limited actions available to the robot or the lifetime of the robot battery, are often not taken into account at the present time. We propose in this thesis to introduce the notion of budget as an explicit constraint in the robotic learning processes applied to a localization task by implementing a model based on work developed in statistical learning that processes data under explicit constraints, limiting the input of data or imposing a more explicit time constraint. In order to discuss an online functioning of this type of budgeted learning algorithms, we also discuss some possible inspirations that could be taken on the side of computational neuroscience. In this context, the alternation between information retrieval for location and the decision to move for a robot may be indirectly linked to the notion of exploration-exploitation compromise. We present our contribution to the modeling of this compromise in animals in a non-stationary task involving different levels of uncertainty, and we make the link with the methods of multi-armed bandits
APA, Harvard, Vancouver, ISO und andere Zitierweisen
36

Jezequel, Loïc. „Vers une détection d'anomalie unifiée avec une application à la détection de fraude“. Electronic Thesis or Diss., CY Cergy Paris Université, 2023. http://www.theses.fr/2023CYUN1190.

Der volle Inhalt der Quelle
Annotation:
La détection d'observation s'écartant d'un cas de référence est cruciale dans de nombreuses applications. Cette problématique est présente dans la détection de fraudes, l'imagerie médicale, voire même la surveillance vidéo avec des données allant d'image aux sons. La détection d'anomalie profonde a été introduite dans cette optique, en modélisant la classe normale et en considérant tout ce qui est significativement différent comme étant anormal. Dans la mesure où la classe anormale n'est pas bien définie, une classification binaire classique manquerait de robustesse et de fiabilité sur des données hors de son domaine d'apprentissage. Néanmoins, les approches de détection d'anomalies les plus performantes se généralisent encore mal à différents types d'anomalies. Aucune méthode ne permet de simultanément détecter des anomalies d'objets à grande échelle, et des anomalies locales à petite échelle.Dans ce contexte, nous introduisons un premier détecteur d'anomalies plus générique par tâche prétexte. Le modèle, nommé OC-MQ, calcule un score d'anomalie en apprenant à résoudre une tâche prétexte complexe sur la classe normale. La tâche prétexte est composée de plusieurs sous-tâches, séparées en tâche discriminatives et génératives, lui permettant de capturer une grande variété de caractéristiques visuelles.Néanmoins, un ensemble de données d'anomalies supplémentaires est en pratique souvent disponible. Dans cette optique, nous explorons deux approches intégrant des données d'anomalie afin de mieux traiter les cas limites. Tout d'abord, nous généralisons le concept de tâche de prétexte au cas semi-supervisé en apprenant aussi dynamiquement la tâche de prétexte avec des échantillons normaux et anormaux. Nous proposons les modèles SadTPS et SadRest, qui apprennent respectivement une tâche prétexte de reconnaissance de TPS et une tâche de restauration d'image. De plus, nous présentons un nouveau modèle de distance d'anomalie, SadCLR, où l'entraînement est stabilisé par une régularisation contrastive sur la direction des représentations apprises. Nous enrichissons davantage les anomalies existantes en générant plusieurs types de pseudo-anomalies.Enfin, nous prolongeons les deux approches précédentes pour les rendre utilisables avec ou sans données d'anomalies. Premièrement, nous introduisons le modèle AnoMem, qui mémorise un ensemble de prototypes normaux à plusieurs échelles en utilisant des couches de Hopfield modernes. Des estimateurs de distance d'anomalie sont ensuite appris sur les disparités entre l'entrée observée et les prototypes normaux. Deuxièmement, nous reformulons les tâches prétextes apprenables afin qu'elles soient apprises uniquement à partir d'échantillons normaux. Notre modèle proposé, HEAT, apprend de manière adverse la tâche prétexte afin de maintenir de bonnes performance sur les échantillons normaux, tout en échouant sur les anomalies. De plus, nous choisissons la distance de Busemann, récemment proposée dans le modèle du disque de Poincaré, pour calculer le score d'anomalie.Des évaluations approfondies sont réalisées pour chaque méthode proposée, incluant des anomalies grossières, fines ou locales avec comme application l'antifraude visage. Les résultats obtenus dépassant l'état de l'art démontrent le succès de nos méthodes
Detecting observations straying apart from a baseline case is becoming increasingly critical in many applications. It is found in fraud detection, medical imaging, video surveillance or even in manufacturing defect detection with data ranging from images to sound. Deep anomaly detection was introduced to tackle this challenge by properly modeling the normal class, and considering anything significantly different as anomalous. Given the anomalous class is not well-defined, classical binary classification will not be suitable and lack robustness and reliability outside its training domain. Nevertheless, the best-performing anomaly detection approaches still lack generalization to different types of anomalies. Indeed, each method is either specialized on high-scale object anomalies or low-scale local anomalies.In this context, we first introduce a more generic one-class pretext-task anomaly detector. The model, named OC-MQ, computes an anomaly score by learning to solve a complex pretext task on the normal class. The pretext task is composed of several sub-tasks allowing it to capture a wide variety of visual cues. More specifically, our model is made of two branches each representing discriminative and generative tasks.Nevertheless, an additional anomalous dataset is in reality often available in many applications and can provide harder edge-case anomalous examples. In this light, we explore two approaches for outlier-exposure. First, we generalize the concept of pretext task to outlier-exposure by dynamically learning the pretext task itself with normal and anomalous samples. We propose two the models SadTPS and SadRest that respectively learn a discriminative pretext task of thin plate transform recognition and generative task of image restoration. In addition, we present a new anomaly-distance model SadCLR, where the training of previously unreliable anomaly-distance models is stabilized by adding contrastive regularization on the representation direction. We further enrich existing anomalies by generating several types of pseudo-anomalies.Finally, we extend the two previous approaches to be usable in both one-class and outlier-exposure setting. Firstly, we introduce the AnoMem model which memorizes a set of multi-scale normal prototypes by using modern Hopfield layers. Anomaly distance estimators are then fitted on the deviations between the input and normal prototypes in a one-class or outlier-exposure manner. Secondly, we generalize learnable pretext tasks to be learned only using normal samples. Our proposed model HEAT adversarially learns the pretext task to be just challenging enough to keep good performance on normal samples, while failing on anomalies. Besides, we choose the recently proposed Busemann distance in the hyperbolic Poincaré ball model to compute the anomaly score.Extensive testing was conducted for each proposed method, varying from coarse and subtle style anomalies to a fraud detection dataset of face presentation attacks with local anomalies. These tests yielded state-of-the-art results, showing the significant success of our methods
APA, Harvard, Vancouver, ISO und andere Zitierweisen
37

Blot, Michaël. „Étude de l'apprentissage et de la généralisation des réseaux profonds en classification d'images“. Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS412.

Der volle Inhalt der Quelle
Annotation:
L'intelligence artificielle connait une résurgence ces dernières années. En cause, la capacité croissante à rassembler et à stocker un nombre considérable de données digitalisées. Ces immenses bases de données permettent aux algorithmes de machine learning de répondre à certaines tâches par apprentissage supervisé. Parmi les données digitalisées, les images demeurent prépondérantes dans l’environnement moderne. D'immenses datasets ont été constitués. De plus, la classification d'image a permis l’essor de modèles jusqu'alors négligés, les réseaux de neurones profonds ou deep learning. Cette famille d'algorithmes démontre une grande facilité à apprendre parfaitement des datasets, même de très grande taille. Leurs capacités de généralisation demeure largement incomprise, mais les réseaux de convolutions sont aujourd'hui l'état de l'art incontesté. D'un point de vue recherche et application du deep learning, les demandes vont être de plus en plus exigeantes, nécessitant de fournir un effort pour porter les performances des réseaux de neurone au maximum de leurs capacités. C'est dans cet objectif que se place nos recherches dont les contributions sont présentées dans cette thèse. Nous nous sommes d'abord penchés sur la question de l'entrainement et avons envisagé d’accélérer celui ci grâce à des méthodes distribuées. Nous avons ensuite étudié les architectures dans le but de les améliorer sans toutefois trop augmenter leurs complexités. Enfin nous avons particulièrement étudié la régularisation de l'entrainement des réseaux. Nous avons envisagé un critère de régularisation basée sur la théorie de l'information que nous avons déployé de deux façons différentes
Artificial intelligence is experiencing a resurgence in recent years. This is due to the growing ability to collect and store a considerable amount of digitized data. These huge databases allow machine learning algorithms to respond to certain tasks through supervised learning. Among the digitized data, images remain predominant in the modern environment. Huge datasets have been created. moreover, the image classification has allowed the development of previously neglected models, deep neural networks or deep learning. This family of algorithms demonstrates a great facility to learn perfectly datasets, even very large. Their ability to generalize remains largely misunderstood, but the networks of convolutions are today the undisputed state of the art. From a research and application point of view of deep learning, the demands will be more and more demanding, requiring to make an effort to bring the performances of the neuron networks to the maximum of their capacities. This is the purpose of our research, whose contributions are presented in this thesis. We first looked at the issue of training and considered accelerating it through distributed methods. We then studied the architectures in order to improve them without increasing their complexity. Finally, we particularly study the regularization of network training. We studied a regularization criterion based on information theory that we deployed in two different ways
APA, Harvard, Vancouver, ISO und andere Zitierweisen
38

Prost, Vincent. „Sparse unsupervised learning for metagenomic data“. Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASL013.

Der volle Inhalt der Quelle
Annotation:
Les avancées technologiques dans le séquençage ADN haut débit ont permis à la métagénomique de considérablement se développer lors de la dernière décennie. Le séquencage des espèces directement dans leur milieu naturel a ouvert de nouveaux horizons dans de nombreux domaines de recherche. La réduction des coûts associée à l'augmentation du débit fait que de plus en plus d'études sont lancées actuellement.Dans cette thèse nous considérons deux problèmes ardus en métagénomique, à savoir le clustering de lectures brutes et l'inférence de réseaux microbiens. Pour résoudre ces problèmes, nous proposons de mettre en oeuvre des méthodes d'apprentissage non supervisées utilisant le principe de parcimonie, ce qui prend la forme concrète de problèmes d'optimisation avec une pénalisation de norme l1.Dans la première partie de la thèse, on considère le problème intermédiaire du clustering des séquences ADN dans des partitions biologiquement pertinentes (binning). La plupart des méthodes computationelles n'effectuent le binning qu'après une étape d'assemblage qui est génératrice d'erreurs (avec la création de contigs chimériques) et de pertes d'information. C'est pourquoi nous nous penchons sur le problème du binning sans assemblage préalable. Nous exploitons le signal de co-abondance des espèces au travers des échantillons mesuré via le comptage des k-mers (sous-séquences de taille k) longs. L'utilisation du Local Sensitive Hashing (LSH) permet de contenir, au coût d'une approximation, l'explosion combinatoire des k-mers possibles dans un espace de cardinal fixé. La première contribution de la thèse est de proposer l'application d'une factorisation en matrices non-négatives creuses (sparse NMF) sur la matrice de comptage des k-mers afin de conjointement extraire une information de variation d'abondance et d'effectuer le clustering des k-mers. Nous montrons d'abord le bien fondé de l'approche au niveau théorique. Puis, nous explorons dans l'état de l'art les méthodes de sparse NMF les mieux adaptées à notre problème. Les méthodes d'apprentissage de dictionnaire en ligne ont particulièrement retenu notre attention de par leur capacité à passer à l'échelle pour des jeux de données comportant un très grand nombre de points. La validation des méthodes de binning en métagénomique sur des données réelles étant difficile à cause de l'absence de vérité terrain, nous avons créé et utilisé plusieurs jeux de données synthétiques pour l'évaluation des différentes méthodes. Nous montrons que l'application de la sparse NMF améliore les méthodes de l'état de l'art pour le binning sur ces jeux de données. Des expérience sur des données métagénomiques réelles issus de 1135 échantillons de microbiotes intestinaux d'individus sains ont également été menées afin de montrer la pertinence de l'approche.Dans la seconde partie de la thèse, on considère les données métagénomiques après le profilage taxonomique, c'est à dire des donnés multivariées représentant les niveaux d'abondance des taxons au sein des échantillons. Les microbes vivant en communautés structurées par des interactions écologiques, il est important de pouvoir identifier ces interactions. Nous nous penchons donc sur le problème de l'inférence de réseau d'interactions microbiennes à partir des profils taxonomiques. Ce problème est souvent abordé dans le cadre théorique des modèles graphiques gaussiens (GGM), pour lequel il existe des algorithmes d'inférence puissants tel que le graphical lasso. Mais les méthodes statistiques existantes sont très limitées par l'aspect extrêmement creux des profils taxonomiques que l'on rencontre en métagénomique, notamment par la grande proportion de zéros dits biologiques (i.e. liés à l'absence réelle de taxons). Nous proposons un model log normal avec inflation de zéro visant à traiter ces zéros biologiques et nous montrons un gain de performance par rapport aux méthodes de l'état de l'art pour l'inférence de réseau d'interactions microbiennes
The development of massively parallel sequencing technologies enables to sequence DNA at high-throughput and low cost, fueling the rise of metagenomics which is the study of complex microbial communities sequenced in their natural environment.Metagenomic problems are usually computationally difficult and are further complicated by the massive amount of data involved.In this thesis we consider two different metagenomics problems: 1. raw reads binning and 2. microbial network inference from taxonomic abundance profiles. We address them using unsupervised machine learning methods leveraging the parsimony principle, typically involving l1 penalized log-likelihood maximization.The assembly of genomes from raw metagenomic datasets is a challenging task akin to assembling a mixture of large puzzles composed of billions or trillions of pieces (DNA sequences). In the first part of this thesis, we consider the related task of clustering sequences into biologically meaningful partitions (binning). Most of the existing computational tools perform binning after read assembly as a pre-processing, which is error-prone (yielding artifacts like chimeric contigs) and discards vast amounts of information in the form of unassembled reads (up to 50% for highly diverse metagenomes). This motivated us to try to address the raw read binning (without prior assembly) problem. We exploit the co-abundance of species across samples as discriminative signal. Abundance is usually measured via the number of occurrences of long k-mers (subsequences of size k). The use of Local Sensitive Hashing (LSH) allows us to contain, at the cost of some approximation, the combinatorial explosion of long k-mers indexing. The first contribution of this thesis is to propose a sparse Non-Negative Matrix factorization (NMF) of the samples x k-mers count matrix in order to extract abundance variation signals. We first show that using sparse NMF is well-grounded since data is a sparse linear mixture of non-negative components. Sparse NMF exploiting online dictionary learning algorithms retained our attention, including its decent behavior on largely asymmetric data matrices. The validation of metagenomic binning being difficult on real datasets, because of the absence of ground truth, we created and used several benchmarks for the different methods evaluated on. We illustrated that sparse NMF improves state of the art binning methods on those datasets. Experiments conducted on a real metagenomic cohort of 1135 human gut microbiota showed the relevance of the approach.In the second part of the thesis, we consider metagenomic data after taxonomic profiling: multivariate data representing abundances of taxa across samples. It is known that microbes live in communities structured by ecological interaction between the members of the community. We focus on the problem of the inference of microbial interaction networks from taxonomic profiles. This problem is frequently cast into the paradigm of Gaussian graphical models (GGMs) for which efficient structure inference algorithms are available, like the graphical lasso. Unfortunately, GGMs or variants thereof can not properly account for the extremely sparse patterns occurring in real-world metagenomic taxonomic profiles. In particular, structural zeros corresponding to true absences of biological signals fail to be properly handled by most statistical methods. We present in this part a zero-inflated log-normal graphical model specifically aimed at handling such "biological" zeros, and demonstrate significant performance gains over state-of-the-art statistical methods for the inference of microbial association networks, with most notable gains obtained when analyzing taxonomic profiles displaying sparsity levels on par with real-world metagenomic datasets
APA, Harvard, Vancouver, ISO und andere Zitierweisen
39

Hocquet, Guillaume. „Class Incremental Continual Learning in Deep Neural Networks“. Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPAST070.

Der volle Inhalt der Quelle
Annotation:
Nous nous intéressons au problème de l'apprentissage continu de réseaux de neurones artificiels dans le cas où les données ne sont accessibles que pour une seule catégorie à la fois. Pour remédier au problème de l'oubli catastrophique qui limite les performances d'apprentissage dans ces conditions, nous proposons une approche basée sur la représentation des données d'une catégorie par une loi normale. Les transformations associées à ces représentations sont effectuées à l'aide de réseaux inversibles, qui peuvent alors être entraînés avec les données d'une seule catégorie. Chaque catégorie se voit attribuer un réseau pour représenter ses caractéristiques. Prédire la catégorie revient alors à identifier le réseau le plus représentatif. L'avantage d'une telle approche est qu'une fois qu'un réseau est entraîné, il n'est plus nécessaire de le mettre à jour par la suite, chaque réseau étant indépendant des autres. C'est cette propriété particulièrement avantageuse qui démarque notre méthode des précédents travaux dans ce domaine. Nous appuyons notre démonstration sur des expériences réalisées sur divers jeux de données et montrons que notre approche fonctionne favorablement comparé à l'état de l'art. Dans un second temps, nous proposons d'optimiser notre approche en réduisant son impact en mémoire en factorisant les paramètres des réseaux. Il est alors possible de réduire significativement le coût de stockage de ces réseaux avec une perte de performances limitée. Enfin, nous étudions également des stratégies pour produire des réseaux capables d'être réutilisés sur le long terme et nous montrons leur pertinence par rapport aux réseaux traditionnellement utilisés pour l'apprentissage continu
We are interested in the problem of continual learning of artificial neural networks in the case where the data are available for only one class at a time. To address the problem of catastrophic forgetting that restrain the learning performances in these conditions, we propose an approach based on the representation of the data of a class by a normal distribution. The transformations associated with these representations are performed using invertible neural networks, which can be trained with the data of a single class. Each class is assigned a network that will model its features. In this setting, predicting the class of a sample corresponds to identifying the network that best fit the sample. The advantage of such an approach is that once a network is trained, it is no longer necessary to update it later, as each network is independent of the others. It is this particularly advantageous property that sets our method apart from previous work in this area. We support our demonstration with experiments performed on various datasets and show that our approach performs favorably compared to the state of the art. Subsequently, we propose to optimize our approach by reducing its impact on memory by factoring the network parameters. It is then possible to significantly reduce the storage cost of these networks with a limited performance loss. Finally, we also study strategies to produce efficient feature extractor models for continual learning and we show their relevance compared to the networks traditionally used for continual learning
APA, Harvard, Vancouver, ISO und andere Zitierweisen
40

Putina, Andrian. „Unsupervised anomaly detection : methods and applications“. Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT012.

Der volle Inhalt der Quelle
Annotation:
Une anomalie (également connue sous le nom de outlier) est une instance qui s'écarte de manière significative du reste des données et est définie par Hawkins comme "une observation, qui s'écarte tellement des autres observations qu'elle éveille les soupçons qu'il a été généré par un mécanisme différent". La détection d’anomalies (également connue sous le nom de détection de valeurs aberrantes ou de nouveauté) est donc le domaine de l’apprentissage automatique et de l’exploration de données dans le but d’identifier les instances dont les caractéristiques semblent être incohérentes avec le reste de l’ensemble de données. Dans de nombreuses applications, distinguer correctement l'ensemble des points de données anormaux (outliers) de l'ensemble des points normaux (inliers) s'avère très important. Une première application est le nettoyage des données, c'est-à-dire l'identification des mesures bruyantes et fallacieuses dans un ensemble de données avant d'appliquer davantage les algorithmes d'apprentissage. Cependant, avec la croissance explosive du volume de données pouvant être collectées à partir de diverses sources, par exemple les transactions par carte, les connexions Internet, les mesures de température, etc., l'utilisation de la détection d'anomalies devient une tâche autonome cruciale pour la surveillance continue des systèmes. Dans ce contexte, la détection d'anomalies peut être utilisée pour détecter des attaques d'intrusion en cours, des réseaux de capteurs défaillants ou des masses cancéreuses. La thèse propose d'abord une approche basée sur un collection d'arbres pour la détection non supervisée d'anomalies, appelée "Random Histogram Forest (RHF)". L'algorithme résout le problème de la dimensionnalité en utilisant le quatrième moment central (alias 'kurtosis') dans la construction du modèle en bénéficiant d'un temps d'exécution linéaire. Un moteur de détection d'anomalies basé sur le stream, appelé 'ODS', qui exploite DenStream, une technique de clustering non supervisée est présenté par la suite et enfin un moteur de détection automatisée d'anomalies qui allège l'effort humain requis lorsqu'il s'agit de plusieurs algorithmes et hyper-paramètres est présenté en dernière contribution
An anomaly (also known as outlier) is an instance that significantly deviates from the rest of the input data and being defined by Hawkins as 'an observation, which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism'. Anomaly detection (also known as outlier or novelty detection) is thus the machine learning and data mining field with the purpose of identifying those instances whose features appear to be inconsistent with the remainder of the dataset. In many applications, correctly distinguishing the set of anomalous data points (outliers) from the set of normal ones (inliers) proves to be very important. A first application is data cleaning, i.e., identifying noisy and fallacious measurement in a dataset before further applying learning algorithms. However, with the explosive growth of data volume collectable from various sources, e.g., card transactions, internet connections, temperature measurements, etc. the use of anomaly detection becomes a crucial stand-alone task for continuous monitoring of the systems. In this context, anomaly detection can be used to detect ongoing intrusion attacks, faulty sensor networks or cancerous masses.The thesis proposes first a batch tree-based approach for unsupervised anomaly detection, called 'Random Histogram Forest (RHF)'. The algorithm solves the curse of dimensionality problem using the fourth central moment (aka kurtosis) in the model construction while boasting linear running time. A stream based anomaly detection engine, called 'ODS', that leverages DenStream, an unsupervised clustering technique is presented subsequently and finally Automated Anomaly Detection engine which alleviates the human effort required when dealing with several algorithm and hyper-parameters is presented as last contribution
APA, Harvard, Vancouver, ISO und andere Zitierweisen
41

Pascal, Barbara. „Estimation régularisée d'attributs fractals par minimisation convexe pour la segmentation de textures : formulations variationnelles conjointes, algorithmes proximaux rapides et sélection non supervisée des paramètres de régularisation; Applications à l'étude du frottement solide et de la microfluidique des écoulements multiphasiques“. Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEN042.

Der volle Inhalt der Quelle
Annotation:
Cette thèse propose plusieurs procédures pour la segmentation de textures auto-similaires s'appuyant sur deux attributs fractals : l'exposant de Hölder, quantifiant la régularité locale d'une texture, et la variance locale. Un modèle de textures fractales homogènes par morceaux est construit, accompagné d'une procédure de synthèse, fournissant des images composées d'un assemblage de textures fractales d'attributs fixés et de segmentation connue, utilisées pour évaluer les performances des méthodes proposées.Une première méthode, reposant sur la régularisation par Variation Totale d'une estimée brute de la régularité locale, est illustrée, et augmentée d'une étape de post-traitement par seuillage itératif fournissant ainsi une segmentation. Après avoir pointé les limites de cette approche, deux méthodes de segmentation, à contours « libres » ou « co-localisés », sont construites, prenant conjointement en compte la régularité et la variance locales.Ces deux procédures sont formulés comme des problèmes de minimisation de fonctionnelles convexes non lisses.Nous montrons que les fonctionnelles à pénalisations « libre » et « co-localisée » sont toutes deux fortement convexes, et calculons leur module de forte-convexité.Plusieurs schémas de minimisation sont dérivés, et leurs vitesses de convergence sont comparées.Les performances de segmentation des différentes méthodes sont quantifiées sur un large panel de données synthétiques, dans des configurations de difficulté croissante, ainsi que sur des images réelles et comparées aux méthodes de l’état-de-l'art, tels que les réseaux de neurones convolutionnels.Une application à la segmentation d'images provenant d'expériences sur les écoulements multiphasiques en milieu poreux est présentée.Une stratégie, dérivée de l'estimateur SURE de l'erreur quadratique, est mise en oeuvre pour le réglage automatique des hyperparamètres impliqués dans la construction des fonctionnelles à pénalisations « libre » et « co-localisée »
In this doctoral thesis several scale-free texture segmentation procedures based on two fractal attributes, the Hölder exponent, measuring the local regularity of a texture, and local variance, are proposed.A piecewise homogeneous fractal texture model is built, along with a synthesis procedure, providing images composed of the aggregation of fractal texture patches with known attributes and segmentation. This synthesis procedure is used to evaluate the proposed methods performance.A first method, based on the Total Variation regularization of a noisy estimate of local regularity, is illustrated and refined thanks to a post-processing step consisting in an iterative thresholding and resulting in a segmentation.After evidencing the limitations of this first approach, deux segmentation methods, with either "free" or "co-located" contours, are built, taking in account jointly the local regularity and the local variance.These two procedures are formulated as convex nonsmooth functional minimization problems.We show that the two functionals, with "free" and "co-located" penalizations, are both strongly-convex. and compute their respective strong convexity moduli.Several minimization schemes are derived, and their convergence speed are compared.The segmentation performance of the different methods are evaluated over a large amount of synthetic data in configurations of increasing difficulty, as well as on real world images, and compared to state-of-the-art procedures, including convolutional neural networks.An application for the segmentation of multiphasic flow through a porous medium experiment images is presented.Finally, a strategy for automated selection of the hyperparameters of the "free" and "co-located" functionals is built, inspired from the SURE estimator of the quadratic risk
APA, Harvard, Vancouver, ISO und andere Zitierweisen
42

Tarbouriech, Jean. „Goal-oriented exploration for reinforcement learning“. Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB014.

Der volle Inhalt der Quelle
Annotation:
Apprendre à atteindre des buts est une compétence à acquérir à grande pertinence pratique pour des agents intelligents. Par exemple, ceci englobe de nombreux problèmes de navigation (se diriger vers telle destination), de manipulation robotique (atteindre telle position du bras robotique) ou encore certains jeux (gagner en accomplissant tel objectif). En tant qu'être vivant interagissant avec le monde, je suis constamment motivé par l'atteinte de buts, qui varient en portée et difficulté.L'Apprentissage par Renforcement (AR) est un paradigme prometteur pour formaliser et apprendre des comportements d'atteinte de buts. Un but peut être modélisé comme une configuration spécifique d'états de l'environnement qui doit être atteinte par interaction séquentielle et exploration de l'environnement inconnu. Bien que divers algorithmes en AR dit "profond" aient été proposés pour ce modèle d'apprentissage conditionné par des états buts, les méthodes existantes manquent de compréhension rigoureuse, d'efficacité d'échantillonnage et de capacités polyvalentes. Il s'avère que l'analyse théorique de l'AR conditionné par des états buts demeurait très limitée, même dans le scénario basique d'un nombre fini d'états et d'actions.Premièrement, nous nous concentrons sur le scénario supervisé, où un état but qui doit être atteint en minimisant l'espérance des coûts cumulés est fourni dans la définition du problème. Après avoir formalisé le problème d'apprentissage incrémental (ou ``online'') de ce modèle souvent appelé Plus Court Chemin Stochastique, nous introduisons deux algorithmes au regret sous-linéaire (l'un est le premier disponible dans la littérature, l'autre est quasi-optimal).Au delà d'entraîner l'agent d'AR à résoudre une seule tâche, nous aspirons ensuite qu'il apprenne de manière autonome à résoudre une grande variété de tâches, dans l'absence de toute forme de supervision en matière de récompense. Dans ce scénario non-supervisé, nous préconisons que l'agent sélectionne lui-même et cherche à atteindre ses propres états buts. Nous dérivons des garanties non-asymptotiques de cette heuristique populaire dans plusieurs cadres, chacun avec son propre objectif d'exploration et ses propres difficultés techniques. En guise d'illustration, nous proposons une analyse rigoureuse du principe algorithmique de viser des états buts "incertains", que nous ancrons également dans le cadre de l'AR profond.L'objectif et les contributions de cette thèse sont d'améliorer notre compréhension formelle de l'exploration d'états buts pour l'AR, dans les scénarios supervisés et non-supervisés. Nous espérons qu'elle peut aider à suggérer de nouvelles directions de recherche pour améliorer l'efficacité d'échantillonnage et l'interprétabilité d'algorithmes d'AR basés sur la sélection et/ou l'atteinte d'états buts dans des applications pratiques
Learning to reach goals is a competence of high practical relevance to acquire for intelligent agents. For instance, this encompasses many navigation tasks ("go to target X"), robotic manipulation ("attain position Y of the robotic arm"), or game-playing scenarios ("win the game by fulfilling objective Z"). As a living being interacting with the world, I am constantly driven by goals to reach, varying in scope and difficulty.Reinforcement Learning (RL) holds the promise to frame and learn goal-oriented behavior. Goals can be modeled as specific configurations of the environment that must be attained via sequential interaction and exploration of the unknown environment. Although various deep RL algorithms have been proposed for goal-oriented RL, existing methods often lack principled understanding, sample efficiency and general-purpose effectiveness. In fact, very limited theoretical analysis of goal-oriented RL was available, even in the basic scenario of finitely many states and actions.We first focus on a supervised scenario of goal-oriented RL, where a goal state to be reached in minimum total expected cost is provided as part of the problem definition. After formalizing the online learning problem in this setting often known as Stochastic Shortest Path (SSP), we introduce two no-regret algorithms (one is the first available in the literature, the other attains nearly optimal guarantees).Beyond training our RL agent to solve only one task, we then aspire that it learns to autonomously solve a wide variety of tasks, in the absence of any reward supervision. In this challenging unsupervised RL scenario, we advocate to "Set Your Own Goals" (SYOG), which suggests the agent to learn the ability to intrinsically select and reach its own goal states. We derive finite-time guarantees of this popular heuristic in various settings, each with its specific learning objective and technical challenges. As an illustration, we propose a rigorous analysis of the algorithmic principle of targeting "uncertain" goals which we also anchor in deep RL.The main focus and contribution of this thesis are to instigate a principled analysis of goal-oriented exploration in RL, both in the supervised and unsupervised scenarios. We hope that it helps suggest promising research directions to improve the interpretability and sample efficiency of goal-oriented RL algorithms in practical applications
APA, Harvard, Vancouver, ISO und andere Zitierweisen
43

Pusiol, Guido Thomas. „Découvertes d'activités humaines dans des videos“. Phd thesis, Université Nice Sophia Antipolis, 2012. http://tel.archives-ouvertes.fr/tel-00944617.

Der volle Inhalt der Quelle
Annotation:
L'objectif de cette thèse est de proposer une plateforme complète pour la découverte automatique d'activités, leur modélisation et leur reconnaissance à patir de vidéos. La plateforme utilise des informations perceptuelles (i.e des trajectoires) en entrée et produit une reconnaissance sémantique des activités. La plateforme fonctionne en 5 étapes: 1) La video est divisée en plusieurs parties afin de reconnaitre des activités. Nous proposons différentes techniques pour extraire des caractéristiques perceptuelles à partir du découpage. Nous construisons des ensembles de caractéristiques perceptuelles capable de décrire les activités dans des petites périodes de temps. 2) Nous proposons d'apprendre les informations contextuelles de la video. Nous construisons des modèles de scène en apprenant les caractéristiques perceptuelles pertinentes. Le modèle final contient des régions de la scène intéressantes pour décrire des actions sémantiques (i.e des régions ou des interactions arrivent). 3) Nous proposons de réduire le gap entre les informations visuelles de bas niveau et l'interprètation sémantique en construisant un niveau intermédiaire composés d'évènements primitifs. La représentation proposée pour ces évènements primitifs décrit les mouvements intéressants de la scène. Ceci est fait en par abstraction des caractéristiques perceptuelles en utilisant les informations contextuelles de la scène , de manière non supervisée. 4) Nous reconnaissons des activités composées avec une méthode de reconnaissance de chemins. Nous proposons aussi une méthode générique pour modéliser les activités composées. Les modèles sont construits comme des ensembles probabilistes flexibles, faciles à mettre à jour. 5) Nous proposons une méthode de reconnaissance d'activités qui cherche de façon déterministe les occurrences des activités modélisées dans des nouveaux ensemble de données. Les sémantiqes sont générées en interaction avec l'utilisateur. Toute cette approche a été évaluée sur des ensembles de données réels provenant de la surveillance de personnes dans un appartement et de personnes agées dans un hopital. Ce travail a aussi été évalué sur d'autres types d'application comme la surveillance du sommeil.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
44

Chahla, Charbel. „Non-linear feature extraction for object re-identification in cameras networks“. Thesis, Troyes, 2017. http://www.theses.fr/2017TROY0023.

Der volle Inhalt der Quelle
Annotation:
La réplication du système visuel utilisé par le cerveau pour traiter l'information est un domaine de grand intérêt. Cette thèse se situe dans le cadre d'un système automatisé capable d'analyser les traits du visage lorsqu'une personne est proche des caméras et suivre son identité lorsque ces traits ne sont plus traçables. La première partie est consacrée aux procédures d'estimation de pose de visage pour les utiliser dans les scénarios de reconnaissance faciale. Nous avons proposé une nouvelle méthode basée sur une représentation sparse et on l'a appelé Sparse Label sensible Local Preserving Projections. Dans un environnement incontrôlé, la ré-identification de personne reposant sur des données biométriques n'est pas réalisable. Par contre, les caractéristiques basées sur l'apparence des personnes peuvent être exploitées plus efficacement. Dans ce contexte, nous proposons une nouvelle approche pour la ré-identification dans un réseau de caméras non chevauchantes. Pour fournir une mesure de similarité, chaque image est décrite par un vecteur de similarité avec une collection de prototypes. La robustesse de l'algorithme est améliorée en proposant la procédure Color Categorisation. Dans la dernière partie de cette thèse, nous proposons une architecture Siamese de deux réseaux neuronaux convolutionnels (CNN), chaque CNN étant réduit à seulement onze couches. Cette architecture permet à une machine d'être alimentée directement avec des données brutes pour faire la classification
Replicating the visual system that the brain uses to process the information is an area of substantial interest. This thesis is situated in the context of a fully automated system capable of analyzing facial features when the target is near the cameras, and tracking his identity when his facial features are no more traceable. The first part of this thesis is devoted to face pose estimation procedures to be used in face recognition scenarios. We proposed a new label-sensitive embedding based on a sparse representation called Sparse Label sensitive Locality Preserving Projections. In an uncontrolled environment observed by cameras from an unknown distance, person re-identification relying upon conventional biometrics such as face recognition is not feasible. Instead, visual features based on the appearance of people can be exploited more reliably. In this context, we propose a new embedding scheme for single-shot person re-identification under non overlapping target cameras. Each person is described as a vector of kernel similarities to a collection of prototype person images. The robustness of the algorithm is improved by proposing the Color Categorization procedure. In the last part of this thesis, we propose a Siamese architecture of two Convolutional Neural Networks (CNN), with each CNN reduced to only eleven layers. This architecture allows a machine to be fed directly with raw data and to automatically discover the representations needed for classification
APA, Harvard, Vancouver, ISO und andere Zitierweisen
45

Desir, Chesner. „Classification Automatique d'Images, Application à l'Imagerie du Poumon Profond“. Phd thesis, Université de Rouen, 2013. http://tel.archives-ouvertes.fr/tel-00879356.

Der volle Inhalt der Quelle
Annotation:
Cette thèse porte sur la classification automatique d'images, appliquée aux images acquises par alvéoscopie, une nouvelle technique d'imagerie du poumon profond. L'objectif est la conception et le développement d'un système d'aide au diagnostic permettant d'aider le praticien à analyser ces images jamais vues auparavant. Nous avons élaboré, au travers de deux contributions, des méthodes performantes, génériques et robustes permettant de classer de façon satisfaisante les images de patients sains et pathologiques. Nous avons proposé un premier système complet de classification basé à la fois sur une caractérisation locale et riche du contenu des images, une approche de classification par méthodes d'ensemble d'arbres aléatoires et un mécanisme de pilotage du rejet de décision, fournissant à l'expert médical un moyen de renforcer la fiabilité du système. Face à la complexité des images alvéoscopiques et la difficulté de caractériser les cas pathologiques, contrairement aux cas sains, nous nous sommes orientés vers la classification one-class qui permet d'apprendre à partir des seules données des cas sains. Nous avons alors proposé une approche one-class tirant partie des mécanismes de combinaison et d'injection d'aléatoire des méthodes d'ensemble d'arbres de décision pour répondre aux difficultés rencontrées dans les approches standards, notamment la malédiction de la dimension. Les résultats obtenus montrent que notre méthode est performante, robuste à la dimension, compétitive et même meilleure comparée aux méthodes de l'état de l'art sur une grande variété de bases publiques. Elle s'est notamment avérée pertinente pour notre problématique médicale.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
46

Desir, Chesner. „Classification automatique d'images, application à l'imagerie du poumon profond“. Phd thesis, Rouen, 2013. http://www.theses.fr/2013ROUES053.

Der volle Inhalt der Quelle
Annotation:
Cette thèse porte sur la classification automatique d’images, appliquée aux images acquises par alvéoscopie, une nouvelle technique d’imagerie du poumon profond. L’objectif est la conception et le développement d’un système d’aide au diagnostic permettant d’aider le praticien à analyser ces images jamais vues auparavant. Nous avons élaboré, au travers de deux contributions, des méthodes performantes, génériques et robustes permettant de classer de façon satisfaisante les images de patients sains et pathologiques. Nous avons proposé un premier système complet de classification basé à la fois sur une caractérisation locale et riche du contenu des images, une approche de classification par méthodes d’ensemble d’arbres aléatoires et un mécanisme de pilotage du rejet de décision, fournissant à l’expert médical un moyen de renforcer la fiabilité du système. Face à la complexité des images alvéoscopiques et la difficulté de caractériser les cas pathologiques, contrairement aux cas sains, nous nous sommes orientés vers la classification oneclass qui permet d’apprendre à partir des seules données des cas sains. Nous avons alors proposé une approche one-class tirant partie des mécanismes de combinaison et d’injection d’aléatoire des méthodes d’ensemble d’arbres de décision pour répondre aux difficultés rencontrées dans les approches standards, notamment la malédiction de la dimension. Les résultats obtenus montrent que notre méthode est performante, robuste à la dimension, compétitive et même meilleure comparée aux méthodes de l’état de l’art sur une grande variété de bases publiques. Elle s’est notamment avérée pertinente pour notre problématique médicale
This thesis deals with automated image classification, applied to images acquired with alveoscopy, a new imaging technique of the distal lung. The aim is to propose and develop a computer aided-diagnosis system, so as to help the clinician analyze these images never seen before. Our contributions lie in the development of effective, robust and generic methods to classify images of healthy and pathological patients. Our first classification system is based on a rich and local characterization of the images, an ensemble of random trees approach for classification and a rejection mechanism, providing the medical expert with tools to enhance the reliability of the system. Due to the complexity of alveoscopy images and to the lack of expertize on the pathological cases (unlike healthy cases), we adopt the one-class learning paradigm which allows to learn a classifier from healthy data only. We propose a one-class approach taking advantage of combining and randomization mechanisms of ensemble methods to respond to common issues such as the curse of dimensionality. Our method is shown to be effective, robust to the dimension, competitive and even better than state-of-the-art methods on various public datasets. It has proved to be particularly relevant to our medical problem
APA, Harvard, Vancouver, ISO und andere Zitierweisen
47

Gonthier, Nicolas. „Transfer learning of convolutional neural networks for texture synthesis and visual recognition in artistic images“. Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG024.

Der volle Inhalt der Quelle
Annotation:
Dans cette thèse, nous étudions le transfert de réseaux de neurones à convolution (abrégés CNN en anglais) pré-entrainés sur des images naturelles, vers des tâches différentes de celles pour lesquelles ils ont été entraînés. Nous avons travaillé sur deux axes de recherche : la synthèse de texture et la reconnaissance visuelle dans les images d'œuvres d'art. Le premier axe consiste à synthétiser une nouvelle image à partir d'une image de référence. La plupart des méthodes récentes sont basées sur l'utilisation des matrices Gram des cartes de caractéristiques issues de CNNs entrainés sur ImageNet. Nous avons développé une stratégie multirésolution pour prendre en compte les structures à grande échelle. Cette stratégie peut être couplée à des contraintes à grande distance, soit par une contrainte basée sur le spectre de Fourier, soit par l'utilisation de l'autocorrélation des cartes de caractéristiques. Elle permet d'obtenir d'excellentes synthèses en haute résolution, tout particulièrement pour les textures régulières. Ces méthodes ont été évaluées de manière quantitatives et perceptuelles. Dans un second temps, nous nous sommes intéressés au transfert d'apprentissage pour la classification des images d'art. Les CNNs peuvent être utilisés comme des extracteurs de caractéristiques ou comme initialisation pour un nouvel entrainement. Nous avons mis en avant la supériorité de cette seconde solution. De plus, nous avons étudié le processus d'apprentissage à l'aide de visualisation de caractéristiques, d'indices de similarité ainsi que des métriques quantitatives. Nous avons aussi étudié le transfert de CNN entrainé pour de la détection d'objets. Nous avons proposé une méthode simple de détection faiblement supervisée (cad uniquement des annotations au niveau de l'image). Elle est basée sur un apprentissage à instances multiples, l'utilisation de caractéristiques figées et de propositions de boîtes issues d'un CNN pré-entrainés. Nous avons expérimentalement montré l'intérêt de nos modèles sur six jeux de données non photoréalistes
In this thesis, we study the transfer of Convolutional Neural Networks (CNN) trained on natural images to related tasks. We follow two axes: texture synthesis and visual recognition in artworks. The first one consists in synthesizing a new image given a reference sample. Most methods are based on enforcing the Gram matrices of ImageNet-trained CNN features. We develop a multi-resolution strategy to take into account large scale structures. This strategy can be coupled with long-range constraints either through a Fourier frequency constraint, or the use of feature maps autocorrelation. This scheme allows excellent high-resolution synthesis especially for regular textures. We compare our methods to alternatives ones with quantitative and perceptual evaluations. In a second axis, we focus on transfer learning of CNN for artistic image classification. CNNs can be used as off-the-shelf feature extractors or fine-tuned. We illustrate the advantage of the last solution. Second, we use feature visualization techniques, CNNs similarity indexes and quantitative metrics to highlight some characteristics of the fine-tuning process. Another possibility is to transfer a CNN trained for object detection. We propose a simple multiple instance method using off-the-shelf deep features and box proposals, for weakly supervised object detection. At training time, only image-level annotations are needed. We experimentally show the interest of our models on six non-photorealistic
APA, Harvard, Vancouver, ISO und andere Zitierweisen
48

Grelier, Erwan. „Learning with tree-based tensor formats : Application to uncertainty quantification in vibroacoustics“. Thesis, Ecole centrale de Nantes, 2019. http://www.theses.fr/2019ECDN0070.

Der volle Inhalt der Quelle
Annotation:
De nombreux problèmes nécessitent l’évaluation de modèles paramétrés complexes pour de nombreuses valeurs des paramètres, en particulier pour la quantification d’incertitudes. Quand le modèle est coûteux à évaluer, il est souvent approximé par un autre modèle, moins coûteux à évaluer. L’objectif de cette thèse est de développer des méthodes d’apprentissage statistique utilisant des classes de fonctions au format de tenseurs basés sur des arbres pour l’approximation de fonctions en haute dimension, pour l’apprentissage supervisé et non supervisé. Ces classes de fonctions, qui sont structurés par rangs et paramétrées par un réseau de tenseurs de faible ordre à structure d’arbre, peuvent être interprétées comme des réseaux de neurones profonds avec une architecture et des fonctions d’activation particulières. L’approximation est obtenue par minimisation du risque empirique sur l’ensemble des fonctions au format de tenseurs basés sur des arbres. Pour l’approximation de fonctions en haute dimension, ou quand peu d’information sur la fonction est disponible, la classe de fonctions doit être soigneusement choisie. Nous proposons des algorithmes d’apprentissage stables qui adaptent l’arbre et les rangs et sélectionnent le modèle en s’appuyant sur des estimateurs de validation croisée. De plus, certaines fonctions peuvent n’exhiber une structure de faible rang qu’après un changement de variables adapté. Dans de tels cas, nous proposons des algorithmes d’apprentissage adaptatifs avec des classes de fonctions combinant formats de tenseurs basés sur des arbres et changements de variables. Les algorithmes proposés sont appliqués à la quantification d’incertitudes en vibroacoustique. Cette thèse est incluse dans le Joint Laboratory of Marine Technology entre Naval Group, Centrale Nantes et l’Université de Nantes, et dans le projet Eval-PI
Many problems require the evaluation of complex parametrized models for many instances of the parameters, particularly for uncertainty quantification. When the model is costly to evaluate, it is usually approximated by another model cheaper to evaluate. The aim of this thesis is to develop statistical learning methods using model classes of functions in treebased tensor formats for the approximation of highdimensional functions, both for supervised and unsupervised learning tasks. These model classes, which are rank-structured functions parametrized by a tree-structured network of low-order tensors, can be interpreted as deep neural networks with particular architecture and activation functions. The approximation is obtained by empirical risk minimization over the set of functions in tree-based tensor format. For a high-dimensional function, or when little information on the function is available, the model class has to be carefully selected. We propose stable learning algorithms that adapt the tree and ranks and select the model based on crossvalidation estimates. Furthermore, some functions might only exhibit a low-rank structure after a suitable change of variables. For such cases, we propose adaptive learning algorithms with model classes combining tree-based tensor formats and changes of variables. The proposed algorithms are applied to uncertainty quantification in vibroacoustics. This thesis is included in the Joint Laboratory of Marine Technology between Naval Group, Centrale Nantes and Université de Nantes, and in the Eval-PI project
APA, Harvard, Vancouver, ISO und andere Zitierweisen
49

Bovée, Samuel. „Le regard dans les interactions lors d’entretiens en face à face et son analyse parmi les signaux sociaux“. Caen, 2016. http://www.theses.fr/2016CAEN2047.

Der volle Inhalt der Quelle
Annotation:
La communication orale joue un rôle majeur dans la vie sociale et professionnelle. L’entretien en face à face, très prisé dans les domaines commerciaux et managériaux, reste l’interaction interpersonnelle humaine la plus riche grâce à l’utilisation innée et conjointe de nombreux signaux sociaux verbaux et non verbaux. C’est pour cette raison que nous développons chez Zero To One Technology un outil de diagnostic et de formation pédagogique : le Comscope. Par la pratique d’entretiens simulés et enregistrés, puis par l’extraction et l’analyse automatique des signaux sociaux, il permet la mesure de la qualité de l’interaction en vue de son amélioration. Les recherches de cette thèse s’orientent principalement sur l’analyse du signal regard. Nous proposons un nouvel estimateur de pose de la tête, de direction du regard et des temps du focus d’attention sur l’interlocuteur. Tous ces estimateurs sont basés sur une détection des points d’intérêts du visage et sur l’extraction de la position de l’iris. À partir de caméras basses résolutions captant en lumière visible, ils doivent fonctionner ensemble en temps réel et dans un environnement non-contrôlé. À partir des caractéristiques extraites du regard (mouvements et fixations oculaires, temps d’attention), du verbal par l’estimation des temps de parole et par la transcription de l’échange (analyse lexicologique, étiquetage de l’entretien), et par leurs analyses multimodales et croisées, nous proposons également une approche d’évaluation automatique par classification de la qualité technique de l’entretien
Oral communication plays a key role in social and professional relations. Face-to-face interview, appreciated in managerial and commercial areas, remains the richest human interpersonal interaction thanks to innate and joint use of verbal and non-verbal social cues. That is the reason why at Zero to One Technology, we develop a diagnostic and pedagogical tool : the Comscope. With simulated and recorded interview practicing, then by extracting and analyzing automatically social cues, it provides measurement of the quality of the interaction in order to improve it. The research for this thesis is principally directed towards the analysis of gaze signal. In order to do so, we created new estimators for head-pose, gaze direction and time of focus of attention on the interlocutor. All the estimators are based on facial landmarks detection and iris location extraction. By use of low-resolution video recording devices in visible light, they must work together in real time and in uncontrolled environment. We also created away of assessing automatically the technical quality of an interview by classification. We used the features extracted from gaze (eye movements and fixations, time of attention), speech (speaking time estimation and transcript of exchange : lexicology analysis, interview labelling), and their multimodal and crossed analysis
APA, Harvard, Vancouver, ISO und andere Zitierweisen
50

Rastin, Parisa. „Automatic and Adaptive Learning for Relational Data Stream Clustering“. Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD052.

Der volle Inhalt der Quelle
Annotation:
Le travail de recherche exposé dans cette thèse concerne le développement d’approches d’apprentissage non-supervisé adaptés aux grands jeux de données relationnelles et dynamiques. La combinaison de ces trois caractéristiques (taille, complexité et évolution)constitue un défi majeur dans le domaine de l’exploration de données et peu de solutions satisfaisantes existent pour le moment, malgré les besoins de plus en plus manifestes des entreprises. C’est un véritable challenge, car les approches adaptées aux données relationnelle sont une complexité quadratique inadaptée à l’analyse de données dynamiques. Nous proposons ici deux approches complémentaires pour l’analyse de ce type de données. La première approche est capable de détecter des clusters bien séparés à partir d’un signal créé lors d’un réordonnancement incrémental de la matrice de dissimilarité, sans paramètre à choisir (par ex. le nombre de clusters). La seconde propose d’utiliser des points de support parmi les objets afin de construire un espace de représentation permettant de définir des prototypes représentatifs des clusters. Enfin, nous appliquons les approches proposées au profilage en temps réel d’utilisateurs connectés. Les tâches de profilage visent à reconnaître"l’état d’esprit" des utilisateurs à travers leurs navigations sur différents sites
The research work presented in this thesis concerns the development of unsupervised learning approaches adapted to large relational and dynamic data-sets. The combination of these three characteristics (size, complexity and evolution) is a major challenge in the field of data mining and few satisfactory solutions exist at the moment, despite the obvious needs of companies. This is a real challenge, because the approaches adapted to relational data have a quadratic complexity, unsuited to the analysis of dynamic data. We propose here two complementary approaches for the analysis of this type of data. The first approach is able to detect well-separated clusters from a signal created during an incremental reordering of the dissimilarity matrix, with no parameter to choose (e.g., the number of clusters). The second proposes to use support points among the objects in order to build a representation space to define representative prototypes of the clusters. Finally, we apply the proposed approaches to real-time profiling of connected users. Profiling tasks are designed to recognize the "state of mind" of users through their navigations on different web-sites
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!

Zur Bibliographie