Academic literature on the topic 'Apprentissage profond – Apprentissage non supervisé (intelligence artificielle)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Apprentissage profond – Apprentissage non supervisé (intelligence artificielle).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Dissertations / Theses on the topic "Apprentissage profond – Apprentissage non supervisé (intelligence artificielle)"

1

Boussik, Amine. "Apprentissage profond non-supervisé : Application à la détection de situations anormales dans l’environnement du train autonome." Electronic Thesis or Diss., Valenciennes, Université Polytechnique Hauts-de-France, 2023. http://www.theses.fr/2023UPHF0040.

Full text
Abstract:
La thèse aborde les défis du monitoring de l’environnement et de détection des anomalies, notamment des obstacles, pour un train de fret autonome. Bien que traditionnellement, les transports ferroviaires étaient sous la supervision humaine, les trains autonomes offrent des perspectives d’avantages en termes de coûts, de temps et de sécurité. Néanmoins, leur exploitation dans des environnements complexes pose d’importants enjeux de sûreté. Au lieu d’une approche supervisée nécessitant des données annotées onéreuses et limitées, cette recherche adopte une technique non supervisée, utilisant des données non étiquetées pour détecter les anomalies en s’appuyant sur des techniques capables d’identifier les comportements atypiques.Deux modèles de surveillance environnementale sont présentés : le premier, basé sur un autoencodeur convolutionnel (CAE), est dédié à l’identification d’obstacles sur la voie principale; le second, une version avancée incorporant le transformeur de vision (ViT), se concentre sur la surveillance générale de l’environnement. Tous deux exploitent des techniques d’apprentissage non supervisé pour la détection d’anomalies.Les résultats montrent que la méthode mise en avant apporte des éléments pertinents pour le monitoring de l’environnement du train de fret autonome, ayant un potentiel pour renforcer sa fiabilité et sécurité. L’utilisation de techniques non supervisées démontre ainsi l’utilité et la pertinence de leur adoption dans un contexte d’application pour le train autonome
The thesis addresses the challenges of monitoring the environment and detecting anomalies, especially obstacles, for an autonomous freight train. Although traditionally, rail transport was under human supervision, autonomous trains offer potential advantages in terms of costs, time, and safety. However, their operation in complex environments poses significant safety concerns. Instead of a supervised approach that requires costly and limited annotated data, this research adopts an unsupervised technique, using unlabeled data to detect anomalies based on methods capable of identifying atypical behaviors.Two environmental surveillance models are presented : the first, based on a convolutional autoencoder (CAE), is dedicated to identifying obstacles on the main track; the second, an advanced version incorporating the vision transformer (ViT), focuses on overall environmental surveillance. Both employ unsupervised learning techniques for anomaly detection.The results show that the highlighted method offers relevant insights for monitoring the environment of the autonomous freight train, holding potential to enhance its reliability and safety. The use of unsupervised techniques thus showcases the utility and relevance of their adoption in an application context for the autonomous train
APA, Harvard, Vancouver, ISO, and other styles
2

Chen, Hao. "Vers la ré-identification de personnes non-supervisée." Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4014.

Full text
Abstract:
En tant que composant central des systèmes de vidéo-surveillance intelligents, la ré-identification de personnes (ReID) vise à rechercher une personne d'intérêt à travers des caméras qui ne se chevauchent pas. Malgré des améliorations significatives de la ReID supervisée, le processus d'annotation encombrant le rend moins évolutif dans les déploiements réels. De plus, comme les représentations d'apparence peuvent être affectées par des facteurs bruyants, tels que le niveau d'éclairage et les propriétés de la caméra, entre différents domaines, les modèles ReID de personnes subissent une baisse de performances importante en présence d'écarts de domaine. Nous sommes particulièrement intéressés par la conception d'algorithmes capables d'adapter un modèle ReID de personnes à un domaine cible sans supervision humaine. Dans un tel contexte, nous nous concentrons principalement sur la conception de méthodes d'adaptation de domaine non-supervisée et d'apprentissage de représentation non-supervisée pour le ReID de personnes.Dans cette thèse, nous explorons d'abord comment construire des représentations robustes en combinant à la fois des caractéristiques globales et locales sous la condition supervisée. Ensuite, vers un système ReID adaptatif au domaine non-supervisé, nous proposons trois méthodes non-supervisées pour la ReID de personnes, notamment 1) la distillation des connaissances enseignant-étudiant avec des structures de réseau asymétriques pour encourager la diversité des caractéristiques, 2) un cadre d'apprentissage conjoint génératif et contrastif qui génère des vues augmentées avec un réseau génératif pour l'apprentissage contrastif, et 3) explorer les relations inter-instances et concevoir des fonctions de perte conscientes des relations pour une meilleure ReID de personnes basée sur l'apprentissage contrastif.Nos méthodes ont été largement évaluées sur des benchmarks de ReID, tels que Market-1501, DukeMTMC-reID et MSMT17. Les méthodes proposées surpassent considérablement les méthodes précédentes sur les benchmarks de ReID, poussant considérablement la ReID de personnes vers des déploiements dans le monde réel
As a core component of intelligent video surveillance systems, person re-identification (ReID) targets at retrieving a person of interest across non-overlapping cameras. Despite significant improvements in supervised ReID, cumbersome annotation process makes it less scalable in real-world deployments. Moreover, as appearance representations can be affected by noisy factors, such as illumination level and camera properties, between different domains, person ReID models suffer a large performance drop in the presence of domain gaps. We are particularly interested in designing algorithms that can adapt a person ReID model to a target domain without human supervision. In such context, we mainly focus on designing unsupervised domain adaptation and unsupervised representation learning methods for person ReID.In this thesis, we first explore how to build robust representations by combining both global and local features under the supervised condition. Then, towards an unsupervised domain adaptive ReID system, we propose three unsupervised methods for person ReID, including 1) teacher-student knowledge distillation with asymmetric network structures for feature diversity encouragement, 2) joint generative and contrastive learning framework that generates augmented views with a generative adversarial network for contrastive learning, and 3) exploring inter-instance relations and designing relation-aware loss functions for better contrastive learning based person ReID.Our methods have been extensively evaluated on main-stream ReID datasets, such as Market-1501, DukeMTMC-reID and MSMT17. The proposed methods significantly outperform previous methods on the ReID datasets, significantly pushing person ReID to real-world deployments
APA, Harvard, Vancouver, ISO, and other styles
3

Chareyre, Maxime. "Apprentissage non-supervisé pour la découverte de propriétés d'objets par découplage entre interaction et interprétation." Electronic Thesis or Diss., Université Clermont Auvergne (2021-...), 2023. http://www.theses.fr/2023UCFA0122.

Full text
Abstract:
Les robots sont de plus en plus utilisés pour réaliser des tâches dans des environnements contrôlés. Leur utilisation en milieu ouvert est cependant encore confrontée à des difficultés. L'agent robotique est en effet susceptible de rencontrer des objets dont il ignore le comportement et la fonction. Dans certains cas, il doit interagir avec ces éléments pour réaliser sa mission en les collectant ou en les déplaçant mais, sans la connaissance de leurs propriétés dynamiques il n'est pas possible de mettre en place une stratégie de résolution de la mission efficace.Dans cette thèse, nous présentons une méthode visant à apprendre à un robot autonome une stratégie d'interaction physique avec des objets inconnus, sans aucune connaissance a priori, l'objectif étant d'extraire de l'information sur un maximum de propriétés physiques de l'objet à partir des interactions observées par ses capteurs. Les méthodes existantes pour la caractérisation d'objets par interactions physiques ne répondent pas entièrement à ces critères. En effet, les interactions établies ne permettent qu'une représentation implicite de la dynamique des objets, nécessitant une supervision pour identifier leurs propriétés. D'autre part, la solution proposée s'appuie sur des scénarios peu réalistes sans agent. Notre approche se distingue de l'état de l'art en proposant une méthode générique pour l'apprentissage de l'interaction, indépendante de l'objet et de ses propriétés, et pouvant donc être découplée de la phase de leurs prédictions. Cela permet notamment de mener à un pipeline global totalement non-supervisé.Dans une première phase, nous proposons d'apprendre une stratégie d'interaction avec l'objet via une méthode d'apprentissage par renforcement non-supervisée, en utilisant un signal de motivation intrinsèque qui repose sur l'idée de maximisation des variations d'un vecteur d'état de l'objet. Le but est d'obtenir une série d'interactions contenant des informations fortement corrélées aux propriétés physiques de l'objet. Cette méthode a été testée sur un robot simulé interagissant par poussée et a permis d'identifier avec précision des propriétés telles que la masse, la forme de l'objet et les frottements.Dans une seconde phase, nous réalisons l'hypothèse que les vraies propriétés physiques définissent un espace latent explicatif des comportements de l'objet et que cet espace peut être identifié à partir des observations recueillies grâce aux interactions de l'agent. Nous mettons en place une tâche de prédiction auto-supervisée dans laquelle nous adaptons une architecture de l'état de l'art pour construire cet espace latent. Nos simulations confirment que la combinaison du modèle comportemental avec cette architecture permet de faire émerger une représentation des propriétés de l'objet dont les composantes principales s'avèrent fortement corrélées avec les propriétés physiques de l'objet.Les propriétés des objets étant extraites, l'agent peut les exploiter pour améliorer son efficacité dans des tâches impliquant ces objets. Nous concluons cette étude par une mise en avant du gain de performance de l'agent au travers d'un entraînement via l'apprentissage par renforcement sur une tâche simplifiée de repositionnement d'objet où les propriétés sont parfaitement connues.L'intégralité du travail effectué en simulation confirme l'efficacité d'une méthode novatrice visant à découvrir en autonomie les propriétés physiques d'un objet au travers d'interactions physiques d'un robot. Les perspectives d'extension de ces travaux concernent le transfert vers un robot réel en milieu encombré
Robots are increasingly used to achieve tasks in controlled environments. However, their use in open environments is still fraught with difficulties. Robotic agents are likely to encounter objects whose behaviour and function they are unaware of. In some cases, it must interact with these elements to carry out its mission by collecting or moving them, but without knowledge of their dynamic properties it is not possible to implement an effective strategy for resolving the mission.In this thesis, we present a method for teaching an autonomous robot a physical interaction strategy with unknown objects, without any a priori knowledge, the aim being to extract information about as many of the object's physical properties as possible from the interactions observed by its sensors. Existing methods for characterising objects through physical interactions do not fully satisfy these criteria. Indeed, the interactions established only provide an implicit representation of the object's dynamics, requiring supervision to identify their properties. Furthermore, the proposed solution is based on unrealistic scenarios without an agent. Our approach differs from the state of the art by proposing a generic method for learning interaction that is independent of the object and its properties, and can therefore be decoupled from the prediction phase. In particular, this leads to a completely unsupervised global pipeline.In the first phase, we propose to learn an interaction strategy with the object via an unsupervised reinforcement learning method, using an intrinsic motivation signal based on the idea of maximising variations in a state vector of the object. The aim is to obtain a set of interactions containing information that is highly correlated with the object's physical properties. This method has been tested on a simulated robot interacting by pushing and has enabled properties such as the object's mass, shape and friction to be accurately identified.In a second phase, we make the assumption that the true physical properties define a latent space that explains the object's behaviours and that this space can be identified from observations collected through the agent's interactions. We set up a self-supervised prediction task in which we adapt a state-of-the-art architecture to create this latent space. Our simulations confirm that combining the behavioural model with this architecture leads to the emergence of a representation of the object's properties whose principal components are shown to be strongly correlated with the object's physical properties.Once the properties of the objects have been extracted, the agent can use them to improve its efficiency in tasks involving these objects. We conclude this study by highlighting the performance gains achieved by the agent through training via reinforcement learning on a simplified object repositioning task where the properties are perfectly known.All the work carried out in simulation confirms the effectiveness of an innovative method aimed at autonomously discovering the physical properties of an object through the physical interactions of a robot. The prospects for extending this work involve transferring it to a real robot in a cluttered environment
APA, Harvard, Vancouver, ISO, and other styles
4

Monnier, Tom. "Unsupervised image analysis by synthesis." Electronic Thesis or Diss., Marne-la-vallée, ENPC, 2023. http://www.theses.fr/2023ENPC0037.

Full text
Abstract:
Le but de cette thèse est de développer des approches d'intelligence artificielle (IA) pour analyser des collections d'images sans annotations. Des avancées dans ce domaine sont prometteuses pour des applications à fort impact reliées à la 3D (e.g., reconstruire une scène avec des composantes 3D manipulables pour les films d'animation ou les jeux vidéos) où annoter des exemples pour entrainer l'IA est difficile, et aussi pour des applications plus spécifiques (e.g., analyser l'évolution des charactères dans des documents du 12ème siècle) où employer des efforts conséquents pour annoter de larges bases de données pose question. L'idée centrale de cette dissertation est de construire des IA qui apprennent l'analyse d'une collection d'images en synthétisant ces mêmes images. Apprendre des modèles d'analyse par synthèse est difficile car cela nécessite la conception d'un système de génération d'images apprenable qui exhibite explicitement l'analyse voulue. Pour atteindre notre but, nous présentons trois contributions clés.La première contribution de cette thèse est une nouvelle approche conceptuelle à la modélisation de catégorie. Nous proposons de représenter la catégorie d'une image, d'un objet 2D ou d'une forme 3D, avec un prototype qui est transformé via appprentissage profond pour modéliser les différentes instances au sein de la catégorie. Plus spécifiquement, nous introduisons des transformations paramétriques concrètes (e.g., des déformations géométriques ou des variations de couleurs) et utilisons des réseaux de neurones pour prédire les paramètres de transformations nécessaires pour instancier le prototype pour une image donnée. Nous démontrons l'efficacité de cette idée en regroupant des images et reconstruisant des objets 3D à part d'images d'une seule vue de l'objet. Nous obtenons des performances égales aux meilleures méthodes qui utilisent des représentations d'image ad-hoc ou des annotations.La deuxième contribution est une nouvelle manière de découvrir des éléments dans une collection d'images. Nous proposons de représenter une collection d'images par un ensemble d'éléments apprennables, composés pour synthétiser les images et optimisés par descente de gradient. Nous démontrons l'efficacité de cette idée en découvrant des éléments 2D reliées à des objets sémantiques représentés dans la collection d'images. Notre approche a des performances semblables aux meilleures méthodes qui synthétisent les images par réseaux de neurones, et est plus interprétable. Nous démontrons aussi son efficacité en découvrant des éléments 3D reliées à des formes primitives étant donnée une collection d'images illustrant une scène via différents points de vue. Comparé aux travaux précédents calculant des primitives dans des nuages de points 3D, nous obtenons des résultats qualitatifs et quantitatifs supérieurs.La troisième contribution est plus technique et consiste en une nouvelle formulation pour calculer le rendu differentiable d'un mesh. Plus spécifiquement, nous formulons le rendu différentiable d'un mesh 3D comme l'alpha composition des faces du mesh par ordre de profondeur croissante. Comparée aux travaux précédents, cette formulation est clé pour apprendre des meshes 3D sans utiliser des annotations représentant les régions d'objet. En outre, cette formulation nous permet de facilement introduire la possibilité d'apprendre des meshes transparents, que nous modélisons pour représenter une scène comme une composition d'un nombre variable de meshes
The goal of this thesis is to develop machine learning approaches to analyze collections of images without annotations. Advances in this area hold particular promises for high-impact 3D-related applications (e.g., reconstructing a real-world scene with 3D actionable components for animation movies or video games) where annotating examples to teach the machines is difficult, as well as more micro applications related to specific needs (e.g., analyzing the character evolution from 12th century documents) where spending significant effort on annotating large-scale database is debatable. The central idea of this dissertation is to build machines that learn to analyze an image collection by synthesizing the images in the collection. Learning analysis models by synthesis is difficult because it requires the design of a learnable image generation system that explicitly exhibits the desired analysis output. To achieve our goal, we present three key contributions.The first contribution of this thesis is a new conceptual approach to category modeling. We propose to represent the category of an image, a 2D object or a 3D shape, with a prototype that is transformed using deep learning to model the different instances within the category. Specifically, we design meaningful parametric transformations (e.g., geometric deformations or colorimetric variations) and use neural networks to predict the transformation parameters necessary to instantiate the prototype for a given image. We demonstrate the effectiveness of this idea to cluster images and reconstruct 3D objects from single-view images. We obtain performances on par with the best state-of-the-art methods which leverage handcrafted features or annotations.The second contribution is a new way to discover elements in a collection of images. We propose to represent an image collection by a set of learnable elements composed together to synthesize the images and optimized by gradient descent. We first demonstrate the effectiveness of this idea by discovering 2D elements related to semantic objects represented by a large image collection. Our approach have performances similar to the best concurrent methods which synthesize images with neural networks, and ours comes with better interpretability. We also showcase the capability of this idea by discovering 3D elements related to simple primitive shapes given as input a collection of images depicting a scene from multiple viewpoints. Compared to prior works finding primitives in 3D point clouds, we showcase much better qualitative and quantitative performances.The third contribution is more technical and consist in a new formulation to compute differentiable mesh rendering. Specifically, we formulate the differentiable rendering of a 3D mesh as the alpha compositing of the mesh faces in an increasing depth order. Compared to prior works, this formulation is key to enable us to learn 3D meshes without requiring object region annotations. In addition, it allows us to seamlessly introduce the possibility to learn transparent meshes, which we design to model a scene as a composition of a variable number of meshes
APA, Harvard, Vancouver, ISO, and other styles
5

Mehr, Éloi. "Unsupervised Learning of 3D Shape Spaces for 3D Modeling." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS566.

Full text
Abstract:
Bien que les données 3D soient de plus en plus populaires, en particulier avec la démocratisation des expériences de réalité virtuelle et augmentée, il reste très difficile de manipuler une forme 3D, même pour des designers ou des experts. Partant d’une base de données d’instances 3D d’une ou plusieurs catégories d’objets, nous voulons apprendre la variété des formes plausibles en vue de développer de nouveaux outils intelligents de modélisation et d’édition 3D. Cependant, cette variété est souvent bien plus complexe comparée au domaine 2D. En effet, les surfaces 3D peuvent être représentées en utilisant plusieurs plongements distincts, et peuvent aussi exhiber des alignements ou des topologies différentes. Dans cette thèse, nous étudions la variété des formes plausibles à la lumière des défis évoqués précédemment, en approfondissant trois points de vue différents. Tout d'abord, nous considérons la variété comme un espace quotient, dans le but d’apprendre la géométrie intrinsèque des formes à partir d’une base de données où les modèles 3D ne sont pas co-alignés. Ensuite, nous supposons que la variété est non connexe, ce qui aboutit à un nouveau modèle d’apprentissage profond capable d’automatiquement partitionner et apprendre les formes selon leur typologie. Enfin, nous étudions la conversion d’une entrée 3D non structurée vers une géométrie exacte, représentée comme un arbre structuré de primitives solides continues
Even though 3D data is becoming increasingly more popular, especially with the democratization of virtual and augmented experiences, it remains very difficult to manipulate a 3D shape, even for designers or experts. Given a database containing 3D instances of one or several categories of objects, we want to learn the manifold of plausible shapes in order to develop new intelligent 3D modeling and editing tools. However, this manifold is often much more complex compared to the 2D domain. Indeed, 3D surfaces can be represented using various embeddings, and may also exhibit different alignments and topologies. In this thesis we study the manifold of plausible shapes in the light of the aforementioned challenges, by deepening three different points of view. First of all, we consider the manifold as a quotient space, in order to learn the shapes’ intrinsic geometry from a dataset where the 3D models are not co-aligned. Then, we assume that the manifold is disconnected, which leads to a new deep learning model that is able to automatically cluster and learn the shapes according to their typology. Finally, we study the conversion of an unstructured 3D input to an exact geometry, represented as a structured tree of continuous solid primitives
APA, Harvard, Vancouver, ISO, and other styles
6

Loiseau, Romain. "Real-World 3D Data Analysis : Toward Efficiency and Interpretability." Electronic Thesis or Diss., Marne-la-vallée, ENPC, 2023. http://www.theses.fr/2023ENPC0028.

Full text
Abstract:
Cette thèse explore de nouvelles approches d'apprentissage profond pour l'analyse des données 3D du monde réel. Le traitement des données 3D est utile pour de nombreuses applications telles que la conduite autonome, la gestion du territoire, la surveillance des installations industrielles, l'inventaire forestier et la mesure de biomasse. Cependant, l'annotation et l'analyse des données 3D peuvent être exigeantes. En particulier, il est souvent difficile de respecter des contraintes liées à l'utilisation des ressources de calcul ou à l'efficacité de l'annotation. La difficulté d'interpréter et de comprendre le fonctionnement interne des modèles d'apprentissage profond peut également limiter leur adoption.Des efforts considérables ont été déployés pour concevoir des méthodes d'analyse des données 3D, afin d'effectuer des tâches telles que la classification des formes ou la segmentation et la décomposition de scènes. Les premières analyses automatisées s'appuyaient sur des descripteurs créés à la main et incorporaient des connaissances préalables sur les acquisitions du monde réel. Les techniques modernes d'apprentissage profond ont de meilleures performances, mais, sont souvent coûteuses en calcul, dépendent de grands ensembles de données annotées, et sont peu interprétables. Les contributions de cette thèse répondent à ces limitations.La première contribution est une architecture d'apprentissage profond pour l’analyse efficace de séquences LiDAR en temps réel. Notre approche prend en compte la géométrie d'acquisition des capteurs LiDAR rotatifs, que de nombreuses pipelines de conduite autonome utilisent. Par rapport aux travaux antérieurs, qui considèrent les rotations complètes des capteurs LiDAR individuellement, notre modèle traite l'acquisition par petits incréments. L'architecture que nous proposons à une performance comparable à celle des meilleures méthodes, tout en réduisant le temps de traitement de plus de cinq fois, et la taille du modèle de plus de cinquante fois.La deuxième contribution est une méthode d'apprentissage profond permettant de résumer de vastes collections de formes 3D à l'aide d'un petit ensemble de formes 3D. Nous apprenons un faible nombre de formes prototypiques 3D qui sont alignées et déformées pour reconstruire les nuages de points d'entrée. Notre représentation compacte et interprétable des collections de formes 3D permet d'obtenir des résultats à l'état de l'art de la segmentation sémantique avec peu d'exemples annotés.La troisième contribution développe l'analyse non supervisée pour la décomposition de scans 3D du monde réel en parties interprétables. Nous introduisons un modèle de reconstruction probabiliste permettant de décomposer un nuage de points 3D à l'aide d'un petit ensemble de formes prototypiques apprises. Nous surpassons les méthodes non supervisées les plus récentes en termes de précision de décomposition, tout en produisant des représentations visuellement interprétables. Nous offrons des avantages significatifs par rapport aux approches existantes car notre modèle ne nécessite pas d'annotations lors de l'entraînement.Cette thèse présente également deux jeux de données annotés du monde réel en accès libre, HelixNet et Earth Parser Dataset, acquis respectivement avec des LiDAR terrestres et aériens. HelixNet est le plus grand jeu de données LiDAR de conduite autonome avec des annotations denses, et fournit les métadonnées du capteur pour chaque points, cruciales pour mesurer précisément la latence des méthodes de segmentation sémantique. Le Earth Parser Dataset se compose de sept scènes LiDAR aériennes, qui peuvent être utilisées pour évaluer les performances des techniques de traitement 3D dans divers environnements.Nous espérons que ces jeux de données, et ces méthodes fiables tenant compte des spécificités des acquisitions dans le monde réel, encourageront la poursuite de la recherche vers des modèles plus efficaces et plus interprétables
This thesis explores new deep-learning approaches for modeling and analyzing real-world 3D data. 3D data processing is helpful for numerous high-impact applications such as autonomous driving, territory management, industry facilities monitoring, forest inventory, and biomass measurement. However, annotating and analyzing 3D data can be demanding. Specifically, matching constraints regarding computing resources or annotation efficiency is often challenging. The difficulty of interpreting and understanding the inner workings of deep learning models can also limit their adoption.The computer vision community has made significant efforts to design methods to analyze 3D data, to perform tasks such as shape classification, scene segmentation, and scene decomposition. Early automated analysis relied on hand-crafted descriptors and incorporated prior knowledge about real-world acquisitions. Modern deep learning techniques demonstrate the best performances but are often computationally expensive, rely on large annotated datasets, and have low interpretability. In this thesis, we propose contributions that address these limitations.The first contribution of this thesis is an efficient deep-learning architecture for analyzing LiDAR sequences in real time. Our approach explicitly considers the acquisition geometry of rotating LiDAR sensors, which many autonomous driving perception pipelines use. Compared to previous work, which considers complete LiDAR rotations individually, our model processes the acquisition in smaller increments. Our proposed architecture achieves accuracy on par with the best methods while reducing processing time by more than five times and model size by more than fifty times.The second contribution is a deep learning method to summarize extensive 3D shape collections with a small set of 3D template shapes. We learn end-to-end a small number of 3D prototypical shapes that are aligned and deformed to reconstruct input point clouds. The main advantage of our approach is that its representations are in the 3D space and can be viewed and manipulated. They constitute a compact and interpretable representation of 3D shape collections and facilitate annotation, leading to emph{state-of-the-art} results for few-shot semantic segmentation.The third contribution further expands unsupervised analysis for parsing large real-world 3D scans into interpretable parts. We introduce a probabilistic reconstruction model to decompose an input 3D point cloud using a small set of learned prototypical shapes. Our network determines the number of prototypes to use to reconstruct each scene. We outperform emph{state-of-the-art} unsupervised methods in terms of decomposition accuracy while remaining visually interpretable. We offer significant advantages over existing approaches as our model does not require manual annotations.This thesis also introduces two open-access annotated real-world datasets, HelixNet and the Earth Parser Dataset, acquired with terrestrial and aerial LiDARs, respectively. HelixNet is the largest LiDAR autonomous driving dataset with dense annotations and provides point-level sensor metadata crucial for precisely measuring the latency of semantic segmentation methods. The Earth Parser Dataset consists of seven aerial LiDAR scenes, which can be used to evaluate 3D processing techniques' performances in diverse environments.We hope that these datasets and reliable methods considering the specificities of real-world acquisitions will encourage further research toward more efficient and interpretable models
APA, Harvard, Vancouver, ISO, and other styles
7

Manenti, Céline. "Découverte d'unités linguistiques à l'aide de méthodes d'apprentissage non supervisé." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30074.

Full text
Abstract:
La découverte d'unités linguistiques élémentaires (phonèmes, mots) uniquement à partir d'enregistrements sonores est un problème non-résolu qui suscite un fort intérêt de la communauté du traitement automatique de la parole, comme en témoignent les nombreuses contributions récentes de l'état de l'art. Durant cette thèse, nous nous sommes concentrés sur l'utilisation de réseaux de neurones pour répondre au problème. Nous avons approché le problème en utilisant les réseaux de neurones de manière supervisée, faiblement supervisée et multilingue. Nous avons ainsi développé des outils de segmentation automatique en phonèmes et de classification phonétique fondés sur des réseaux de neurones convolutifs. L'outil de segmentation automatique a obtenu 79% de F-mesure sur le corpus de parole conversationnelle en anglais BUCKEYE. Ce résultat est similaire à un annotateur humain d'après l'accord inter-annotateurs fourni par les créateurs du corpus. De plus, il n'a pas besoin de beaucoup de données (environ une dizaine de minutes par locuteur et 5 locuteurs différents) pour être performant. De plus, il est portable à d'autres langues (notamment pour des langues peu dotées telle que le xitsonga). Le système de classification phonétique permet de fixer les différents paramètres et hyperparamètres utiles pour un scénario non supervisé. Dans le cadre non supervisé, les réseaux de neurones (Auto-Encodeurs) nous ont permis de générer de nouvelles représentations paramétriques, concentrant l'information de la trame d'entrée et ses trames voisines. Nous avons étudié leur utilité pour la compression audio à partir du signal brut, pour laquelle ils se sont montrés efficaces (faible taux de RMS, même avec une compression de 99%). Nous avons également réalisé une pré-étude novatrice sur une utilisation différente des réseaux de neurones, pour générer des vecteurs de paramètres non pas à partir des sorties des couches mais des valeurs des poids des couches. Ces paramètres visent à imiter les coefficients de prédiction linéaire (Linear Predictive Coefficients, LPC). Dans le contexte de la découverte non supervisée d'unités similaires à des phonèmes (dénommées pseudo-phones dans ce mémoire) et la génération de nouvelles représentations paramétriques phonétiquement discriminantes, nous avons couplé un réseau de neurones avec un outil de regroupement (k-means). L'alternance itérative de ces deux outils a permis la génération de paramètres phonétiquement discriminants pour un même locuteur : de faibles taux d'erreur ABx intra-locuteur de 7,3% pour l'anglais, 8,5% pour le français et 8,4% pour le mandarin ont été obtenus. Ces résultats permettent un gain absolu d'environ 4% par rapport à la baseline (paramètres classiques MFCC) et sont proches des meilleures approches actuelles (1% de plus que le vainqueur du Zero Ressource Speech Challenge 2017). Les résultats inter-locuteurs varient entre 12% et 15% suivant la langue, contre 21% à 25% pour les MFCC
The discovery of elementary linguistic units (phonemes, words) only from sound recordings is an unresolved problem that arouses a strong interest from the community of automatic speech processing, as evidenced by the many recent contributions of the state of the art. During this thesis, we focused on using neural networks to answer the problem. We approached the problem using neural networks in a supervised, poorly supervised and multilingual manner. We have developed automatic phoneme segmentation and phonetic classification tools based on convolutional neural networks. The automatic segmentation tool obtained 79% F-measure on the BUCKEYE conversational speech corpus. This result is similar to a human annotator according to the inter-annotator agreement provided by the creators of the corpus. In addition, it does not need a lot of data (about ten minutes per speaker and 5 different speakers) to be effective. In addition, it is portable to other languages (especially for poorly endowed languages such as xitsonga). The phonetic classification system makes it possible to set the various parameters and hyperparameters that are useful for an unsupervised scenario. In the unsupervised context, the neural networks (Auto-Encoders) allowed us to generate new parametric representations, concentrating the information of the input frame and its neighboring frames. We studied their utility for audio compression from the raw signal, for which they were effective (low RMS, even at 99% compression). We also carried out an innovative pre-study on a different use of neural networks, to generate vectors of parameters not from the outputs of the layers but from the values of the weights of the layers. These parameters are designed to mimic Linear Predictive Coefficients (LPC). In the context of the unsupervised discovery of phoneme-like units (called pseudo-phones in this memory) and the generation of new phonetically discriminative parametric representations, we have coupled a neural network with a clustering tool (k-means ). The iterative alternation of these two tools allowed the generation of phonetically discriminating parameters for the same speaker: low rates of intra-speaker ABx error of 7.3% for English, 8.5% for French and 8 , 4% for Mandarin were obtained. These results allow an absolute gain of about 4% compared to the baseline (conventional parameters MFCC) and are close to the best current approaches (1% more than the winner of the Zero Resource Speech Challenge 2017). The inter-speaker results vary between 12% and 15% depending on the language, compared to 21% to 25% for MFCCs
APA, Harvard, Vancouver, ISO, and other styles
8

Debard, Quentin. "Automatic learning of next generation human-computer interactions." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI036.

Full text
Abstract:
L’Intelligence Artificielle (IA) et les Interfaces Homme-Machine (IHM) sont deux champs de recherche avec relativement peu de travaux communs. Les spécialistes en IHM conçoivent habituellement les interfaces utilisateurs directement à partir d’observations et de mesures sur les interactions humaines, optimisant manuellement l’interface pour qu’elle corresponde au mieux aux attentes des utilisateurs. Ce processus est difficile à optimiser : l’ergonomie, l’intuitivité et la facilité d’utilisation sont autant de propriétés clé d’une interface utilisateur (IU) trop complexes pour être simplement modélisées à partir de données d’interaction. Ce constat restreint drastiquement les utilisations potentielles de l’apprentissage automatique dans ce processus de conception. A l’heure actuelle, l’apprentissage automatique dans les IHMs se cantonne majoritairement à la reconnaissance de gestes et à l’automatisation d’affichage, par exemple à des fins publicitaires ou pour suggérer une sélection. L’apprentissage automatique peut également être utilisé pour optimiser une interface utilisateur existante, mais il ne participe pour l’instant pas à concevoir de nouvelles façons d’intéragir. Notre objectif avec cette thèse est de proposer grâce à l’apprentissage automatique de nouvelles stratégies pour améliorer le processus de conception et les propriétés des IUs. Notre but est de définir de nouvelles IUs intelligentes – comprendre précises, intuitives et adaptatives – requérant un minimum d’interventions manuelles. Nous proposons une nouvelle approche à la conception d’IU : plutôt que l’utilisateur s’adapte à l’interface, nous cherchons à ce que l’utilisateur et l’interface s’adaptent mutuellement l’un à l’autre. Le but est d’une part de réduire le biais humain dans la conception de protocoles d’interactions, et d’autre part de construire des interfaces co-adaptatives capables de correspondre d’avantage aux préférences individuelles des utilisateurs. Pour ce faire, nous allons mettre à contribution les différents outils disponibles en apprentissage automatique afin d’apprendre automatiquement des comportements, des représentations et des prises de décision. Nous expérimenterons sur les interfaces tactiles pour deux raisons majeures : celles-ci sont largement utilisées et fournissent des problèmes facilement interprétables. La première partie de notre travail se focalisera sur le traitement des données tactiles et l’utilisation d’apprentissage supervisé pour la construction de classifieurs précis de gestes tactiles. La seconde partie détaillera comment l’apprentissage par renforcement peut être utilisé pour modéliser et apprendre des protocoles d’interaction en utilisant des gestes utilisateur. Enfin, nous combinerons ces modèles d’apprentissage par renforcement avec de l’apprentissage non supervisé pour définir une méthode de conception de nouveaux protocoles d’interaction ne nécessitant pas de données d’utilisation réelles
Artificial Intelligence (AI) and Human-Computer Interactions (HCIs) are two research fields with relatively few common work. HCI specialists usually design the way we interact with devices directly from observations and measures of human feedback, manually optimizing the user interface to better fit users’ expectations. This process is hard to optimize: ergonomy, intuitivity and ease of use are key features in a User Interface (UI) that are too complex to be simply modelled from interaction data. This drastically restrains the possible uses of Machine Learning (ML) in this design process. Currently, ML in HCI is mostly applied to gesture recognition and automatic display, e.g. advertisement or item suggestion. It is also used to fine tune an existing UI to better optimize it, but as of now it does not participate in designing new ways to interact with computers. Our main focus in this thesis is to use ML to develop new design strategies for overall better UIs. We want to use ML to build intelligent – understand precise, intuitive and adaptive – user interfaces using minimal handcrafting. We propose a novel approach to UI design: instead of letting the user adapt to the interface, we want the interface and the user to adapt mutually to each other. The goal is to reduce human bias in protocol definition while building co-adaptive interfaces able to further fit individual preferences. In order to do so, we will put to use the different mechanisms available in ML to automatically learn behaviors, build representations and take decisions. We will be experimenting on touch interfaces, as these interfaces are vastly used and can provide easily interpretable problems. The very first part of our work will focus on processing touch data and use supervised learning to build accurate classifiers of touch gestures. The second part will detail how Reinforcement Learning (RL) can be used to model and learn interaction protocols given user actions. Lastly, we will combine these RL models with unsupervised learning to build a setup allowing for the design of new interaction protocols without the need for real user data
APA, Harvard, Vancouver, ISO, and other styles
9

Shahid, Mustafizur Rahman. "Deep learning for Internet of Things (IoT) network security." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS003.

Full text
Abstract:
L’internet des objets (IoT) introduit de nouveaux défis pour la sécurité des réseaux. La plupart des objets IoT sont vulnérables en raison d'un manque de sensibilisation à la sécurité des fabricants d'appareils et des utilisateurs. En conséquence, ces objets sont devenus des cibles privilégiées pour les développeurs de malware qui veulent les transformer en bots. Contrairement à un ordinateur de bureau, un objet IoT est conçu pour accomplir des tâches spécifiques. Son comportement réseau est donc très stable et prévisible, ce qui le rend bien adapté aux techniques d'analyse de données. Ainsi, la première partie de cette thèse tire profit des algorithmes de deep learning pour développer des outils de surveillance des réseaux IoT. Deux types d'outils sont explorés: les systèmes de reconnaissance de type d’objets IoT et les systèmes de détection d'intrusion réseau IoT. Pour la reconnaissance des types d’objets IoT, des algorithmes d'apprentissage supervisé sont entrainés pour classifier le trafic réseau et déterminer à quel objet IoT le trafic appartient. Le système de détection d'intrusion consiste en un ensemble d'autoencoders, chacun étant entrainé pour un type d’objet IoT différent. Les autoencoders apprennent le profil du comportement réseau légitime et détectent tout écart par rapport à celui-ci. Les résultats expérimentaux en utilisant des données réseau produites par une maison connectée montrent que les modèles proposés atteignent des performances élevées. Malgré des résultats préliminaires prometteurs, l’entraînement et l'évaluation des modèles basés sur le machine learning nécessitent une quantité importante de données réseau IoT. Or, très peu de jeux de données de trafic réseau IoT sont accessibles au public. Le déploiement physique de milliers d’objets IoT réels peut être très coûteux et peut poser problème quant au respect de la vie privée. Ainsi, dans la deuxième partie de cette thèse, nous proposons d'exploiter des GAN (Generative Adversarial Networks) pour générer des flux bidirectionnels qui ressemblent à ceux produits par un véritable objet IoT. Un flux bidirectionnel est représenté par la séquence des tailles de paquets ainsi que de la durée du flux. Par conséquent, en plus de générer des caractéristiques au niveau des paquets, tel que la taille de chaque paquet, notre générateur apprend implicitement à se conformer aux caractéristiques au niveau du flux, comme le nombre total de paquets et d'octets dans un flux ou sa durée totale. Des résultats expérimentaux utilisant des données produites par un haut-parleur intelligent montrent que notre méthode permet de générer des flux bidirectionnels synthétiques réalistes et de haute qualité
The growing Internet of Things (IoT) introduces new security challenges for network activity monitoring. Most IoT devices are vulnerable because of a lack of security awareness from device manufacturers and end users. As a consequence, they have become prime targets for malware developers who want to turn them into bots. Contrary to general-purpose devices, an IoT device is designed to perform very specific tasks. Hence, its networking behavior is very stable and predictable making it well suited for data analysis techniques. Therefore, the first part of this thesis focuses on leveraging recent advances in the field of deep learning to develop network monitoring tools for the IoT. Two types of network monitoring tools are explored: IoT device type recognition systems and IoT network Intrusion Detection Systems (NIDS). For IoT device type recognition, supervised machine learning algorithms are trained to perform network traffic classification and determine what IoT device the traffic belongs to. The IoT NIDS consists of a set of autoencoders, each trained for a different IoT device type. The autoencoders learn the legitimate networking behavior profile and detect any deviation from it. Experiments using network traffic data produced by a smart home show that the proposed models achieve high performance.Despite yielding promising results, training and testing machine learning based network monitoring systems requires tremendous amount of IoT network traffic data. But, very few IoT network traffic datasets are publicly available. Physically operating thousands of real IoT devices can be very costly and can rise privacy concerns. In the second part of this thesis, we propose to leverage Generative Adversarial Networks (GAN) to generate bidirectional flows that look like they were produced by a real IoT device. A bidirectional flow consists of the sequence of the sizes of individual packets along with a duration. Hence, in addition to generating packet-level features which are the sizes of individual packets, our developed generator implicitly learns to comply with flow-level characteristics, such as the total number of packets and bytes in a bidirectional flow or the total duration of the flow. Experimental results using data produced by a smart speaker show that our method allows us to generate high quality and realistic looking synthetic bidirectional flows
APA, Harvard, Vancouver, ISO, and other styles
10

Hamis, Sébastien. "Compression de contenus visuels pour transmission mobile sur réseaux de très bas débit." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAS020.

Full text
Abstract:
Le domaine de la compression de contenus visuels (image, vidéo, éléments graphiques 2D/3D) a connu, depuis maintenant plus de vingt ans, un essor considérable avec l’émergence notamment au fil des années de nombreuses normes internationales comme JPEG, JPEG2000 pour les images fixes ou les différentes versions de standards MPEG-1/2/4 pour les données vidéo et graphiques.L’apparition des smartphones et l’explosion des applications qui leur sont dédiées a également bénéficié de ces avancées, l’image étant aujourd’hui omniprésente dans un contexte de mobilité/itinérance. Néanmoins, cela nécessite toujours des réseaux fiables et disponibles, offrant un débit suffisant pour la transmission effective de ces données visuelles qui sont intrinsèquement gourmandes en bande passante. Si aujourd’hui les pays développés bénéficient de réseaux mobiles (3G, 4G…) hautement performantes, cela n’est pas le cas d’un certain nombre de régions du monde, en particulier dans les pays émergents, où les communications s’appuient encore sur des réseaux 2G SMS. Transmettre de contenus visuels dans un tel contexte devient un défi ambitieux, qui nécessite la mise en œuvre de nouveaux algorithmes de compression. Le défi à relever consiste à assurer une transmission des images sur une bande passante correspondant à un ensemble relativement réduit (10 à 20) de SMS (140 octets par SMS).Pour répondre à ces contraintes, de multiples pistes de développement ont été envisagées. Après un état de l’art des techniques de compression traditionnelles et de leurs améliorations futures, nous avons finalement orienté nos travaux vers des méthodes de deep learning, visant à réaliser des post-traitements pour améliorer la qualité des contenus compressés.Nos contributions s’articulent autour de la création d’un nouveau schéma de compression, incluant les codecs existants ainsi qu’un panel de briques de post-traitement permettant une meilleure exploitation des contenus fortement compressés. Ces briques sont des réseaux de neurones profonds dédiés, qui réalisent des opérations de super-résolution et/ou de réduction d’artéfacts de compression, spécifiquement entraînés pour répondre aux objectifs ciblés. Ces opérations interviennent du côté du décodeur et peuvent être interprétées comme des algorithmes de reconstruction d’images à partir de versions fortement compressées. Cette approche présente l’avantage de pouvoir s’appuyer des codecs existants, particulièrement légers et peu coûteux en ressources. Dans nos travaux, nous avons retenu le format BPG, qui fait état de l’art dans le domaine, mais d’autre schémas de compression peuvent être également considérés.Concernant le type de réseaux de neurones, nos recherches nous ont conduits vers les réseaux antagonistes génératifs (Generative Adversarials Nets–GAN), qui s‘avèrent particulièrement adaptés pour des objectifs de reconstruction à partir de données incomplètes. Plus précisément, les deux architectures retenues et adaptées à nos objectifs sont les réseaux SRGAN et ESRGAN. L’impact des différents éléments et paramètres impliqués, comme notamment les facteurs de super-résolution utilisés et les fonctions de pertes, sont analysés en détails.Enfin, une dernière contribution concerne l’évaluation expérimentale. Après avoir montré les limitations des métriques objectives, qui peinent à prendre en compte la qualité visuelle de l’image, nous avons mis en place un protocole d’évaluation subjective. Les résultats obtenus en termes de scores MOS (Mean Opinion Score) démontrent pleinement la pertinence des approches de reconstruction proposées.Enfin, nous analysons une ouverture de nos travaux à des cas d’utilisation différents, d’une nature plus grand public. C’est notamment le cas pour le traitement de contenus de grande résolution plus ou moins compressés et même pour l’amélioration de la qualité de vidéos
The field of visual content compression (image, video, 2D/3D graphics elements) has known spectacular achievements for more than twenty years, with the emergence numerous international standards such as JPEG, JPEG2000 for still image compression, or MPEG-1/2/4 for video and 3D graphics content coding.The apparition of smartphones and of their related applications have also benefited from these advances, the image being today ubiquitous in a context of mobility. Nevertheless, image transmission requires reliable and available networks, since such visual data that are inherently bandwidth-intensive. While developed countries benefit today from high-performance mobile networks (3G, 4G...), this is not the case in a certain number of regions of the world, particularly in emerging countries, where communications still rely on 2G SMS networks. Transmitting visual content in such a context becomes a highly ambitious challenge, requiring the elaboration of new, for very low bitrate compression algorithm. The challenge is to ensure images transmission over a narrow bandwidth corresponding to a relatively small set (10 to 20) of SMS (140 bytes per SMS).To meet such constraints, multiple axes of development have been considered. After a state-of-the-art of traditional image compression techniques, we have oriented our research towards deep learning methods, aiming achieve post-treatments over strongly compressed data in order to improve the quality of the decoded content.Our contributions are structures around the creation of a new compression scheme, including existing codecs and a panel of post-processing bricks aiming at enhancing highly compressed content. Such bricks represent dedicated deep neural networks, which perform super-resolution and/or compression artifact reduction operations, specifically trained to meet the targeted objectives. These operations are carried out on the decoder side and can be interpreted as image reconstruction algorithms from heavily compressed versions. This approach offers the advantage of being able to rely on existing codecs, which are particularly light and resource-efficient. In our work, we have retained the BPG format, which represents the state of art in the field, but other compression schemes can also be considered.Regarding the type of neural networks, we have adopted Generative Adversarials Nets-GAN, which are particularly well-suited for objectives of reconstruction from incomplete data. Specifically, the two architectures retained and adapted to our objectives are the SRGAN and ESRGAN networks. The impact of the various elements and parameters involved, such as the super-resolution factors and the loss functions, are analyzed in detail.A final contribution concerns experimental evaluation performed. After showing the limitations of objective metrics, which fail to take into account the visual quality of the image, we have put in place a subjective evaluation protocol. The results obtained in terms of MOS (Mean Opinion Score) fully demonstrate the relevance of the proposed reconstruction approaches.Finally, we open our work to different use cases, of a more general nature. This is particularly the case for high-resolution image processing and for video compression
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography