Дисертації з теми "Apprentisage en profondeur"

Щоб переглянути інші типи публікацій з цієї теми, перейдіть за посиланням: Apprentisage en profondeur.

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся з топ-50 дисертацій для дослідження на тему "Apprentisage en profondeur".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Переглядайте дисертації для різних дисциплін та оформлюйте правильно вашу бібліографію.

1

Palli, Thazha Vyshakh. "Using context-cues and interaction for traffic-agent trajectory prediction." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAE001.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La navigation autonome des véhicules dans les zones urbaines implique des interactions avec les différents usagers de la route ou agents de la circulation partageant le même réseau routier comme les voitures, les vélos et les piétons. La capacité du véhicule autonome à observer, comprendre et prédire le comportement de ces agents est très importante pour acquérir une bonne compréhension de la situation avant de décider de la manœuvre à suivre. Bien que cela soit réalisé à divers degrés de succès en utilisant des méthodes basées sur des modèles ou des données, les conducteurs humains restent beaucoup plus efficaces dans cette tâche, déduisant instinctivement différents mouvements d'agent même dans des situations inédites et difficiles. De plus, le contexte joue un rôle très important qui permet à nous les humains de comprendre ce qui est perçu et de faire des prédictions plus fines. La nécessité d'accroître la connaissance de la situation des véhicules autonomes, ainsi que des fonctions d'aide à la conduite liées à la sécurité, stimule notre objectif d'exploiter ces informations contextuelles pour prédire les trajectoires futures des agents observés dans différentes conditions.Au cours des dernières années, l'apprentissage automatique s'est avéré efficace pour résoudre une grande variété de problèmes, en particulier ceux associés à la perception. Cette thèse se concentre donc sur le développement de modèles d'apprentissage automatique pour exploiter des informations contextuelles afin d'observer et d'apprendre les trajectoires de différents agents en interaction. Alors que la plupart des modèles proposés dans le passé reposent sur un seul capteur et des techniques basées sur un modèle, les approches actuelles reposent souvent sur l'utilisation de plusieurs capteurs et traitent leurs sorties à l'aide de différentes méthodes d'apprentissage automatique. L'approche proposée dans cette thèse suit ces tendances en combinant les informations de différents capteurs pour prédire les trajectoires des agents observés à l'aide de l'apprentissage automatique, ainsi qu'en intégrant des informations contextuelles et des interactions dans le processus de prédiction.La thèse construit progressivement une architecture d'apprentissage automatique basée sur une formulation théorique et des expérimentations. Notre approche est basée sur un modèle d'encodeur-décodeur LSTM qui accepte les données de différentes entrées. Des observations de trajectoire à partir de données de nuages de points LiDAR 3D et d'informations sémantiques à partir de masques de carte sont utilisées. Les masques de cartes représentent des zones où les agents peuvent opérer ou non, de manière binaire. Les informations sur l'attention des piétons aux véhicules venant en sens inverse obtenues à partir des images des caméras sont également exploitées pour enrichir le système de prédiction de séquence. L'objectif est d'alimenter le modèle avec des indices contextuels et des informations sémantiques.Les architectures d'apprentissage sont construites à partir de jeux de données acquis à partir des capteurs de perception d'un véhicule. Étant donné qu'ils jouent un rôle important dans la résolution des problèmes d'apprentissage, les jeux de données annotés disponibles pour la navigation autonome ont été examinés en fonction de la disponibilité des données des capteurs et des informations contextuelles. Sur cette base, nos expériences ont permis de valider nos modèles et de construire progressivement leur architecture. Leurs performances sont démontrées à l'aide du célèbre jeu de données NuScenes acquis en milieu urbain. Les performances de l'approche proposée comparées aux approches basées sur des modèles et des données démontrent que l'ajout de multiples informations contextuelles et des interactions d'agents permet une augmentation substantielle des performances
Autonomous vehicle navigation in urban areas involves interactions with the different road-users or traffic-agents like cars, bicycles, and pedestrians, sharing the same road network. The ability of autonomous vehicle to observe, understand and predict the behaviour of these traffic-agents is very important to gain a good situation understanding prior to deciding what manoeuvre to follow. While this is achieved to various degrees of success using model-based or data-driven methods, human drivers remain much more efficient at this task, instinctively inferring different agent motions even in previously unseen and challenging situations. Moreover, context plays a very important role that enables us humans to understand what is being perceived and make finer predictions. The need to increase situational awareness of autonomous vehicles, as well as for safety related driving assistance functions, stimulates our goal to exploit contextual information to predict the future trajectories of the observed traffic-agents in different conditions.Over the past years, machine learning has proven to be efficient at solving a wide variety of problems, particularly those associated to machine perception. This thesis therefore focuses on developing machine learning models to exploit contextual information in order to observe and learn the trajectories of different interacting traffic-agents as perceived from an autonomous vehicle. While most models proposed in the past rely on a single sensor and model-based techniques, the current approaches often rely on the use of multiple sensors and process their outputs using different machine learning methods. The approach proposed in this thesis follows these trends by combining information from different sensors to predict the trajectories of the observed traffic-agents using machine learning, as well as integrating contextual information and interactions into the prediction process.The thesis gradually builds a machine learning architecture based on a theoretical formulation and experimentation. Our approach is based on an LSTM encoder-decoder model that accepts data from different inputs. Trajectory observations from 3D LiDAR point-cloud data and semantic information from map-masks are used. Map masks represent areas where the traffic-agents can operate or not, in a binary manner. The information on pedestrian attention to oncoming vehicles obtained from camera images is also exploited to enrich the sequence prediction system. The goal is to feed the model with context-cues and semantic information to enhance the prediction of the traffic-agent trajectories, by knowing whether or not the agents are aware of the presence of the subject vehicle and including knowledge on areas where they are likely to navigate. Moreover, interactions of the autonomous vehicle with traffic-agents often govern its behaviour as the vehicle navigates. A mechanism to incorporate this information to the machine learning model is also developed as an interaction-aware trajectory prediction system enhanced by context-cues.Machine learning architectures are built using datasets acquired from the perception sensors of a vehicle navigating in the expected workspace. As datasets play an important role in solving machine learning problems, available annotated datasets for autonomous navigation were reviewed according to their availability of sensor data and contextual information. Experiments were performed for our models to learn, and gradually build the resulting architecture. Their performance are demonstrated using the well-known NuScenes dataset acquired in urban settings. The performance of the proposed approach were compared with model and data-driven approaches, demonstrating that the incorporation of multiple contextual information and agent interactions provides a substantial performance increase
2

Goh, Hanlin. "Apprentissage de Représentations Visuelles Profondes." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00948376.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important.
3

Moukari, Michel. "Estimation de profondeur à partir d'images monoculaires par apprentissage profond." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC211/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La vision par ordinateur est une branche de l'intelligence artificielle dont le but est de permettre à une machine d'analyser, de traiter et de comprendre le contenu d'images numériques. La compréhension de scène en particulier est un enjeu majeur en vision par ordinateur. Elle passe par une caractérisation à la fois sémantique et structurelle de l'image, permettant d'une part d'en décrire le contenu et, d'autre part, d'en comprendre la géométrie. Cependant tandis que l'espace réel est de nature tridimensionnelle, l'image qui le représente, elle, est bidimensionnelle. Une partie de l'information 3D est donc perdue lors du processus de formation de l'image et il est d'autant plus complexe de décrire la géométrie d'une scène à partir d'images 2D de celle-ci.Il existe plusieurs manières de retrouver l'information de profondeur perdue lors de la formation de l'image. Dans cette thèse nous nous intéressons à l’estimation d'une carte de profondeur étant donné une seule image de la scène. Dans ce cas, l'information de profondeur correspond, pour chaque pixel, à la distance entre la caméra et l'objet représenté en ce pixel. L'estimation automatique d'une carte de distances de la scène à partir d'une image est en effet une brique algorithmique critique dans de très nombreux domaines, en particulier celui des véhicules autonomes (détection d’obstacles, aide à la navigation).Bien que le problème de l'estimation de profondeur à partir d'une seule image soit un problème difficile et intrinsèquement mal posé, nous savons que l'Homme peut apprécier les distances avec un seul œil. Cette capacité n'est pas innée mais acquise et elle est possible en grande partie grâce à l'identification d'indices reflétant la connaissance a priori des objets qui nous entourent. Par ailleurs, nous savons que des algorithmes d'apprentissage peuvent extraire ces indices directement depuis des images. Nous nous intéressons en particulier aux méthodes d’apprentissage statistique basées sur des réseaux de neurones profond qui ont récemment permis des percées majeures dans de nombreux domaines et nous étudions le cas de l'estimation de profondeur monoculaire
Computer vision is a branch of artificial intelligence whose purpose is to enable a machine to analyze, process and understand the content of digital images. Scene understanding in particular is a major issue in computer vision. It goes through a semantic and structural characterization of the image, on one hand to describe its content and, on the other hand, to understand its geometry. However, while the real space is three-dimensional, the image representing it is two-dimensional. Part of the 3D information is thus lost during the process of image formation and it is therefore non trivial to describe the geometry of a scene from 2D images of it.There are several ways to retrieve the depth information lost in the image. In this thesis we are interested in estimating a depth map given a single image of the scene. In this case, the depth information corresponds, for each pixel, to the distance between the camera and the object represented in this pixel. The automatic estimation of a distance map of the scene from an image is indeed a critical algorithmic brick in a very large number of domains, in particular that of autonomous vehicles (obstacle detection, navigation aids).Although the problem of estimating depth from a single image is a difficult and inherently ill-posed problem, we know that humans can appreciate distances with one eye. This capacity is not innate but acquired and made possible mostly thanks to the identification of indices reflecting the prior knowledge of the surrounding objects. Moreover, we know that learning algorithms can extract these clues directly from images. We are particularly interested in statistical learning methods based on deep neural networks that have recently led to major breakthroughs in many fields and we are studying the case of the monocular depth estimation
4

Resmerita, Diana. "Compression pour l'apprentissage en profondeur." Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4043.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les voitures autonomes sont des applications complexes qui nécessitent des machines puissantes pour pouvoir fonctionner correctement. Des tâches telles que rester entre les lignes blanches, lire les panneaux ou éviter les obstacles sont résolues en utilisant plusieurs réseaux neuronaux convolutifs (CNN) pour classer ou détecter les objets. Il est très important que tous les réseaux fonctionnent en parallèle afin de transmettre toutes les informations nécessaires et de prendre une décision commune. Aujourd'hui, à force de s'améliorer, les réseaux sont devenus plus gros et plus coûteux en termes de calcul. Le déploiement d'un seul réseau devient un défi. La compression des réseaux peut résoudre ce problème. Par conséquent, le premier objectif de cette thèse est de trouver des méthodes de compression profonde afin de faire face aux limitations de mémoire et de puissance de calcul présentes sur les systèmes embarqués. Les méthodes de compression doivent être adaptées à un processeur spécifique, le MPPA de Kalray, pour des implémentations à court terme. Nos contributions se concentrent principalement sur la compression du réseau après l'entraînement pour le stockage, ce qui signifie compresser des paramètres du réseau sans réentraîner ou changer l'architecture originale et le type de calculs. Dans le contexte de notre travail, nous avons décidé de nous concentrer sur la quantification. Notre première contribution consiste à comparer les performances de la quantification uniforme et de la quantification non-uniforme, afin d'identifier laquelle des deux présente un meilleur compromis taux-distorsion et pourrait être rapidement prise en charge par l'entreprise. L'intérêt de l'entreprise est également orienté vers la recherche de nouvelles méthodes innovantes pour les futures générations de MPPA. Par conséquent, notre deuxième contribution se concentre sur la comparaison des représentations en virgule flottante (FP32, FP16) aux représentations arithmétiques alternatives telles que BFloat16, msfp8, Posit8. Les résultats de cette analyse étaient en faveur de Posit8. Ceci a motivé la société Kalray à concevoir un décompresseur de FP16 vers Posit8. Enfin, de nombreuses méthodes de compression existent déjà, nous avons décidé de passer à un sujet adjacent qui vise à quantifier théoriquement les effets de l'erreur de quantification sur la précision du réseau. Il s'agit du deuxième objectif de la thèse. Nous remarquons que les mesures de distorsion bien connues ne sont pas adaptées pour prédire la dégradation de la précision dans le cas de l'inférence pour les réseaux de neurones compressés. Nous définissons une nouvelle mesure de distorsion avec une expression analytique qui s’apparente à un rapport signal/bruit. Un ensemble d'expériences a été réalisé en utilisant des données simulées et de petits réseaux qui montrent le potentiel de cette mesure de distorsion
Autonomous cars are complex applications that need powerful hardware machines to be able to function properly. Tasks such as staying between the white lines, reading signs, or avoiding obstacles are solved by using convolutional neural networks (CNNs) to classify or detect objects. It is highly important that all the networks work in parallel in order to transmit all the necessary information and take a common decision. Nowadays, as the networks improve, they also have become bigger and more computational expensive. Deploying even one network becomes challenging. Compressing the networks can solve this issue. Therefore, the first objective of this thesis is to find deep compression methods in order to cope with the memory and computational power limitations present on embedded systems. The compression methods need to be adapted to a specific processor, Kalray's MPPA, for short term implementations. Our contributions mainly focus on compressing the network post-training for storage purposes, which means compressing the parameters of the network without retraining or changing the original architecture and the type of the computations. In the context of our work, we decided to focus on quantization. Our first contribution consists in comparing the performances of uniform quantization and non-uniform quantization, in order to identify which of the two has a better rate-distortion trade-off and could be quickly supported in the company. The company's interest is also directed towards finding new innovative methods for future MPPA generations. Therefore, our second contribution focuses on comparing standard floating-point representations (FP32, FP16) to recently proposed alternative arithmetical representations such as BFloat16, msfp8, Posit8. The results of this analysis were in favor for Posit8. This motivated the company Kalray to conceive a decompressor from FP16 to Posit8. Finally, since many compression methods already exist, we decided to move to an adjacent topic which aims to quantify theoretically the effects of quantization error on the network's accuracy. This is the second objective of the thesis. We notice that well-known distortion measures are not adapted to predict accuracy degradation in the case of inference for compressed neural networks. We define a new distortion measure with a closed form which looks like a signal-to-noise ratio. A set of experiments were done using simulated data and small networks, which show the potential of this distortion measure
5

Peiffer, Elsa. "Implications des structures cérébrales profondes dans les apprentissages procéduraux." Lyon 1, 2000. http://www.theses.fr/2000LYO1T267.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Mordan, Taylor. "Conception d'architectures profondes pour l'interprétation de données visuelles." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS270.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Aujourd’hui, les images sont omniprésentes à travers les smartphones et les réseaux sociaux. Il devient alors nécessaire d’avoir des moyens de traitement automatiques, afin d’analyser et d’interpréter les grandes quantités de données disponibles. Dans cette thèse, nous nous intéressons à la détection d’objets, i.e. au problème d’identification et de localisation de tous les objets présents dans une image. Cela peut être vu comme une première étape vers une interprétation complète des scènes. Nous l’abordons avec des réseaux de neurones profonds à convolutions, sous le paradigme de l’apprentissage profond. Un inconvénient de cette approche est le besoin de données annotées pour l’apprentissage. Puisque les annotations précises sont longues à produire, des jeux de données plus gros peuvent être construits à l’aide d’annotations partielles. Nous concevons des fonctions d’agrégation globale pour travailler avec celles-ci et retrouver l’information latente dans deux cas : l’apprentissage de représentations spatialement localisée et par parties, à partir de supervisions aux niveaux de l’image et des objets respectivement. Nous traitons la question de l’efficacité dans l’apprentissage de bout en bout de ces représentations en tirant parti de réseaux complètement convolutionnels. En outre, l’exploitation d’annotations supplémentaires sur les images disponibles peut être une alternative à l’obtention de plus d’images, particulièrement quand il y a peu d’images. Nous formalisons ce problème comme un type spécifique d’apprentissage multi-tâche avec un objectif primaire, et concevons une méthode pour apprendre de cette supervision auxiliaire
Nowadays, images are ubiquitous through the use of smartphones and social media. It then becomes necessary to have automatic means of processing them, in order to analyze and interpret the large amount of available data. In this thesis, we are interested in object detection, i.e. the problem of identifying and localizing all objects present in an image. This can be seen as a first step toward a complete visual understanding of scenes. It is tackled with deep convolutional neural networks, under the Deep Learning paradigm. One drawback of this approach is the need for labeled data to learn from. Since precise annotations are time-consuming to produce, bigger datasets can be built with partial labels. We design global pooling functions to work with them and to recover latent information in two cases: learning spatially localized and part-based representations from image- and object-level supervisions respectively. We address the issue of efficiency in end-to-end learning of these representations by leveraging fully convolutional networks. Besides, exploiting additional annotations on available images can be an alternative to having more images, especially in the data-deficient regime. We formalize this problem as a specific kind of multi-task learning with a primary objective to focus on, and design a way to effectively learn from this auxiliary supervision under this framework
7

Trullo, Ramirez Roger. "Approche basées sur l'apprentissage en profondeur pour la segmentation des organes à risques dans les tomodensitométries thoraciques." Thesis, Normandie, 2018. http://www.theses.fr/2018NORMR063.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La radiothérapie est un traitement de choix pour le cancer thoracique, l’une des principales causes de décès dans le monde. La planification de la radiothérapie nécessite de contourer non seulement la tumeur, mais également les organes à risque (OAR) situés près de la tumeur dans le thorax, tels que le coeur, les poumons, l’oesophage, etc. Cette segmentation permet de minimiser la quantité d’irradiation reçue pendant le traitement. Aujourd’hui, la segmentation de OAR est réalisée principalement manuellement par des cliniciens sur des images scanner (CT), malgré une prise en charge logicielle partielle. C’est une tâche complexe, sujette à la variabilité intra et interobservateur. Dans ce travail, nous présentons plusieurs méthodologies utilisant des techniques d’apprentissage profond pour segmenter automatiquement le coeur, la trachée, l’aorte et l’oesophage. En particulier, l’oesophage est particulièrement difficile à segmenter, en raison de l’absence de contraste et de variabilité de forme entre différents patients. Les réseaux profonds convolutionnels offrent aujourd’hui des performances de pointe en matière desegmentation sémantique, nous montrons d’abord comment un type spécifique d’architecture basée sur des skip connections peut améliorer la précision des résultats, par rapport à un réseau pleinement convolutionnel (FCN) standard. Dans une deuxième contribution, nous avons intégré des informations de contexte spatial au processus de segmentation, par le biais de réseaux collaboratifs, permettant les segmentations de chaque organe individuellement. Troisièmement, nous proposons une représentation différente des données, basée sur une carte de distance, utilisée en conjointement avec des réseaux adversariaux (GAN), comme un autre moyen de contraindre le contexte anatomique. Les méthodes proposées ont été évaluées sur une base d’images scanner de 60 patients. Les résultats montrent des résultats encourageants pour l’application clinique et souligne le potentiel des méthodes prenant en compte le contexte spatial dans la segmentation
Radiotherapy is one of the options for treatment currently available for patients affected by cancer, one of the leading cause of deaths worldwide. Before radiotherapy, organs at risk (OAR) located near the target tumor, such as the heart, the lungs, the esophagus, etc. in thoracic cancer, must be outlined, in order to minimize the quantity of irradiation that they receive during treatment. Today, segmentation of the OAR is performed mainly manually by clinicians on Computed Tomography (CT) images, despite some partial software support. It is a tedious task, prone to intra and inter-observer variability. In this work, we present several frameworks using deep learning techniques to automatically segment the heart, trachea, aorta and esophagus. In particular, the esophagus is notably challenging to segment, due to the lack of surrounding contrast and shape variability across different patients. As deep networks and in particular fully convolutional networks offer now state of the art performance for semantic segmentation, we first show how a specific type of architecture based on skip connections can improve the accuracy of the results. As a second contribution, we demonstrate that context information can be of vital importance in the segmentation task, where we propose the use of two collaborative networks. Third, we propose a different, distance aware representation of the data, which is then used in junction with adversarial networks, as another way to constrain the anatomical context. All the proposed methods have been tested on 60 patients with 3D-CT scans, showing good performance compared with other methods
8

Chandra, Siddhartha. "Apprentissage Profond pour des Prédictions Structurées Efficaces appliqué à la Classification Dense en Vision par Ordinateur." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC033/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans cette thèse, nous proposons une technique de prédiction structurée qui combine les vertus des champs aléatoires conditionnels Gaussiens (G-CRF) avec les réseaux de neurones convolutifs (CNN). L’idée à l’origine de cette thèse est l’observation que tout en étant d’une forme limitée, les GCRF nous permettent d’effectuer une inférence exacte de Maximum-A-Posteriori (MAP) de manière efficace. Nous préférons l’exactitude et la simplicité à la généralité et préconisons la prédiction structurée basée sur les G-CRFs dans les chaînes de traitement d’apprentissage en profondeur. Nous proposons des méthodes de prédiction structurées qui permettent de gérer (i) l’inférence exacte, (ii) les interactions par paires à court et à long terme, (iii) les expressions CNN riches pour les termes paires et (iv) l’entraînement de bout en bout aux côtés des CNN. Nous concevons de nouvelles stratégies de mise en œuvre qui nous permettent de surmonter les problèmes de mémoire et de calcul lorsque nous traitons des modèles graphiques entièrement connectés. Ces méthodes sont illustrées par des études expérimentales approfondies qui démontrent leur utilité. En effet, nos méthodes permettent une amélioration des résultats vis-à-vis de L’état de l’art sur des applications variées dans le domaine de la vision par ordinateur
In this thesis we propose a structured prediction technique that combines the virtues of Gaussian Conditional Random Fields (G-CRFs) with Convolutional Neural Networks (CNNs). The starting point of this thesis is the observation that while being of a limited form GCRFs allow us to perform exact Maximum-APosteriori (MAP) inference efficiently. We prefer exactness and simplicity over generality and advocate G-CRF based structured prediction in deep learning pipelines. Our proposed structured prediction methods accomodate (i) exact inference, (ii) both shortand long- term pairwise interactions, (iii) rich CNN-based expressions for the pairwise terms, and (iv) end-to-end training alongside CNNs. We devise novel implementation strategies which allow us to overcome memory and computational challenges
9

Pinheiro, de Carvalho Marcela. "Deep Depth from Defocus : Neural Networks for Monocular Depth Estimation." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS609.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'estimation de profondeur à partir d'une seule image est maintenant cruciale pour plusieurs applications, de la robotique à la réalité virtuelle. Les approches par apprentissage profond dans les tâches de vision par ordinateur telles que la reconnaissance et la classification d'objets ont également apporté des améliorations au domaine de l'estimation de profondeur. Dans cette thèse, nous développons des méthodes pour l'estimation en profondeur avec un réseau de neurones profond en explorant différents indices, tels que le flou de défocalisation et la sémantique. Nous menons également plusieures expériences pour comprendre la contribution de chaque indice à la performance du modèle et sa capacité de généralisation. Dans un premier temps, nous proposons un réseau de neurones convolutif efficace pour l'estimation de la profondeur ainsi qu'une stratégie d'entraînement basée sur les réseaux génératifs adversaires conditionnels. Notre méthode permet d'obtenir des performances parmis les meilleures sur les jeux de données standard. Ensuite, nous proposons d'explorer le flou de défocalisation, une information optique fondamentalement liée à la profondeur. Nous montrons que ces modèles sont capables d'apprendre et d'utiliser implicitement cette information pour améliorer les performances et dépasser les limitations connues des approches classiques d'estimation de la profondeur par flou de défocalisation. Nous construisons également une nouvelle base de données avec de vraies images focalisées et défocalisées que nous utilisons pour valider notre approche. Enfin, nous explorons l'utilisation de l'information sémantique, qui apporte une information contextuelle riche, en apprenant à la prédire conjointement avec la profondeur par une approache multi-tâche
Depth estimation from a single image is a key instrument for several applications from robotics to virtual reality. Successful Deep Learning approaches in computer vision tasks as object recognition and classification also benefited the domain of depth estimation. In this thesis, we develop methods for monocular depth estimation with deep neural network by exploring different cues: defocus blur and semantics. We conduct several experiments to understand the contribution of each cue in terms of generalization and model performance. At first, we propose an efficient convolutional neural network for depth estimation along with a conditional Generative Adversarial framework. Our method achieves performances among the best on standard datasets for depth estimation. Then, we propose to explore defocus blur cues, which is an optical information deeply related to depth. We show that deep models are able to implicitly learn and use this information to improve performance and overcome known limitations of classical Depth-from-Defocus. We also build a new dataset with real focused and defocused images that we use to validate our approach. Finally, we explore the use of semantic information, which brings rich contextual information while learned jointly to depth on a multi-task approach. We validate our approaches with several datasets containing indoor, outdoor and aerial images
10

M'Saad, Soumaya. "Détection de changement de comportement de vie chez la personne âgée par images de profondeur." Thesis, Rennes 1, 2022. http://www.theses.fr/2022REN1S039.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le nombre des personnes âgées ne cesse d’augmenter dans le monde d’où l’enjeu de les aider à continuer de vivre chez eux et de vieillir en bonne santé. Cette thèse s’inscrit dans cette problématique de santé publique et propose la détection du changement de comportement de la personne en se basant sur l’enregistrement des activités au domicile par des capteurs de profondeur à bas coût qui garantissent l’anonymat et qui fonctionnent de façon autonome de jour comme de nuit. Après une étude initiale associant la classification des images par des approches de machine learning, une méthode basée sur les réseaux de neurones profonds ResNet-18 a été proposée pour la détection de la chute et la détection des postures. Cette approche a donné des résultats satisfaisants avec une précision globale de 93,44% et une sensibilité globale de 93.24%. La détection des postures permet de suivre les changements de comportement qui sont synonymes de la perte de la routine. Deux stratégies ont été déployées pour le suivi du maintien de la routine. La première examine la succession des activités dans la journée en établissant une distance d’édition ou une déformation dynamique de la journée, l’autre consiste à classer la journée en routine et non-routine en associant des approches supervisées (k-moyennes et k-modes), non supervisées (Random Forest) ou les connaissances a priori sur la journée routine de la personne. Ces stratégies ont été évaluées à la fois sur des données réelles enregistrées en EHPAD chez deux personnes fragiles et à la fois sur des données simulées créés pour combler le manque de données réelles. Elles ont montré la possibilité de détecter différents scénarios de changement de comportement (brusque, progressif, récurrent) et prouvent que les capteurs de profondeur peuvent être utilisés en EHPAD ou dans l’habitat d’une personne âgée
The number of elderly people in the world is constantly increasing, hence the challenge of helping them to continue to live at home and ageing in good health. This PhD takes part in this public health issue and proposes the detection of the person behavior change based on the recording of activities in the home by low-cost depth sensors that guarantee anonymity and that operate autonomously day and night. After an initial study combining image classification by machine learning approaches, a method based on Resnet-18 deep neural networks was proposed for fall and posture position detection. This approach gave good results with a global accuracy of 93.44% and a global sensitivity of 93.24%. The detection of postures makes possible to follow the state of the person and in particular the behavior changes which are assumed to be the routine loss. Two strategies were deployed to monitor the routine. The first one examines the succession of activities in the day by computing an edit distance or a dynamic deformation of the day, the other one consists in classifying the day into routine and non-routine by combining supervised (k-means and k-modes), unsupervised (Random Forest) or a priori knowledge about the person's routine. These strategies were evaluated both on real data recorded in EHPAD in two frail people and on simulated data created to fill the lack of real data. They have shown the possibility to detect different behavioral change scenarios (abrupt, progressive, recurrent) and prove that depth sensors can be used in EHPAD or in the home of an elderly person
11

Germain, Mathieu. "L’estimation de distribution à l'aide d'un autoencodeur." Mémoire, Université de Sherbrooke, 2015. http://hdl.handle.net/11143/6910.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ce mémoire introduit MADE, un nouveau modèle génératif spécifiquement développé pour l’estimation de distribution de probabilité pour données binaires. Ce modèle se base sur le simple autoencodeur et le modifie de telle sorte que sa sortie puisse être considérée comme des probabilités conditionnelles. Il a été testé sur une multitude d’ensembles de données et atteint des performances comparables à l’état de l’art, tout en étant plus rapide. Pour faciliter la description de ce modèle, plusieurs concepts de base de l’apprentissage automatique seront décrits ainsi que d’autres modèles d’estimation de distribution. Comme son nom l’indique, l’estimation de distribution est simplement la tâche d’estimer une distribution statistique à l’aide d’exemples tirés de cette dernière. Bien que certains considèrent ce problème comme étant le Saint Graal de l’apprentissage automatique, il a longtemps été négligé par le domaine puisqu’il était considéré trop difficile. Une raison pour laquelle cette tâche est tenue en si haute estime est qu’une fois la distribution des données connue, elle peut être utilisée pour réaliser la plupart des autres tâches de l’apprentissage automatique, de la classification en passant par la régression jusqu’à la génération. L’information est divisée en trois chapitres principaux. Le premier donne un survol des connaissances requises pour comprendre le nouveau modèle. Le deuxième présente les précurseurs qui ont tenu le titre de l’état de l’art et finalement le troisième explique en détail le modèle proposé.
12

Chen, Dexiong. "Modélisation de données structurées avec des machines profondes à noyaux et des applications en biologie computationnelle." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM070.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le développement d'algorithmes efficaces pour apprendre des représentations appropriées des données structurées, telles des sequences ou des graphes, est un défi majeur et central de l'apprentissage automatique. Pour atteindre cet objectif, l'apprentissage profond est devenu populaire pour modéliser des données structurées. Les réseaux de neurones profonds ont attiré une attention particulière dans divers domaines scientifiques tels que la vision par ordinateur, la compréhension du langage naturel ou la biologie. Par exemple, ils fournissent aux biologistes des outils de calcul qui leur permettent de comprendre et de découvrir les propriétés biologiques ou les relations entre les macromolécules des organismes vivants. Toutefois, leur succès dans ces domaines repose essentiellement sur des connaissances empiriques ainsi que d'énormes quantités de données annotées. Exploiter des modèles plus efficaces est nécessaire car les données annotées sont souvent rares.Un autre axe de recherche est celui des méthodes à noyaux, qui fournissent une approche systématique et fondée sur des principes théoriquement solides pour l'apprentissage de modèles non linéaires à partir de données de structure arbitraire. Outre leur simplicité, elles présentent une manière naturelle de contrôler la régularisation et ainsi d'éviter le surapprentissage.Cependant, les représentations de données fournies par les méthodes à noyaux ne sont définies que par des caractéristiques artisanales simplement conçues, ce qui les rend moins performantes que les réseaux de neurones lorsque suffisamment de données étiquetées sont disponibles. Des noyaux plus complexes, inspirés des connaissances préalables utilisées dans les réseaux de neurones, ont ainsi été développés pour construire des représentations plus riches et ainsi combler cette lacune. Pourtant, ils sont moins adaptatifs. Par comparaison, les réseaux de neurones sont capables d'apprendre une représentation compacte pour une tâche d'apprentissage spécifique, ce qui leur permet de conserver l'expressivité de la représentation tout en s'adaptant à une grande taille d'échantillon.Il est donc utile d'intégrer les vues complémentaires des méthodes à noyaux et des réseaux de neurones profonds pour construire de nouveaux cadres afin de bénéficier du meilleur des deux mondes.Dans cette thèse, nous construisons un cadre général basé sur les noyaux pour la modélisation des données structurées en tirant parti des connaissances préalables des méthodes à noyaux classiques et des réseaux profonds. Notre cadre fournit des outils algorithmiques efficaces pour l'apprentissage de représentations sans annotations ainsi que pour l'apprentissage de représentations plus compactes de manière supervisée par les tâches. Notre cadre peut être utilisé pour modéliser efficacement des séquences et des graphes avec une interprétation simple. Il offre également de nouvelles perspectives sur la construction des noyaux et de réseaux de neurones plus expressifs pour les séquences et les graphes
Developing efficient algorithms to learn appropriate representations of structured data, including sequences or graphs, is a major and central challenge in machine learning. To this end, deep learning has become popular in structured data modeling. Deep neural networks have drawn particular attention in various scientific fields such as computer vision, natural language understanding or biology. For instance, they provide computational tools for biologists to possibly understand and uncover biological properties or relationships among macromolecules within living organisms. However, most of the success of deep learning methods in these fields essentially relies on the guidance of empirical insights as well as huge amounts of annotated data. Exploiting more data-efficient models is necessary as labeled data is often scarce.Another line of research is kernel methods, which provide a systematic and principled approach for learning non-linear models from data of arbitrary structure. In addition to their simplicity, they exhibit a natural way to control regularization and thus to avoid overfitting.However, the data representations provided by traditional kernel methods are only defined by simply designed hand-crafted features, which makes them perform worse than neural networks when enough labeled data are available. More complex kernels inspired by prior knowledge used in neural networks have thus been developed to build richer representations and thus bridge this gap. Yet, they are less scalable. By contrast, neural networks are able to learn a compact representation for a specific learning task, which allows them to retain the expressivity of the representation while scaling to large sample size.Incorporating complementary views of kernel methods and deep neural networks to build new frameworks is therefore useful to benefit from both worlds.In this thesis, we build a general kernel-based framework for modeling structured data by leveraging prior knowledge from classical kernel methods and deep networks. Our framework provides efficient algorithmic tools for learning representations without annotations as well as for learning more compact representations in a task-driven way. Our framework can be used to efficiently model sequences and graphs with simple interpretation of predictions. It also offers new insights about designing more expressive kernels and neural networks for sequences and graphs
13

Brédy, Jhemson, and Jhemson Brédy. "Prévision de la profondeur de la nappe phréatique d'un champ de canneberges à l'aide de deux approches de modélisation des arbres de décision." Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/37875.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La gestion intégrée de l’eau souterraine constitue un défi majeur pour les activités industrielles, agricoles et domestiques. Dans certains systèmes agricoles, une gestion optimisée de la nappe phréatique représente un facteur important pour améliorer les rendements des cultures et l’utilisation de l'eau. La prévision de la profondeur de la nappe phréatique (PNP) devient l’une des stratégies utiles pour planifier et gérer en temps réel l’eau souterraine. Cette étude propose une approche de modélisation basée sur les arbres de décision pour prédire la PNP en fonction des précipitations, des précédentes PNP et de l'évapotranspiration pour la gestion de l’eau souterraine des champs de canneberges. Premièrement, deux modèles: « Random Forest (RF) » et « Extreme Gradient Boosting (XGB) » ont été paramétrisés et comparés afin de prédirela PNP jusqu'à 48 heures. Deuxièmement, l’importance des variables prédictives a été déterminée pour analyser leur influence sur la simulation de PNP. Les mesures de PNP de trois puits d'observation dans un champ de canneberges, pour la période de croissance du 8 juillet au 30 août 2017, ont été utilisées pour entraîner et valider les modèles. Des statistiques tels que l’erreur quadratique moyenne, le coefficient de détermination et le coefficient d’efficacité de Nash-Sutcliffe sont utilisés pour mesurer la performance des modèles. Les résultats montrent que l'algorithme XGB est plus performant que le modèle RF pour prédire la PNP et est sélectionné comme le modèle optimal. Parmi les variables prédictives, les valeurs précédentes de PNP étaient les plus importantes pour la simulation de PNP, suivie par la précipitation. L’erreur de prédiction du modèle optimal pour la plage de PNP était de ± 5 cm pour les simulations de 1, 12, 24, 36 et 48 heures. Le modèle XGB fournit des informations utiles sur la dynamique de PNP et une simulation rigoureuse pour la gestion de l’irrigation des canneberges.
La gestion intégrée de l’eau souterraine constitue un défi majeur pour les activités industrielles, agricoles et domestiques. Dans certains systèmes agricoles, une gestion optimisée de la nappe phréatique représente un facteur important pour améliorer les rendements des cultures et l’utilisation de l'eau. La prévision de la profondeur de la nappe phréatique (PNP) devient l’une des stratégies utiles pour planifier et gérer en temps réel l’eau souterraine. Cette étude propose une approche de modélisation basée sur les arbres de décision pour prédire la PNP en fonction des précipitations, des précédentes PNP et de l'évapotranspiration pour la gestion de l’eau souterraine des champs de canneberges. Premièrement, deux modèles: « Random Forest (RF) » et « Extreme Gradient Boosting (XGB) » ont été paramétrisés et comparés afin de prédirela PNP jusqu'à 48 heures. Deuxièmement, l’importance des variables prédictives a été déterminée pour analyser leur influence sur la simulation de PNP. Les mesures de PNP de trois puits d'observation dans un champ de canneberges, pour la période de croissance du 8 juillet au 30 août 2017, ont été utilisées pour entraîner et valider les modèles. Des statistiques tels que l’erreur quadratique moyenne, le coefficient de détermination et le coefficient d’efficacité de Nash-Sutcliffe sont utilisés pour mesurer la performance des modèles. Les résultats montrent que l'algorithme XGB est plus performant que le modèle RF pour prédire la PNP et est sélectionné comme le modèle optimal. Parmi les variables prédictives, les valeurs précédentes de PNP étaient les plus importantes pour la simulation de PNP, suivie par la précipitation. L’erreur de prédiction du modèle optimal pour la plage de PNP était de ± 5 cm pour les simulations de 1, 12, 24, 36 et 48 heures. Le modèle XGB fournit des informations utiles sur la dynamique de PNP et une simulation rigoureuse pour la gestion de l’irrigation des canneberges.
Integrated ground water management is a major challenge for industrial, agricultural and domestic activities. In some agricultural production systems, optimized water table management represents a significant factor to improve crop yields and water use. Therefore, predicting water table depth (WTD) becomes an important means to enable real-time planning and management of groundwater resources. This study proposes a decision-tree-based modelling approach for WTD forecasting as a function of precipitation, previous WTD values and evapotranspiration with applications in groundwater resources management for cranberry farming. Firstly, two models-based decision trees, namely Random Forest (RF) and Extrem Gradient Boosting (XGB), were parameterized and compared to predict the WTD up to 48-hours ahead for a cranberry farm located in Québec, Canada. Secondly, the importance of the predictor variables was analyzed to determine their influence on WTD simulation results. WTD measurements at three observation wells within acranberry field, for the growing period from July 8, 2017 to August 30, 2017, were used for training and testing the models. Statistical parameters such as the mean squared error, coefficient of determination and Nash-Sutcliffe efficiency coefficient were used to measure models performance. The results show that the XGB algorithm outperformed the RF model for predictions of WTD and was selected as the optimal model. Among the predictor variables, the antecedent WTD was the most important for water table depth simulation, followed by the precipitation. Base on the most important variables and optimal model, the prediction error for entire WTD range was within ± 5 cm for 1-, 12-, 24-, 26-and 48-hour prediction. The XGB model can provide useful information on the WTD dynamics and a rigorous simulation for irrigation planning and management in cranberry fields.
Integrated ground water management is a major challenge for industrial, agricultural and domestic activities. In some agricultural production systems, optimized water table management represents a significant factor to improve crop yields and water use. Therefore, predicting water table depth (WTD) becomes an important means to enable real-time planning and management of groundwater resources. This study proposes a decision-tree-based modelling approach for WTD forecasting as a function of precipitation, previous WTD values and evapotranspiration with applications in groundwater resources management for cranberry farming. Firstly, two models-based decision trees, namely Random Forest (RF) and Extrem Gradient Boosting (XGB), were parameterized and compared to predict the WTD up to 48-hours ahead for a cranberry farm located in Québec, Canada. Secondly, the importance of the predictor variables was analyzed to determine their influence on WTD simulation results. WTD measurements at three observation wells within acranberry field, for the growing period from July 8, 2017 to August 30, 2017, were used for training and testing the models. Statistical parameters such as the mean squared error, coefficient of determination and Nash-Sutcliffe efficiency coefficient were used to measure models performance. The results show that the XGB algorithm outperformed the RF model for predictions of WTD and was selected as the optimal model. Among the predictor variables, the antecedent WTD was the most important for water table depth simulation, followed by the precipitation. Base on the most important variables and optimal model, the prediction error for entire WTD range was within ± 5 cm for 1-, 12-, 24-, 26-and 48-hour prediction. The XGB model can provide useful information on the WTD dynamics and a rigorous simulation for irrigation planning and management in cranberry fields.
14

Bach, Tran. "Algorithmes avancés de DCA pour certaines classes de problèmes en apprentissage automatique du Big Data." Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0255.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
De nos jours, le Big Data est devenu essentiel et omniprésent dans tous les domaines. Par conséquence, il est nécessaire de développer des techniques innovantes et efficaces pour traiter la croissance rapide du volume des masses de données. Nous considérons les problèmes suivants dans le contexte de Big Data : la sélection de groupes de variables pour la régression logistique multi-classes, la réduction de dimension par t-SNE (« t-distributed Stochastic Neighbor Embedding « en anglais) et l'apprentissage en profondeur pour la classification non-supervisée (« Deep Clustering « en anglais). Nous développons des algorithmes DC (Difference of Convex functions) avancés pour ces problèmes, qui sont basés sur la programmation DC et DCA (DC Algorithm) -- des outils puissants pour les problèmes d'optimisation non-convexes non-différentiables. Dans la première partie, nous étudions le problème de la sélection de groupes de variables pour la régression logistique multi-classes. Nous résolvons ce problème en utilisant des DCAs avancés – Stochastic DCA et DCA-Like. Plus précisément, Stochastic DCA se spécialise dans le problème de la minimisation de la grande somme des fonctions DC, et ne nécessite qu'un sous-ensemble de fonctions DC à chaque itération. DCA-Like relaxe la condition de convexité de la deuxième composante DC en assurant la convergence. Accelerated DCA-Like intègre la technique d'accélération de Nesterov dans DCA-Like pour améliorer sa performance. Les expériences numériques sur plusieurs jeux de données benchmark de grande taille montrent l'efficacité de tous les algorithmes proposés en termes de temps d'exécution et de qualité de la solution. La deuxième partie concerne t-SNE, une technique efficace de réduction de dimension non linéaire. t-SNE est modélisé sous forme d'un problème d'optimisation non-convexe. Motivés par le caractère novateur de DCA-Like et Accelerated DCA-Like, nous développons ces deux algorithmes pour résoudre le problème t-SNE. La supériorité de nos algorithmes, appliqués à la visualisation de données, par rapport aux méthodes existantes est illustrée via des expériences numériques réalisées sur les jeux de données de très grande taille. La troisième partie est consacrée à la classification non-supervisée par l'apprentissage en profondeur. Dans la première application, nous proposons deux algorithmes basés sur DCA pour combiner t-SNE avec MSSC (Minimum Sum-of-Squares Clustering) par ces deux approches : « tandem analysis » et joint-clustering. La deuxième application considère le clustering en utilisant l'auto-encodeur. Nous avons proposé une extension d'une classe d'algorithmes de joint-clustering pour résoudre le problème de mise à l'échelle de données (« scaling problem » en anglais), et appliqué pour un cas spécifique de joint-clustering avec MSSC. Les résultats numériques sur plusieurs jeux de données benchmark montre l'efficacité de notre algorithme comparé aux méthodes existantes
Big Data has become gradually essential and ubiquitous in all aspects nowadays. Therefore, there is an urge to develop innovative and efficient techniques to deal with the rapid growth in the volume of data. This dissertation considers the following problems in Big Data: group variable selection in multi-class logistic regression, dimension reduction by t-SNE (t-distributed Stochastic Neighbor Embedding), and deep clustering. We develop advanced DCAs (Difference of Convex functions Algorithms) for these problems, which are based on DC Programming and DCA – the powerful tools for non-smooth non-convex optimization problems. Firstly, we consider the problem of group variable selection in multi-class logistic regression. We tackle this problem by using recently advanced DCAs -- Stochastic DCA and DCA-Like. Specifically, Stochastic DCA specializes in the large sum of DC functions minimization problem, which only requires a subset of DC functions at each iteration. DCA-Like relaxes the convexity condition of the second DC component while guaranteeing the convergence. Accelerated DCA-Like incorporates the Nesterov's acceleration technique into DCA-Like to improve its performance. The numerical experiments in benchmark high-dimensional datasets show the effectiveness of proposed algorithms in terms of running time and solution quality. The second part studies the t-SNE problem, an effective non-linear dimensional reduction technique. Motivated by the novelty of DCA-Like and Accelerated DCA-Like, we develop two algorithms for the t-SNE problem. The superiority of proposed algorithms in comparison with existing methods is illustrated through numerical experiments for visualization application. Finally, the third part considers the problem of deep clustering. In the first application, we propose two algorithms based on DCA to combine t-SNE with MSSC (Minimum Sum-of-Squares Clustering) by following two approaches: “tandem analysis” and joint-clustering. The second application considers clustering with auto-encoder (a well-known type of neural network). We propose an extension to a class of joint-clustering algorithms to overcome the scaling problem and applied for a specific case of joint-clustering with MSSC. Numerical experiments on several real-world datasets show the effectiveness of our methods in rapidity and clustering quality, compared to the state-of-the-art methods
15

Andrade, Valente da Silva Michelle. "SLAM and data fusion for autonomous vehicles : from classical approaches to deep learning methods." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEM079.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'arrivée des voitures autonomes va provoquer une transformation très importante de la mobilité urbaine telle que nous la connaissons, avec un impact significatif sur notre vie quotidienne. En effet, elles proposent un nouveau système de déplacement plus efficace, plus facilement accessible et avec une meilleure sécurité routière. Pour atteindre cet objectif, les véhicules autonomes doivent effectuer en toute sécurité et de manière autonome trois tâches principales: la perception, la planification et le contrôle. La perception est une tâche particulièrement difficile en milieu urbain, car elle se doit d'être suffisamment précise pour assurer à la fois la sécurité du conducteur et celle des autres. Il est décisif d’avoir une bonne compréhension de l’environnement et de ses obstacles, ainsi qu’une localisation précise, afin que les autres tâches puissent être performantes. L'objectif de cette thèse est d'explorer différentes techniques pour la cartographie et la localisation des voitures autonomes en milieu urbain, en partant des approches classiques jusqu'aux algorithmes d'apprentissage profond. On s'intéresse plus spécifiquement aux véhicules équipés de capteurs bon marché avec l'idée de maintenir un prix raisonnable pour les futures voitures autonomes. Dans cette optique, nous utilisons dans les méthodes proposées des capteurs comme des scanner laser 2D, des caméras et des centrales inertielles à bas coût. Dans la première partie, nous introduisons des méthodes classiques utilisant des grilles d'occupation évidentielles. Dans un premier temps, nous présentons une nouvelle approche pour faire de la fusion entre une caméra et un scanner laser 2D pour améliorer la perception de l'environnement. De plus, nous avons ajouté une nouvelle couche dans notre grille d'occupation afin d'affecter un état à chaque objet détecté. Cet état permet de suivre l'objet et de déterminer s'il est statique ou dynamique. Ensuite, nous proposons une méthode de localisation s'appuyant sur cette nouvelle couche ainsi que sur des techniques de superposition d'images pour localiser le véhicule tout en créant une carte de l'environnement. Dans la seconde partie, nous nous intéressons aux algorithmes d'apprentissage profond appliqués à la localisation. D'abord, nous introduisons une méthode d'apprentissage pour l'estimation d'odométrie utilisant seulement des données issues de scanners laser 2D. Cette approche démontre l'intérêt des réseaux de neurones comme un bon moyen pour analyser ce type de données, dans l'optique d'estimer le déplacement du véhicule. Ensuite, nous étendons la méthode précédente en fusionnant le laser scanner 2D avec une caméra dans un système d'apprentissage de bout-en-bout. L'ajout de cette caméra permet d'améliorer la précision de l'estimation d'odométrie et prouve qu'il est possible de faire de la fusion de capteurs avec des réseaux de neurones. Finalement, nous présentons un nouvel algorithme hybride permettant à un véhicule de se localiser dans une région déjà cartographiée. Cet algorithme s'appuie à la fois sur une grille évidentielle prenant en compte les objets dynamiques et sur la capacité des réseaux de neurones à analyser des images. Les résultats obtenus lors de cette thèse nous ont permis de mieux comprendre les problématiques liées à l'utilisation de capteurs bon marché dans un environnement dynamique. En adaptant nos méthodes à ces capteurs et en introduisant une fusion de leur information, nous avons amélioré la perception générale de l'environnement ainsi que la localisation du véhicule. De plus, notre approche a permis d'identifier les avantages et inconvénients entre les différentes méthodes classiques et d'apprentissage. Ainsi, nous proposons une manière de combiner ces deux types d'approches dans un système hybride afin d'obtenir une localisation plus précise et plus robuste
Self-driving cars have the potential to provoke a mobility transformation that will impact our everyday lives. They offer a novel mobility system that could provide more road safety, efficiency and accessibility to the users. In order to reach this goal, the vehicles need to perform autonomously three main tasks: perception, planning and control. When it comes to urban environments, perception becomes a challenging task that needs to be reliable for the safety of the driver and the others. It is extremely important to have a good understanding of the environment and its obstacles, along with a precise localization, so that the other tasks are well performed. This thesis explores from classical approaches to Deep Learning techniques to perform mapping and localization for autonomous vehicles in urban environments. We focus on vehicles equipped with low-cost sensors with the goal to maintain a reasonable price for the future autonomous vehicles. Considering this, we use in the proposed methods sensors such as 2D laser scanners, cameras and standard IMUs. In the first part, we introduce model-based methods using evidential occupancy grid maps. First, we present an approach to perform sensor fusion between a stereo camera and a 2D laser scanner to improve the perception of the environment. Moreover, we add an extra layer to the grid maps to set states to the detected obstacles. This state allows to track an obstacle overtime and to determine if it is static or dynamic. Sequentially, we propose a localization system that uses this new layer along with classic image registration techniques to localize the vehicle while simultaneously creating the map of the environment. In the second part, we focus on the use of Deep Learning techniques for the localization problem. First, we introduce a learning-based algorithm to provide odometry estimation using only 2D laser scanner data. This method shows the potential of neural networks to analyse this type of data for the estimation of the vehicle's displacement. Sequentially, we extend the previous method by fusing the 2D laser scanner with a camera in an end-to-end learning system. The addition of camera images increases the accuracy of the odometry estimation and proves that we can perform sensor fusion without any sensor modelling using neural networks. Finally, we present a new hybrid algorithm to perform the localization of a vehicle inside a previous mapped region. This algorithm takes the advantages of the use of evidential maps in dynamic environments along with the ability of neural networks to process images. The results obtained in this thesis allowed us to better understand the challenges of vehicles equipped with low-cost sensors in dynamic environments. By adapting our methods for these sensors and performing the fusion of their information, we improved the general perception of the environment along with the localization of the vehicle. Moreover, our approaches allowed a possible comparison between the advantages and disadvantages of learning-based techniques compared to model-based ones. Finally, we proposed a form of combining these two types of approaches in a hybrid system that led to a more robust solution
16

Steff, Marion. "Apprentissage de tâches motrices problématiques chez quatre personnes déficientes intellectuelles sévères ou profondes, par une organisation variée de la pratique, en vue d'un transfert en milieu naturel." Mémoire, Université de Sherbrooke, 2002. http://savoirs.usherbrooke.ca/handle/11143/744.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'objectif poursuivi dans cette étude est de vérifier si une organisation de pratiques variées facilite l'apprentissage d'une tâche motrice particulière, ainsi que sa réutilisation dans des environnements nécessitant des adaptations fréquentes de nature variable. La clientèle visée par cette étude est constituée de quatre jeunes adultes ayant une déficience intellectuelle sévère ou profonde. Comme il n'existe pas de théorie de l'apprentissage moteur adaptée à cette clientèle particulière, la théorie de référence utilisée est celle de Schmidt (1975) de même que son modèle conceptuel de la performance humaine (Schmidt, 1993). Sur la base des données fournies par Schmidt (1993), il est donc décidé d'utiliser des modes de pratique variés, tels: la pratique bloquée ou aléatoire et la pratique constante ou variable. La mise en application de ces divers modes vise à produire une interférence contextuelle haute qui favoriserait l'apprentissage et le transfert de l'habileté motrice d'un milieu éducatif à un milieu familial. Cette étude est de nature exploratoire et qualitative, ainsi que de type"étude de cas"."--Résumé abrégé par UMI
17

Pessiglione, Mathias. "Dopamine, ganglions de la base et selection de l'action : du singe MPTP au patient parkinsonien approche électrophysiologique et comportementale." Paris 6, 2004. http://www.theses.fr/2004PA066264.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
18

Mollaret, Sébastien. "Artificial intelligence algorithms in quantitative finance." Thesis, Paris Est, 2021. http://www.theses.fr/2021PESC2002.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'intelligence artificielle est devenue de plus en plus populaire en finance quantitative avec l'augmentation des capacités de calcul ainsi que de la complexité des modèles et a conduit à de nombreuses applications financières. Dans cette thèse, nous explorons trois applications différentes pour résoudre des défis concernant le domaine des dérivés financiers allant de la sélection de modèle, à la calibration de modèle ainsi que la valorisation des dérivés. Dans la Partie I, nous nous intéressons à un modèle avec changement de régime de volatilité afin de valoriser des dérivés sur actions. Les paramètres du modèle sont estimés à l'aide de l'algorithme d'Espérance-Maximisation (EM) et une composante de volatilité locale est ajoutée afin que le modèle soit calibré sur les prix d'options vanilles à l'aide de la méthode particulaire. Dans la Partie II, nous utilisons ensuite des réseaux de neurones profonds afin de calibrer un modèle à volatilité stochastique, dans lequel la volatilité est représentée par l'exponentielle d'un processus d'Ornstein-Uhlenbeck, afin d'approximer la fonction qui lie les paramètres du modèle aux volatilités implicites correspondantes hors ligne. Une fois l'approximation couteuse réalisée hors ligne, la calibration se réduit à un problème d'optimisation standard et rapide. Dans la Partie III, nous utilisons enfin des réseaux de neurones profonds afin de valorisation des options américaines sur de grands paniers d'actions pour surmonter la malédiction de la dimension. Différentes méthodes sont étudiées avec une approche de type Longstaff-Schwartz, où nous approximons les valeurs de continuation, et une approche de type contrôle stochastique, où nous résolvons l'équation différentielle partielle de valorisation en la reformulant en problème de contrôle stochastique à l'aide de la formule de Feynman-Kac non linéaire
Artificial intelligence has become more and more popular in quantitative finance given the increase of computer capacities as well as the complexity of models and has led to many financial applications. In the thesis, we have explored three different applications to solve financial derivatives challenges, from model selection, to model calibration and pricing. In Part I, we focus on a regime-switching model to price equity derivatives. The model parameters are estimated using the Expectation-Maximization (EM) algorithm and a local volatility component is added to fit vanilla option prices using the particle method. In Part II, we then use deep neural networks to calibrate a stochastic volatility model, where the volatility is modelled as the exponential of an Ornstein-Uhlenbeck process, by approximating the mapping between model parameters and corresponding implied volatilities offline. Once the expensive approximation has been performed offline, the calibration reduces to a standard & fast optimization problem.In Part III, we finally use deep neural networks to price American option on large baskets to solve the curse of the dimensionality. Different methods are studied with a Longstaff-Schwartz approach, where we approximate the continuation values, and a stochastic control approach, where we solve the pricing partial differential equation by reformulating the problem as a stochastic control problem using the non-linear Feynman-Kac formula
19

Wang, Xin. "Gaze based weakly supervised localization for image classification : application to visual recognition in a food dataset." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066577/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans cette dissertation, nous discutons comment utiliser les données du regard humain pour améliorer la performance du modèle d'apprentissage supervisé faible dans la classification des images. Le contexte de ce sujet est à l'ère de la technologie de l'information en pleine croissance. En conséquence, les données à analyser augmentent de façon spectaculaire. Étant donné que la quantité de données pouvant être annotées par l'humain ne peut pas tenir compte de la quantité de données elle-même, les approches d'apprentissage supervisées bien développées actuelles peuvent faire face aux goulets d'étranglement l'avenir. Dans ce contexte, l'utilisation de annotations faibles pour les méthodes d'apprentissage à haute performance est digne d'étude. Plus précisément, nous essayons de résoudre le problème à partir de deux aspects: l'un consiste à proposer une annotation plus longue, un regard de suivi des yeux humains, comme une annotation alternative par rapport à l'annotation traditionnelle longue, par exemple boîte de délimitation. L'autre consiste à intégrer l'annotation du regard dans un système d'apprentissage faiblement supervisé pour la classification de l'image. Ce schéma bénéficie de l'annotation du regard pour inférer les régions contenant l'objet cible. Une propriété utile de notre modèle est qu'elle exploite seulement regardez pour la formation, alors que la phase de test est libre de regard. Cette propriété réduit encore la demande d'annotations. Les deux aspects isolés sont liés ensemble dans nos modèles, ce qui permet d'obtenir des résultats expérimentaux compétitifs
In this dissertation, we discuss how to use the human gaze data to improve the performance of the weak supervised learning model in image classification. The background of this topic is in the era of rapidly growing information technology. As a consequence, the data to analyze is also growing dramatically. Since the amount of data that can be annotated by the human cannot keep up with the amount of data itself, current well-developed supervised learning approaches may confront bottlenecks in the future. In this context, the use of weak annotations for high-performance learning methods is worthy of study. Specifically, we try to solve the problem from two aspects: One is to propose a more time-saving annotation, human eye-tracking gaze, as an alternative annotation with respect to the traditional time-consuming annotation, e.g. bounding box. The other is to integrate gaze annotation into a weakly supervised learning scheme for image classification. This scheme benefits from the gaze annotation for inferring the regions containing the target object. A useful property of our model is that it only exploits gaze for training, while the test phase is gaze free. This property further reduces the demand of annotations. The two isolated aspects are connected together in our models, which further achieve competitive experimental results
20

Wang, Qiong. "Salient object detection and segmentation in videos." Thesis, Rennes, INSA, 2019. http://www.theses.fr/2019ISAR0003/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse est centrée sur le problème de la détection d'objets saillants et de leur segmentation dans une vidéo en vue de détecter les objets les plus attractifs ou d'affecter des identités cohérentes d'objets à chaque pixel d'une séquence vidéo. Concernant la détection d'objets saillants dans vidéo, outre une revue des techniques existantes, une nouvelle approche et l'extension d'un modèle sont proposées; de plus une approche est proposée pour la segmentation d'instances d'objets vidéo. Pour la détection d'objets saillants dans une vidéo, nous proposons : (1) une approche traditionnelle pour détecter l'objet saillant dans sa totalité à l'aide de la notion de "bordures virtuelles". Un filtre guidé est appliqué sur la sortie temporelle pour intégrer les informations de bord spatial en vue d'une meilleure détection des bords de l'objet saillants. Une carte globale de saillance spatio-temporelle est obtenue en combinant la carte de saillance spatiale et la carte de saillance temporelle en fonction de l'entropie. (2) Une revue des développements récents des méthodes basées sur l'apprentissage profond est réalisée. Elle inclut les classifications des méthodes de l'état de l'art et de leurs architectures, ainsi qu'une étude expérimentale comparative de leurs performances. (3) Une extension d'un modèle de l'approche traditionnelle proposée en intégrant un procédé de détection d'objet saillant d'image basé sur l'apprentissage profond a permis d'améliorer encore les performances. Pour la segmentation des instances d'objets dans une vidéo, nous proposons une approche d'apprentissage profond dans laquelle le calcul de la confiance de déformation détermine d'abord la confiance de la carte masquée, puis une sélection sémantique est optimisée pour améliorer la carte déformée, où l'objet est réidentifié à l'aide de l'étiquettes sémantique de l'objet cible. Les approches proposées ont été évaluées sur des jeux de données complexes et de grande taille disponibles publiquement et les résultats expérimentaux montrent que les approches proposées sont plus performantes que les méthodes de l'état de l'art
This thesis focuses on the problem of video salient object detection and video object instance segmentation which aim to detect the most attracting objects or assign consistent object IDs to each pixel in a video sequence. One approach, one overview and one extended model are proposed for video salient object detection, and one approach is proposed for video object instance segmentation. For video salient object detection, we propose: (1) one traditional approach to detect the whole salient object via the adjunction of virtual borders. A guided filter is applied on the temporal output to integrate the spatial edge information for a better detection of the salient object edges. A global spatio-temporal saliency map is obtained by combining the spatial saliency map and the temporal saliency map together according to the entropy. (2) An overview of recent developments for deep-learning based methods is provided. It includes the classifications of the state-of-the-art methods and their frameworks, and the experimental comparison of the performances of the state-of-the-art methods. (3) One extended model further improves the performance of the proposed traditional approach by integrating a deep-learning based image salient object detection method For video object instance segmentation, we propose a deep-learning approach in which the warping confidence computation firstly judges the confidence of the mask warped map, then a semantic selection is introduced to optimize the warped map, where the object is re-identified using the semantics labels of the target object. The proposed approaches have been assessed on the published large-scale and challenging datasets. The experimental results show that the proposed approaches outperform the state-of-the-art methods
21

Wei, Wen. "Apprentissage automatique des altérations cérébrales causées par la sclérose en plaques en neuro-imagerie multimodale." Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4021.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La sclérose en plaques (SEP) est la maladie neurologique évolutive la plus courante chez les jeunes adultes dans le monde et représente donc un problème de santé publique majeur avec environ 90 000 patients en France et plus de 500 000 personnes atteintes de SEP en Europe. Afin d'optimiser les traitements, il est essentiel de pouvoir mesurer et suivre les altérations cérébrales chez les patients atteints de SEP. En fait, la SEP est une maladie aux multiples facettes qui implique différents types d'altérations, telles que les dommages et la réparation de la myéline. Selon cette observation, la neuroimagerie multimodale est nécessaire pour caractériser pleinement la maladie. L'imagerie par résonance magnétique (IRM) est devenue un biomarqueur d'imagerie fondamental pour la sclérose en plaques en raison de sa haute sensibilité à révéler des anomalies tissulaires macroscopiques chez les patients atteints de SEP. L'IRM conventionnelle fournit un moyen direct de détecter les lésions de SEP et leurs changements, et joue un rôle dominant dans les critères diagnostiques de la SEP. De plus, l'imagerie par tomographie par émission de positons (TEP), une autre modalité d'imagerie, peut fournir des informations fonctionnelles et détecter les changements tissulaires cibles au niveau cellulaire et moléculaire en utilisant divers radiotraceurs. Par exemple, en utilisant le radiotraceur [11C]PIB, la TEP permet une mesure pathologique directe de l'altération de la myéline. Cependant, en milieu clinique, toutes les modalités ne sont pas disponibles pour diverses raisons. Dans cette thèse, nous nous concentrons donc sur l'apprentissage et la prédiction des altérations cérébrales dérivées des modalités manquantes dans la SEP à partir de données de neuroimagerie multimodale
Multiple Sclerosis (MS) is the most common progressive neurological disease of young adults worldwide and thus represents a major public health issue with about 90,000 patients in France and more than 500,000 people affected with MS in Europe. In order to optimize treatments, it is essential to be able to measure and track brain alterations in MS patients. In fact, MS is a multi-faceted disease which involves different types of alterations, such as myelin damage and repair. Under this observation, multimodal neuroimaging are needed to fully characterize the disease. Magnetic resonance imaging (MRI) has emerged as a fundamental imaging biomarker for multiple sclerosis because of its high sensitivity to reveal macroscopic tissue abnormalities in patients with MS. Conventional MR scanning provides a direct way to detect MS lesions and their changes, and plays a dominant role in the diagnostic criteria of MS. Moreover, positron emission tomography (PET) imaging, an alternative imaging modality, can provide functional information and detect target tissue changes at the cellular and molecular level by using various radiotracers. For example, by using the radiotracer [11C]PIB, PET allows a direct pathological measure of myelin alteration. However, in clinical settings, not all the modalities are available because of various reasons. In this thesis, we therefore focus on learning and predicting missing-modality-derived brain alterations in MS from multimodal neuroimaging data
22

Pinard, Clément. "Robust Learning of a depth map for obstacle avoidance with a monocular stabilized flying camera." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLY003/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le drone orienté grand public est principalement une caméra volante, stabilisée et de bonne qualité. Ceux-ci ont démocratisé la prise de vue aérienne, mais avec leur succès grandissant, la notion de sécurité est devenue prépondérante.Ce travail s'intéresse à l'évitement d'obstacle, tout en conservant un vol fluide pour l'utilisateur.Dans ce contexte technologique, nous utilisons seulement une camera stabilisée, par contrainte de poids et de coût.Pour leur efficacité connue en vision par ordinateur et leur performance avérée dans la résolution de tâches complexes, nous utilisons des réseaux de neurones convolutionnels (CNN). Notre stratégie repose sur un systeme de plusieurs niveaux de complexité dont les premieres étapes sont de mesurer une carte de profondeur depuis la caméra. Cette thèse étudie les capacités d'un CNN à effectuer cette tâche.La carte de profondeur, étant particulièrement liée au flot optique dans le cas d'images stabilisées, nous adaptons un réseau connu pour cette tâche, FlowNet, afin qu'il calcule directement la carte de profondeur à partir de deux images stabilisées. Ce réseau est appelé DepthNet.Cette méthode fonctionne en simulateur avec un entraînement supervisé, mais n'est pas assez robuste pour des vidéos réelles. Nous étudions alors les possibilites d'auto-apprentissage basées sur la reprojection différentiable d'images. Cette technique est particulièrement nouvelle sur les CNNs et nécessite une étude détaillée afin de ne pas dépendre de paramètres heuristiques.Finalement, nous développons un algorithme de fusion de cartes de profondeurs pour utiliser DepthNet sur des vidéos réelles. Plusieurs paires différentes sont données à DepthNet afin d'avoir une grande plage de profondeurs mesurées
Customer unmanned aerial vehicles (UAVs) are mainly flying cameras. They democratized aerial footage, but with thei success came security concerns.This works aims at improving UAVs security with obstacle avoidance, while keeping a smooth flight. In this context, we use only one stabilized camera, because of weight and cost incentives.For their robustness in computer vision and thei capacity to solve complex tasks, we chose to use convolutional neural networks (CNN). Our strategy is based on incrementally learning tasks with increasing complexity which first steps are to construct a depth map from the stabilized camera. This thesis is focused on studying ability of CNNs to train for this task.In the case of stabilized footage, the depth map is closely linked to optical flow. We thus adapt FlowNet, a CNN known for optical flow, to output directly depth from two stabilized frames. This network is called DepthNet.This experiment succeeded with synthetic footage, but is not robust enough to be used directly on real videos. Consequently, we consider self supervised training with real videos, based on differentiably reproject images. This training method for CNNs being rather novel in literature, a thorough study is needed in order not to depend too moch on heuristics.Finally, we developed a depth fusion algorithm to use DepthNet efficiently on real videos. Multiple frame pairs are fed to DepthNet to get a great depth sensing range
23

Panovski, Dancho. "Simulation, optimization and visualization of transportation data." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAS016.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Aujourd'hui, toutes les grandes métropoles de France, d'Europe et du reste du monde souffrent de graves problèmes de congestion et de saturation des infrastructures routières, qui concernent à la fois les transports individuels et publics. Les systèmes de transport actuels atteignent leurs limites de capacité et semblent incapables d'absorber l'augmentation des flux de passagers à l'avenir.Dans ce contexte, l'un des principaux défis à relever concerne la création de méthodologies dédiées pour l'analyse des données de transport géo-localisées pour le stockage instantané, l'analyse, la gestion et la diffusion de flux de données massives. Les algorithmes associés doivent être capables de gérer des listes d'événements de plusieurs dizaines de minutes pour calculer des trajectoires réelles, des occupations instantanées, des cycles de changement de feux de circulation ainsi que des prévisions de flux de circulation de véhicules.Dans cette thèse, nous abordons deux différentes problématiques liées à ce sujet.Une première contribution concerne l'optimisation des systèmes de feux tricolores. L'objectif est de minimiser le temps de trajet total des véhicules présents dans une certaine partie d'une ville. Dans ce but, nous proposons une technique d’optimization de type PSO (Particle Swarm Optimization). Les résultats expérimentaux obtenus montrent qu'une telle approche permet d'obtenir des gains importants (5.37% - 21.53%) en termes de temps de parcours moyen global des véhicules.La deuxième partie de la thèse est consacrée à la problématique de la prédiction des flux de trafic. En particulier, nous nous concentrons sur la prédiction de l'heure d'arrivée des bus dans les différentes stations présentes sur un itinéraire donné. Ici, nos contributions concernent tout d'abord l'introduction d'un nouveau modèle de données, appelé TDM (Traffic Density Matrix), qui capture dynamiquement la situation du trafic tout au long d'un itinéraire de bus donné. Ensuite, nous montrons comment différentes techniques d'apprentissage statistique peuvent exploiter une cette structure de données afin d'effectuer une prédiction efficace. L'analyse des résultats obtenus par les méthodes traditionnelles (régression linéaire, SVR avec différents noyaux…) montre que l'augmentation du niveau de non-linéarité permet d’obtenir des performences supérieures. En partant de ce constat, nous proposons différentes techniques de deep learning avec des réseaux conçus sur mesure, que nous avons spécifiquement adaptés à nos objectifs. L'approche proposée inclut des réseaux de neurones récurrents, des approches de type LSTM (Long Short Time Memory), des réseaux entièrement connectés et enfin convolutionnels. L'analyse des résultats expérimentaux obtenus confirme notre intuition initiale et démontre que ces techniques hautement non-linéaires surpassent les approches traditionnelles et sont capables de prendre en compte les singularités qui apparaissent dans ce type de données et qui, dans notre cas, correspondent à des embouteillages localisés qui affectent globalement le comportement du système.En raison du manque de disponibilité de ce type d'informations géo-localisées qui très sensibles et soumises à des réglementations variées, toutes les données prises en compte dans nos expériments ont été générées à l'aide du simulateur microscopique SUMO (Simulation of Urban Mobility). Nous montrons notamment comment SUMO peut être exploité pour construire des scénarios réalistes, proches de situations réelles et exploitables à des fins d'analyse.Enfin, une dernière contribution concerne l’élaboration et la mise en œuvre de deux applications de visualisation différentes, une première dédiée aux opérateurs et la seconde aux clients. Pour assurer le déploiement et la compatibilité de ces applications sur différents terminaux (PC, ordinateurs portables, smartphones, tablettes…), une solution scalable est proposée
Today all major metropolises in France, Europe and the rest of the world suffer from severe problems of congestion and saturation of infrastructures, which concern both individual and public transport. Current transportation systems are reaching capacity limits and appear unable to absorb increases in passenger flows in the future. The transport of the future is part of the various so-called Smart City initiatives and should be ”intelligent”, that is to say not only react to the demands but anticipate them, relying on the data exchanged between the end user and the information system of transportation operators.Within this context, one of the main challenges is the creation of appropriate methodologies for analysis of geo-localized transport data for instantaneous storage, analysis, management and dissemination of massive (typically thousands of instant geo-localizations , with a refresh rate of the order of a few seconds) data flows. The related algorithms must be capable of managing event lists of several tens of minutes to calculate real trajectories, instantaneous occupations, traffic lights changing cycles as well as vehicular traffic flow forecasts.In this thesis, we address two different issues related to this topic.A first contribution concerns the optimization of the traffic lights systems. The objective is to minimize the total journey time of the vehicles that are present in a certain part of a city. To this purpose, we propose a PSO (Particle Swarm Optimization) technique. The experimental results obtained show that such an approach makes it possible to obtain significant gains (5.37% - 21.53%) in terms of global average journey time.The second part of the thesis is dedicated to the issue of traffic flow prediction. In particular, we focus on prediction of the bus arrival time in the various bus stations existent over a given itinerary. Here, our contributions first concern the introduction of a novel data model, so-called TDM (Traffic Density Matrix), which captures dynamically the situation of the traffic along a given bus itinerary. Then, we show how different machine learning (ML) techniques can exploit such a structure in order to perform efficient prediction. To this purpose, we consider first traditional ML techniques, including linear regression and support vector regression with various kernels. The analysis of the results show that increasing the level of non-linearity can lead to superior results. Based on this observation, we propose various deep learning techniques with hand-crafted networks that we have specifically adapted to our objectives. The proposed approach include recurrent neural networks, LSTM (Long Short Time Memory) approaches, fully connected and convolutional networks. The analysis of the obtained experimental results confirm our intuition and demonstrate that such highly non-linear techniques outperform the traditional approaches and are able to deal with the singularities of the data that in this case correspond to localized traffic jams that globally affect the behavior of the system.Due to the lack of availability of such highly sensitive type of geo-localized information, all the data considered in our experiments has been produced with the help of the SUMO (Simulation of Urban Mobility) microscopic simulator. We notably show how SUMO can be exploited to construct realistic scenarios, close to real-life situations and exploitable for analysis purposes.Interpretation and understanding the data is of vital importance, nevertheless an adequate visualization platform is needed to present the results in a visually pleasing and understandable manner. To this purpose, we finally propose two different visualization application, a first one dedicated to the operators and the second one to clients. To ensure the deployment and compatibility of such applications on different devices (desktop PCs, Laptops, Smartphones, tablets…) a scalable solution is proposed
24

Pinard, Clément. "Robust Learning of a depth map for obstacle avoidance with a monocular stabilized flying camera." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLY003.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le drone orienté grand public est principalement une caméra volante, stabilisée et de bonne qualité. Ceux-ci ont démocratisé la prise de vue aérienne, mais avec leur succès grandissant, la notion de sécurité est devenue prépondérante.Ce travail s'intéresse à l'évitement d'obstacle, tout en conservant un vol fluide pour l'utilisateur.Dans ce contexte technologique, nous utilisons seulement une camera stabilisée, par contrainte de poids et de coût.Pour leur efficacité connue en vision par ordinateur et leur performance avérée dans la résolution de tâches complexes, nous utilisons des réseaux de neurones convolutionnels (CNN). Notre stratégie repose sur un systeme de plusieurs niveaux de complexité dont les premieres étapes sont de mesurer une carte de profondeur depuis la caméra. Cette thèse étudie les capacités d'un CNN à effectuer cette tâche.La carte de profondeur, étant particulièrement liée au flot optique dans le cas d'images stabilisées, nous adaptons un réseau connu pour cette tâche, FlowNet, afin qu'il calcule directement la carte de profondeur à partir de deux images stabilisées. Ce réseau est appelé DepthNet.Cette méthode fonctionne en simulateur avec un entraînement supervisé, mais n'est pas assez robuste pour des vidéos réelles. Nous étudions alors les possibilites d'auto-apprentissage basées sur la reprojection différentiable d'images. Cette technique est particulièrement nouvelle sur les CNNs et nécessite une étude détaillée afin de ne pas dépendre de paramètres heuristiques.Finalement, nous développons un algorithme de fusion de cartes de profondeurs pour utiliser DepthNet sur des vidéos réelles. Plusieurs paires différentes sont données à DepthNet afin d'avoir une grande plage de profondeurs mesurées
Customer unmanned aerial vehicles (UAVs) are mainly flying cameras. They democratized aerial footage, but with thei success came security concerns.This works aims at improving UAVs security with obstacle avoidance, while keeping a smooth flight. In this context, we use only one stabilized camera, because of weight and cost incentives.For their robustness in computer vision and thei capacity to solve complex tasks, we chose to use convolutional neural networks (CNN). Our strategy is based on incrementally learning tasks with increasing complexity which first steps are to construct a depth map from the stabilized camera. This thesis is focused on studying ability of CNNs to train for this task.In the case of stabilized footage, the depth map is closely linked to optical flow. We thus adapt FlowNet, a CNN known for optical flow, to output directly depth from two stabilized frames. This network is called DepthNet.This experiment succeeded with synthetic footage, but is not robust enough to be used directly on real videos. Consequently, we consider self supervised training with real videos, based on differentiably reproject images. This training method for CNNs being rather novel in literature, a thorough study is needed in order not to depend too moch on heuristics.Finally, we developed a depth fusion algorithm to use DepthNet efficiently on real videos. Multiple frame pairs are fed to DepthNet to get a great depth sensing range
25

Corbat, Lisa. "Fusion de segmentations complémentaires d'images médicales par Intelligence Artificielle et autres méthodes de gestion de conflits." Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCD029.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le néphroblastome est la tumeur du rein la plus fréquente chez l'enfant et son diagnostic est exclusivement basé sur l'imagerie. Ce travail qui fait l'objet de nos recherches s'inscrit dans le cadre d'un projet de plus grande envergure : le projet européen SAIAD (Segmentation Automatique de reins tumoraux chez l'enfant par Intelligence Artificielle Distribuée). L'objectif du projet est de parvenir à concevoir une plate-forme capable de réaliser différentes segmentations automatiques sur les images sources à partir de méthodes d'Intelligence Artificielle (IA), et ainsi obtenir une reconstruction fidèle en trois dimensions. Dans ce sens, des travaux réalisés dans une précédente thèse de l'équipe de recherche ont menés à la création d'une plate-forme de segmentation. Elle permet la segmentation de plusieurs structures individuellement, par des méthodes de type Deep Learning, et plus particulièrement les réseaux de neurones convolutifs (CNNs), ainsi que le Raisonnement à Partir de Cas (RàPC). Cependant, il est ensuite nécessaire de fusionner de manière automatique les segmentations de ces différentes structures afin d'obtenir une segmentation complète pertinente. Lors de l'agrégation de ces structures, des pixels contradictoires peuvent apparaître. Ces conflits peuvent être résolus par diverses méthodes basées ou non sur l'IA et font l'objet de nos recherches. Nous proposons tout d'abord une première approche de fusion non focalisée sur l'IA en utilisant la combinaison de six méthodes différentes, basées sur différents critères présents sur l'imagerie et les segmentations. En parallèle, deux autres méthodes de fusion sont proposées en utilisant, un CNN couplé au RàPC pour l'une, et un CNN utilisant une méthode d'apprentissage spécifique existante en segmentation pour l'autre. Ces différentes approches ont été testées sur un ensemble de 14 patients atteints de néphroblastome et démontrent leurs efficacités dans la résolution des pixels conflictuels et leurs capacités à améliorer les segmentations résultantes
Nephroblastoma is the most common kidney tumour in children and its diagnosis is based exclusively on imaging. This work, which is the subject of our research, is part of a larger project: the European project SAIAD (Automated Segmentation of Medical Images Using Distributed Artificial Intelligence). The aim of the project is to design a platform capable of performing different automatic segmentations from source images using Artificial Intelligence (AI) methods, and thus obtain a faithful three-dimensional reconstruction. In this sense, work carried out in a previous thesis of the research team led to the creation of a segmentation platform. It allows the segmentation of several structures individually, by methods such as Deep Learning, and more particularly Convolutional Neural Networks (CNNs), as well as Case Based Reasoning (CBR). However, it is then necessary to automatically fuse the segmentations of these different structures in order to obtain a complete relevant segmentation. When aggregating these structures, contradictory pixels may appear. These conflicts can be resolved by various methods based or not on AI and are the subject of our research. First, we propose a fusion approach not focused on AI using the combination of six different methods, based on different imaging and segmentation criteria. In parallel, two other fusion methods are proposed using, a CNN coupled to the CBR for one, and a CNN using a specific existing segmentation learning method for the other. These different approaches were tested on a set of 14 nephroblastoma patients and demonstrated their effectiveness in resolving conflicting pixels and their ability to improve the resulting segmentations
26

Wang, Xin. "Gaze based weakly supervised localization for image classification : application to visual recognition in a food dataset." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066577.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans cette dissertation, nous discutons comment utiliser les données du regard humain pour améliorer la performance du modèle d'apprentissage supervisé faible dans la classification des images. Le contexte de ce sujet est à l'ère de la technologie de l'information en pleine croissance. En conséquence, les données à analyser augmentent de façon spectaculaire. Étant donné que la quantité de données pouvant être annotées par l'humain ne peut pas tenir compte de la quantité de données elle-même, les approches d'apprentissage supervisées bien développées actuelles peuvent faire face aux goulets d'étranglement l'avenir. Dans ce contexte, l'utilisation de annotations faibles pour les méthodes d'apprentissage à haute performance est digne d'étude. Plus précisément, nous essayons de résoudre le problème à partir de deux aspects: l'un consiste à proposer une annotation plus longue, un regard de suivi des yeux humains, comme une annotation alternative par rapport à l'annotation traditionnelle longue, par exemple boîte de délimitation. L'autre consiste à intégrer l'annotation du regard dans un système d'apprentissage faiblement supervisé pour la classification de l'image. Ce schéma bénéficie de l'annotation du regard pour inférer les régions contenant l'objet cible. Une propriété utile de notre modèle est qu'elle exploite seulement regardez pour la formation, alors que la phase de test est libre de regard. Cette propriété réduit encore la demande d'annotations. Les deux aspects isolés sont liés ensemble dans nos modèles, ce qui permet d'obtenir des résultats expérimentaux compétitifs
In this dissertation, we discuss how to use the human gaze data to improve the performance of the weak supervised learning model in image classification. The background of this topic is in the era of rapidly growing information technology. As a consequence, the data to analyze is also growing dramatically. Since the amount of data that can be annotated by the human cannot keep up with the amount of data itself, current well-developed supervised learning approaches may confront bottlenecks in the future. In this context, the use of weak annotations for high-performance learning methods is worthy of study. Specifically, we try to solve the problem from two aspects: One is to propose a more time-saving annotation, human eye-tracking gaze, as an alternative annotation with respect to the traditional time-consuming annotation, e.g. bounding box. The other is to integrate gaze annotation into a weakly supervised learning scheme for image classification. This scheme benefits from the gaze annotation for inferring the regions containing the target object. A useful property of our model is that it only exploits gaze for training, while the test phase is gaze free. This property further reduces the demand of annotations. The two isolated aspects are connected together in our models, which further achieve competitive experimental results
27

Staerman, Guillaume. "Functional anomaly detection and robust estimation." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT021.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L’engouement pour l’apprentissage automatique s’étend à presque tous les domaines comme l’énergie, la médecine ou la finance. L’omniprésence des capteurs met à disposition de plus en plus de données avec une granularité toujours plus fine. Une abondance de nouvelles applications telles que la surveillance d’infrastructures complexes comme les avions ou les réseaux d’énergie, ainsi que la disponibilité d’échantillons de données massives, potentiellement corrompues, ont mis la pression sur la communauté scientifique pour développer de nouvelles méthodes et algorithmes d’apprentissage automatique fiables. Le travail présenté dans cette thèse s’inscrit dans cette ligne de recherche et se concentre autour de deux axes : la détection non-supervisée d’anomalies fonctionnelles et l’apprentissage robuste, tant du point de vue pratique que théorique.La première partie de cette thèse est consacrée au développement d’algorithmes efficaces de détection d’anomalies dans le cadre fonctionnel. Plus précisément, nous introduisons Functional Isolation Forest (FIF), un algorithme basé sur le partitionnement aléatoire de l’espace fonctionnel de manière flexible afin d’isoler progressivement les fonctions les unes des autres. Nous proposons également une nouvelle notion de profondeur fonctionnelle basée sur l’aire de l’enveloppe convexe des courbes échantillonnées, capturant de manière naturelle les écarts graduels de centralité. Les problèmes d’estimation et de calcul sont abordés et diverses expériences numériques fournissent des preuves empiriques de la pertinence des approches proposées. Enfin, afin de fournir des recommandations pratiques, la performance des récentes techniques de détection d’anomalies fonctionnelles est évaluée sur deux ensembles de données réelles liés à la surveillance des hélicoptères en vol et à la spectrométrie des matériaux de construction.La deuxième partie est consacrée à la conception et à l’analyse de plusieurs approches statistiques, potentiellement robustes, mêlant la profondeur de données et les estimateurs robustes de la moyenne. La distance de Wasserstein est une métrique populaire résultant d’un coût de transport entre deux distributions de probabilité et permettant de mesurer la similitude de ces dernières. Bien que cette dernière ait montré des résultats prometteurs dans de nombreuses applications d’apprentissage automatique, elle souffre d’une grande sensibilité aux valeurs aberrantes. Nous étudions donc comment tirer partie des estimateurs de la médiane des moyennes (MoM) pour renforcer l’estimation de la distance de Wasserstein avec des garanties théoriques. Par la suite, nous introduisons une nouvelle fonction de profondeur statistique dénommée Affine-Invariante Integrated Rank-Weighted (AI-IRW). Au-delà de l’analyse théorique effectuée, des résultats numériques sont présentés, confirmant la pertinence de cette profondeur. Les sur-ensembles de niveau des profondeurs statistiques donnent lieu à une extension possible des fonctions quantiles aux espaces multivariés. Nous proposons une nouvelle mesure de similarité entre deux distributions de probabilité. Elle repose sur la moyenne de la distance de Hausdorff entre les régions quantiles, induites par les profondeur de données, de chaque distribution. Nous montrons qu’elle hérite des propriétés intéressantes des profondeurs de données telles que la robustesse ou l’interprétabilité. Tous les algorithmes développés dans cette thèse sont accessible en ligne
Enthusiasm for Machine Learning is spreading to nearly all fields such as transportation, energy, medicine, banking or insurance as the ubiquity of sensors through IoT makes more and more data at disposal with an ever finer granularity. The abundance of new applications for monitoring of complex infrastructures (e.g. aircrafts, energy networks) together with the availability of massive data samples has put pressure on the scientific community to develop new reliable Machine-Learning methods and algorithms. The work presented in this thesis focuses around two axes: unsupervised functional anomaly detection and robust learning, both from practical and theoretical perspectives.The first part of this dissertation is dedicated to the development of efficient functional anomaly detection approaches. More precisely, we introduce Functional Isolation Forest (FIF), an algorithm based on randomly splitting the functional space in a flexible manner in order to progressively isolate specific function types. Also, we propose the novel notion of functional depth based on the area of the convex hull of sampled curves, capturing gradual departures from centrality, even beyond the envelope of the data, in a natural fashion. Estimation and computational issues are addressed and various numerical experiments provide empirical evidence of the relevance of the approaches proposed. In order to provide recommendation guidance for practitioners, the performance of recent functional anomaly detection techniques is evaluated using two real-world data sets related to the monitoring of helicopters in flight and to the spectrometry of construction materials.The second part describes the design and analysis of several robust statistical approaches relying on robust mean estimation and statistical data depth. The Wasserstein distance is a popular metric between probability distributions based on optimal transport. Although the latter has shown promising results in many Machine Learning applications, it suffers from a high sensitivity to outliers. To that end, we investigate how to leverage Medians-of-Means (MoM) estimators to robustify the estimation of Wasserstein distance with provable guarantees. Thereafter, a new statistical depth function, the Affine-Invariant Integrated Rank-Weighted (AI-IRW) depth is introduced. Beyond the theoretical analysis carried out, numerical results are presented, providing strong empirical confirmation of the relevance of the depth function proposed. The upper-level sets of statistical depths—the depth-trimmed regions—give rise to a definition of multivariate quantiles. We propose a new discrepancy measure between probability distributions that relies on the average of the Hausdorff distance between the depth-based quantile regions w.r.t. each distribution and demonstrate that it benefits from attractive properties of data depths such as robustness or interpretability. All algorithms developed in this thesis are open-sourced and available online
28

Bakkali, Souhail. "Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS046.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les modèles développés dans cette thèse sont le résultat d'un processus itératif d'analyse et de synthèse entre les théories existantes et nos études réalisées. Plus spécifiquement, nous souhaitons étudier l'apprentissage inter-modal pour la compréhension contextualisée sur les composants des documents à travers le langage et la vision. Cette thèse porte sur l'avancement de la recherche sur l'apprentissage inter-modal et apporte des contributions sur quatre fronts : (i) proposer une approche inter-modale avec des réseaux profonds pour exploiter conjointement les informations visuelles et textuelles dans un espace de représentation sémantique commun afin d'effectuer et de créer automatiquement des prédictions sur les documents multimodaux; (ii) à étudier des stratégies concurrentielles pour s'attaquer aux tâches de classification de documents intermodaux, de récupération basée sur le contenu et de classification few-shot de documents ; (iii) pour résoudre les problèmes liés aux données comme l'apprentissage lorsque les données ne sont pas annotées, en proposant un réseau qui apprend des représentations génériques à partir d'une collection de documents non étiquetés ; et (iv) à exploiter les paramètres d'apprentissage few-shot lorsque les données ne contiennent que peu d’exemples
The frameworks developed in this thesis were the outcome of an iterative process of analysis and synthesis between existing theories and our performed studies. More specifically, we wish to study cross-modality learning for contextualized comprehension on document components across language and vision. The main idea is to leverage multimodal information from document images into a common semantic space. This thesis focuses on advancing the research on cross-modality learning and makes contributions on four fronts: (i) to proposing a cross-modal approach with deep networks to jointly leverage visual and textual information into a common semantic representation space to automatically perform and make predictions about multimodal documents (i.e., the subject matter they are about); (ii) to investigating competitive strategies to address the tasks of cross-modal document classification, content-based retrieval and few-shot document classification; (iii) to addressing data-related issues like learning when data is not annotated, by proposing a network that learns generic representations from a collection of unlabeled documents; and (iv) to exploiting few-shot learning settings when data contains only few examples
29

Khatib, Natasha al. "Intrusion detection with deep learning for in-vehicle networks." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAT009.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La communication automobile embarquée, qui désigne la communication et l'échange de données entre les calculateurs embarqués, joue un rôle crucial dans le développement des systèmes de transport intelligents (STI), qui visent à améliorer l'efficacité, la sécurité et la durabilité des systèmes de transport. La prolifération des dispositifs informatiques et de communication embarqués, centrés sur des capteurs connectés à un réseau embarqué (IVN), a permis le développement de fonctions de sécurité et de commodité, notamment la surveillance du véhicule, la réduction du câblage physique et l'amélioration de l'expérience de conduite. Cependant, la complexité et la connectivité croissantes des véhicules modernes suscitent des inquiétudes quant à l'évolution des menaces liées aux réseaux embarqués. Une série de risques de sécurité potentiels peuvent compromettre la sécurité et la fonctionnalité d'un véhicule, mettant en danger la vie des conducteurs et des passagers. De nombreuses approches ont donc été proposées et mises en œuvre pour pallier ce problème, notamment les pare-feu, le cryptage, l'authentification sécurisée et les contrôles d'accès. Comme les mécanismes traditionnels ne parviennent pas à contrer complètement les tentatives d'intrusion, il est nécessaire de mettre en place une contre-mesure défensive complémentaire. Les systèmes de détection d'intrusion (IDS) sont donc considérés comme un élément fondamental de toute infrastructure de sécurité réseau, y compris le RVI. L'objectif principal de cette thèse est d'étudier la capacité des techniques d'apprentissage profond à détecter les intrusions à bord des véhicules. Les algorithmes d'apprentissage profond ont la capacité de traiter de grandes quantités de données et de reconnaître des modèles complexes qui peuvent être difficiles à discerner pour les humains, ce qui les rend bien adaptés à la détection des intrusions dans les IVN. Cependant, comme l'architecture E/E d'un véhicule évolue constamment avec l'apparition de nouvelles technologies et exigences, nous proposons différentes solutions basées sur l'apprentissage profond pour différentes architectures E/E et pour diverses tâches, notamment la détection d'anomalies et la classification
In-vehicle communication which refers to the communication and exchange of data between embedded automotive devices plays a crucial role in the development of intelligent transportation systems (ITS), which aim to improve the efficiency, safety, and sustainability of transportation systems. The proliferation of embedded sensor-centric communication and computing devices connected to the in-vehicle network (IVN) has enabled the development of safety and convenience features including vehicle monitoring, physical wiring reduction, and improved driving experience. However, with the increasing complexity and connectivity of modern vehicles, the expanding threat landscape of the IVN is raising concerns. A range of potential security risks can compromise the safety and functionality of a vehicle putting the life of drivers and passengers in danger. Numerous approaches have thus been proposed and implemented to alleviate this issue including firewalls, encryption, and secure authentication and access controls. As traditional mechanisms fail to fully counterattack intrusion attempts, the need for a complementary defensive countermeasure is necessary. Intrusion Detection Systems (IDS) have been thus considered a fundamental component of every network security infrastructure, including IVN. Intrusion detection can be particularly useful in detecting threats that may not be caught by other security measures, such as zero-day vulnerabilities or insider attacks. It can also provide an early warning of a potential attack, allowing car manufacturers to take preventive measures before significant damage occurs. The main objective of this thesis is to investigate the capability of deep learning techniques in detecting in-vehicle intrusions. Deep learning algorithms have the ability to process large amounts of data and recognize complex patterns that may be difficult for humans to discern, making them well-suited for detecting intrusions in IVN. However, since the E/E architecture of a vehicle is constantly evolving as new technologies and requirements emerge, we propose different deep learning-based solutions for different E/E architectures and for various tasks including anomaly detection and classification
30

Torres, Rivera Andrés. "Detección y extracción de neologismos semánticos especializados: un acercamiento mediante clasificación automática de documentos y estrategias de aprendizaje profundo." Doctoral thesis, Universitat Pompeu Fabra, 2019. http://hdl.handle.net/10803/667928.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
En el campo de la neología, se han desarrollado diferentes acercamientos metodológicos para la detección y extracción de neologismos semánticos empleando estrategias como la desambiguación semántica y el modelado de temas, pero todavía no existe una propuesta de un sistema para la detección de estas unidades. A partir de un estudio detallado sobre los supuestos teóricos necesarios para delimitar y describir los neologismos semánticos, en esta tesis proponemos el desarrollo de una aplicación para identificar y vaciar dichas unidades mediante estrategias estadísticas, de minería de datos y de aprendizaje automático. La metodología planteada se basa en el tratamiento del proceso de detección y extracción como un problema de clasificación, que consiste en analizar la concordancia de temas entre el campo semántico del significado principal de una palabra y el texto en el que se encuentra. Para constituir la arquitectura del sistema propuesto, analizamos cinco métodos de clasificación automática supervisada y tres modelos para la generación de representaciones vectoriales de palabras mediante aprendizaje profundo. Nuestro corpus de análisis está compuesto por los neologismos semánticos del ámbito de la informática pertenecientes a la base datos del Observatorio de Neologia de la Universitat Pompeu Fabra, que han sido registrados desde 1989 hasta 2015. Utilizamos este corpus para evaluar los distintos métodos que implementa el sistema: clasificación automática, extracción de palabras a partir de contextos cortos y generación de listas de palabras similares. Este primer acercamiento metodológico busca establecer un marco de referencia en materia de detección y extracción de neologismos semánticos.
Dins del camp de la neologia, s’han dissenyat diferents aproximacions metodològics per a la detecció i extracció de neologismes semàntics amb tècniques com la desambiguació semàntica i el modelatge de temes, però encara no existeix cap proposta d’un sistema per a la detecció d’aquestes unitats. A partir d’un estudi detallat sobre els supòsits teòrics necessaris per identificar i descriure els neologismes semàntics, en aquesta tesi proposem el desenvolupament d’una aplicació per identificar i buidar aquestes unitats mitjançant estratègies estadístiques, de mineria de dades i d’aprenentatge automàtic. La metodologia que es planteja es basa en el tractament del procés de detecció i extracció com un problema de classificació, que consisteix a analitzar la concordança de temes entre el camp semàntic del significat principal d’una paraula i el text en què es troba aquesta paraula. Per constituir l’arquitectura del sistema proposat, analitzem cinc mètodes de classificació automàtica supervisada i tres models per a la generació de representacions vectorials de paraules mitjançant aprenentatge profund. El nostre corpus d’anàlisi està format pels neologismes semàntics de l'àmbit de la informàtica pertanyents a la base de dades de l’Observatori de Neologia de la Universitat Pompeu Fabra, que s’han registrat des de 1989 fins a 2015. Utilitzem aquest corpus per avaluar els diferents mètodes que implementa el sistema: classificació automàtica, extracció de paraules a partir de contextos breus i generació de llistes de paraules similars. Aquesta primera aproximació metodològica busca establir un marc de referència en matèria de detecció i extracció de neologismes semàntics.
Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique, mais il n’existe aucun système complet de détection de néologismes sémantiques. Avec une étude détaillée des hypothèses théoriques nécessaires pour délimiter et décrire les néologismes sémantiques, nous proposons dans cette thèse le développement d’une application qui permet d’identifier et d’extraire ces unités à travers de méthodes statistiques, d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en œuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.
In the field of neology, different methodological approaches for the detection and extraction of semantic neologisms have been developed using strategies such as word sense disambiguation and topic modeling, but there is still not a proposal for a system for the detection of these units. Beginning from a detailed study on the necessary theoretical assumptions required to delimit and describe semantic neologisms, in this thesis, we propose the development of an application to identify and extract said units using statistical, data mining and machine learning strategies. The proposed methodology is based on treating the process of detection and extraction as a classification task, which consists on analyzing the concordance of topics between the semantic field from the main meaning of a word and the text where it is found. To build the architecture of the proposed system, we analyzed five automatic classification methods and three deep learning based word embedding models. Our analysis corpus is composed of the semantic neologisms of the computer science field belonging to the database of the Observatory of Neology of the Pompeu Fabra University, which have been registered from 1989 to 2015. We used this corpus to evaluate the different methods that our system implements: automatic classification, keyword extraction from short contexts, and similarity list generation. This first methodological approach aims to establish a framework of reference in terms of detection and extraction of semantic neologisms.
31

Liu, Jiang. "Wireless Communications Assisted by Reconfigurable Intelligent Surfaces." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG111.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Récemment, l'émergence de la surface intelligente reconfigurable (RIS) a attiré l'attention de l'industrie et du monde universitaire. Un RIS est une surface plane qui se compose d'un grand nombre d'éléments réfléchissants passifs à faible coût. En ajustant soigneusement les déphasages des éléments réfléchissants, un RIS peut remodeler l'environnement sans fil pour une meilleure communication. Dans cette thèse, nous nous concentrons sur deux sujets : (i) Étudier la modélisation et l'optimisation des systèmes de communication assistés par RIS. (ii) Étudier la modulation spatiale assistée par RIS, en particulier la détection à l'aide de techniques d'apprentissage en profondeur. Le chapitre 1 présente le concept d'environnements radio intelligents et de SIF. Dans la 5G et les communications futures, le RIS est une technique clé pour obtenir une connectivité transparente et une consommation d'énergie moindre en même temps. Le chapitre 2 présente les systèmes de communication assistés par RIS. Le principe de réflexion, le problème d'estimation de canal et le problème de conception du système sont présentés en détail. Les recherches de pointe sur les problèmes d'estimation de canal et de conception de système sont passées en revue. Le chapitre 3 étudie la distribution du rapport signal sur bruit (SNR) en tant que variable aléatoire dans un système MIMO (entrées multiples et sorties multiples) assisté par RIS. L'évanouissement de Rayleigh et la propagation en visibilité directe sont considérés séparément. La dérivation théorique et la simulation numérique prouvent que le SNR est équivalent en distribution au produit de trois (évanouissement de Rayleigh) ou de deux (propagation en ligne de visée) variables aléatoires indépendantes. Le chapitre 4 étudie le comportement des interférences dans un système MIMO assisté par RIS, où chaque station de base dessert un équipement utilisateur (UE) via un RIS. L'interférence au niveau d'un UE est causée par son RIS non desservant. Il est prouvé que le rapport interférence/bruit est équivalent en distribution au produit d'une variable aléatoire Chi-carré et d'une variable aléatoire qui peut être approchée avec une distribution Gamma. Le chapitre 5 se concentre sur la modulation spatiale assistée par RIS. Tout d'abord, nous introduisons la détection assistée par apprentissage en profondeur pour les systèmes MIMO. Ensuite, en généralisant les systèmes de modulation spatiale assistés par RIS en tant que cas particulier des systèmes de modulation spatiale traditionnels, nous étudions la détection basée sur l'apprentissage en profondeur pour les systèmes de modulation spatiale assistés par RIS. Les résultats numériques valident les schémas de détection d'apprentissage en profondeur basés sur des données et sur des modèles pour les systèmes de modulation spatiale assistés par RIS. Enfin, le chapitre 6 conclut la thèse et discute des pistes de recherche futures possibles
Recently, the emergence of reconfigurable intelligent surface (RIS) has attracted heated attention from both industry and academia. A RIS is a planar surface that consists of a large number of low-cost passive reflecting elements. By carefully adjusting the phase shifts of the reflecting elements, an RIS can reshape the wireless environment for better communication. In this thesis, we focus on two subjects: (i) To study the modeling and optimization of RIS-aided communication systems. (ii) To study RIS-aided spatial modulation, especially the detection using deep learning techniques. Chapter 1 introduces the concept of smart radio environments and RIS. In 5G and future communications, RIS is a key technique to achieve seamless connectivity and less energy consumption at the same time. Chapter 2 introduces RIS-aided communication systems. The reflection principle, channel estimation problem and system design problem are introduced in detail. State-of-the-art research on the problems of channel estimation and system design are overviewed. Chapter 3 investigates the distribution of the signal-to-noise ratio (SNR) as a random variable in an RIS-aided multiple-input multiple-output (MIMO) system. Rayleigh fading and line-of-sight propagation are considered separately. The theoretical derivation and numerical simulation prove that the SNR is equivalent in distribution to the product of three (Rayleigh fading) or two (line-of-sight propagation) independent random variables. Chapter 4 studies the behavior of interference in an RIS-aided MIMO system, where each base station serves a user equipment (UE) through an RIS. The interference at a UE is caused by its non-serving RIS. It is proven that the interference-to-noise ratio is equivalent in distribution to the product of a Chi-squared random variable and a random variable which can be approximated with a Gamma distribution. Chapter 5 focuses on RIS-aided spatial modulation. First, we introduce deep learning aided detection for MIMO systems. Then, by generalizing RIS-aided spatial modulation systems as a special case of traditional spatial modulation systems, we investigate deep learning based detection for RIS-aided spatial modulation systems. Numerical results validate the proposed data-based and model-based deep learning detection schemes for RIS-aided spatial modulation systems. Finally, Chapter 6 concludes the thesis and discusses possible future research directions
32

Zhang, Wuming. "Towards non-conventional face recognition : shadow removal and heterogeneous scenario." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEC030/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ces dernières années, la biométrie a fait l’objet d’une grande attention en raison du besoin sans cesse croissant d’authentification d’identité, notamment pour sécuriser de plus en plus d’applications enlignes. Parmi divers traits biométriques, le visage offre des avantages compétitifs sur les autres, e.g., les empreintes digitales ou l’iris, car il est naturel, non-intrusif et facilement acceptable par les humains. Aujourd’hui, les techniques conventionnelles de reconnaissance faciale ont atteint une performance quasi-parfaite dans un environnement fortement contraint où la pose, l’éclairage, l’expression faciale et d’autres sources de variation sont sévèrement contrôlées. Cependant, ces approches sont souvent confinées aux domaines d’application limités parce que les environnements d’imagerie non-idéaux sont très fréquents dans les cas pratiques. Pour relever ces défis d’une manière adaptative, cette thèse porte sur le problème de reconnaissance faciale non contrôlée, dans lequel les images faciales présentent plus de variabilités sur les éclairages. Par ailleurs, une autre question essentielle vise à profiter des informations limitées de 3D pour collaborer avec les techniques basées sur 2D dans un système de reconnaissance faciale hétérogène. Pour traiter les diverses conditions d’éclairage, nous construisons explicitement un modèle de réflectance en caractérisant l’interaction entre la surface de la peau, les sources d’éclairage et le capteur de la caméra pour élaborer une explication de la couleur du visage. A partir de ce modèle basé sur la physique, une représentation robuste aux variations d’éclairage, à savoir Chromaticity Invariant Image (CII), est proposée pour la reconstruction des images faciales couleurs réalistes et sans ombre. De plus, ce processus de la suppression de l’ombre en niveaux de couleur peut être combiné avec les techniques existantes sur la normalisation d’éclairage en niveaux de gris pour améliorer davantage la performance de reconnaissance faciale. Les résultats expérimentaux sur les bases de données de test standard, CMU-PIE et FRGC Ver2.0, démontrent la capacité de généralisation et la robustesse de notre approche contre les variations d’éclairage. En outre, nous étudions l’usage efficace et créatif des données 3D pour la reconnaissance faciale hétérogène. Dans un tel scénario asymétrique, un enrôlement combiné est réalisé en 2D et 3D alors que les images de requête pour la reconnaissance sont toujours les images faciales en 2D. A cette fin, deux Réseaux de Neurones Convolutifs (Convolutional Neural Networks, CNN) sont construits. Le premier CNN est formé pour extraire les descripteurs discriminants d’images 2D/3D pour un appariement hétérogène. Le deuxième CNN combine une structure codeur-décodeur, à savoir U-Net, et Conditional Generative Adversarial Network (CGAN), pour reconstruire l’image faciale en profondeur à partir de son homologue dans l’espace 2D. Plus particulièrement, les images reconstruites en profondeur peuvent être également transmise au premier CNN pour la reconnaissance faciale en 3D, apportant un schéma de fusion qui est bénéfique pour la performance en reconnaissance. Notre approche a été évaluée sur la base de données 2D/3D de FRGC. Les expérimentations ont démontré que notre approche permet d’obtenir des résultats comparables à ceux de l’état de l’art et qu’une amélioration significative a pu être obtenue à l’aide du schéma de fusion
In recent years, biometrics have received substantial attention due to the evergrowing need for automatic individual authentication. Among various physiological biometric traits, face offers unmatched advantages over the others, such as fingerprints and iris, because it is natural, non-intrusive and easily understandable by humans. Nowadays conventional face recognition techniques have attained quasi-perfect performance in a highly constrained environment wherein poses, illuminations, expressions and other sources of variations are strictly controlled. However these approaches are always confined to restricted application fields because non-ideal imaging environments are frequently encountered in practical cases. To adaptively address these challenges, this dissertation focuses on this unconstrained face recognition problem, where face images exhibit more variability in illumination. Moreover, another major question is how to leverage limited 3D shape information to jointly work with 2D based techniques in a heterogeneous face recognition system. To deal with the problem of varying illuminations, we explicitly build the underlying reflectance model which characterizes interactions between skin surface, lighting source and camera sensor, and elaborate the formation of face color. With this physics-based image formation model involved, an illumination-robust representation, namely Chromaticity Invariant Image (CII), is proposed which can subsequently help reconstruct shadow-free and photo-realistic color face images. Due to the fact that this shadow removal process is achieved in color space, this approach could thus be combined with existing gray-scale level lighting normalization techniques to further improve face recognition performance. The experimental results on two benchmark databases, CMU-PIE and FRGC Ver2.0, demonstrate the generalization ability and robustness of our approach to lighting variations. We further explore the effective and creative use of 3D data in heterogeneous face recognition. In such a scenario, 3D face is merely available in the gallery set and not in the probe set, which one would encounter in real-world applications. Two Convolutional Neural Networks (CNN) are constructed for this purpose. The first CNN is trained to extract discriminative features of 2D/3D face images for direct heterogeneous comparison, while the second CNN combines an encoder-decoder structure, namely U-Net, and Conditional Generative Adversarial Network (CGAN) to reconstruct depth face image from its counterpart in 2D. Specifically, the recovered depth face images can be fed to the first CNN as well for 3D face recognition, leading to a fusion scheme which achieves gains in recognition performance. We have evaluated our approach extensively on the challenging FRGC 2D/3D benchmark database. The proposed method compares favorably to the state-of-the-art and show significant improvement with the fusion scheme
33

Klokov, Roman. "Deep learning pour la modélisation de formes 3D." Electronic Thesis or Diss., Université Grenoble Alpes, 2021. http://www.theses.fr/2021GRALM060.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L’application des stratégies d’apprentissage profond, aux données de formes 3D pose divers défis aux chercheurs. La nature complexe de ces données 3D autorise différentes représentations, par exemples les grilles d’occupation, les nuages de points, les maillages ou les fonctions implicites. Chacune de ces représentations a vu apparaitre des familles de réseaux de neurones profonds capables de traiter et prédire en fonction d’échantillons, cela pour diverses tâches de reconnaissance, de génération et de modification de données.Les modèles d’apprentissage profond modernes obligent les chercheurs à effectuer divers choix de conception associés à leurs architectures, aux algorithmes d’apprentissage et à d’autres aspects plus spécifiques des applications choisies. Ces choix sont souvent faits sur la base d’heuristiques, ou de manière empirique au travers de nombreuses évaluations expérimentales coûteuses. La modélisation probabiliste offre une alternative à cela et permet de formaliser les tâches d’apprentissage automatique de manière rigoureuse et de développer des objectifs d’entrainement qui reposent sur les probabilités. Cette thèse explore la combinaison de l’apprentissage profond avec la modélisation probabiliste dans le cadre applicatif des données 3D de formes géométriques.La première contribution porte sur l’inférence d’une forme 3D à partir d’une seule vue et explore comment la modélisation probabiliste pourrait être appliquée dans ce contexte. Nous proposons pour cela un ensemble de modèles probabilistes, les réseaux de reconstruction probabilistes (PRN), qui traitent la tâche comme une génération conditionnée par l’image et introduisent une variable latente globale qui encode les informations de géométrie des formes. Nous expérimentons différents conditionnements par l’image et deux objectifs d’entraînement différents basés pour l’un sur la méthode de Monte Carlo et pour l’autre sur l’approximation variationnel de la vraisemblance du modèle. Les modèles PRN sont évalués avec l’inférence de grilles d’occupation 3D à partir d’une seule vue, sur des formes synthétiques observées à partir de points de vue aléatoires. Nous montrons que le conditionnement, par l’image observée, de la distribution a priori de la variable latente est suffisant pour obtenir des performances compétitives pour les métriques basées sur les nuages de points et état de l’art pour les métriques basées sur les voxels. Nous démontrons en outre que l’objectif probabiliste basé sur l’approximation variationnelle de la vraisemblance permet au modèle d’obtenir de meilleurs résultats que l’approximation basée sur Monte Carlo.La deuxième contribution est un modèle probabiliste pour la génération de nuages de points 3D. Ces nuages de points sont vus comme des distributions sur des variables échangeables et utilise le théorème de Finetti pour définir un modèle global de variables latentes avec des distributions conditionnellement indépendantes pour les coordonnées de chaque point. Pour modéliser ces distributions ponctuelles, un nouveau type de flux de normalisation conditionnelle est proposé, basé sur un couplage discret des dimensions des coordonnées ponctuelles. Nous étendons également nos réseaux de flux ponctuels discrets (DPFN) de la génération à la tâche d’inférence à vue unique en conditionnant la variable latente globale a priori d’une manière similaire aux PRN de la première contribution. Les performances génératives résultantes démontrent que les DPFN produisent des échantillons de qualité et de diversité similaires à l’état de l’art basé sur des flux de normalisation continus, mais sont environ 30 fois plus rapides que ces derniers, à la fois dans la formation et l’échantillonnage. Les résultats des tâches d’encodage automatique et d’inférence à vue unique montrent des performances compétitives et état de l’art avec les métriques de distance de chanfrein, de F-score et de distance de Wasserstein pour les nuages de points
Application of deep learning to geometric 3D data poses various challenges for researchers. The complex nature of geometric 3D data allows to represent it in different forms: occupancy grids, point clouds, meshes, implicit functions, etc. Each of those representations has already spawned streams of deep neural network models, capable of processing and predicting according data samples for further use in various data recognition, generation, and modification tasks.Modern deep learning models force researchers to make various design choices, associated with their architectures, learning algorithms and other specific aspects of the chosen applications. Often, these choices are made with the help of various heuristics and best practice methods discovered through numerous costly experimental evaluations. Probabilistic modeling provides an alternative to these methods that allows to formalize machine learning tasks in a meaningful manner and develop probability-based training objectives. This thesis explores combinations of deep learning based methods and probabilistic modeling in application to geometric 3D data.The first contribution explores how probabilistic modeling could be applied in the context of single-view 3D shape inference task. We propose a family of probabilistic models, Probabilistic Reconstruction Networks (PRNs),which treats the task as image conditioned generation and introduces a global latent variable, encoding shape geometry information. We explore different image conditioning options, and two different training objectives based on Monte Carlo and variational approximations of the model likelihood. Parameters of every distribution are predicted by multi-layered convolutional and fully-connected neural networks from the input images. All the options in the family of models are evaluated in the single-view 3D occupancy grid inference task on synthetic shapes and according image renderings from randomized viewpoints. We show that conditioning the latent variable prior on the input images is sufficient to achieve competitive and state-of-the-art single-view 3D shape inference performance for point cloud based and voxel based metrics, respectively. We additionally demonstrate that probabilistic objective based on variational approximation of the likelihood allows the model to obtain better results compared to Monte Carlo based approximation.The second contribution proposes a probabilistic model for 3D point cloud generation. It treats point clouds as distributions over exchangeable variables and use de Finetti’s representation theorem to define a global latent variable model with conditionally independent distributions for coordinates of each point. To model these point distributions a novel type of conditional normalizing flows is proposed, based on discrete coupling of point coordinate dimensions. These flows update the coordinates of each point sample multiple times by dividing them in two groups and inferring the updates for one group of coordinates from another group and, additionally, global latent variable sample by the means of multi-layered fully-connected neural networks with parameters shared for all the points. We also extend our Discrete Point Flow Networks (DPFNs) from generation to single-view inference task by conditioning the global latent variable prior in a manner similar to PRNs from the first contribution. Resulting generative performance demonstrates that DPFNs produce sets of samples of similar quality and diversity compared to state of the art based on continuous normalizing flows, but are approximately 30 times faster both in training and sampling. Results in autoencoding and single-view inference tasks show competitive and state-of-the-art performance for Chamfer distance, F-score and earth mover’s distance similarity metrics for point clouds
34

Nguyen, Thanh Hai. "Some contributions to deep learning for metagenomics." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS102.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les données métagénomiques du microbiome humain constituent une nouvelle source de données pour améliorer le diagnostic et le pronostic des maladies humaines. Cependant, réaliser une prédiction basée sur l'abondance de bactéries individuelles est un défi, car le nombre de caractéristiques est beaucoup plus grand que le nombre d'échantillons et les difficultés liées au traitement de données dimensionnelles, ainsi que la grande complexité des données hétérogènes. L'apprentissage automatique a obtenu de grandes réalisations sur d'importants problèmes de métagénomique liés au regroupement d'OTU, à l'assignation taxonomique, etc. La contribution de cette thèse est multiple: 1) un cadre de sélection de caractéristiques pour approche pour prédire les maladies à l'aide de représentations d'images artificielles. La première contribution, qui est une approche efficace de sélection de caractéristiques basée sur les capacités de visualisation de la carte auto-organisée, montre une précision de classification raisonnable par rapport aux méthodes de pointe. La seconde approche vise à visualiser les données métagénomiques en utilisant une méthode simple de remplissage, ainsi que des approches d'apprentissage de réduction dimensionnelle. La nouvelle représentation des données métagénomiques peut être considérée comme une image synthétique et utilisée comme un nouvel ensemble de données pour une méthode efficace d'apprentissage en profondeur. Les résultats montrent que les méthodes proposées permettent d'atteindre des performances prédictives à la pointe de la technologie ou de les surpasser sur des benchmarks métagénomiques riches en public
Metagenomic data from human microbiome is a novel source of data for improving diagnosis and prognosis in human diseases. However, to do a prediction based on individual bacteria abundance is a challenge, since the number of features is much bigger than the number of samples. Hence, we face the difficulties related to high dimensional data processing, as well as to the high complexity of heterogeneous data. Machine Learning has obtained great achievements on important metagenomics problems linked to OTU-clustering, binning, taxonomic assignment, etc. The contribution of this PhD thesis is multi-fold: 1) a feature selection framework for efficient heterogeneous biomedical signature extraction, and 2) a novel deep learning approach for predicting diseases using artificial image representations. The first contribution is an efficient feature selection approach based on visualization capabilities of Self-Organizing Maps for heterogeneous data fusion. The framework is efficient on a real and heterogeneous datasets containing metadata, genes of adipose tissue, and gut flora metagenomic data with a reasonable classification accuracy compared to the state-of-the-art methods. The second approach is a method to visualize metagenomic data using a simple fill-up method, and also various state-of-the-art dimensional reduction learning approaches. The new metagenomic data representation can be considered as synthetic images, and used as a novel data set for an efficient deep learning method such as Convolutional Neural Networks. The results show that the proposed methods either achieve the state-of-the-art predictive performance, or outperform it on public rich metagenomic benchmarks
35

Bachhav, Pramod. "Explicit memory inclusion for efficient artificial bandwidth extension." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS492.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La plupart des algorithmes ABE exploitent les informations contextuelles ou la mémoire capturée via l'utilisation de caractéristiques statiques ou dynamiques extraites de trames de parole voisines. L'utilisation de la mémoire entraîne des caractéristiques dimensionnelles plus élevées et une complexité informatique accrue. Lorsque les informations provenant de trames de prévisualisation sont également utilisées, la latence augmente également. Les travaux antérieurs montrent l'avantage pour ABE d'exploiter la mémoire sous la forme d'entités dynamiques avec un modèle de régression standard. Même dans ce cas, la littérature manque d'une analyse quantitative de l'avantage relatif de l'inclusion de mémoire explicite. La recherche présentée dans cette thèse évalue dans quelle mesure la mémoire explicite est utile et rapporte en outre un certain nombre de techniques différentes qui permettent son inclusion sans augmentation significative de la latence et de la complexité de calcul. Les avantages sont démontrés à la fois par une analyse quantitative avec une mesure basée sur la théorie de l'information et par des tests d'écoute subjectifs. Les principales contributions concernent la préservation de l'efficacité des calculs grâce à l'utilisation de la réduction de dimensionnalité sous la forme d'une analyse en composantes principales, d'auto-encodeurs superposés semi-supervisés et d'auto-encodeurs variationnels conditionnels. Les deux dernières techniques optimisent la réduction de la dimensionnalité pour offrir une performance ABE supérieure
Most ABE algorithms exploit contextual information or memory captured via the use of static or dynamic features extracted from neighbouring speech frames. The use of memory leads to higher dimensional features and increased computational complexity. When information from look-ahead frames is also utilised, then latency also increases. Past work points toward the benefit to ABE of exploiting memory in the form of dynamic features with a standard regression model. Even so, the literature is missing a quantitative analysis of the relative benefit of explicit memory inclusion. The research presented in this thesis assesses the degree to which explicit memory is of benefit and furthermore reports a number of different techniques that allow for its inclusion without significant increases to latency and computational complexity. Benefits are shown through both a quantitative analysis with an information-theoretic measure and subjective listening tests. Key contributions relate to the preservation of computational efficiency through the use of dimensionality reduction in the form of principal component analysis, semisupervised stacked autoencoders and conditional variational auto-encoders. The two latter techniques optimise dimensionality reduction to deliver superior ABE performance
36

Balikas, Georgios. "Explorer et apprendre à partir de collections de textes multilingues à l'aide des modèles probabilistes latents et des réseaux profonds." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM054/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le texte est l'une des sources d'informations les plus répandues et les plus persistantes. L'analyse de contenu du texte se réfère à des méthodes d'étude et de récupération d'informations à partir de documents. Aujourd'hui, avec une quantité de texte disponible en ligne toujours croissante l'analyse de contenu du texte revêt une grande importance parce qu' elle permet une variété d'applications. À cette fin, les méthodes d'apprentissage de la représentation sans supervision telles que les modèles thématiques et les word embeddings constituent des outils importants.L'objectif de cette dissertation est d'étudier et de relever des défis dans ce domaine.Dans la première partie de la thèse, nous nous concentrons sur les modèles thématiques et plus précisément sur la manière d'incorporer des informations antérieures sur la structure du texte à ces modèles.Les modèles de sujets sont basés sur le principe du sac-de-mots et, par conséquent, les mots sont échangeables. Bien que cette hypothèse profite les calculs des probabilités conditionnelles, cela entraîne une perte d'information.Pour éviter cette limitation, nous proposons deux mécanismes qui étendent les modèles de sujets en intégrant leur connaissance de la structure du texte. Nous supposons que les documents sont répartis dans des segments de texte cohérents. Le premier mécanisme attribue le même sujet aux mots d'un segment. La seconde, capitalise sur les propriétés de copulas, un outil principalement utilisé dans les domaines de l'économie et de la gestion des risques, qui sert à modéliser les distributions communes de densité de probabilité des variables aléatoires tout en n'accédant qu'à leurs marginaux.La deuxième partie de la thèse explore les modèles de sujets bilingues pour les collections comparables avec des alignements de documents explicites. En règle générale, une collection de documents pour ces modèles se présente sous la forme de paires de documents comparables. Les documents d'une paire sont écrits dans différentes langues et sont thématiquement similaires. À moins de traductions, les documents d'une paire sont semblables dans une certaine mesure seulement. Pendant ce temps, les modèles de sujets représentatifs supposent que les documents ont des distributions thématiques identiques, ce qui constitue une hypothèse forte et limitante. Pour le surmonter, nous proposons de nouveaux modèles thématiques bilingues qui intègrent la notion de similitude interlingue des documents qui constituent les paires dans leurs processus générateurs et d'inférence.La dernière partie de la thèse porte sur l'utilisation d'embeddings de mots et de réseaux de neurones pour trois applications d'exploration de texte. Tout d'abord, nous abordons la classification du document polylinguistique où nous soutenons que les traductions d'un document peuvent être utilisées pour enrichir sa représentation. À l'aide d'un codeur automatique pour obtenir ces représentations de documents robustes, nous démontrons des améliorations dans la tâche de classification de documents multi-classes. Deuxièmement, nous explorons la classification des tweets à plusieurs tâches en soutenant que, en formant conjointement des systèmes de classification utilisant des tâches corrélées, on peut améliorer la performance obtenue. À cette fin, nous montrons comment réaliser des performances de pointe sur une tâche de classification du sentiment en utilisant des réseaux neuronaux récurrents. La troisième application que nous explorons est la récupération d'informations entre langues. Compte tenu d'un document écrit dans une langue, la tâche consiste à récupérer les documents les plus similaires à partir d'un ensemble de documents écrits dans une autre langue. Dans cette ligne de recherche, nous montrons qu'en adaptant le problème du transport pour la tâche d'estimation des distances documentaires, on peut obtenir des améliorations importantes
Text is one of the most pervasive and persistent sources of information. Content analysis of text in its broad sense refers to methods for studying and retrieving information from documents. Nowadays, with the ever increasing amounts of text becoming available online is several languages and different styles, content analysis of text is of tremendous importance as it enables a variety of applications. To this end, unsupervised representation learning methods such as topic models and word embeddings constitute prominent tools.The goal of this dissertation is to study and address challengingproblems in this area, focusing on both the design of novel text miningalgorithms and tools, as well as on studying how these tools can be applied to text collections written in a single or several languages.In the first part of the thesis we focus on topic models and more precisely on how to incorporate prior information of text structure to such models.Topic models are built on the premise of bag-of-words, and therefore words are exchangeable. While this assumption benefits the calculations of the conditional probabilities it results in loss of information.To overcome this limitation we propose two mechanisms that extend topic models by integrating knowledge of text structure to them. We assume that the documents are partitioned in thematically coherent text segments. The first mechanism assigns the same topic to the words of a segment. The second, capitalizes on the properties of copulas, a tool mainly used in the fields of economics and risk management that is used to model the joint probability density distributions of random variables while having access only to their marginals.The second part of the thesis explores bilingual topic models for comparable corpora with explicit document alignments. Typically, a document collection for such models is in the form of comparable document pairs. The documents of a pair are written in different languages and are thematically similar. Unless translations, the documents of a pair are similar to some extent only. Meanwhile, representative topic models assume that the documents have identical topic distributions, which is a strong and limiting assumption. To overcome it we propose novel bilingual topic models that incorporate the notion of cross-lingual similarity of the documents that constitute the pairs in their generative and inference processes. Calculating this cross-lingual document similarity is a task on itself, which we propose to address using cross-lingual word embeddings.The last part of the thesis concerns the use of word embeddings and neural networks for three text mining applications. First, we discuss polylingual document classification where we argue that translations of a document can be used to enrich its representation. Using an auto-encoder to obtain these robust document representations we demonstrate improvements in the task of multi-class document classification. Second, we explore multi-task sentiment classification of tweets arguing that by jointly training classification systems using correlated tasks can improve the obtained performance. To this end we show how can achieve state-of-the-art performance on a sentiment classification task using recurrent neural networks. The third application we explore is cross-lingual information retrieval. Given a document written in one language, the task consists in retrieving the most similar documents from a pool of documents written in another language. In this line of research, we show that by adapting the transportation problem for the task of estimating document distances one can achieve important improvements
37

Tong, Zheng. "Evidential deep neural network in the framework of Dempster-Shafer theory." Thesis, Compiègne, 2022. http://www.theses.fr/2022COMP2661.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les réseaux de neurones profonds (DNN) ont obtenu un succès remarquable sur de nombreuses applications du monde réel (par exemple, la reconnaissance de formes et la segmentation sémantique), mais sont toujours confrontés au problème de la gestion de l'incertitude. La théorie de Dempster-Shafer (DST) fournit un cadre bien fondé et élégant pour représenter et raisonner avec des informations incertaines. Dans cette thèse, nous avons proposé un nouveau framework utilisant DST et DNNs pour résoudre les problèmes d'incertitude. Dans le cadre proposé, nous hybridons d'abord DST et DNN en branchant une couche de réseau neuronal basée sur DST suivie d'une couche utilitaire à la sortie d'un réseau neuronal convolutif pour la classification à valeur définie. Nous étendons également l'idée à la segmentation sémantique en combinant des réseaux entièrement convolutifs et DST. L'approche proposée améliore les performances des modèles DNN en attribuant des modèles ambigus avec une incertitude élevée, ainsi que des valeurs aberrantes, à des ensembles multi-classes. La stratégie d'apprentissage utilisant des étiquettes souples améliore encore les performances des DNN en convertissant des données d'étiquettes imprécises et non fiables en fonctions de croyance. Nous avons également proposé une stratégie de fusion modulaire utilisant ce cadre proposé, dans lequel un module de fusion agrège les sorties de la fonction de croyance des DNN évidents selon la règle de Dempster. Nous utilisons cette stratégie pour combiner des DNN formés à partir d'ensembles de données hétérogènes avec différents ensembles de classes tout en conservant des performances au moins aussi bonnes que celles des réseaux individuels sur leurs ensembles de données respectifs. De plus, nous appliquons la stratégie pour combiner plusieurs réseaux superficiels et obtenir une performance similaire d'un DNN avancé pour une tâche compliquée
Deep neural networks (DNNs) have achieved remarkable success on many realworld applications (e.g., pattern recognition and semantic segmentation) but still face the problem of managing uncertainty. Dempster-Shafer theory (DST) provides a wellfounded and elegant framework to represent and reason with uncertain information. In this thesis, we have proposed a new framework using DST and DNNs to solve the problems of uncertainty. In the proposed framework, we first hybridize DST and DNNs by plugging a DSTbased neural-network layer followed by a utility layer at the output of a convolutional neural network for set-valued classification. We also extend the idea to semantic segmentation by combining fully convolutional networks and DST. The proposed approach enhances the performance of DNN models by assigning ambiguous patterns with high uncertainty, as well as outliers, to multi-class sets. The learning strategy using soft labels further improves the performance of the DNNs by converting imprecise and unreliable label data into belief functions. We have also proposed a modular fusion strategy using this proposed framework, in which a fusion module aggregates the belief-function outputs of evidential DNNs by Dempster’s rule. We use this strategy to combine DNNs trained from heterogeneous datasets with different sets of classes while keeping at least as good performance as those of the individual networks on their respective datasets. Further, we apply the strategy to combine several shallow networks and achieve a similar performance of an advanced DNN for a complicated task
38

Singh, Praveer. "Processing high-resolution images through deep learning techniques." Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC1172.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans cette thèse, nous discutons de quatre scénarios d’application différents qui peuvent être largement regroupés dans le cadre plus large de l’analyse et du traitement d’images à haute résolution à l’aide de techniques d’apprentissage approfondi. Les trois premiers chapitres portent sur le traitement des images de télédétection (RS) captées soit par avion, soit par satellite à des centaines de kilomètres de la Terre. Nous commençons par aborder un problème difficile lié à l’amélioration de la classification des scènes aériennes complexes par le biais d’un paradigme d’apprentissage profondément faiblement supervisé. Nous montrons comment en n’utilisant que les étiquettes de niveau d’image, nous pouvons localiser efficacement les régions les plus distinctives dans les scènes complexes et éliminer ainsi les ambiguïtés qui mènent à une meilleure performance de classification dans les scènes aériennes très complexes. Dans le deuxième chapitre, nous traiterons de l’affinement des étiquettes de segmentation des empreintes de pas des bâtiments dans les images aériennes. Pour ce faire, nous détectons d’abord les erreurs dans les masques de segmentation initiaux et corrigeons uniquement les pixels de segmentation où nous trouvons une forte probabilité d’erreurs. Les deux prochains chapitres de la thèse portent sur l’application des Réseaux Adversariatifs Génératifs. Dans le premier, nous construisons un modèle GAN nuageux efficace pour éliminer les couches minces de nuages dans l’imagerie Sentinel-2 en adoptant une perte de consistance cyclique. Ceci utilise une fonction de perte antagoniste pour mapper des images nuageuses avec des images non nuageuses d’une manière totalement non supervisée, où la perte cyclique aide à contraindre le réseau à produire une image sans nuage correspondant a` l’image nuageuse d’entrée et non à aucune image aléatoire dans le domaine cible. Enfin, le dernier chapitre traite d’un ensemble différent d’images `à haute résolution, ne provenant pas du domaine RS mais plutôt de l’application d’imagerie à gamme dynamique élevée (HDRI). Ce sont des images 32 bits qui capturent toute l’étendue de la luminance présente dans la scène. Notre objectif est de les quantifier en images LDR (Low Dynamic Range) de 8 bits afin qu’elles puissent être projetées efficacement sur nos écrans d’affichage normaux tout en conservant un contraste global et une qualité de perception similaires à ceux des images HDR. Nous adoptons un modèle GAN multi-échelle qui met l’accent à la fois sur les informations plus grossières et plus fines nécessaires aux images à haute résolution. Les sorties finales cartographiées par ton ont une haute qualité subjective sans artefacts perçus
In this thesis, we discuss four different application scenarios that can be broadly grouped under the larger umbrella of Analyzing and Processing high-resolution images using deep learning techniques. The first three chapters encompass processing remote-sensing (RS) images which are captured either from airplanes or satellites from hundreds of kilometers away from the Earth. We start by addressing a challenging problem related to improving the classification of complex aerial scenes through a deep weakly supervised learning paradigm. We showcase as to how by only using the image level labels we can effectively localize the most distinctive regions in complex scenes and thus remove ambiguities leading to enhanced classification performance in highly complex aerial scenes. In the second chapter, we deal with refining segmentation labels of Building footprints in aerial images. This we effectively perform by first detecting errors in the initial segmentation masks and correcting only those segmentation pixels where we find a high probability of errors. The next two chapters of the thesis are related to the application of Generative Adversarial Networks. In the first one, we build an effective Cloud-GAN model to remove thin films of clouds in Sentinel-2 imagery by adopting a cyclic consistency loss. This utilizes an adversarial lossfunction to map cloudy-images to non-cloudy images in a fully unsupervised fashion, where the cyclic-loss helps in constraining the network to output a cloud-free image corresponding to the input cloudy image and not any random image in the target domain. Finally, the last chapter addresses a different set of high-resolution images, not coming from the RS domain but instead from High Dynamic Range Imaging (HDRI) application. These are 32-bit imageswhich capture the full extent of luminance present in the scene. Our goal is to quantize them to 8-bit Low Dynamic Range (LDR) images so that they can be projected effectively on our normal display screens while keeping the overall contrast and perception quality similar to that found in HDR images. We adopt a Multi-scale GAN model that focuses on both coarser as well as finer-level information necessary for high-resolution images. The final tone-mapped outputs have a high subjective quality without any perceived artifacts
39

Blanc, Beyne Thibault. "Estimation de posture 3D à partir de données imprécises et incomplètes : application à l'analyse d'activité d'opérateurs humains dans un centre de tri." Thesis, Toulouse, INPT, 2020. http://www.theses.fr/2020INPT0106.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans un contexte d’étude de la pénibilité et de l’ergonomie au travail pour la prévention des troubles musculo-squelettiques, la société Ebhys cherche à développer un outil d’analyse de l’activité des opérateurs humains dans un centre de tri, par l’évaluation d’indicateurs ergonomiques. Pour faire face à l’environnement non contrôlé du centre de tri et pour faciliter l’acceptabilité du dispositif, ces indicateurs sont mesurés à partir d’images de profondeur. Une étude ergonomique nous permet de définir les indicateurs à mesurer. Ces indicateurs sont les zones d’évolution des mains de l’opérateur et d’angulations de certaines articulations du haut du corps. Ce sont donc des indicateurs obtenables à partir d’une analyse de la posture 3D de l’opérateur. Le dispositif de calcul des indicateurs sera donc composé de trois parties : une première partie sépare l’opérateur du reste de la scène pour faciliter l’estimation de posture 3D, une seconde partie calcule la posture 3D de l’opérateur, et la troisième utilise la posture 3D de l’opérateur pour calculer les indicateurs ergonomiques. Tout d’abord, nous proposons un algorithme qui permet d’extraire l’opérateur du reste de l’image de profondeur. Pour ce faire, nous utilisons une première segmentation automatique basée sur la suppression du fond statique et la sélection d’un objet dynamique à l’aide de sa position et de sa taille. Cette première segmentation sert à entraîner un algorithme d’apprentissage qui améliore les résultats obtenus. Cet algorithme d’apprentissage est entraîné à l’aide des segmentations calculées précédemment, dont on sélectionne automatiquement les échantillons de meilleure qualité au cours de l’entraînement. Ensuite, nous construisons un modèle de réseau de neurones pour l’estimation de la posture 3D de l’opérateur. Nous proposons une étude qui permet de trouver un modèle léger et optimal pour l’estimation de posture 3D sur des images de profondeur de synthèse, que nous générons numériquement. Finalement, comme ce modèle n’est pas directement applicable sur les images de profondeur acquises dans les centres de tri, nous construisons un module qui permet de transformer les images de profondeur de synthèse en images de profondeur plus réalistes. Ces images de profondeur plus réalistes sont utilisées pour réentrainer l’algorithme d’estimation de posture 3D, pour finalement obtenir une estimation de posture 3D convaincante sur les images de profondeur acquises en conditions réelles, permettant ainsi de calculer les indicateurs ergonomiques
In a context of study of stress and ergonomics at work for the prevention of musculoskeletal disorders, the company Ebhys wants to develop a tool for analyzing the activity of human operators in a waste sorting center, by measuring ergonomic indicators. To cope with the uncontrolled environment of the sorting center, these indicators are measured from depth images. An ergonomic study allows us to define the indicators to be measured. These indicators are zones of movement of the operator’s hands and zones of angulations of certain joints of the upper body. They are therefore indicators that can be obtained from an analysis of the operator’s 3D pose. The software for calculating the indicators will thus be composed of three steps : a first part segments the operator from the rest of the scene to ease the 3D pose estimation, a second part estimates the operator’s 3D pose, and the third part uses the operator’s 3D pose to compute the ergonomic indicators. First of all, we propose an algorithm that extracts the operator from the rest of the depth image. To do this, we use a first automatic segmentation based on static background removal and selection of a moving element given its position and size. This first segmentation allows us to train a neural network that improves the results. This neural network is trained using the segmentations obtained from the first automatic segmentation, from which the best quality samples are automatically selected during training. Next, we build a neural network model to estimate the operator’s 3D pose. We propose a study that allows us to find a light and optimal model for 3D pose estimation on synthetic depth images, which we generate numerically. However, if this network gives outstanding performances on synthetic depth images, it is not directly applicable to real depth images that we acquired in an industrial context. To overcome this issue, we finally build a module that allows us to transform the synthetic depth images into more realistic depth images. This image-to-image translation model modifies the style of the depth image without changing its content, keeping the 3D pose of the operator from the synthetic source image unchanged on the translated realistic depth frames. These more realistic depth images are then used to re-train the 3D pose estimation neural network, to finally obtain a convincing 3D pose estimation on the depth images acquired in real conditions, to compute de ergonomic indicators
40

Mazloomi, Khamseh Hamid. "Intention d’apprendre et diversité des partenaires : effets simples et combinés sur le transfert de connaissances entre alliés." Thesis, Vandoeuvre-les-Nancy, INPL, 2010. http://www.theses.fr/2010INPL017N/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
En adoptant l’approche basée sur la connaissance, cette recherche étudie les effets de trois éléments préalables pour le transfert inter-organisationnel de connaissances (TIC). Ces trois éléments sont: l’intention de l’entreprise à explorer la connaissance du partenaire, la diversité entre les partenaires qui représente la source de nouveauté potentielle à apprendre, et enfin les effets mutuels de ces deux éléments. Une enquête auprès de 114 entreprises françaises, montre un impact positif de l’intention d’exploration sur l’efficacité du TIC. Nous avons également trouvé une relation en U inversé entre la diversité du partenaire et l’efficacité du TIC. Les interactions entre ces deux éléments sont étudiées sur la base de deux hypothèses complémentaires: La variation de l’intention d’explorer a un impact positif sur le TIC dans un contexte de faible diversité des partenaires, au contraire des alliances avec forte diversité entre les partenaires dans lesquelles la variation de l’intention d’explorer influence négativement le TIC. Les résultats de ces dernières hypothèses correspondent à deux approches d’exploration : la profondeur et l’étendue de l’exploration. Lorsqu’une entreprise, ayant une intention exploratoire, fait une alliance avec des partenaires similaires, ils profitent de leur profondeur commune d’exploration pour favoriser l'apprentissage et la création de nouvelles connaissances. L’étendue de l’exploration dans une alliance est la mesure par laquelle les partenaires de l'alliance explorent de nouvelles connaissances dans des éléments non-similaires de leur base de connaissances. Toutefois, nos résultats montrent que la diversité trop élevé entre des partenaires réduit l’effet positif de l’intention d’explorer sur le TIC à cause de la distance important entre les éléments de connaissances des partenaires à explorer
Relying on knowledge based view; this study tests the effects of three concepts as the prerequisites for interfirm learning: Intent to explore, Existence of novelty, and Approach of exploration. The paper defines the existence of new knowledge to be learnt by the level of partner diversity and addresses approaches of exploration by the interactive effect of the explorative intent and partner diversity. The hypotheses are tested based on a survey over a sample of 114 French companies. Determinants of knowledge transfer between partners such as ambiguity of partner's knowledge, knowledge protection and trust are controlled. Using Tobit regression models, the findings show that the intent to explore is positively related with interfirm knowledge transfer. Moreover, an inverted U-shape relationship is observed between partner diversity and the effectiveness of interfirm knowledge transfer. Finally, the negative moderating effect of partner diversity on the relation of exploration and knowledge transfer highlights the effect of two approaches of exploration: depth and scope of exploration. In the accordance with the concept of depth of search we find that the interactive effect of similarity of partners with explorative intent is positive on interfirm learning. We also find that a broad search scope represented by the interactive effect of partner diversity and intent to explore has negative impact on interfirm learning
41

Mozafari, Marzieh. "Hate speech and offensive language detection using transfer learning approaches." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS007.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Une des promesses des plateformes de réseaux sociaux (comme Twitter et Facebook) est de fournir un endroit sûr pour que les utilisateurs puissent partager leurs opinions et des informations. Cependant, l’augmentation des comportements abusifs, comme le harcèlement en ligne ou la présence de discours de haine, est bien réelle. Dans cette thèse, nous nous concentrons sur le discours de haine, l'un des phénomènes les plus préoccupants concernant les réseaux sociaux.Compte tenu de sa forte progression et de ses graves effets négatifs, les institutions, les plateformes de réseaux sociaux et les chercheurs ont tenté de réagir le plus rapidement possible. Les progrès récents des algorithmes de traitement automatique du langage naturel (NLP) et d'apprentissage automatique (ML) peuvent être adaptés pour développer des méthodes automatiques de détection des discours de haine dans ce domaine.Le but de cette thèse est d'étudier le problème du discours de haine et de la détection des propos injurieux dans les réseaux sociaux. Nous proposons différentes approches dans lesquelles nous adaptons des modèles avancés d'apprentissage par transfert (TL) et des techniques de NLP pour détecter automatiquement les discours de haine et les contenus injurieux, de manière monolingue et multilingue.La première contribution concerne uniquement la langue anglaise. Tout d'abord, nous analysons le contenu textuel généré par les utilisateurs en introduisant un nouveau cadre capable de catégoriser le contenu en termes de similarité basée sur différentes caractéristiques. En outre, en utilisant l'API Perspective de Google, nous mesurons et analysons la « toxicité » du contenu. Ensuite, nous proposons une approche TL pour l'identification des discours de haine en utilisant une combinaison du modèle non supervisé pré-entraîné BERT (Bidirectional Encoder Representations from Transformers) et de nouvelles stratégies supervisées de réglage fin. Enfin, nous étudions l'effet du biais involontaire dans notre modèle pré-entraîné BERT et proposons un nouveau mécanisme de généralisation dans les données d'entraînement en repondérant les échantillons puis en changeant les stratégies de réglage fin en termes de fonction de perte pour atténuer le biais racial propagé par le modèle. Pour évaluer les modèles proposés, nous utilisons deux datasets publics provenant de Twitter.Dans la deuxième contribution, nous considérons un cadre multilingue où nous nous concentrons sur les langues à faibles ressources dans lesquelles il n'y a pas ou peu de données annotées disponibles. Tout d'abord, nous présentons le premier corpus de langage injurieux en persan, composé de 6 000 messages de micro-blogs provenant de Twitter, afin d'étudier la détection du langage injurieux. Après avoir annoté le corpus, nous réalisons étudions les performances des modèles de langages pré-entraînés monolingues et multilingues basés sur des transformeurs (par exemple, ParsBERT, mBERT, XLM-R) dans la tâche en aval. De plus, nous proposons un modèle d'ensemble pour améliorer la performance de notre modèle. Enfin, nous étendons notre étude à un problème d'apprentissage multilingue de type " few-shot ", où nous disposons de quelques données annotées dans la langue cible, et nous adaptons une approche basée sur le méta-apprentissage pour traiter l'identification des discours de haine et du langage injurieux dans les langues à faibles ressources
The great promise of social media platforms (e.g., Twitter and Facebook) is to provide a safe place for users to communicate their opinions and share information. However, concerns are growing that they enable abusive behaviors, e.g., threatening or harassing other users, cyberbullying, hate speech, racial and sexual discrimination, as well. In this thesis, we focus on hate speech as one of the most concerning phenomenon in online social media.Given the high progression of online hate speech and its severe negative effects, institutions, social media platforms, and researchers have been trying to react as quickly as possible. The recent advancements in Natural Language Processing (NLP) and Machine Learning (ML) algorithms can be adapted to develop automatic methods for hate speech detection in this area.The aim of this thesis is to investigate the problem of hate speech and offensive language detection in social media, where we define hate speech as any communication criticizing a person or a group based on some characteristics, e.g., gender, sexual orientation, nationality, religion, race. We propose different approaches in which we adapt advanced Transfer Learning (TL) models and NLP techniques to detect hate speech and offensive content automatically, in a monolingual and multilingual fashion.In the first contribution, we only focus on English language. Firstly, we analyze user-generated textual content to gain a brief insight into the type of content by introducing a new framework being able to categorize contents in terms of topical similarity based on different features. Furthermore, using the Perspective API from Google, we measure and analyze the toxicity of the content. Secondly, we propose a TL approach for identification of hate speech by employing a combination of the unsupervised pre-trained model BERT (Bidirectional Encoder Representations from Transformers) and new supervised fine-tuning strategies. Finally, we investigate the effect of unintended bias in our pre-trained BERT based model and propose a new generalization mechanism in training data by reweighting samples and then changing the fine-tuning strategies in terms of the loss function to mitigate the racial bias propagated through the model. To evaluate the proposed models, we use two publicly available datasets from Twitter.In the second contribution, we consider a multilingual setting where we focus on low-resource languages in which there is no or few labeled data available. First, we present the first corpus of Persian offensive language consisting of 6k micro blog posts from Twitter to deal with offensive language detection in Persian as a low-resource language in this domain. After annotating the corpus, we perform extensive experiments to investigate the performance of transformer-based monolingual and multilingual pre-trained language models (e.g., ParsBERT, mBERT, XLM-R) in the downstream task. Furthermore, we propose an ensemble model to boost the performance of our model. Then, we expand our study into a cross-lingual few-shot learning problem, where we have a few labeled data in target language, and adapt a meta-learning based approach to address identification of hate speech and offensive language in low-resource languages
42

Souriau, Rémi. "machine learning for modeling dynamic stochastic systems : application to adaptive control on deep-brain stimulation." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG004.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ces dernières années ont été marquées par l'émergence d'un grand nombre de base données dans de nombreux domaines comme la médecine par exemple. La création de ces bases données a ouvert la voie à de nouvelles applications. Les propriétés des données sont parfois complexes (non linéarité, dynamique, grande dimension ou encore absence d'étiquette) et nécessite des modèles d'apprentissage performants. Parmi les modèles d'apprentissage existant, les réseaux de neurones artificiels ont connu un large succès ces dernières décennies. Le succès de ces modèles repose sur la non linéarité des neurones, l'utilisation de variables latentes et leur grande flexibilité leur permettant de s'adapter à de nombreux problèmes. Les machines de Boltzmann présentées dans cette thèse sont une famille de réseaux de neurones non supervisés. Introduite par Hinton dans les années 80, cette famille de modèle a connu un grand intérêt dans le début du 21e siècle et de nouvelles extensions sont proposées régulièrement.Cette thèse est découpée en deux parties. Une partie exploratoire sur la famille des machines de Boltzmann et une partie applicative. L'application étudiée est l'apprentissage non supervisé des signaux électroencéphalogramme intracrânien chez les rats Parkinsonien pour le contrôle des symptômes de la maladie de Parkinson.Les machines de Boltzmann ont donné naissance aux réseaux de diffusion. Il s'agit de modèles non supervisés qui reposent sur l'apprentissage d'une équation différentielle stochastique pour des données dynamiques et stochastiques. Ce réseau fait l'objet d'un développement particulier dans cette thèse et un nouvel algorithme d'apprentissage est proposé. Son utilisation est ensuite testée sur des données jouet ainsi que sur des données réelles
The past recent years have been marked by the emergence of a large amount of database in many fields like health. The creation of many databases paves the way to new applications. Properties of data are sometimes complex (non linearity, dynamic, high dimensions) and require to perform machine learning models. Belong existing machine learning models, artificial neural network got a large success since the last decades. The success of these models lies on the non linearity behavior of neurons, the use of latent units and the flexibility of these models to adapt to many different problems. Boltzmann machines presented in this thesis are a family of generative neural networks. Introduced by Hinton in the 80's, this family have got a large interest at the beginning of the 21st century and new extensions are regularly proposed.This thesis is divided into two parts. A first part exploring Boltzmann machines and their applications. In this thesis the unsupervised learning of intracranial electroencephalogram signals on rats with Parkinson's disease for the control of the symptoms is studied.Boltzmann machines gave birth to Diffusion networks which are also generative model based on the learning of a stochastic differential equation for dynamic and stochastic data. This model is studied again in this thesis and a new training algorithm is proposed. Its use is tested on toy data as well as on real database
43

Jaritz, Maximilian. "2D-3D scene understanding for autonomous driving." Thesis, Université Paris sciences et lettres, 2020. https://pastel.archives-ouvertes.fr/tel-02921424.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans cette thèse, nous abordons les défis de la rareté des annotations et la fusion de données hétérogènes tels que les nuages de points 3D et images 2D. D’abord, nous adoptons une stratégie de conduite de bout en bout où un réseau de neurones est entraîné pour directement traduire l'entrée capteur (image caméra) en contrôles-commandes, ce qui rend cette approche indépendante des annotations dans le domaine visuel. Nous utilisons l’apprentissage par renforcement profond où l'algorithme apprend de la récompense, obtenue par interaction avec un simulateur réaliste. Nous proposons de nouvelles stratégies d'entraînement et fonctions de récompense pour une meilleure conduite et une convergence plus rapide. Cependant, le temps d’apprentissage reste élevé. C'est pourquoi nous nous concentrons sur la perception dans le reste de cette thèse pour étudier la fusion de nuage de points et d'images. Nous proposons deux méthodes différentes pour la fusion 2D-3D. Premièrement, nous projetons des nuages de points LiDAR 3D dans l’espace image 2D, résultant en des cartes de profondeur éparses. Nous proposons une nouvelle architecture encodeur-décodeur qui fusionne les informations de l’image et la profondeur pour la tâche de complétion de carte de profondeur, améliorant ainsi la résolution du nuage de points projeté dans l'espace image. Deuxièmement, nous fusionnons directement dans l'espace 3D pour éviter la perte d'informations dû à la projection. Pour cela, nous calculons les caractéristiques d’image issues de plusieurs vues avec un CNN 2D, puis nous les projetons dans un nuage de points 3D global pour les fusionner avec l’information 3D. Par la suite, ce nuage de point enrichi sert d'entrée à un réseau "point-based" dont la tâche est l'inférence de la sémantique 3D par point. Sur la base de ce travail, nous introduisons la nouvelle tâche d'adaptation de domaine non supervisée inter-modalités où on a accès à des données multi-capteurs dans une base de données source annotée et une base cible non annotée. Nous proposons une méthode d’apprentissage inter-modalités 2D-3D via une imitation mutuelle entre les réseaux d'images et de nuages de points pour résoudre l’écart de domaine source-cible. Nous montrons en outre que notre méthode est complémentaire à la technique unimodale existante dite de pseudo-labeling
In this thesis, we address the challenges of label scarcity and fusion of heterogeneous 3D point clouds and 2D images. We adopt the strategy of end-to-end race driving where a neural network is trained to directly map sensor input (camera image) to control output, which makes this strategy independent from annotations in the visual domain. We employ deep reinforcement learning where the algorithm learns from reward by interaction with a realistic simulator. We propose new training strategies and reward functions for better driving and faster convergence. However, training time is still very long which is why we focus on perception to study point cloud and image fusion in the remainder of this thesis. We propose two different methods for 2D-3D fusion. First, we project 3D LiDAR point clouds into 2D image space, resulting in sparse depth maps. We propose a novel encoder-decoder architecture to fuse dense RGB and sparse depth for the task of depth completion that enhances point cloud resolution to image level. Second, we fuse directly in 3D space to prevent information loss through projection. Therefore, we compute image features with a 2D CNN of multiple views and then lift them all to a global 3D point cloud for fusion, followed by a point-based network to predict 3D semantic labels. Building on this work, we introduce the more difficult novel task of cross-modal unsupervised domain adaptation, where one is provided with multi-modal data in a labeled source and an unlabeled target dataset. We propose to perform 2D-3D cross-modal learning via mutual mimicking between image and point cloud networks to address the source-target domain shift. We further showcase that our method is complementary to the existing uni-modal technique of pseudo-labeling
44

Mohy, El Dine Kamal. "Control of robotic mobile manipulators : application to civil engineering." Thesis, Université Clermont Auvergne‎ (2017-2020), 2019. http://www.theses.fr/2019CLFAC015/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Malgré le progrès de l'automatisation industrielle, les solutions robotiques ne sont pas encore couramment utilisées dans le secteur du génie civil. Plus spécifiquement, les tâches de ponçage, telles que le désamiantage, sont toujours effectuées par des opérateurs humains utilisant des outils électriques et hydrauliques classiques. Cependant, avec la diminution du coût relatif des machines par rapport au travail humain et les réglementations sanitaires strictes applicables à des travaux aussi risqués, les robots deviennent progressivement des alternatives crédibles pour automatiser ces tâches et remplacer les humains.Dans cette thèse, des nouvelles approches de contrôle de ponçage de surface sont élaborées. Le premier contrôleur est un contrôleur hybride position-force avec poignet conforme. Il est composé de 3 boucles de commande, force, position et admittance. La commutation entre les commandes pourrait créer des discontinuités, ce qui a été résolu en proposant une commande de transition. Dans ce contrôleur, la force de choc est réduite par la commande de transition proposée entre les modes espace libre et contact. Le second contrôleur est basé sur un modèle de ponçage développé et un contrôleur hybride adaptatif position-vitesse-force. Les contrôleurs sont validés expérimentalement sur un bras robotique à 7 degrés de liberté équipé d'une caméra et d'un capteur de force-couple. Les résultats expérimentaux montrent de bonnes performances et les contrôleurs sont prometteurs. De plus, une nouvelle approche pour contrôler la stabilité des manipulateurs mobiles en temps réel est présentée. Le contrôleur est basé sur le « zero moment point », il a été testé dans des simulations et il a été capable de maintenir activement la stabilité de basculement du manipulateur mobile tout en se déplaçant. En outre, les incertitudes liées à la modélisation et aux capteurs sont prises en compte dans les contrôleurs mentionnés où des observateurs sont proposés.Les détails du développement et de l'évaluation des différents contrôleurs proposés sont présentés, leurs mérites et leurs limites sont discutés et des travaux futurs sont suggérés
Despite the advancements in industrial automation, robotic solutions are not yet commonly used in the civil engineering sector. More specifically, grinding tasks such as asbestos removal, are still performed by human operators using conventional electrical and hydraulic tools. However, with the decrease in the relative cost of machinery with respect to human labor and with the strict health regulations on such risky jobs, robots are progressively becoming credible alternatives to automate these tasks and replace humans.In this thesis, novel surface grinding control approaches are elaborated. The first controller is based on hybrid position-force controller with compliant wrist and a smooth switching strategy. In this controller, the impact force is reduced by the proposed smooth switching between free space and contact modes. The second controller is based on a developed grinding model and an adaptive hybrid position-velocity-force controller. The controllers are validated experimentally on a 7-degrees-of-freedom robotic arm equipped with a camera and a force-torque sensor. The experimental results show good performances and the controllers are promising. Additionally, a new approach for controlling the stability of mobile manipulators in real time is presented. The controller is based on zero moment point, it is tested in simulations and it was able to actively maintain the tip-over stability of the mobile manipulator while moving. Moreover, the modeling and sensors uncertainties are taken into account in the mentioned controllers where observers are proposed. The details of the development and evaluation of the several proposed controllers are presented, their merits and limitations are discussed and future works are suggested
45

Hamel, Philippe. "Apprentissage de représentations musicales à l'aide d'architectures profondes et multiéchelles." Thèse, 2012. http://hdl.handle.net/1866/8678.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.
Machine learning (ML) is an important tool in the field of music information retrieval (MIR). Many MIR tasks can be solved by training a classifier over a set of features. For MIR tasks based on music audio, it is possible to extract features from the audio with signal processing techniques. However, some musical aspects are hard to extract with simple heuristics. To obtain richer features, we can use ML to learn a representation from the audio. These learned features can often improve performance for a given MIR task. In order to learn interesting musical representations, it is important to consider the particular aspects of music audio when building learning models. Given the temporal and spectral structure of music audio, deep and multi-scale representations are particularly well suited to represent music. This thesis focuses on learning representations from music audio. Deep and multi-scale models that improve the state-of-the-art for tasks such as instrument recognition, genre recognition and automatic annotation are presented.
46

Lajoie, Isabelle. "Apprentissage de représentations sur-complètes par entraînement d’auto-encodeurs." Thèse, 2009. http://hdl.handle.net/1866/3768.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les avancés dans le domaine de l’intelligence artificielle, permettent à des systèmes informatiques de résoudre des tâches de plus en plus complexes liées par exemple à la vision, à la compréhension de signaux sonores ou au traitement de la langue. Parmi les modèles existants, on retrouve les Réseaux de Neurones Artificiels (RNA), dont la popularité a fait un grand bond en avant avec la découverte de Hinton et al. [22], soit l’utilisation de Machines de Boltzmann Restreintes (RBM) pour un pré-entraînement non-supervisé couche après couche, facilitant grandement l’entraînement supervisé du réseau à plusieurs couches cachées (DBN), entraînement qui s’avérait jusqu’alors très difficile à réussir. Depuis cette découverte, des chercheurs ont étudié l’efficacité de nouvelles stratégies de pré-entraînement, telles que l’empilement d’auto-encodeurs traditionnels(SAE) [5, 38], et l’empilement d’auto-encodeur débruiteur (SDAE) [44]. C’est dans ce contexte qu’a débuté la présente étude. Après un bref passage en revue des notions de base du domaine de l’apprentissage machine et des méthodes de pré-entraînement employées jusqu’à présent avec les modules RBM, AE et DAE, nous avons approfondi notre compréhension du pré-entraînement de type SDAE, exploré ses différentes propriétés et étudié des variantes de SDAE comme stratégie d’initialisation d’architecture profonde. Nous avons ainsi pu, entre autres choses, mettre en lumière l’influence du niveau de bruit, du nombre de couches et du nombre d’unités cachées sur l’erreur de généralisation du SDAE. Nous avons constaté une amélioration de la performance sur la tâche supervisée avec l’utilisation des bruits poivre et sel (PS) et gaussien (GS), bruits s’avérant mieux justifiés que celui utilisé jusqu’à présent, soit le masque à zéro (MN). De plus, nous avons démontré que la performance profitait d’une emphase imposée sur la reconstruction des données corrompues durant l’entraînement des différents DAE. Nos travaux ont aussi permis de révéler que le DAE était en mesure d’apprendre, sur des images naturelles, des filtres semblables à ceux retrouvés dans les cellules V1 du cortex visuel, soit des filtres détecteurs de bordures. Nous aurons par ailleurs pu montrer que les représentations apprises du SDAE, composées des caractéristiques ainsi extraites, s’avéraient fort utiles à l’apprentissage d’une machine à vecteurs de support (SVM) linéaire ou à noyau gaussien, améliorant grandement sa performance de généralisation. Aussi, nous aurons observé que similairement au DBN, et contrairement au SAE, le SDAE possédait une bonne capacité en tant que modèle générateur. Nous avons également ouvert la porte à de nouvelles stratégies de pré-entraînement et découvert le potentiel de l’une d’entre elles, soit l’empilement d’auto-encodeurs rebruiteurs (SRAE).
Progress in the machine learning domain allows computational system to address more and more complex tasks associated with vision, audio signal or natural language processing. Among the existing models, we find the Artificial Neural Network (ANN), whose popularity increased suddenly with the recent breakthrough of Hinton et al. [22], that consists in using Restricted Boltzmann Machines (RBM) for performing an unsupervised, layer by layer, pre-training initialization, of a Deep Belief Network (DBN), which enables the subsequent successful supervised training of such architecture. Since this discovery, researchers studied the efficiency of other similar pre-training strategies such as the stacking of traditional auto-encoder (SAE) [5, 38] and the stacking of denoising auto-encoder (SDAE) [44]. This is the context in which the present study started. After a brief introduction of the basic machine learning principles and of the pre-training methods used until now with RBM, AE and DAE modules, we performed a series of experiments to deepen our understanding of pre-training with SDAE, explored its different proprieties and explored variations on the DAE algorithm as alternative strategies to initialize deep networks. We evaluated the sensitivity to the noise level, and influence of number of layers and number of hidden units on the generalization error obtained with SDAE. We experimented with other noise types and saw improved performance on the supervised task with the use of pepper and salt noise (PS) or gaussian noise (GS), noise types that are more justified then the one used until now which is masking noise (MN). Moreover, modifying the algorithm by imposing an emphasis on the corrupted components reconstruction during the unsupervised training of each different DAE showed encouraging performance improvements. Our work also allowed to reveal that DAE was capable of learning, on naturals images, filters similar to those found in V1 cells of the visual cortex, that are in essence edges detectors. In addition, we were able to verify that the learned representations of SDAE, are very good characteristics to be fed to a linear or gaussian support vector machine (SVM), considerably enhancing its generalization performance. Also, we observed that, alike DBN, and unlike SAE, the SDAE had the potential to be used as a good generative model. As well, we opened the door to novel pre-training strategies and discovered the potential of one of them : the stacking of renoising auto-encoders (SRAE).
47

Diouf, Jean Noël Dibocor. "Classification, apprentissage profond et réseaux de neurones : application en science des données." Thèse, 2020. http://depot-e.uqtr.ca/id/eprint/9555/1/eprint9555.pdf.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
48

Kahya, Emre Onur. "Identifying electrons with deep learning methods." Thesis, 2020. http://hdl.handle.net/1866/25101.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse porte sur les techniques de l’apprentissage machine et leur application à un problème important de la physique des particules expérimentale: l’identification des électrons de signal résultant des collisions proton-proton au Grand collisionneur de hadrons. Au chapitre 1, nous fournissons des informations sur le Grand collisionneur de hadrons et expliquons pourquoi il a été construit. Nous présentons ensuite plus de détails sur ATLAS, l’un des plus importants détecteurs du Grand collisionneur de hadrons. Ensuite, nous expliquons en quoi consiste la tâche d’identification des électrons ainsi que l’importance de bien la mener à terme. Enfin, nous présentons des informations détaillées sur l’ensemble de données que nous utilisons pour résoudre cette tâche d’identification des électrons. Au chapitre 2, nous donnons une brève introduction des principes fondamentaux de l’apprentissage machine. Après avoir défini et introduit les différents types de tâche d’apprentissage, nous discutons des diverses façons de représenter les données d’entrée. Ensuite, nous présentons ce qu’il faut apprendre de ces données et comment y parvenir. Enfin, nous examinons les problèmes qui pourraient se présenter en régime de “sur-apprentissage”. Au chapitres 3, nous motivons le choix de l’architecture choisie pour résoudre notre tâche, en particulier pour les sections où des images séquentielles sont utilisées comme entrées. Nous présentons ensuite les résultats de nos expériences et montrons que notre modèle fonctionne beaucoup mieux que les algorithmes présentement utilisés par la collaboration ATLAS. Enfin, nous discutons des futures orientations afin d’améliorer davantage nos résultats. Au chapitre 4, nous abordons les deux concepts que sont la généralisation hors distribution et la planéité de la surface associée à la fonction de coût. Nous prétendons que les algorithmes qui font converger la fonction coût vers minimum couvrant une région large et plate sont également ceux qui offrent le plus grand potentiel de généralisation pour les tâches hors distribution. Nous présentons les résultats de l’application de ces deux algorithmes à notre ensemble de données et montrons que cela soutient cette affirmation. Nous terminons avec nos conclusions.
This thesis is about applying the tools of Machine Learning to an important problem of experimental particle physics: identifying signal electrons after proton-proton collisions at the Large Hadron Collider. In Chapters 1, we provide some information about the Large Hadron Collider and explain why it was built. We give further details about one of the biggest detectors in the Large Hadron Collider, the ATLAS. Then we define what electron identification task is, as well as the importance of solving it. Finally, we give detailed information about our dataset that we use to solve the electron identification task. In Chapters 2, we give a brief introduction to fundamental principles of machine learning. Starting with the definition and types of different learning tasks, we discuss various ways to represent inputs. Then we present what to learn from the inputs as well as how to do it. And finally, we look at the problems that would arise if we “overdo” learning. In Chapters 3, we motivate the choice of the architecture to solve our task, especially for the parts that have sequential images as inputs. We then present the results of our experiments and show that our model performs much better than the existing algorithms that the ATLAS collaboration currently uses. Finally, we discuss future directions to further improve our results. In Chapter 4, we discuss two concepts: out of distribution generalization and flatness of loss surface. We claim that the algorithms, that brings a model into a wide flat minimum of its training loss surface, would generalize better for out of distribution tasks. We give the results of implementing two such algorithms to our dataset and show that it supports our claim. Finally, we end with our conclusions.
49

Pezeshki, Mohammad. "Towards deep semi supervised learning." Thèse, 2016. http://hdl.handle.net/1866/18343.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
50

Racah, Evan. "Unsupervised representation learning in interactive environments." Thèse, 2019. http://hdl.handle.net/1866/23788.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Extraire une représentation de tous les facteurs de haut niveau de l'état d'un agent à partir d'informations sensorielles de bas niveau est une tâche importante, mais difficile, dans l'apprentissage automatique. Dans ce memoire, nous explorerons plusieurs approches non supervisées pour apprendre ces représentations. Nous appliquons et analysons des méthodes d'apprentissage de représentations non supervisées existantes dans des environnements d'apprentissage par renforcement, et nous apportons notre propre suite d'évaluations et notre propre méthode novatrice d'apprentissage de représentations d'état. Dans le premier chapitre de ce travail, nous passerons en revue et motiverons l'apprentissage non supervisé de représentations pour l'apprentissage automatique en général et pour l'apprentissage par renforcement. Nous introduirons ensuite un sous-domaine relativement nouveau de l'apprentissage de représentations : l'apprentissage auto-supervisé. Nous aborderons ensuite deux approches fondamentales de l'apprentissage de représentations, les méthodes génératives et les méthodes discriminatives. Plus précisément, nous nous concentrerons sur une collection de méthodes discriminantes d'apprentissage de représentations, appelées méthodes contrastives d'apprentissage de représentations non supervisées (CURL). Nous terminerons le premier chapitre en détaillant diverses approches pour évaluer l'utilité des représentations. Dans le deuxième chapitre, nous présenterons un article de workshop dans lequel nous évaluons un ensemble de méthodes d'auto-supervision standards pour les problèmes d'apprentissage par renforcement. Nous découvrons que la performance de ces représentations dépend fortement de la dynamique et de la structure de l'environnement. À ce titre, nous déterminons qu'une étude plus systématique des environnements et des méthodes est nécessaire. Notre troisième chapitre couvre notre deuxième article, Unsupervised State Representation Learning in Atari, où nous essayons d'effectuer une étude plus approfondie des méthodes d'apprentissage de représentations en apprentissage par renforcement, comme expliqué dans le deuxième chapitre. Pour faciliter une évaluation plus approfondie des représentations en apprentissage par renforcement, nous introduisons une suite de 22 jeux Atari entièrement labellisés. De plus, nous choisissons de comparer les méthodes d'apprentissage de représentations de façon plus systématique, en nous concentrant sur une comparaison entre méthodes génératives et méthodes contrastives, plutôt que les méthodes générales du deuxième chapitre choisies de façon moins systématique. Enfin, nous introduisons une nouvelle méthode contrastive, ST-DIM, qui excelle sur ces 22 jeux Atari.
Extracting a representation of all the high-level factors of an agent’s state from level-level sensory information is an important, but challenging task in machine learning. In this thesis, we will explore several unsupervised approaches for learning these state representations. We apply and analyze existing unsupervised representation learning methods in reinforcement learning environments, as well as contribute our own evaluation benchmark and our own novel state representation learning method. In the first chapter, we will overview and motivate unsupervised representation learning for machine learning in general and for reinforcement learning. We will then introduce a relatively new subfield of representation learning: self-supervised learning. We will then cover two core representation learning approaches, generative methods and discriminative methods. Specifically, we will focus on a collection of discriminative representation learning methods called contrastive unsupervised representation learning (CURL) methods. We will close the first chapter by detailing various approaches for evaluating the usefulness of representations. In the second chapter, we will present a workshop paper, where we evaluate a handful of off-the-shelf self-supervised methods in reinforcement learning problems. We discover that the performance of these representations depends heavily on the dynamics and visual structure of the environment. As such, we determine that a more systematic study of environments and methods is required. Our third chapter covers our second article, Unsupervised State Representation Learning in Atari, where we try to execute a more thorough study of representation learning methods in RL as motivated by the second chapter. To facilitate a more thorough evaluation of representations in RL we introduce a benchmark of 22 fully labelled Atari games. In addition, we choose the representation learning methods for comparison in a more systematic way by focusing on comparing generative methods with contrastive methods, instead of the less systematically chosen off-the-shelf methods from the second chapter. Finally, we introduce a new contrastive method, ST-DIM, which excels at the 22 Atari games.

До бібліографії