Dissertations / Theses on the topic 'Apprentissage profond – Réseaux neuronaux (informatique)'

To see the other types of publications on this topic, follow the link: Apprentissage profond – Réseaux neuronaux (informatique).

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage profond – Réseaux neuronaux (informatique).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Haykal, Vanessa. "Modélisation des séries temporelles par apprentissage profond." Thesis, Tours, 2019. http://www.theses.fr/2019TOUR4019.

Full text
Abstract:
La prévision des séries temporelles est un problème qui est traité depuis de nombreuses années. Dans cette thèse, on s’est intéressé aux méthodes issues de l’apprentissage profond. Il est bien connu que si les relations entre les données sont temporelles, il est difficile de les analyser et de les prévoir avec précision en raison des tendances non linéaires et du bruit présent, spécifiquement pour les séries financières et électriques. A partir de ce contexte, nous proposons une nouvelle architecture de réduction de bruit qui modélise des séries d’erreurs récursives pour améliorer les prévisions. L’apprentissage hybride fusionne simultanément un réseau de neurones convolutifs (CNN) et un réseau récurrent à mémoire long et court termes (LSTM). Ce modèle se distingue par sa capacité à capturer globalement différentes propriétés telles que les caractéristiques locales du signal, d’apprendre les dépendances non linéaires à long terme et de s’adapter également à une résistance élevée au bruit. La seconde contribution concerne les limitations des approches globales en raison des changements de régimes dynamiques dans le signal. Nous présentons donc une modification locale non-supervisée de notre architecture précédente afin d’ajuster les résultats en pilotant le modèle par un modèle de Markov caché (HMM). Enfin, on s’est également intéressé aux techniques de multi-résolutions pour améliorer les performances des couches convolutives, notamment par la méthode de décomposition en mode variationnel (VMD)
Time series prediction is a problem that has been addressed for many years. In this thesis, we have been interested in methods resulting from deep learning. It is well known that if the relationships between the data are temporal, it is difficult to analyze and predict accurately due to non-linear trends and the existence of noise specifically in the financial and electrical series. From this context, we propose a new hybrid noise reduction architecture that models the recursive error series to improve predictions. The learning process fusessimultaneouslyaconvolutionalneuralnetwork(CNN)andarecurrentlongshort-term memory network (LSTM). This model is distinguished by its ability to capture globally a variety of hybrid properties, where it is able to extract local signal features, to learn long-term and non-linear dependencies, and to have a high noise resistance. The second contribution concerns the limitations of the global approaches because of the dynamic switching regimes in the signal. We present a local unsupervised modification with our previous architecture in order to adjust the results by adapting the Hidden Markov Model (HMM). Finally, we were also interested in multi-resolution techniques to improve the performance of the convolutional layers, notably by using the variational mode decomposition method (VMD)
APA, Harvard, Vancouver, ISO, and other styles
2

Caron, Stéphane. "Détection d'anomalies basée sur les représentations latentes d'un autoencodeur variationnel." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69185.

Full text
Abstract:
Dans ce mémoire, nous proposons une méthodologie qui permet de détecter des anomalies parmi un ensemble de données complexes, plus particulièrement des images. Pour y arriver, nous utilisons un type spécifique de réseau de neurones, soit un autoencodeur variationnel (VAE). Cette approche non-supervisée d'apprentissage profond nous permet d'obtenir une représentation plus simple de nos données sur laquelle nous appliquerons une mesure de distance de Kullback-Leibler nous permettant de discriminer les anomalies des observations "normales". Pour déterminer si une image nous apparaît comme "anormale", notre approche se base sur une proportion d'observations à filtrer, ce qui est plus simple et intuitif à établir qu'un seuil sur la valeur même de la distance. En utilisant notre méthodologie sur des images réelles, nous avons démontré que nous pouvons obtenir des performances de détection d'anomalies supérieures en termes d'aire sous la courbe ROC, de précision et de rappel par rapport à d'autres approches non-supervisées. De plus, nous avons montré que la simplicité de l'approche par niveau de filtration permet d'adapter facilement la méthode à des jeux de données ayant différents niveaux de contamination d'anomalies.
In this master's thesis, we propose a methodology that aims to detect anomalies among complex data, such as images. In order to do that, we use a specific type of neural network called the varitionnal autoencoder (VAE). This non-supervised deep learning approach allows us to obtain a simple representation of our data on which we then use the Kullback-Leibler distance to discriminate between anomalies and "normal" observations. To determine if an image should be considered "abnormal", our approach is based on a proportion of observations to be filtered, which is easier and more intuitive to establish than applying a threshold based on the value of a distance metric. By using our methodology on real complex images, we can obtain superior anomaly detection performances in terms of area under the ROC curve (AUC),precision and recall compared to other non-supervised methods. Moreover, we demonstrate that the simplicity of our filtration level allows us to easily adapt the method to datasets having different levels of anomaly contamination.
APA, Harvard, Vancouver, ISO, and other styles
3

Ostertag, Cécilia. "Analyse des pathologies neuro-dégénératives par apprentissage profond." Thesis, La Rochelle, 2022. http://www.theses.fr/2022LAROS003.

Full text
Abstract:
Le suivi et l'établissement de pronostics sur l'état cognitif des personnes affectées par une maladie neurologique sont cruciaux, car ils permettent de fournir un traitement approprié à chaque patient, et cela le plus tôt possible. Ces patients sont donc suivis régulièrement pendant plusieurs années, dans le cadre d'études longitudinales. À chaque visite médicale, une grande quantité de données est acquise : présence de facteurs de risque associés à la maladie, imagerie médicale (IRM ou PET-scan), résultats de tests cognitifs, prélèvements de molécules identifiées comme biomarqueurs de la maladie, etc. Ces différentes modalités apportent des informations sur la progression de la maladie, certaines complémentaires et d'autres redondantes. De nombreux modèles d'apprentissage profond ont été appliqués avec succès aux données biomédicales, notamment pour des problématiques de segmentation d'organes ou de diagnostic de maladies. Ces travaux de thèse s'intéressent à la conception d'un modèle de type "réseau de neurones profond" pour la prédiction du déclin cognitif de patients à l'aide de données multimodales. Ainsi, nous proposons une architecture composée de sous-modules adaptés à chaque modalité : réseau convolutif 3D pour les IRM de cerveau, et couches entièrement connectées pour les données cliniques quantitatives et qualitatives. Pour évaluer l'évolution du patient, ce modèle prend en entrée les données de deux visites médicales quelconques. Ces deux visites sont comparées grâce à une architecture siamoise. Après avoir entraîné et validé ce modèle en utilisant comme cas d'application la maladie d'Alzheimer, nous nous intéressons au transfert de connaissance avec d'autres maladies neuro-dégénératives, et nous utilisons avec succès le transfert d'apprentissage pour appliquer notre modèle dans le cas de la maladie de Parkinson. Enfin, nous discutons des choix que nous avons pris pour la prise en compte de l'aspect temporel du problème, aussi bien lors de la création de la vérité terrain en fonction de l'évolution au long terme d'un score cognitif, que pour le choix d'utiliser des paires de visites au lieu de plus longues séquences
Monitoring and predicting the cognitive state of a subject affected by a neuro-degenerative disorder is crucial to provide appropriate treatment as soon as possible. Thus, these patients are followed for several years, as part of longitudinal medical studies. During each visit, a large quantity of data is acquired : risk factors linked to the pathology, medical imagery (MRI or PET scans for example), cognitive tests results, sampling of molecules that have been identified as bio-markers, etc. These various modalities give information about the disease's progression, some of them are complementary and others can be redundant. Several deep learning models have been applied to bio-medical data, notably for organ segmentation or pathology diagnosis. This PhD is focused on the conception of a deep neural network model for cognitive decline prediction, using multimodal data, here both structural brain MRI images and clinical data. In this thesis we propose an architecture made of sub-modules tailored to each modality : 3D convolutional network for the brain MRI, and fully connected layers for the quantitative and qualitative clinical data. To predict the patient's evolution, this model takes as input data from two medical visits for each patient. These visits are compared using a siamese architecture. After training and validating this model with Alzheimer's disease as our use case, we look into knowledge transfer to other neuro-degenerative pathologies, and we use transfer learning to adapt our model to Parkinson's disease. Finally, we discuss the choices we made to take into account the temporal aspect of our problem, both during the ground truth creation using the long-term evolution of a cognitive score, and for the choice of using pairs of visits as input instead of longer sequences
APA, Harvard, Vancouver, ISO, and other styles
4

Mercier, Jean-Philippe. "Deep learning for object detection in robotic grasping contexts." Doctoral thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69801.

Full text
Abstract:
Dans la dernière décennie, les approches basées sur les réseaux de neurones convolutionnels sont devenus les standards pour la plupart des tâches en vision numérique. Alors qu'une grande partie des méthodes classiques de vision étaient basées sur des règles et algorithmes, les réseaux de neurones sont optimisés directement à partir de données d'entraînement qui sont étiquetées pour la tâche voulue. En pratique, il peut être difficile d'obtenir une quantité su sante de données d'entraînement ou d'interpréter les prédictions faites par les réseaux. Également, le processus d'entraînement doit être recommencé pour chaque nouvelle tâche ou ensemble d'objets. Au final, bien que très performantes, les solutions basées sur des réseaux de neurones peuvent être difficiles à mettre en place. Dans cette thèse, nous proposons des stratégies visant à contourner ou solutionner en partie ces limitations en contexte de détection d'instances d'objets. Premièrement, nous proposons d'utiliser une approche en cascade consistant à utiliser un réseau de neurone comme pré-filtrage d'une méthode standard de "template matching". Cette façon de faire nous permet d'améliorer les performances de la méthode de "template matching" tout en gardant son interprétabilité. Deuxièmement, nous proposons une autre approche en cascade. Dans ce cas, nous proposons d'utiliser un réseau faiblement supervisé pour générer des images de probabilité afin d'inférer la position de chaque objet. Cela permet de simplifier le processus d'entraînement et diminuer le nombre d'images d'entraînement nécessaires pour obtenir de bonnes performances. Finalement, nous proposons une architecture de réseau de neurones ainsi qu'une procédure d'entraînement permettant de généraliser un détecteur d'objets à des objets qui ne sont pas vus par le réseau lors de l'entraînement. Notre approche supprime donc la nécessité de réentraîner le réseau de neurones pour chaque nouvel objet.
In the last decade, deep convolutional neural networks became a standard for computer vision applications. As opposed to classical methods which are based on rules and hand-designed features, neural networks are optimized and learned directly from a set of labeled training data specific for a given task. In practice, both obtaining sufficient labeled training data and interpreting network outputs can be problematic. Additionnally, a neural network has to be retrained for new tasks or new sets of objects. Overall, while they perform really well, deployment of deep neural network approaches can be challenging. In this thesis, we propose strategies aiming at solving or getting around these limitations for object detection. First, we propose a cascade approach in which a neural network is used as a prefilter to a template matching approach, allowing an increased performance while keeping the interpretability of the matching method. Secondly, we propose another cascade approach in which a weakly-supervised network generates object-specific heatmaps that can be used to infer their position in an image. This approach simplifies the training process and decreases the number of required training images to get state-of-the-art performances. Finally, we propose a neural network architecture and a training procedure allowing detection of objects that were not seen during training, thus removing the need to retrain networks for new objects.
APA, Harvard, Vancouver, ISO, and other styles
5

Boussaha, Basma El Amel. "Response selection for end-to-end retrieval-based dialogue systems." Thesis, Nantes, 2019. http://www.theses.fr/2019NANT4080.

Full text
Abstract:
Le besoin croissant en assistance humaine a poussé les chercheurs à développer des systèmes de dialogue automatiques, intelligents et infatigables qui conversent avec les humains dans un langage naturel pour devenir soit leurs assistants virtuels ou leurs compagnons. L’industrie des systèmes de dialogue est devenue populaire cette dernière décennie, ainsi, plusieurs systèmes ont été développés par des industriels comme des académiques. Dans le cadre de cette thèse, nous étudions les systèmes de dialogue basés sur la recherche de réponse qui cherchant la réponse la plus appropriée à la conversation parmi un ensemble de réponses prédéfini. Le défi majeur de ces systèmes est la compréhension de la conversation et l’identification des éléments qui décrivent le problème et la solution qui sont souvent implicites. La plupart des approches récentes sont basées sur des techniques d’apprentissage profond qui permettent de capturer des informations implicites. Souvent, ces approches sont complexes ou dépendent fortement du domaine. Nous proposons une approche de recherche de réponse de bout en bout, simple, efficace et indépendante du domaine et qui permet de capturer ces informations implicites. Nous effectuons également plusieurs analyses afin de déterminer des pistes d’amélioration
The increasing need of human assistance pushed researchers to develop automatic, smart and tireless dialogue systems that can converse with humans in natural language to be either their virtual assistant or their chat companion. The industry of dialogue systems has been very popular in the last decade and many systems from industry and academia have been developed. In this thesis, we study retrieval-based dialogue systems which aim to find the most appropriate response to the conversation among a set of predefined responses. The main challenge of these systems is to understand the conversation and identify the elements that describe the problem and the solution which are usually implicit. Most of the recent approaches are based on deep learning techniques which can automatically capture implicit information. However these approaches are either complex or domain dependent. We propose a simple, end-to-end and efficient retrieval-based dialogue system that first matches the response with the history of the conversation on the sequence-level and then we extend the system to multiple levels while keeping the architecture simple and domain independent. We perform several analyzes to determine possible improvements
APA, Harvard, Vancouver, ISO, and other styles
6

Katranji, Mehdi. "Apprentissage profond de la mobilité des personnes." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCA024.

Full text
Abstract:
La connaissance de la mobilité est un enjeu majeur pour les autorités organisatrices de mobilité et l'aménagement urbain. En raison du manque de définition formelle de la mobilité humaine, l'expression "mobilité des personnes" sera utilisée dans cette ouvrage. Ce sujet sera introduit par une description de l'écosystème en considérant ces acteurs et ces applications.La création d'un modèle d'apprentissage a des prérequis: la compréhension des typologies des ensembles de données disponibles, leurs forces et leurs faiblesses. Cet état de l'art de la connaissance de la mobilité passe par le modèle à quatre étapes qui existe et est utilisé depuis 1970 pour finir sur le renouvellement des méthodologies de ces dernières années.Nos modélisations de la mobilité des personnes sont ensuite présentées. Leur point commun est la mise en avant de l'individu contrairement aux approches classiques qui prennent comme référence la localité. Les modèles que nous proposons s'appuient sur le fait que la prise de décision des individus se fait selon leur perception de l'environnement.Cet ouvrage fini sur l'étude des méthodes d'apprentissage profond des machines de Boltzmann restreintes. Après un état de l'art de cette famille de modèles, nous recherchons des stratégies pour rendre ces modèles viables dans le monde applicatif. Ce dernier chapitre est notre contribution théorique principale, par l'amélioration de la robustesse et la performance de ces modèles
Knowledge of mobility is a major challenge for authorities mobility organisers and urban planning. Due to the lack of formal definition of human mobility, the term "people's mobility" will be used in this book. This topic will be introduced by a description of the ecosystem by considering these actors and applications.The creation of a learning model has prerequisites: an understanding of the typologies of the available data sets, their strengths and weaknesses. This state of the art in mobility knowledge is based on the four-step model that has existed and been used since 1970, ending with the renewal of the methodologies of recent years.Our models of people's mobility are then presented. Their common point is the emphasis on the individual, unlike traditional approaches that take the locality as a reference. The models we propose are based on the fact that the intake of individuals' decisions is based on their perception of the environment.This finished book on the study of the deep learning methods of Boltzmann machines restricted. After a state of the art of this family of models, we are looking for strategies to make these models viable in the application world. This last chapter is our contribution main theoretical, by improving robustness and performance of these models
APA, Harvard, Vancouver, ISO, and other styles
7

Sablayrolles, Alexandre. "Mémorisation et apprentissage de structures d'indexation avec les réseaux de neurones." Thesis, Université Grenoble Alpes, 2020. https://thares.univ-grenoble-alpes.fr/2020GRALM044.pdf.

Full text
Abstract:
Les systèmes d’apprentissage machine, et en particulier les systèmes dits d’apprentissage profond, nécessitent de grandes quantités de données pour l’entraînement. En vision par ordinateur, les réseaux de neurones convolutionnels utilisés pour la classification d’images, la reconnaissance de scènes et la détection d’objets notamment sont entrainés sur des jeux de données dont la taille se situe entre quelques dizaines de milliers et quelques milliards d’exemples. Les modèles paramétriques ont une très large capacité, souvent du même ordre de grandeur que le nombre d’exemples. Dans cette thèse, nous nous intéressons aux aspects de mémorisation présents dans les réseaux de neurones, sous deux angles complémentaires:la mémorisation explicite, c’est-à-dire la mémorisation de tous les éléments d’un jeu de données et la mémorisation implicite, qui apparaît de façon non intentionnelle pendant l’apprentissage. Concernant la mémorisation explicite, nous proposons dans cette thèse un réseau de neurones qui approxime la fonction indicatrice d’un ensemble, et nous montrons que la capacité d’un tel réseau passe à l’échelle linéairement avec la taille de l’ensemble. Nous proposons alors une construction alternative pour l’appartenance à un ensemble, dans laquelle nous construisons un réseau de neurones qui produit des codes compacts, puis un système de recherche de plus proches voisins parmi ces codes compacts, séparant l’apprentissage de la distribution (fait par le réseau) du stockage des points individuels(les codes compacts), le premier étant indépendant du nombre d’exemples,et le deuxième passant à l’échelle linéairement en le nombre d’exemples.Ce système de recherche de plus proches voisins implémente une fonction plus générale, et peut être utilisé pour inférer l’appartenance à un ensemble.Dans la deuxième partie de cette thèse, nous nous intéressons à la mémorisation involontaire, et déterminons pour chaque exemple s’il faisait partie du jeu de données d’entraînement (inférence de l’appartenance). Nous effectuons une inférence empirique de l’appartenance sur de gros réseaux, à la fois sur des exemples isolés et sur des groupes d’exemples. Nous développons une analyse de l’inférence de l’appartenance, qui conduit à l’inférence Bayes-optimale; nous construisons plusieurs approximations qui donnent lieu à des résultats état de l’art en attaques d’appartenance. Enfin, nous élaborons une nouvelle technique dite de données radioactives, qui modifie légèrement des jeux de données afin que n’importe quel modèle entraîné sur ces données porte une marque identifiable
Machine learning systems, and in particular deep neural networks, aretrained on large quantities of data. In computer vision for instance, convolutionalneural networks used for image classification, scene recognition,and object detection, are trained on datasets which size ranges from tensof thousands to billions of samples. Deep parametric models have a largecapacity, often in the order of magnitude of the number of datapoints.In this thesis, we are interested in the memorization aspect of neuralnetworks, under two complementary angles: explicit memorization,i.e. memorization of all samples of a set, and implicit memorization,that happens inadvertently while training models. Considering explicitmemorization, we build a neural network to perform approximate setmembership, and show that the capacity of such a neural network scaleslinearly with the number of data points. Given such a linear scaling, weresort to another construction for set membership, in which we build aneural network to produce compact codes, and perform nearest neighborsearch among the compact codes, thereby separating “distribution learning”(the neural network) from storing samples (the compact codes), theformer being independent of the number of samples and the latter scalinglinearly with a small constant. This nearest neighbor system performs amore generic task, and can be plugged in to perform set membership.In the second part of this thesis, we analyze the “unintended” memorizationthat happens during training, and assess if a particular data pointwas used to train a model (membership inference). We perform empiricalmembership inference on large networks, on both individual and groupsof samples. We derive the Bayes-optimal membership inference, andconstruct several approximations that lead to state-of-the-art results inmembership attacks. Finally, we design a new technique, radioactive data,that slightly modifies datasets such that any model trained on them bearsan identifiable mark
APA, Harvard, Vancouver, ISO, and other styles
8

Groueix, Thibault. "Learning 3D Generation and Matching." Thesis, Paris Est, 2020. http://www.theses.fr/2020PESC1024.

Full text
Abstract:
L'objectif de cette thèse est de développer des approches d'apprentissage profond pour modéliser et analyser les formes 3D. Les progrès dans ce domaine pourraient démocratiser la création artistique d'actifs 3D, actuellement coûteuse en temps et réservés aux experts du domaine. Nous nous concentrons en particulier sur deux tâches clefs pour la modélisation 3D : la reconstruction à vue unique et la mise en correspondance de formes.Une méthode de reconstruction à vue unique (SVR) prend comme entrée une seule image et prédit le monde physique qui a produit cette image. SVR remonte aux premiers jours de la vision par ordinateur. Étant donné que plusieurs configurations de formes, de textures et d'éclairage peuvent expliquer la même image il faut formuler des hypothèses sur la distribution d'images et de formes 3D pour résoudre l’ambiguïté. Dans cette thèse, nous apprenons ces hypothèses à partir de jeux de données à grande échelle au lieu de les concevoir manuellement. Les méthodes d'apprentissage nous permettent d'effectuer une reconstruction complète et réaliste de l'objet, y compris des parties qui ne sont pas visibles dans l'image d'entrée.La mise en correspondance de forme vise à établir des correspondances entre des objets 3D. Résoudre cette tâche nécessite à la fois une compréhension locale et globale des formes 3D qui est difficile à obtenir explicitement. Au lieu de cela, nous entraînons des réseaux neuronaux sur de grands jeux de données pour capturer ces connaissances implicitement.La mise en correspondance de forme a de nombreuses applications en modélisation 3D telles que le transfert d'attribut, le gréement automatique pour l'animation ou l'édition de maillage.La première contribution technique de cette thèse est une nouvelle représentation paramétrique des surfaces 3D modélisées par les réseaux neuronaux. Le choix de la représentation des données est un aspect critique de tout algorithme de reconstruction 3D. Jusqu'à récemment, la plupart des approches profondes en génération 3D prédisaient des grilles volumétriques de voxel ou des nuages de points, qui sont des représentations discrètes. Au lieu de cela, nous présentons une approche qui prédit une déformation paramétrique de surface, c'est-à-dire une déformation d'un modèle source vers une forme objectif. Pour démontrer les avantages ses avantages, nous utilisons notre nouvelle représentation pour la reconstruction à vue unique. Notre approche, baptisée AtlasNet, est la première approche profonde de reconstruction à vue unique capable de reconstruire des maillages à partir d'images sans s’appuyer sur un post-traitement indépendant, et peut le faire à une résolution arbitraire sans problèmes de mémoire. Une analyse plus détaillée d’AtlasNet révèle qu'il généralise également mieux que les autres approches aux catégories sur lesquelles il n'a pas été entraîné.Notre deuxième contribution est une nouvelle approche de correspondance de forme purement basée sur la reconstruction par des déformations. Nous montrons que la qualité des reconstructions de forme est essentielle pour obtenir de bonnes correspondances, et donc introduisons une optimisation au moment de l'inférence pour affiner les déformations apprises. Pour les humains et d'autres catégories de formes déformables déviant par une quasi-isométrie, notre approche peut tirer parti d'un modèle et d'une régularisation isométrique des déformations. Comme les catégories présentant des variations non isométriques, telles que les chaises, n'ont pas de modèle clair, nous apprenons à déformer n'importe quelle forme en n'importe quelle autre et tirons parti des contraintes de cohérence du cycle pour apprendre des correspondances qui respectent la sémantique des objets. Notre approche de correspondance de forme fonctionne directement sur les nuages de points, est robuste à de nombreux types de perturbations, et surpasse l'état de l'art de 15% sur des scans d'humains réels
The goal of this thesis is to develop deep learning approaches to model and analyse 3D shapes. Progress in this field could democratize artistic creation of 3D assets which currently requires time and expert skills with technical software.We focus on the design of deep learning solutions for two particular tasks, key to many 3D modeling applications: single-view reconstruction and shape matching.A single-view reconstruction (SVR) method takes as input a single image and predicts the physical world which produced that image. SVR dates back to the early days of computer vision. In particular, in the 1960s, Lawrence G. Roberts proposed to align simple 3D primitives to the input image under the assumption that the physical world is made of cuboids. Another approach proposed by Berthold Horn in the 1970s is to decompose the input image in intrinsic images and use those to predict the depth of every input pixel.Since several configurations of shapes, texture and illumination can explain the same image, both approaches need to form assumptions on the distribution of images and 3D shapes to resolve the ambiguity. In this thesis, we learn these assumptions from large-scale datasets instead of manually designing them. Learning allows us to perform complete object reconstruction, including parts which are not visible in the input image.Shape matching aims at finding correspondences between 3D objects. Solving this task requires both a local and global understanding of 3D shapes which is hard to achieve explicitly. Instead we train neural networks on large-scale datasets to solve this task and capture this knowledge implicitly through their internal parameters.Shape matching supports many 3D modeling applications such as attribute transfer, automatic rigging for animation, or mesh editing.The first technical contribution of this thesis is a new parametric representation of 3D surfaces modeled by neural networks.The choice of data representation is a critical aspect of any 3D reconstruction algorithm. Until recently, most of the approaches in deep 3D model generation were predicting volumetric voxel grids or point clouds, which are discrete representations. Instead, we present an alternative approach that predicts a parametric surface deformation ie a mapping from a template to a target geometry. To demonstrate the benefits of such a representation, we train a deep encoder-decoder for single-view reconstruction using our new representation. Our approach, dubbed AtlasNet, is the first deep single-view reconstruction approach able to reconstruct meshes from images without relying on an independent post-processing, and can do it at arbitrary resolution without memory issues. A more detailed analysis of AtlasNet reveals it also generalizes better to categories it has not been trained on than other deep 3D generation approaches.Our second main contribution is a novel shape matching approach purely based on reconstruction via deformations. We show that the quality of the shape reconstructions is critical to obtain good correspondences, and therefore introduce a test-time optimization scheme to refine the learned deformations. For humans and other deformable shape categories deviating by a near-isometry, our approach can leverage a shape template and isometric regularization of the surface deformations. As category exhibiting non-isometric variations, such as chairs, do not have a clear template, we learn how to deform any shape into any other and leverage cycle-consistency constraints to learn meaningful correspondences. Our reconstruction-for-matching strategy operates directly on point clouds, is robust to many types of perturbations, and outperforms the state of the art by 15% on dense matching of real human scans
APA, Harvard, Vancouver, ISO, and other styles
9

Asselin, Louis-Philippe. "Une approche d'apprentissage profond pour l’estimation de l'apparence des matériaux à partir d’images." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69186.

Full text
Abstract:
Ce mémoire présente une méthode d’acquisition légère et abordable basée sur l’apprentissage profond pour l’estimation des paramètres intrinsèques de surface des matériaux du monde réel. Pour ce problème d’estimation, la difficulté principale est l’entraînement des réseaux de neurones des méthodes modernes qui est habituellement effectué sur des données virtuelles exclusivement. Après cet entraînement avec des matériaux synthétiques, les résultats obtenus pour les matériaux réels ne sont pas satisfaisants. De plus, il est difficile d’évaluer et de comparer les différentes méthodes puisque la vérité terrain est inconnue pour l’estimation des paramètres des matériaux réels. Afin de résoudre ces problèmes, un nouvel appareil est développé. Il permet la capture d’images de l’apparence des surfaces sous divers angles d’illumination. Cet appareil permet l’acquisition d’une base de données contenant 80 matériaux réels. Cette base de données est mise à profit pour l’évaluation de différentes méthodes modernes basées sur l’apprentissage profond. Finalement, des stratégies supplémentaires pour les matériaux réels, ainsi qu’une nouvelle architecture de réseau de neurones sont proposées pour estimer les propriétés de surface de matériaux réels (on identifie ces propriétés par la SVBRDF pour Spatially-Varying Bidirectional Reflectance Distribution Function). Les réseaux mis au point dans les recherches permettent d’obtenir des résultats supérieurs à l’état de l’art pour l’estimation de l’apparence des matériaux réels sans avoir recours à des systèmes d’acquisition sophistiqués.
APA, Harvard, Vancouver, ISO, and other styles
10

Cohen-Hadria, Alice. "Estimation de descriptions musicales et sonores par apprentissage profond." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS607.

Full text
Abstract:
En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d'apprentissage automatique deviennent de plus en plus standard. En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones. Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones. Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image. La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l'estimation de structure. La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d'aligner automatiquement des paroles et des pistes audio. La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d'augmentation de données, un moyen d'augmenter considérablement la taille d'un ensemble d'entraînement. Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante
In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely, we will use convolutional neural networks, an image designed class neural networks. The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks. The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI. Singing voice separation is the third task. For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set. Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene
APA, Harvard, Vancouver, ISO, and other styles
11

Vialatte, Jean-Charles. "Convolution et apprentissage profond sur graphes." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0118/document.

Full text
Abstract:
Pour l’apprentissage automatisé de données régulières comme des images ou des signaux sonores, les réseaux convolutifs profonds s’imposent comme le modèle de deep learning le plus performant. En revanche, lorsque les jeux de données sont irréguliers (par example : réseaux de capteurs, de citations, IRMs), ces réseaux ne peuvent pas être utilisés. Dans cette thèse, nous développons une théorie algébrique permettant de définir des convolutions sur des domaines irréguliers, à l’aide d’actions de groupe (ou, plus généralement, de groupoïde) agissant sur les sommets d’un graphe, et possédant des propriétés liées aux arrêtes. A l’aide de ces convolutions, nous proposons des extensions des réseaux convolutifs à des structures de graphes. Nos recherches nous conduisent à proposer une formulation générique de la propagation entre deux couches de neurones que nous appelons la contraction neurale. De cette formule, nous dérivons plusieurs nouveaux modèles de réseaux de neurones, applicables sur des domaines irréguliers, et qui font preuve de résultats au même niveau que l’état de l’art voire meilleurs pour certains
Convolutional neural networks have proven to be the deep learning model that performs best on regularly structured datasets like images or sounds. However, they cannot be applied on datasets with an irregular structure (e.g. sensor networks, citation networks, MRIs). In this thesis, we develop an algebraic theory of convolutions on irregular domains. We construct a family of convolutions that are based on group actions (or, more generally, groupoid actions) that acts on the vertex domain and that have properties that depend on the edges. With the help of these convolutions, we propose extensions of convolutional neural netowrks to graph domains. Our researches lead us to propose a generic formulation of the propagation between layers, that we call the neural contraction. From this formulation, we derive many novel neural network models that can be applied on irregular domains. Through benchmarks and experiments, we show that they attain state-of-the-art performances, and beat them in some cases
APA, Harvard, Vancouver, ISO, and other styles
12

Langlois, Julien. "Vision industrielle et réseaux de neurones profonds : application au dévracage de pièces plastiques industrielles." Thesis, Nantes, 2019. http://www.theses.fr/2019NANT4010/document.

Full text
Abstract:
Ces travaux de thèse présentent une méthode d’estimation de pose de pièces industrielles en vue de leur dévracage à partir d’un système mono-caméra 2D en utilisant une approche par apprentissage avec des réseaux profonds. Dans un premier temps, des réseaux de neurones assurent la segmentation d’un nombre prédéterminé de pièces dans la scène. En appliquant le masque binaire d’une pièce à l’image originale, un second réseau infère la profondeur locale de cet objet. En parallèle des coordonnées de la pièce dans l’image, cette profondeur est employée dans deux réseaux estimant à la fois l’orientation de l’objet sous la forme d’un quaternion et sa translation sur l’axe Z. Enfin, un module de recalage travaillant sur la rétro-projection de la profondeur et le modèle 3D de l’objet, permet d’affiner la pose prédite par les réseaux. Afin de pallier le manque de données réelles annotées dans un contexte industriel, un processus de création de données synthétiques est proposé. En effectuant des rendus aux multiples luminosités, la versatilité du jeu de données permet d’anticiper les différentes conditions hostiles d’exploitation du réseau dans un environnement de production
This work presents a pose estimation method from a RGB image of industrial parts placed in a bin. In a first time, neural networks are used to segment a certain number of parts in the scene. After applying an object mask to the original image, a second network is inferring the local depth of the part. Both the local pixel coordinates of the part and the local depth are used in two networks estimating the orientation of the object as a quaternion and its translation on the Z axis. Finally, a registration module working on the back-projected local depth and the 3D model of the part is refining the pose inferred from the previous networks. To deal with the lack of annotated real images in an industrial context, an data generation process is proposed. By using various light parameters, the dataset versatility allows to anticipate multiple challenging exploitation scenarios within an industrial environment
APA, Harvard, Vancouver, ISO, and other styles
13

Hardy, Corentin. "Contribution au développement de l’apprentissage profond dans les systèmes distribués." Thesis, Rennes 1, 2019. http://www.theses.fr/2019REN1S020/document.

Full text
Abstract:
L'apprentissage profond permet de développer un nombre de services de plus en plus important. Il nécessite cependant de grandes bases de données d'apprentissage et beaucoup de puissance de calcul. Afin de réduire les coûts de cet apprentissage profond, nous proposons la mise en œuvre d'un apprentissage collaboratif. Les futures utilisateurs des services permis par l'apprentissage profond peuvent ainsi participer à celui-ci en mettant à disposition leurs machines ainsi que leurs données sans déplacer ces dernières sur le cloud. Nous proposons différentes méthodes afin d'apprendre des réseaux de neurones profonds dans ce contexte de système distribué
Deep learning enables the development of a growing number of services. However, it requires large training databases and a lot of computing power. In order to reduce the costs of this deep learning, we propose a distributed computing setup to enable collaborative learning. Future users can participate with their devices and their data without moving private data in datacenters. We propose methods to train deep neural network in this distibuted system context
APA, Harvard, Vancouver, ISO, and other styles
14

Voerman, Joris. "Classification automatique à partir d’un flux de documents." Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS025.

Full text
Abstract:
Les documents administratifs sont aujourd’hui omniprésents dans notre quotidien. Nombreux et diversifiés, ils sont utilisés sous deux formes distinctes : physique ou numérique. La nécessité de passer du physique au numérique selon les situations entraîne des besoins dont le développement de solutions constitue un domaine de recherche actif notamment d’un point de vue industriel. Une fois un document scanné, l’un des premiers éléments à déterminer est le type, la classe ou la catégorie, permettant de faciliter toutes opérations ultérieures. Si la classification automatique est une opération disposant de nombreuses solutions dans l’état de l’art, la classification de documents, le fort déséquilibre au sein des données d’apprentissage et les contraintes industrielles restent trois difficultés majeures. Ce manuscrit se concentre sur la classification automatique par apprentissage de documents à partir de flux industriels en tentant de solutionner ces trois problèmes. Pour cela, il contient une évaluation de l’adaptation au contexte des méthodes préexistantes ; suivie d’une évaluation des solutions existantes permettant de renforcer les méthodes, ainsi que des combinaisons possibles. Il se termine par la proposition d’une méthode de combinaison de modèles sous la forme de cascade offrant une réponse progressive. Les solutions mises en avant sont d’un côté un réseau multimodal renforcé par un système d’attention assurant la classification d’une grande variété de documents. De l’autre, une cascade de trois réseaux complémentaires : un pour les images, un pour le texte et un pour les classes faiblement représentées. Ces deux options offrent des résultats solides autant dans un contexte idéal que dans un contexte déséquilibré. Dans le premier cas, il équivaut voire dépasse l’état de l’art. Dans le second, ils montrent une augmentation d’environ+6% de F0,5-Mesure par rapport à l’état de l’art
Administrative documents can be found everywhere today. They are numerous, diverse and can be of two types: physical and numerical. The need to switch between these two forms required the development of new solutions. After document digitization (mainly with a scanner), one of the first problems is to determine the type of the document, which will simplify all future processes. Automatic classification is a complex process that has multiple solutions in the state of the art. Therefore, the document classification, the imbalanced context and industrial constraints will heavily challenge these solutions. This thesis focuses on the automatic classification of document streams with research of solutions to the three major problems previously introduced. To this end, we first propose an evaluation of existing methods adaptation to document streams context. In addition, this work proposes an evaluation of state-of-the-art solutions to contextual constraints and possible combinations between them. Finally, we propose a new combination method that uses a cascade of systems to offer a gradual solution. The most effective solutions are, at first, a multimodal neural network reinforced by an attention model that is able to classify a great variety of documents. In second, a cascade of three complementary networks with : a one network for text classification, one for image classification and one for low represented classes. These two options provide good results as well in ideal context than in imbalanced context. In the first case, it challenges the state of the art. In the second case, it shows an improvement of +6% F0.5-Measure in comparison to the state of the art
APA, Harvard, Vancouver, ISO, and other styles
15

Wolinski, Pierre. "Structural Learning of Neural Networks." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS026.

Full text
Abstract:
La structure d'un réseau de neurones détermine dans une large mesure son coût d'entraînement et d'utilisation, ainsi que sa capacité à apprendre. Ces deux aspects sont habituellement en compétition : plus un réseau de neurones est grand, mieux il remplira la tâche qui lui a été assignée, mais plus son entraînement nécessitera des ressources en mémoire et en temps de calcul. L'automatisation de la recherche des structures de réseaux efficaces - de taille raisonnable, mais performantes dans l'accomplissement de la tâche - est donc une question très étudiée dans ce domaine. Dans ce contexte, des réseaux de neurones aux structures variées doivent être entraînés, ce qui nécessite un nouveau jeu d'hyperparamètres d'entraînement à chaque nouvelle structure testée. L'objectif de la thèse est de traiter différents aspects de ce problème. La première contribution est une méthode d'entraînement de réseau qui fonctionne dans un vaste périmètre de structures de réseaux et de tâches à accomplir, sans nécessité de régler le taux d'apprentissage. La deuxième contribution est une technique d'entraînement et d'élagage de réseau, conçue pour être insensible à la largeur initiale de celui-ci. La dernière contribution est principalement un théorème qui permet de traduire une pénalité d'entraînement empirique en a priori bayésien, théoriquement bien fondé. Ce travail résulte d'une recherche des propriétés que doivent théoriquement vérifier les algorithmes d'entraînement et d'élagage pour être valables sur un vaste ensemble de réseaux de neurones et d'objectifs
The structure of a neural network determines to a large extent its cost of training and use, as well as its ability to learn. These two aspects are usually in competition: the larger a neural network is, the better it will perform the task assigned to it, but the more it will require memory and computing time resources for training. Automating the search of efficient network structures -of reasonable size and performing well- is then a very studied question in this area. Within this context, neural networks with various structures are trained, which requires a new set of training hyperparameters for each new structure tested. The aim of the thesis is to address different aspects of this problem. The first contribution is a training method that operates within a large perimeter of network structures and tasks, without needing to adjust the learning rate. The second contribution is a network training and pruning technique, designed to be insensitive to the initial width of the network. The last contribution is mainly a theorem that makes possible to translate an empirical training penalty into a Bayesian prior, theoretically well founded. This work results from a search for properties that theoretically must be verified by training and pruning algorithms to be valid over a wide range of neural networks and objectives
APA, Harvard, Vancouver, ISO, and other styles
16

Etienne, Caroline. "Apprentissage profond appliqué à la reconnaissance des émotions dans la voix." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS517.

Full text
Abstract:
Mes travaux de thèse s'intéressent à l'utilisation de nouvelles technologies d'intelligence artificielle appliquées à la problématique de la classification automatique des séquences audios selon l'état émotionnel du client au cours d'une conversation avec un téléconseiller. En 2016, l'idée est de se démarquer des prétraitements de données et modèles d'apprentissage automatique existant au sein du laboratoire, et de proposer un modèle qui soit le plus performant possible sur la base de données audios IEMOCAP. Nous nous appuyons sur des travaux existants sur les modèles de réseaux de neurones profonds pour la reconnaissance de la parole, et nous étudions leur extension au cas de la reconnaissance des émotions dans la voix. Nous nous intéressons ainsi à l'architecture neuronale bout-en-bout qui permet d'extraire de manière autonome les caractéristiques acoustiques du signal audio en vue de la tâche de classification à réaliser. Pendant longtemps, le signal audio est prétraité avec des indices paralinguistiques dans le cadre d'une approche experte. Nous choisissons une approche naïve pour le prétraitement des données qui ne fait pas appel à des connaissances paralinguistiques spécialisées afin de comparer avec l'approche experte. Ainsi le signal audio brut est transformé en spectrogramme temps-fréquence à l'aide d'une transformée de Fourier à court-terme. Exploiter un réseau neuronal pour une tâche de prédiction précise implique de devoir s'interroger sur plusieurs aspects. D'une part, il convient de choisir les meilleurs hyperparamètres possibles. D'autre part, il faut minimiser les biais présents dans la base de données (non discrimination) en ajoutant des données par exemple et prendre en compte les caractéristiques de la base de données choisie. Le but est d'optimiser le mieux possible l'algorithme de classification. Nous étudions ces aspects pour une architecture neuronale bout-en-bout qui associe des couches convolutives spécialisées dans le traitement de l'information visuelle, et des couches récurrentes spécialisées dans le traitement de l'information temporelle. Nous proposons un modèle d'apprentissage supervisé profond compétitif avec l'état de l'art sur la base de données IEMOCAP et cela justifie son utilisation pour le reste des expérimentations. Ce modèle de classification est constitué de quatre couches de réseaux de neurones à convolution et un réseau de neurones récurrent bidirectionnel à mémoire court-terme et long-terme (BLSTM). Notre modèle est évalué sur deux bases de données audios anglophones proposées par la communauté scientifique : IEMOCAP et MSP-IMPROV. Une première contribution est de montrer qu'avec un réseau neuronal profond, nous obtenons de hautes performances avec IEMOCAP et que les résultats sont prometteurs avec MSP-IMPROV. Une autre contribution de cette thèse est une étude comparative des valeurs de sortie des couches du module convolutif et du module récurrent selon le prétraitement de la voix opéré en amont : spectrogrammes (approche naïve) ou indices paralinguistiques (approche experte). À l'aide de la distance euclidienne, une mesure de proximité déterministe, nous analysons les données selon l'émotion qui leur est associée. Nous tentons de comprendre les caractéristiques de l'information émotionnelle extraite de manière autonome par le réseau. L'idée est de contribuer à une recherche centrée sur la compréhension des réseaux de neurones profonds utilisés en reconnaissance des émotions dans la voix et d'apporter plus de transparence et d'explicabilité à ces systèmes dont le mécanisme décisionnel est encore largement incompris
This thesis deals with the application of artificial intelligence to the automatic classification of audio sequences according to the emotional state of the customer during a commercial phone call. The goal is to improve on existing data preprocessing and machine learning models, and to suggest a model that is as efficient as possible on the reference IEMOCAP audio dataset. We draw from previous work on deep neural networks for automatic speech recognition, and extend it to the speech emotion recognition task. We are therefore interested in End-to-End neural architectures to perform the classification task including an autonomous extraction of acoustic features from the audio signal. Traditionally, the audio signal is preprocessed using paralinguistic features, as part of an expert approach. We choose a naive approach for data preprocessing that does not rely on specialized paralinguistic knowledge, and compare it with the expert approach. In this approach, the raw audio signal is transformed into a time-frequency spectrogram by using a short-term Fourier transform. In order to apply a neural network to a prediction task, a number of aspects need to be considered. On the one hand, the best possible hyperparameters must be identified. On the other hand, biases present in the database should be minimized (non-discrimination), for example by adding data and taking into account the characteristics of the chosen dataset. We study these aspects in order to develop an End-to-End neural architecture that combines convolutional layers specialized in the modeling of visual information with recurrent layers specialized in the modeling of temporal information. We propose a deep supervised learning model, competitive with the current state-of-the-art when trained on the IEMOCAP dataset, justifying its use for the rest of the experiments. This classification model consists of a four-layer convolutional neural networks and a bidirectional long short-term memory recurrent neural network (BLSTM). Our model is evaluated on two English audio databases proposed by the scientific community: IEMOCAP and MSP-IMPROV. A first contribution is to show that, with a deep neural network, we obtain high performances on IEMOCAP, and that the results are promising on MSP-IMPROV. Another contribution of this thesis is a comparative study of the output values ​​of the layers of the convolutional module and the recurrent module according to the data preprocessing method used: spectrograms (naive approach) or paralinguistic indices (expert approach). We analyze the data according to their emotion class using the Euclidean distance, a deterministic proximity measure. We try to understand the characteristics of the emotional information extracted autonomously by the network. The idea is to contribute to research focused on the understanding of deep neural networks used in speech emotion recognition and to bring more transparency and explainability to these systems, whose decision-making mechanism is still largely misunderstood
APA, Harvard, Vancouver, ISO, and other styles
17

Carbajal, Guillaume. "Apprentissage profond bout-en-bout pour le rehaussement de la parole." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0017.

Full text
Abstract:
Cette thèse s'insère dans le développement des systèmes de télécommunication mains-libres, en particulier avec des enceintes intelligentes en environnement domestique. L'utilisateur interagit avec un correspondant distant en étant généralement situé à quelques mètres de ce type de système. Les microphones sont susceptibles de capter des sons de l'environnement qui se mêlent à la voix de l'utilisateur, comme le bruit ambiant, l'écho acoustique et la réverbération. Ces types de distorsions peuvent gêner fortement l'écoute et la compréhension de la conversation par le correspondant distant, et il est donc nécessaire de les réduire. Des méthodes de filtrage existent pour réduire individuellement chacun de ces types de distorsion sonore, et leur réduction simultanée implique de combiner ces méthodes. Toutefois, celles-ci interagissent entre elles, et leurs interactions peuvent dégrader de la voix de l'utilisateur. Il est donc nécessaire d'optimiser conjointement ces méthodes. En premier lieu, nous présentons une approche de réduction de l'écho acoustique combinant un filtre d'annulation d'écho avec un post-filtre de suppression d'écho résiduel conçu de manière à s'adapter à différents modes de fonctionnement du filtre d'annulation. Pour cela, nous proposons d'estimer les coefficients du post-filtre en utilisant les spectres à court terme de plusieurs signaux observés, dont le signal estimé par le filtre d'annulation, en entrée d'un réseau de neurones. Nous montrons que cette approche améliore la performance et la robustesse du post-filtre en matière de réduction d'écho, tout en limitant la dégradation de la parole de l'utilisateur, sur plusieurs scénarios dans des conditions réelles. En second lieu, nous décrivons une approche conjointe de réduction multicanale de l'écho, de la réverbération et du bruit. Nous proposons de modéliser simultanément la parole cible et les signaux résiduels après annulation d'écho et déréverbération dans un cadre probabiliste et de représenter conjointement leurs spectres à court terme à l'aide d'un réseau de neurones récurrent. Nous intégrons cette modélisation dans un algorithme de montée par blocs de coordonnées pour mettre à jour les filtres d'annulation d'écho et de déréverbération, ainsi que le post-filtre de suppression des signaux résiduels. Nous évaluons notre approche sur des enregistrements réels dans différentes conditions. Nous montrons qu'elle améliore la qualité de la parole ainsi que la réduction de l'écho, de la réverbération et du bruit, par rapport à une approche optimisant séparément les méthodes de filtrage et une autre approche de réduction conjointe. En dernier lieu, nous formulons une version en ligne de notre approche adaptée aux situations où les conditions acoustiques varient dans le temps. Nous évaluons la qualité perceptuelle sur des exemples réels où l'utilisateur se déplace durant la conversation
This PhD falls within the development of hands-free telecommunication systems, more specifically smart speakers in domestic environments. The user interacts with another speaker at a far-end point and can be typically a few meters away from this kind of system. The microphones are likely to capture sounds of the environment which are added to the user's voice, such background noise, acoustic echo and reverberation. These types of distortion degrade speech quality, intelligibility and listening comfort for the far-end speaker, and must be reduced. Filtering methods can reduce individually each of these types of distortion. Reducing all of them implies combining the corresponding filtering methods. As these methods interact with each other which can deteriorate the user's speech, they must be jointly optimized. First of all, we introduce an acoustic echo reduction approach which combines an echo cancellation filter with a residual echo postfilter designed to adapt to the echo cancellation filter. To do so, we propose to estimate the postfilter coefficients using the short term spectra of multiple known signals, including the output of the echo cancellation filter, as inputs to a neural network. We show that this approach improves the performance and the robustness of the postfilter in terms of echo reduction, while limiting speech degradation, on several scenarios in real conditions. Secondly, we describe a joint approach for multichannel reduction of echo, reverberation and noise. We propose to simultaneously model the target speech and undesired residual signals after echo cancellation and dereveberation in a probabilistic framework, and to jointly represent their short-term spectra by means of a recurrent neural network. We develop a block-coordinate ascent algorithm to update the echo cancellation and dereverberation filters, as well as the postfilter that reduces the undesired residual signals. We evaluate our approach on real recordings in different conditions. We show that it improves speech quality and reduction of echo, reverberation and noise compared to a cascade of individual filtering methods and another joint reduction approach. Finally, we present an online version of our approach which is suitable for time-varying acoustic conditions. We evaluate the perceptual quality achieved on real examples where the user moves during the conversation
APA, Harvard, Vancouver, ISO, and other styles
18

Douillard, Arthur. "Continual Learning for Computer Vision." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS165.

Full text
Abstract:
Depuis le début des années 2010 la recherche en apprentissage automatique a orienté son attention vers les efficaces réseaux de neurones profonds. Plus particulièrement, toutes les tâches de vision par ordinateur utilisent désormais des réseaux convolutionnels. Ces modèles apprennent à détecter des motifs d'abord simples (contours, textures) puis de plus en plus complexes jusqu'à apprendre le concept d'objets en particulier. Malgré les grandes avancées dans le domaine des réseaux de neurones profonds, un problème important subsiste : comment apprendre une quantité croissante de concepts, à la manière d'un élève durant sa scolarité, sans oublier les précédentes connaissances. Ce problème d'apprentissage continu est complexe : si non traité, les réseaux de neurones oublient catastrophiquement. L'objectif de cette thèse était donc de résoudre de ce problème. J'ai pu dans un premier temps développer plusieurs méthodes pour forcer un comportement similaire entre la version du modèle ayant appris de nouveaux concepts et sa précédente itération. Contrairement au reste de la littérature, qui imposait des contraintes sur le comportement final du modèle, je me suis intéressé aux représentations internes. Dans un second temps, j'ai considéré l'apprentissage continu pour la tâche de segmentation sémantique. Cette tâche complexe possède des problèmes inédits dans un contexte continu en plus de l'oubli catastrophique. J'ai pu proposer plusieurs approches complémentaires pour les résoudre. Plus précisément : une nouvelle méthode de contraintes, une technique de pseudo-annotations et une manière efficace de révisions d'objets. Et enfin, dans un troisième et dernier temps, je m'intéresse aux réseaux de neurones dynamiques,pouvant créer de nouveaux neurones à travers leur existence pour résoudre un nombre croissant de tâche. Les méthodes précédentes grandissent avec peu de contrôles, résultant en des modèles extrêmement lourd, et souvent aussi lents. Donc, en m'inspirant des récents transformers,j'ai conçu une stratégie dynamique avec un coût pratiquement nul, mais ayant malgré tout des performances à l'état-de-l'art
I first review the existing methods based on regularization for continual learning. While regularizing a model's probabilities is very efficient to reduce forgetting in large-scale datasets, there are few works considering constraints on intermediate features. I cover in this chapter two contributions aiming to regularize directly the latent space of ConvNet. The first one, PODNet, aims to reduce the drift of spatial statistics between the old and new model, which in effect reduces drastically forgetting of old classes while enabling efficient learning of new classes. I show in a second part a complementary method where we avoid pre-emptively forgetting by allocating locations in the latent space for yet unseen future class. Then, I describe a recent application of CIL to semantic segmentation. I show that the very nature of CSS offer new specific challenges, namely forgetting on large images and a background shift. We tackle the first problem by extending our distillation loss introduced in the previous chapter to multi-scales. The second problem is solved by an efficient pseudo-labeling strategy. Finally, we consider the common rehearsal learning, but applied this time to CSS. I show that it cannot be used naively because of memory complexity and design a light-weight rehearsal that is even more efficient. Finally, I consider a completely different approach to continual learning: dynamic networks where the parameters are extended during training to adapt to new tasks. Previous works on this domain are hard to train and often suffer from parameter count explosion. For the first time in continual computer vision, we propose to use the Transformer architecture: the model dimension mostly fixed and shared across tasks, except for an expansion of learned task tokens. With an encoder/decoder strategy where the decoder forward is specialized by a task token, we show state-of-the-art robustness to forgetting while our memory and computational complexities barely grow
APA, Harvard, Vancouver, ISO, and other styles
19

Biasutto-Lervat, Théo. "Modélisation de la coarticulation multimodale : vers l'animation d'une tête parlante intelligible." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0019.

Full text
Abstract:
Nous traitons dans cette thèse la modélisation de la coarticulation par les réseaux de neurones, dans l’objectif de synchroniser l’animation d’un visage virtuel 3D à de la parole. La prédiction de ces mouvements articulatoires n’est pas une tâche triviale, en effet, il est bien établi en production de parole que la réalisation d’un phonème est largement influencée par son contexte phonétique, phénomène appelé coarticulation. Nous proposons dans cette thèse un modèle de coarticulation, c’est-à-dire un modèle qui prédit les trajectoires spatiales des articulateurs à partir de la parole. Nous exploiterons pour cela un modèle séquentiel, les réseaux de neurones récurrents (RNN), et plus particulièrement les Gated Recurrent Units, capables de considérer la dynamique de l’articulation au cœur de leur modélisation. Malheureusement, la quantité de données classiquement disponible dans les corpus articulatoires et audiovisuels semblent de prime-abord faibles pour une approche deep learning. Pour pallier cette difficulté, nous proposons une stratégie permettant de fournir au modèle des connaissances sur les gestes articulatoires du locuteur dès son initialisation. La robustesse des RNNs nous a permis d’implémenter notre modèle de coarticulation pour prédire les mouvements des lèvres pour le français et l’allemand, et de la langue pour l’anglais et l’allemand. L’évaluation du modèle fut réalisée par le biais de mesures objectives de la qualité des trajectoires et par des expériences permettant de valider la bonne réalisation des cibles articulatoires critiques. Nous avons également réalisé une évaluation perceptive de la qualité de l’animation des lèvres du visage parlant. Enfin, nous avons conduit une analyse permettant d’explorer les connaissances phonétiques acquises par le modèle après apprentissage
This thesis deals with neural network based coarticulation modeling, and aims to synchronize facial animation of a 3D talking head with speech. Predicting articulatory movements is not a trivial task, as it is well known that production of a phoneme is greatly affected by its phonetic context, a phoneme called coarticulation. We propose in this work a coarticulation model, i.e. a model able to predict spatial trajectories of articulators from speech. We rely on a sequential model, the recurrent neural networks, and more specifically the Gated Recurrent Units, which are able to consider the articulation dynamic as a central component of its modeling. Unfortunately, the typical amount of data in articulatory and audiovisual databases seems to be quite low for a deep learning approach. To overcome this difficulty, we propose to integrate articulatory knowledge into the networks during its initialization. The RNNs robustness allow uw to apply our coarticulation model to predict both face and tongue movements, in french and german for the face, and in english and german for the tongue. Evaluation has been conducted through objective measures of the trajectories, and through experiments to ensure a complete reach of critical articulatory targets. We also conducted a subjective evaluation to attest the perceptual quality of the predicted articulation once applied to our facial animation system. Finally, we analyzed the model after training to explore phonetic knowledges learned
APA, Harvard, Vancouver, ISO, and other styles
20

Bertrand, Hadrien. "Optimisation d'hyper-paramètres en apprentissage profond et apprentissage par transfert : applications en imagerie médicale." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT001/document.

Full text
Abstract:
Ces dernières années, l'apprentissage profond a complètement changé le domaine de vision par ordinateur. Plus rapide, donnant de meilleurs résultats, et nécessitant une expertise moindre pour être utilisé que les méthodes classiques de vision par ordinateur, l'apprentissage profond est devenu omniprésent dans tous les problèmes d'imagerie, y compris l'imagerie médicale.Au début de cette thèse, la construction de réseaux de neurones adaptés à des tâches spécifiques ne bénéficiait pas encore de suffisamment d'outils ni d'une compréhension approfondie. Afin de trouver automatiquement des réseaux de neurones adaptés à des tâches spécifiques, nous avons ainsi apporté des contributions à l’optimisation d’hyper-paramètres de réseaux de neurones. Cette thèse propose une comparaison de certaines méthodes d'optimisation, une amélioration en performance d'une de ces méthodes, l'optimisation bayésienne, et une nouvelle méthode d'optimisation d'hyper-paramètres basé sur la combinaison de deux méthodes existantes : l'optimisation bayésienne et hyperband.Une fois équipés de ces outils, nous les avons utilisés pour des problèmes d'imagerie médicale : la classification de champs de vue en IRM, et la segmentation du rein en échographie 3D pour deux groupes de patients. Cette dernière tâche a nécessité le développement d'une nouvelle méthode d'apprentissage par transfert reposant sur la modification du réseau de neurones source par l'ajout de nouvelles couches de transformations géométrique et d'intensité.En dernière partie, cette thèse revient vers les méthodes classiques de vision par ordinateur, et nous proposons un nouvel algorithme de segmentation qui combine les méthodes de déformations de modèles et l'apprentissage profond. Nous montrons comment utiliser un réseau de neurones pour prédire des transformations globales et locales sans accès aux vérités-terrains de ces transformations. Cette méthode est validé sur la tâche de la segmentation du rein en échographie 3D
In the last few years, deep learning has changed irrevocably the field of computer vision. Faster, giving better results, and requiring a lower degree of expertise to use than traditional computer vision methods, deep learning has become ubiquitous in every imaging application. This includes medical imaging applications. At the beginning of this thesis, there was still a strong lack of tools and understanding of how to build efficient neural networks for specific tasks. Thus this thesis first focused on the topic of hyper-parameter optimization for deep neural networks, i.e. methods for automatically finding efficient neural networks on specific tasks. The thesis includes a comparison of different methods, a performance improvement of one of these methods, Bayesian optimization, and the proposal of a new method of hyper-parameter optimization by combining two existing methods: Bayesian optimization and Hyperband.From there, we used these methods for medical imaging applications such as the classification of field-of-view in MRI, and the segmentation of the kidney in 3D ultrasound images across two populations of patients. This last task required the development of a new transfer learning method based on the modification of the source network by adding new geometric and intensity transformation layers.Finally this thesis loops back to older computer vision methods, and we propose a new segmentation algorithm combining template deformation and deep learning. We show how to use a neural network to predict global and local transformations without requiring the ground-truth of these transformations. The method is validated on the task of kidney segmentation in 3D US images
APA, Harvard, Vancouver, ISO, and other styles
21

Tran, Khanh-Hung. "Semi-supervised dictionary learning and Semi-supervised deep neural network." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPASP014.

Full text
Abstract:
Depuis les années 2010, l’apprentissage automatique (ML) est l’un des sujets qui retient beaucoup l'attention des chercheurs scientifiques. De nombreux modèles de ML ont démontré leur capacité produire d’excellent résultats dans des divers domaines comme Vision par ordinateur, Traitement automatique des langues, Robotique… Toutefois, la plupart de ces modèles emploient l’apprentissage supervisé, qui requiert d’un massive annotation. Par conséquent, l’objectif de cette thèse est d’étudier et de proposer des approches semi-supervisées qui ont plusieurs avantages par rapport à l’apprentissage supervisé. Au lieu d’appliquer directement un classificateur semi-supervisé sur la représentation originale des données, nous utilisons plutôt des types de modèle qui intègrent une phase de l’apprentissage de représentation avant de la phase de classification, pour mieux s'adapter à la non linéarité des données. Dans le premier temps, nous revisitons des outils qui permettent de construire notre modèles semi-supervisés. Tout d’abord, nous présentons deux types de modèle qui possèdent l’apprentissage de représentation dans leur architecture : l’apprentissage de dictionnaire et le réseau de neurones, ainsi que les méthodes d’optimisation pour chaque type de model, en plus, dans le cas de réseau de neurones, nous précisons le problème avec les exemples contradictoires. Ensuite, nous présentons les techniques qui accompagnent souvent avec l’apprentissage semi-supervisé comme l’apprentissage de variétés et le pseudo-étiquetage. Dans le deuxième temps, nous travaillons sur l’apprentissage de dictionnaire. Nous synthétisons en général trois étapes pour construire un modèle semi-supervisée à partir d’un modèle supervisé. Ensuite, nous proposons notre modèle semi-supervisée pour traiter le problème de classification typiquement dans le cas d’un faible nombre d’échantillons d’entrainement (y compris tous labellisés et non labellisés échantillons). D'une part, nous appliquons la préservation de la structure de données de l’espace original à l’espace de code parcimonieux (l’apprentissage de variétés), ce qui est considéré comme la régularisation pour les codes parcimonieux. D'autre part, nous intégrons un classificateur semi-supervisé dans l’espace de code parcimonieux. En outre, nous effectuons le codage parcimonieux pour les échantillons de test en prenant en compte aussi la préservation de la structure de données. Cette méthode apporte une amélioration sur le taux de précision par rapport à des méthodes existantes. Dans le troisième temps, nous travaillons sur le réseau de neurones. Nous proposons une approche qui s’appelle "manifold attack" qui permets de renforcer l’apprentissage de variétés. Cette approche est inspirée par l’apprentissage antagoniste : trouver des points virtuels qui perturbent la fonction de coût sur l’apprentissage de variétés (en la maximisant) en fixant les paramètres du modèle; ensuite, les paramètres du modèle sont mis à jour, en minimisant cette fonction de coût et en fixant les points virtuels. Nous fournissons aussi des critères pour limiter l’espace auquel les points virtuels appartiennent et la méthode pour les initialiser. Cette approche apporte non seulement une amélioration sur le taux de précision mais aussi une grande robustesse contre les exemples contradictoires. Enfin, nous analysons des similarités et des différences, ainsi que des avantages et inconvénients entre l’apprentissage de dictionnaire et le réseau de neurones. Nous proposons quelques perspectives sur ces deux types de modèle. Dans le cas de l’apprentissage de dictionnaire semi-supervisé, nous proposons quelques techniques en inspirant par le réseau de neurones. Quant au réseau de neurones, nous proposons d’intégrer "manifold attack" sur les modèles génératifs
Since the 2010's, machine learning (ML) has been one of the topics that attract a lot of attention from scientific researchers. Many ML models have been demonstrated their ability to produce excellent results in various fields such as Computer Vision, Natural Language Processing, Robotics... However, most of these models use supervised learning, which requires a massive annotation. Therefore, the objective of this thesis is to study and to propose semi-supervised learning approaches that have many advantages over supervised learning. Instead of directly applying a semi-supervised classifier on the original representation of data, we rather use models that integrate a representation learning stage before the classification stage, to better adapt to the non-linearity of the data. In the first step, we revisit tools that allow us to build our semi-supervised models. First, we present two types of model that possess representation learning in their architecture: dictionary learning and neural network, as well as the optimization methods for each type of model. Moreover, in the case of neural network, we specify the problem with adversarial examples. Then, we present the techniques that often accompany with semi-supervised learning such as variety learning and pseudo-labeling. In the second part, we work on dictionary learning. We synthesize generally three steps to build a semi-supervised model from a supervised model. Then, we propose our semi-supervised model to deal with the classification problem typically in the case of a low number of training samples (including both labelled and non-labelled samples). On the one hand, we apply the preservation of the data structure from the original space to the sparse code space (manifold learning), which is considered as regularization for sparse codes. On the other hand, we integrate a semi-supervised classifier in the sparse code space. In addition, we perform sparse coding for test samples by taking into account also the preservation of the data structure. This method provides an improvement on the accuracy rate compared to other existing methods. In the third step, we work on neural network models. We propose an approach called "manifold attack" which allows reinforcing manifold learning. This approach is inspired from adversarial learning : finding virtual points that disrupt the cost function on manifold learning (by maximizing it) while fixing the model parameters; then the model parameters are updated by minimizing this cost function while fixing these virtual points. We also provide criteria for limiting the space to which the virtual points belong and the method for initializing them. This approach provides not only an improvement on the accuracy rate but also a significant robustness to adversarial examples. Finally, we analyze the similarities and differences, as well as the advantages and disadvantages between dictionary learning and neural network models. We propose some perspectives on both two types of models. In the case of semi-supervised dictionary learning, we propose some techniques inspired by the neural network models. As for the neural network, we propose to integrate manifold attack on generative models
APA, Harvard, Vancouver, ISO, and other styles
22

Elbayad, Maha. "Une alternative aux modèles neuronaux séquence-à-séquence pour la traduction automatique." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM012.

Full text
Abstract:
L'apprentissage profond a permis des avancées significatives dans le domaine de la traduction automatique.La traduction automatique neuronale (NMT) s'appuie sur l'entrainement de réseaux de neurones avec un grand nombre de paramètres sur une grand quantité de données parallèles pour apprendre à traduire d'une langue à une autre.Un facteur primordial dans le succès des systèmes NMT est la capacité de concevoir des architectures puissantes et efficaces. Les systèmes de pointe sont des modèles encodeur-décodeurs qui, d'abord, encodent une séquence source sous forme de vecteurs de caractéristiques, puis décodent de façon conditionne la séquence cible.Dans cette thèse, nous remettons en question le paradigme encodeur-décodeur et préconisons de conjointement encoder la source et la cible afin que les deux séquences interagissent à des niveaux d'abstraction croissants. À cette fin, nous introduisons Pervasive Attention, un modèle basé sur des convolutions bidimensionnelles qui encodent conjointement les séquences source et cible avec des interactions qui sont omniprésentes dans le réseau neuronal.Pour améliorer l'efficacité des systèmes NMT, nous étudions la traduction automatique simultanée où la source est lue de manière incrémentielle et le décodeur est alimenté en contextes partiels afin que le modèle puisse alterner entre lecture et écriture. Nous améliorons les agents déterministes qui guident l'alternance lecture / écriture à travers un chemin de décodage rigide et introduisons de nouveaux agents dynamiques pour estimer un chemin de décodage adapté au cas-par-cas.Nous abordons également l'efficacité computationnelle des modèles NMT et affirmons qu'ajouter plus de couches à un réseau de neurones n'est pas requis pour tous les cas.Nous concevons des décodeurs Transformer qui peuvent émettre des prédictions à tout moment dotés de mécanismes d'arrêt adaptatifs pour allouer des ressources en fonction de la complexité de l'instance
In recent years, deep learning has enabled impressive achievements in Machine Translation.Neural Machine Translation (NMT) relies on training deep neural networks with large number of parameters on vast amounts of parallel data to learn how to translate from one language to another.One crucial factor to the success of NMT is the design of new powerful and efficient architectures. State-of-the-art systems are encoder-decoder models that first encode a source sequence into a set of feature vectors and then decode the target sequence conditioning on the source features.In this thesis we question the encoder-decoder paradigm and advocate for an intertwined encoding of the source and target so that the two sequences interact at increasing levels of abstraction. For this purpose, we introduce Pervasive Attention, a model based on two-dimensional convolutions that jointly encode the source and target sequences with interactions that are pervasive throughout the network.To improve the efficiency of NMT systems, we explore online machine translation where the source is read incrementally and the decoder is fed partial contexts so that the model can alternate between reading and writing. We investigate deterministic agents that guide the read/write alternation through a rigid decoding path, and introduce new dynamic agents to estimate a decoding path for each sample.We also address the resource-efficiency of encoder-decoder models and posit that going deeper in a neural network is not required for all instances.We design depth-adaptive Transformer decoders that allow for anytime prediction and sample-adaptive halting mechanisms to favor low cost predictions for low complexity instances and save deeper predictions for complex scenarios
APA, Harvard, Vancouver, ISO, and other styles
23

Alqasir, Hiba. "Apprentissage profond pour l'analyse de scènes de remontées mécaniques : amélioration de la généralisation dans un contexte multi-domaines." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSES045.

Full text
Abstract:
Nous présentons notre travail sur la sécurité des télésièges par des techniques d'apprentissage profond dans le cadre du projet Mivao, qui vise à développer un système de vision par ordinateur qui acquiert des images de la station d'embarquement du télésiège, analyse les éléments essentiels et détecte les situations dangereuses. Dans ce scénario, nous avons différents télésièges répartis sur différentes stations de ski, avec une grande diversité de conditions d'acquisition et de géométries . Lorsque le système est installé pour un nouveau télésiège, l'objectif est d'effectuer une analyse de scène précise et fiable, étant donné le manque de données labellisées sur ce télésiège.Dans ce contexte, nous nous concentrons principalement sur le garde-corps du télésiège et proposons de classer chaque image en deux catégories, selon que le garde-corps est fermé ou ouvert. Il s'agit donc d'un problème de classification des images avec trois spécificités : (i) la catégorie d'image dépend d'un petit détail dans un fond encombré, (ii) les annotations manuelles ne sont pas faciles à obtenir, (iii) un classificateur formé sur certains télésièges devrait donner de bons résultats sur un nouveau. Pour guider le classificateur vers les zones importantes des images, nous avons proposé deux solutions : la détection d'objets et les réseaux siamois.Nos solutions sont motivées par la nécessité de minimiser les efforts d'annotation humaine tout en améliorant la précision du problème de la sécurité des télésièges. Cependant, ces contributions ne sont pas nécessairement limitées à ce contexte spécifique, et elles peuvent être appliquées à d'autres problèmes dans un contexte multi-domaine
This thesis presents our work on chairlift safety using deep learning techniques as part of the Mivao project, which aims to develop a computer vision system that acquires images of the chairlift boarding station, analyzes the crucial elements, and detects dangerous situations. In this scenario, we have different chairlifts spread over different ski resorts, with a high diversity of acquisition conditions and geometries; thus, each chairlift is considered a domain. When the system is installed for a new chairlift, the objective is to perform an accurate and reliable scene analysis, given the lack of labeled data on this new domain (chairlift).In this context, we mainly concentrate on the chairlift safety bar and propose to classify each image into two categories, depending on whether the safety bar is closed (safe) or open (unsafe). Thus, it is an image classification problem with three specific features: (i) the image category depends on a small detail (the safety bar) in a cluttered background, (ii) manual annotations are not easy to obtain, (iii) a classifier trained on some chairlifts should provide good results on a new one (generalization). To guide the classifier towards the important regions of the images, we have proposed two solutions: object detection and Siamese networks. Furthermore, we analyzed the generalization property of these two approaches. Our solutions are motivated by the need to minimize human annotation efforts while improving the accuracy of the chairlift safety problem. However, these contributions are not necessarily limited to this specific application context, and they may be applied to other problems in a multi-domain context
APA, Harvard, Vancouver, ISO, and other styles
24

Mlynarski, Pawel. "Apprentissage profond pour la segmentation des tumeurs cérébrales et des organes à risque en radiothérapie." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4084.

Full text
Abstract:
Les images médicales jouent un rôle important dans le diagnostic et la prise en charge des cancers. Les oncologues analysent des images pour déterminer les différentes caractéristiques de la tumeur, pour proposer un traitement adapté et suivre l'évolution de la maladie. L'objectif de cette thèse est de proposer des méthodes efficaces de segmentation automatique des tumeurs cérébrales et des organes à risque dans le contexte de la radiothérapie, à partir des images de résonance magnétique (IRM). Premièrement, nous nous intéressons à la segmentation des tumeurs cérébrales en utilisant des réseaux neuronaux convolutifs entrainés sur des IRM segmentés par des experts. Nous proposons un modèle de segmentation ayant un grand champ récepteur 3D tout en étant efficace en termes de complexité de calcul, en combinant des réseaux neuronaux convolutifs 2D et 3D. Nous abordons aussi les problèmes liés à l'utilisation conjointe des différentes séquences IRM (T1, T2, FLAIR). Nous introduisons ensuite un modèle de segmentation qui est entrainé avec des images faiblement annotées en complément des images segmentées, souvent disponibles en quantités très limitées du fait de leur coût. Nous montrons que ce niveau mixte de supervision améliore considérablement la performance de segmentation quand le nombre d'images entièrement annotées est limité. Finalement, nous proposons une méthodologie pour segmenter, de manière cohérente anatomiquement, les organes à risque dans le contexte de la radiothérapie des tumeurs cérébrales. Les segmentations produites par notre système sur un ensemble d'IRM acquis dans le Centre Antoine Lacassagne (Nice) sont évaluées par un radiothérapeute expérimenté
Medical images play an important role in cancer diagnosis and treatment. Oncologists analyze images to determine the different characteristics of the cancer, to plan the therapy and to observe the evolution of the disease. The objective of this thesis is to propose efficient methods for automatic segmentation of brain tumors and organs at risk in the context of radiotherapy planning, using Magnetic Resonance (MR) images. First, we focus on segmentation of brain tumors using Convolutional Neural Networks (CNN) trained on MRIs manually segmented by experts. We propose a segmentation model having a large 3D receptive field while being efficient in terms of computational complexity, based on combination of 2D and 3D CNNs. We also address problems related to the joint use of several MRI sequences (T1, T2, FLAIR). Second, we introduce a segmentation model which is trained using weakly-annotated images in addition to fully-annotated images (with voxelwise labels), which are usually available in very limited quantities due to their cost. We show that this mixed level of supervision considerably improves the segmentation accuracy when the number of fully-annotated images is limited.\\ Finally, we propose a methodology for an anatomy-consistent segmentation of organs at risk in the context of radiotherapy of brain tumors. The segmentations produced by our system on a set of MRIs acquired in the Centre Antoine Lacassagne (Nice, France) are evaluated by an experienced radiotherapist
APA, Harvard, Vancouver, ISO, and other styles
25

Ferré, Paul. "Adéquation algorithme-architecture de réseaux de neurones à spikes pour les architectures matérielles massivement parallèles." Thesis, Toulouse 3, 2018. http://www.theses.fr/2018TOU30318/document.

Full text
Abstract:
Cette dernière décennie a donné lieu à la réémergence des méthodes d'apprentissage machine basées sur les réseaux de neurones formels sous le nom d'apprentissage profond. Bien que ces méthodes aient permis des avancées majeures dans le domaine de l'apprentissage machine, plusieurs obstacles à la possibilité d'industrialiser ces méthodes persistent, notamment la nécessité de collecter et d'étiqueter une très grande quantité de données ainsi que la puissance de calcul nécessaire pour effectuer l'apprentissage et l'inférence avec ce type de réseau neuronal. Dans cette thèse, nous proposons d'étudier l'adéquation entre des algorithmes d'inférence et d'apprentissage issus des réseaux de neurones biologiques pour des architectures matérielles massivement parallèles. Nous montrons avec trois contributions que de telles adéquations permettent d'accélérer drastiquement les temps de calculs inhérents au réseaux de neurones. Dans notre premier axe, nous réalisons l'étude d'adéquation du moteur BCVision de Brainchip SAS pour les plate-formes GPU. Nous proposons également l'introduction d'une architecture hiérarchique basée sur des cellules complexes. Nous montrons que l'adéquation pour GPU accélère les traitements par un facteur sept, tandis que l'architecture hiérarchique atteint un facteur mille. La deuxième contribution présente trois algorithmes de propagation de décharges neuronales adaptés aux architectures parallèles. Nous réalisons une étude complète des modèles computationels de ces algorithmes, permettant de sélectionner ou de concevoir un système matériel adapté aux paramètres du réseau souhaité. Dans notre troisième axe nous présentons une méthode pour appliquer la règle Spike-Timing-Dependent-Plasticity à des données images afin d'apprendre de manière non-supervisée des représentations visuelles. Nous montrons que notre approche permet l'apprentissage d'une hiérarchie de représentations pertinente pour des problématiques de classification d'images, tout en nécessitant dix fois moins de données que les autres approches de la littérature
The last decade has seen the re-emergence of machine learning methods based on formal neural networks under the name of deep learning. Although these methods have enabled a major breakthrough in machine learning, several obstacles to the possibility of industrializing these methods persist, notably the need to collect and label a very large amount of data as well as the computing power necessary to perform learning and inference with this type of neural network. In this thesis, we propose to study the adequacy between inference and learning algorithms derived from biological neural networks and massively parallel hardware architectures. We show with three contribution that such adequacy drastically accelerates computation times inherent to neural networks. In our first axis, we study the adequacy of the BCVision software engine developed by Brainchip SAS for GPU platforms. We also propose the introduction of a coarse-to-fine architecture based on complex cells. We show that GPU portage accelerates processing by a factor of seven, while the coarse-to-fine architecture reaches a factor of one thousand. The second contribution presents three algorithms for spike propagation adapted to parallel architectures. We study exhaustively the computational models of these algorithms, allowing the selection or design of the hardware system adapted to the parameters of the desired network. In our third axis we present a method to apply the Spike-Timing-Dependent-Plasticity rule to image data in order to learn visual representations in an unsupervised manner. We show that our approach allows the effective learning a hierarchy of representations relevant to image classification issues, while requiring ten times less data than other approaches in the literature
APA, Harvard, Vancouver, ISO, and other styles
26

Feutry, Clément. "Two sides of relevant information : anonymized representation through deep learning and predictor monitoring." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS479.

Full text
Abstract:
Le travail présenté ici est pour une première partie à l'intersection de l'apprentissage profond et anonymisation. Un cadre de travail complet est développé dans le but d'identifier et de retirer, dans une certaine mesure et de manière automatique, les caractéristiques privées d'une identité pour des données de type image. Deux méthodes différentes de traitement des données sont étudiées. Ces deux méthodes partagent une même architecture de réseau en forme de Y et cela malgré des différences concernant les types de couches de neurones utilisés conséquemment à leur objectif d'utilisation. La première méthode de traitement des données concerne la création ex nihilo de représentations anonymisées permettant un compromis entre la conservation des caractéristiques pertinentes et l'altération des caractéristiques privées. Ce cadre de travail a abouti à une nouvelle fonction de perte.Le deuxième type de traitement des données ne fait usage d'aucune information pertinente sur ces données et utilise uniquement des informations privées; ceci signifie que tout ce qui n'est pas une caractéristiques privées est supposé pertinent. Par conséquent les représentations anonymisées sont de même nature que les données initiales (une image est transformée en une image anonymisée). Cette tâche a conduit à un autre type d'architecture (toujours en forme de Y) et a fourni des résultats fortement sensibles au type des données. La seconde partie de mon travail concerne une autre sorte d'information utile : cette partie se concentre sur la surveillance du comportement des prédicteurs. Dans le cadre de l'analyse de "modèle boîte noire", on a uniquement accès aux probabilités que le prédicteur fournit (sans aucune connaissance du type de structure/architecture qui produit ces probabilités). Cette surveillance est effectuée pour détecter des comportements anormaux. L'étude de ces probabilités peut servir d'indicateur d'inadéquation potentiel entre les statistiques des données et les statistiques du modèle. Deux méthodes utilisant différents outils sont présentées. La première compare la fonction de répartition des statistiques de sortie d'un ensemble connu et d'un ensemble de données à tester. La seconde fait intervenir deux outils : un outil reposant sur l'incertitude du classifieur et un autre outil reposant sur la matrice de confusion. Ces méthodes produisent des résultats concluants
The work presented here is for a first part at the cross section of deep learning and anonymization. A full framework was developed in order to identify and remove to a certain extant, in an automated manner, the features linked to an identity in the context of image data. Two different kinds of processing data were explored. They both share the same Y-shaped network architecture despite components of this network varying according to the final purpose. The first one was about building from the ground an anonymized representation that allowed a trade-off between keeping relevant features and tampering private features. This framework has led to a new loss. The second kind of data processing specified no relevant information about the data, only private information, meaning that everything that was not related to private features is assumed relevant. Therefore the anonymized representation shares the same nature as the initial data (e.g. an image is transformed into an anonymized image). This task led to another type of architecture (still in a Y-shape) and provided results strongly dependent on the type of data. The second part of the work is relative to another kind of relevant information: it focuses on the monitoring of predictor behavior. In the context of black box analysis, we only have access to the probabilities outputted by the predictor (without any knowledge of the type of structure/architecture producing these probabilities). This monitoring is done in order to detect abnormal behavior that is an indicator of a potential mismatch between the data statistics and the model statistics. Two methods are presented using different tools. The first one is based on comparing the empirical cumulative distribution of known data and to be tested data. The second one introduces two tools: one relying on the classifier uncertainty and the other relying on the confusion matrix. These methods produce concluding results
APA, Harvard, Vancouver, ISO, and other styles
27

Firmo, Drumond Thalita. "Apports croisées de l'apprentissage hiérarchique et la modélisation du système visuel : catégorisation d'images sur des petits corpus de données." Thesis, Bordeaux, 2020. https://tel.archives-ouvertes.fr/tel-03129189.

Full text
Abstract:
Les réseaux neuronaux convolutifs profonds ("deep convolutional neural networks" ou DCNN) ont récemment révolutionné la reconnaissance d'objets à grande échelle, modifiant les pratiques en vision par ordinateur, consistant à définir des caractéristiques représentatives "à la main", désormais apprises de façon hiérarchique à partir des données, tout en les classifiant. Fort de la progression des performances matérielles, on exploite efficacement des quantités toujours croissantes d'images recueillies en ligne. Mais, dans des domaines spécifiques, comme en santé ou pour certaines applications, les données sont moins abondantes, et les coûts d'étiquetage par des experts sont plus élevés. Cette rareté conduit à la question centrale de cette thèse : Ces domaines à données limitées peuvent-ils bénéficier des avantages des DCNN pour la classification des images ? Ce travail repose sur une étude approfondie de la littérature, divisée en deux parties principales, avant de proposer des modèles et des mécanismes originaux, expérimentés.La première partie couvre la reconnaissance des objets d'un double point de vue. Tout d'abord, la fonction visuelle biologique, est comparée et contrastée avec la structure, la fonction et les capacités des modèles DCNN. Puis, une revue de l'état-de-l'art identifie les principales catégories d'architectures et les innovations dans les DCNN récents. Cette base interdisciplinaire favorise l'identification des mécanismes — biologiquement et artificiellement inspirés — qui améliorent la reconnaissance d'images dans des situations difficiles. Le traitement récurrent en est un exemple clair : peu présent au niveau de la vision profonde, sauf le traitement aux vidéos — en raison du caractère naturellement séquentiel. Mais la biologie montre clairement qu'un tel traitement joue aussi un rôle dans l'affinement de notre perception d'une scène fixe. Ce thème est approfondi à travers une revue de la littérature consacrée aux architectures convolutionnelles récurrentes utilisées en catégorisation d'images.La deuxième partie se concentre sur notre question centrale~: l'apprentissage profond sur de petits corpus de données. Tout d'abord, le travail propose une discussion plus précise et détaillée de ce problème et de sa relation avec l'apprentissage hiérarchique des caractéristiques réalisé par des modèles profonds. Cette discussion est suivie d'une revue structurée du domaine, organisant et discutant les différentes voies possibles vers l'adaptation des modèles profonds à des données limitées. Plus qu'une simple liste, ce travail vise à trouver du sens dans la myriade d'approches du domaine, en regroupant les méthodes ayant un objectif ou un mécanisme d'action similaire, pour guider le développement d'application particulières, à petits corpus. Cette étude est complétée par une analyse expérimentale, explorant l'apprentissage de petits jeux de données avec des modèles et mécanismes originaux (précédemment publié comme papier de journal).En conclusion, l'apprentissage profond sur des petits corpus de données peut donner de bons résultats, si cela se fait de manière réfléchie. Au niveau des données, il faut essayer de recueillir plus d'informations à partir de sources de données supplémentaires connexes. Au niveau de la complexité, l'architecture et les méthodes d'entraînement peuvent être calibrées afin de tirer le meilleur parti de toute connaissance spécifique au domaine. Des propositions sont discutées en détail au fil du document. Il existe de multiples façons de réduire la complexité de l'apprentissage profond avec de petits échantillons de données, mais il n'y a pas de solution universelle. Chaque méthode a ses propres inconvénients et difficultés pratiques, devant toujours être adaptée spécifiquement à l'application, c'est-à-dire à la tâche perceptive à accomplir
Deep convolutional neural networks (DCNN) have recently protagonized a revolution in large-scale object recognition. They have changed the usual computer vision practices of hand-engineered features, with their ability to hierarchically learn representative features from data with a pertinent classifier. Together with hardware advances, they have made it possible to effectively exploit the ever-growing amounts of image data gathered online. However, in specific domains like healthcare and industrial applications, data is much less abundant, and expert labeling costs higher than those of general purpose image datasets. This scarcity scenario leads to this thesis' core question: can these limited-data domains profit from the advantages of DCNNs for image classification? This question has been addressed throughout this work, based on an extensive study of literature, divided in two main parts, followed by proposal of original models and mechanisms.The first part reviews object recognition from an interdisciplinary double-viewpoint. First, it resorts to understanding the function of vision from a biological stance, comparing and contrasting to DCNN models in terms of structure, function and capabilities. Second, a state-of-the-art review is established aiming to identify the main architectural categories and innovations in modern day DCNNs. This interdisciplinary basis fosters the identification of potential mechanisms - inspired both from biological and artificial structures — that could improve image recognition under difficult situations. Recurrent processing is a clear example: while not completely absent from the "deep vision" literature, it has mostly been applied to videos — due to their inherently sequential nature. From biology however it is clear such processing plays a role in refining our perception of a still scene. This theme is further explored through a dedicated literature review focused on recurrent convolutional architectures used in image classification.The second part carries on in the spirit of improving DCNNs, this time focusing more specifically on our central question: deep learning over small datasets. First, the work proposes a more detailed and precise discussion of the small sample problem and its relation to learning hierarchical features with deep models. This discussion is followed up by a structured view of the field, organizing and discussing the different possible paths towards adapting deep models to limited data settings. Rather than a raw listing, this review work aims to make sense out of the myriad of approaches in the field, grouping methods with similar intent or mechanism of action, in order to guide the development of custom solutions for small-data applications. Second, this study is complemented by an experimental analysis, exploring small data learning with the proposition of original models and mechanisms (previously published as a journal paper).In conclusion, it is possible to apply deep learning to small datasets and obtain good results, if done in a thoughtful fashion. On the data path, one shall try gather more information from additional related data sources if available. On the complexity path, architecture and training methods can be calibrated in order to profit the most from any available domain-specific side-information. Proposals concerning both of these paths get discussed in detail throughout this document. Overall, while there are multiple ways of reducing the complexity of deep learning with small data samples, there is no universal solution. Each method has its own drawbacks and practical difficulties and needs to be tailored specifically to the target perceptual task at hand
APA, Harvard, Vancouver, ISO, and other styles
28

Moukari, Michel. "Estimation de profondeur à partir d'images monoculaires par apprentissage profond." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC211/document.

Full text
Abstract:
La vision par ordinateur est une branche de l'intelligence artificielle dont le but est de permettre à une machine d'analyser, de traiter et de comprendre le contenu d'images numériques. La compréhension de scène en particulier est un enjeu majeur en vision par ordinateur. Elle passe par une caractérisation à la fois sémantique et structurelle de l'image, permettant d'une part d'en décrire le contenu et, d'autre part, d'en comprendre la géométrie. Cependant tandis que l'espace réel est de nature tridimensionnelle, l'image qui le représente, elle, est bidimensionnelle. Une partie de l'information 3D est donc perdue lors du processus de formation de l'image et il est d'autant plus complexe de décrire la géométrie d'une scène à partir d'images 2D de celle-ci.Il existe plusieurs manières de retrouver l'information de profondeur perdue lors de la formation de l'image. Dans cette thèse nous nous intéressons à l’estimation d'une carte de profondeur étant donné une seule image de la scène. Dans ce cas, l'information de profondeur correspond, pour chaque pixel, à la distance entre la caméra et l'objet représenté en ce pixel. L'estimation automatique d'une carte de distances de la scène à partir d'une image est en effet une brique algorithmique critique dans de très nombreux domaines, en particulier celui des véhicules autonomes (détection d’obstacles, aide à la navigation).Bien que le problème de l'estimation de profondeur à partir d'une seule image soit un problème difficile et intrinsèquement mal posé, nous savons que l'Homme peut apprécier les distances avec un seul œil. Cette capacité n'est pas innée mais acquise et elle est possible en grande partie grâce à l'identification d'indices reflétant la connaissance a priori des objets qui nous entourent. Par ailleurs, nous savons que des algorithmes d'apprentissage peuvent extraire ces indices directement depuis des images. Nous nous intéressons en particulier aux méthodes d’apprentissage statistique basées sur des réseaux de neurones profond qui ont récemment permis des percées majeures dans de nombreux domaines et nous étudions le cas de l'estimation de profondeur monoculaire
Computer vision is a branch of artificial intelligence whose purpose is to enable a machine to analyze, process and understand the content of digital images. Scene understanding in particular is a major issue in computer vision. It goes through a semantic and structural characterization of the image, on one hand to describe its content and, on the other hand, to understand its geometry. However, while the real space is three-dimensional, the image representing it is two-dimensional. Part of the 3D information is thus lost during the process of image formation and it is therefore non trivial to describe the geometry of a scene from 2D images of it.There are several ways to retrieve the depth information lost in the image. In this thesis we are interested in estimating a depth map given a single image of the scene. In this case, the depth information corresponds, for each pixel, to the distance between the camera and the object represented in this pixel. The automatic estimation of a distance map of the scene from an image is indeed a critical algorithmic brick in a very large number of domains, in particular that of autonomous vehicles (obstacle detection, navigation aids).Although the problem of estimating depth from a single image is a difficult and inherently ill-posed problem, we know that humans can appreciate distances with one eye. This capacity is not innate but acquired and made possible mostly thanks to the identification of indices reflecting the prior knowledge of the surrounding objects. Moreover, we know that learning algorithms can extract these clues directly from images. We are particularly interested in statistical learning methods based on deep neural networks that have recently led to major breakthroughs in many fields and we are studying the case of the monocular depth estimation
APA, Harvard, Vancouver, ISO, and other styles
29

Medrouk, Indira Lisa. "Réseaux profonds pour la classification des opinions multilingue." Electronic Thesis or Diss., Paris 8, 2018. http://www.theses.fr/2018PA080081.

Full text
Abstract:
À l’ère de l’avènement des réseaux sociaux où tout un chacun peut se targuerd’être un producteur de contenus, l’intérêt grandissant de la recherche etl’industrie pour l’analyse automatique des opinions est un fait incontestable.Cette thèse traite de la fouille d’opinions en adressant principalement une caractéristiqueinhérente aux avis publiés sur le Web reflétant leurs caractèresglobalisés et multilingue.Pour adresser la problématique multilingue des opinions, le modèle proposéest inspiré du processus d’acquisition des langues simultanées avec intensitéégale chez les jeunes enfants. Il est basé sur des réseaux neuronauxprofonds, avec comme intention de se défaire de pré-traitements, de choixmanuels de caractéristiques et surtout d’avoir une chaîne de traitement sansinterdépendances de langues, de traduction ou de langue pivot.L’évaluation du modèle proposé a été effectué sur des corpus composés dequatre langues, à savoir le français, l’anglais, le grec et l’arabe pour répondreà une classification d’opinion suivant deux polarités, positive et négative,ainsi qu’une classification thématique. Les diverses expérimentations alliantvariation de taille de corpus, regroupement bi-tri et quadrilingue présentésà un réseau profond sans modules additionnels ont montré qu’à l’instar dudéveloppement de la compétence bilingue chez l’enfant qui est liée à la qualitéet la quantité de son immersion au contexte linguistique, le réseau apprendmieux dans un environnement riche et varié.Dans le cadre de la problématique de la classification des opinions, ledeuxième volet de la thèse présente une étude comparative de deux modèlesde réseaux profonds : les réseaux convolutionnels et les réseaux récurrents.Notre contribution consiste à démontrer leur complémentarité selon leurscombinaisons dans un contexte multilingue
In the era of social networks where everyone can claim to be a contentproducer, the growing interest in research and industry is an indisputablefact for the opinion mining domain.This thesis is mainly addressing a Web inherent characteristic reflectingits globalized and multilingual character.To address the multilingual opinion mining issue, the proposed model isinspired by the process of acquiring simultaneous languages with equal intensityamong young children. The incorporate corpus-based input is raw, usedwithout any pre-processing, translation, annotation nor additional knowledgefeatures. For the machine learning approach, we use two different deep neuralnetworks. The evaluation of the proposed model was executed on corpusescomposed of four different languages, namely French, English, Greek and Arabic,to emphasize the ability of a deep learning model in order to establishthe sentiment polarity of reviews and topics classification in a multilingualenvironment. The various experiments combining corpus size variations forbi and quadrilingual grouping languages, presented to our models withoutadditional modules, have shown that, such as children bilingual competencedevelopment, which is linked to quality and quantity of their immersion in thelinguistic context, the network learns better in a rich and varied environment.As part of the problem of opinion classification, the second part of thethesis presents a comparative study of two models of deep networks : convolutionalnetworks and recurrent networks. Our contribution consists in demonstratingtheir complementarity according to their combinations in a multilingualcontext
APA, Harvard, Vancouver, ISO, and other styles
30

Paillassa, Maxime. "Détection robuste de sources astronomiques par réseaux de neurones à convolutions." Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0147.

Full text
Abstract:
L'extraction de catalogues de sources fiables à partir des images est cruciale pour un large éventail de recherches en astronomie.Cependant, l'efficacité des méthodes de détection de source actuelles est sérieusement limitée dans les champs encombrés, ou lorsque les images sont contaminées par des défauts optiques, électroniques et environnementaux.Les performances en termes de fiabilité et de complétude sont aujourd'hui souvent insuffisantes au regard des exigences scientifiques des grands relevés d'imagerie.Dans cette thèse, nous développons de nouvelles méthodes pour produire des catalogues sources plus robustes et fiables.Nous tirons parti des progrès récents en apprentissage supervisé profond pour concevoir des modèles génériques et fiables basés sur des réseaux de neurones à convolutions (CNNs).Nous présentons MaxiMask et MaxiTrack, deux réseaux de neurones à convolutions que nous avons entrainés pour identifier automatiquement 13 types différents de défauts d'image dans des expositions astronomiques.Nous présentons également un prototype de détecteur de sources multi-échelle et robuste vis-à-vis des défauts d'image, dont nous montrons qu'il surpasse largement les algorithmes existants en terme de performances.Nous discutons des limites actuelles et des améliorations potentielles de notre approche dans le cadre des prochains grands relevés tels que Euclid
Extracting reliable source catalogs from images is crucial for a broad range of astronomical research topics.However, the efficiency of current source detection methods becomes severely limited in crowded fields, or when images are contaminated by optical, electronic and environmental defects.Performance in terms of reliability and completeness is now often insufficient with regard to the scientific requirements of large imaging surveys.In this thesis, we develop new methods to produce more robust and reliable source catalogs.We leverage recent advances in deep supervised learning to design generic and reliable models based on convolutional neural networks (CNNs).We present MaxiMask and MaxiTrack, two convolutional neural networks that we trained to automatically identify 13 different types of image defects in astronomical exposures.We also introduce a prototype of a multi-scale CNN-based source detector robust to image defects, which we show to significantly outperform existing algorithms.We discuss the current limitations and potential improvements of our approach in the scope of forthcoming large scale surveys such as Euclid
APA, Harvard, Vancouver, ISO, and other styles
31

Wilson, Dennis G. "Évolution des principes de la conception des réseaux de neurones artificiels." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30075.

Full text
Abstract:
Le cerveau biologique est composé d'un ensemble d'éléments qui évoluent depuis des millions d'années. Les neurones et autres cellules forment un réseau complexe d'interactions duquel émerge l'intelligence. Bon nombre de concepts neuronaux provenant de l’étude du cerveau biologique ont été utilisés dans des modèles informatiques pour développer les algorithmes d’intelligence artificielle. C'est particulièrement le cas des réseaux neuronaux profonds modernes qui révolutionnent actuellement de nombreux domaines de recherche en informatique tel que la vision par ordinateur, la traduction automatique, le traitement du langage naturel et bien d'autres. Cependant, les réseaux de neurones artificiels ne sont basés que sur un petit sous-ensemble de fonctionnalités biologiques du cerveau. Ils se concentrent souvent sur les fonctions globales, homogènes et à un système complexe et localement hétérogène. Dans cette thèse, nous avons d'examiner le cerveau biologique, des neurones simples aux réseaux capables d'apprendre. Nous avons examiné individuellement la cellule neuronale, la formation des connexions entre les cellules et comment un réseau apprend au fil du temps. Pour chaque composant, nous avons utilisé l'évolution artificielle pour trouver les principes de conception neuronale qui nous avons optimisés pour les réseaux neuronaux artificiels. Nous proposons aussi un modèle fonctionnel du cerveau qui peut être utilisé pour étudier plus en profondeur certains composants du cerveau, incluant toutes les fonctions conçues pour l'optimisation automatique telles que l'évolution. Notre objectif est d'améliorer la performance des réseaux de neurones artificiels par les moyens inspirés des neurosciences modernes. Cependant, en évaluant les effets biologiques dans le contexte d'un agent virtuel, nous espérons également fournir des modèles de cerveau utiles aux biologistes
The biological brain is an ensemble of individual components which have evolved over millions of years. Neurons and other cells interact in a complex network from which intelligence emerges. Many of the neural designs found in the biological brain have been used in computational models to power artificial intelligence, with modern deep neural networks spurring a revolution in computer vision, machine translation, natural language processing, and many more domains. However, artificial neural networks are based on only a small subset of biological functionality of the brain, and often focus on global, homogeneous changes to a system that is complex and locally heterogeneous. In this work, we examine the biological brain, from single neurons to networks capable of learning. We examine individually the neural cell, the formation of connections between cells, and how a network learns over time. For each component, we use artificial evolution to find the principles of neural design that are optimized for artificial neural networks. We then propose a functional model of the brain which can be used to further study select components of the brain, with all functions designed for automatic optimization such as evolution. Our goal, ultimately, is to improve the performance of artificial neural networks through inspiration from modern neuroscience. However, through evaluating the biological brain in the context of an artificial agent, we hope to also provide models of the brain which can serve biologists
APA, Harvard, Vancouver, ISO, and other styles
32

Godet, Pierre. "Approches par apprentissage pour l’estimation de mouvement multiframe en vidéo." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG005.

Full text
Abstract:
Ce travail porte sur l'exploitation de l'information temporelle sur une séquence de plus de deux images pour l'estimation du flot optique, défini comme le champ dense (en tout pixel) des mouvements apparents dans le repère image. Nous étudions d'une part l'utilisation d'une base de modèles temporels, appris par analyse en composantes principales à partir des données étudiées, pour modéliser la dépendance temporelle du mouvement. Cette première étude se focalise sur le contexte de la vélocimétrie par images de particules en mécanique des fluides. D'autre part, le nouvel état de l'art de l'estimation de flot optique ayant récemment été établi par des méthodes basées sur l'apprentissage profond, nous entraînons des réseaux de neurones convolutifs à estimer le flot optique en profitant de la continuité temporelle, dans le cas de séquences d'images naturelles. Nous proposons ensuite STaRFlow, un réseau de neurones convolutif exploitant une mémoire de l'information du passé au moyen d'une récurrence temporelle. Par application répétée d'une même cellule récurrente, les mêmes paramètres appris sont utilisés pour les différents instants considérés et pour les différents niveaux d'un processus multi-échelle. Cette architecture est plus légère que les réseaux concurrents tout en conférant à STaRFlow des performances à l'état de l'art. Au fil de nos travaux, nous mettons en évidence plusieurs cas où l'utilisation de l'information temporelle permet d'améliorer la qualité de l'estimation, en particulier en présence d'occultations, lorsque la qualité image est dégradée (flou, bruit), ou encore dans le cas d'objets fins
This work concerns the use of temporal information on a sequence of more than two images for optical flow estimation. Optical flow is defined as the dense field (in any pixel) of the apparent movements in the image plane. We study on the one hand the use of a basis of temporal models, learned by principal component analysis from the studied data, to model the temporal dependence of the movement. This first study focuses on the context of particle image velocimetry in fluid mechanics. On the other hand, the new state of the art of optical flow estimation having recently been established by methods based on deep learning, we train convolutional neural networks to estimate optical flow by taking advantage of temporal continuity, in the case of natural image sequences. We then propose STaRFlow, a convolutional neural network exploiting a memory of information from the past by using a temporal recurrence. By repeated application of the same recurrent cell, the same learned parameters are used for the different time steps and for the different levels of a multiscale process. This architecture is lighter than competing networks while giving STaRFlow state-of-the-art performance. In the course of our work, we highlight several cases where the use of temporal information improves the quality of the estimation, in particular in the presence of occlusions, when the image quality is degraded (blur, noise), or in the case of thin objects
APA, Harvard, Vancouver, ISO, and other styles
33

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains." Thesis, Paris, ENST, 2017. http://www.theses.fr/2017ENST0071/document.

Full text
Abstract:
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
APA, Harvard, Vancouver, ISO, and other styles
34

Zimmer, Matthieu. "Apprentissage par renforcement développemental." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0008/document.

Full text
Abstract:
L'apprentissage par renforcement permet à un agent d'apprendre un comportement qui n'a jamais été préalablement défini par l'homme. L'agent découvre l'environnement et les différentes conséquences de ses actions à travers des interactions avec celui-ci : il apprend de sa propre expérience, sans avoir de connaissances préétablies des buts ni des effets de ses actions. Cette thèse s'intéresse à la façon dont l'apprentissage profond peut aider l'apprentissage par renforcement à gérer des espaces continus et des environnements ayant de nombreux degrés de liberté dans l'optique de résoudre des problèmes plus proches de la réalité. En effet, les réseaux de neurones ont une bonne capacité de mise à l'échelle et un large pouvoir de représentation. Ils rendent possible l'approximation de fonctions sur un espace continu et permettent de s'inscrire dans une approche développementale nécessitant peu de connaissances a priori sur le domaine. Nous cherchons comment réduire l'expérience nécessaire à l'agent pour atteindre un comportement acceptable. Pour ce faire, nous avons proposé le cadre Neural Fitted Actor-Critic qui définit plusieurs algorithmes acteur-critique efficaces en données. Nous examinons par quels moyens l'agent peut exploiter pleinement les transitions générées par des comportements précédents en intégrant des données off-policy dans le cadre proposé. Finalement, nous étudions de quelle manière l'agent peut apprendre plus rapidement en tirant parti du développement de son corps, en particulier, en procédant par une augmentation progressive de la dimensionnalité de son espace sensorimoteur
Reinforcement learning allows an agent to learn a behavior that has never been previously defined by humans. The agent discovers the environment and the different consequences of its actions through its interaction: it learns from its own experience, without having pre-established knowledge of the goals or effects of its actions. This thesis tackles how deep learning can help reinforcement learning to handle continuous spaces and environments with many degrees of freedom in order to solve problems closer to reality. Indeed, neural networks have a good scalability and representativeness. They make possible to approximate functions on continuous spaces and allow a developmental approach, because they require little a priori knowledge on the domain. We seek to reduce the amount of necessary interaction of the agent to achieve acceptable behavior. To do so, we proposed the Neural Fitted Actor-Critic framework that defines several data efficient actor-critic algorithms. We examine how the agent can fully exploit the transitions generated by previous behaviors by integrating off-policy data into the proposed framework. Finally, we study how the agent can learn faster by taking advantage of the development of his body, in particular, by proceeding with a gradual increase in the dimensionality of its sensorimotor space
APA, Harvard, Vancouver, ISO, and other styles
35

Jacques, Céline. "Méthodes d'apprentissage automatique pour la transcription automatique de la batterie." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS150.

Full text
Abstract:
Cette thèse se concentre sur les méthodes d’apprentissage pour la transcription automatique de la batterie. Elles sont basées sur un algorithme de transcription utilisant une méthode de décomposition non-négative, la NMD. Cette thèse soulève deux principales problématiques : l’adaptation des méthodes au signal analysé et l’utilisation de l’apprentissage profond. La prise en compte des informations du signal analysé dans le modèle peut être réalisée par leur introduction durant les étapes de décomposition. Une première approche est de reformuler l’étape de décomposition dans un contexte probabiliste pour faciliter l’introduction d’informations a posteriori avec des méthodes comme la SI-PLCA et la NMD statistique. Une deuxième approche est d’implémenter directement dans la NMD une stratégie d’adaptation : l’application de filtres modelables aux motifs pour modéliser les conditions d’enregistrement ou l’adaptation des motifs appris directement au signal en appliquant de fortes contraintes pour conserver leur signification physique. La deuxième approche porte sur la sélection des segments de signaux à analyser. Il est préférable d’analyser les segments où au moins un événement percussif a lieu. Un détecteur d’onsets basé sur un réseau de neurones convolutif (CNN) est adapté pour détecter uniquement les onsets percussifs. Les résultats obtenus étant très intéressants, le détecteur est entraîné à ne détecter qu’un seul instrument permettant la réalisation de la transcription des trois principaux instruments de batterie avec trois CNN. Finalement, l’utilisation d’un CNN multi-sorties est étudiée pour transcrire la partie de batterie avec un seul réseau
This thesis focuses on learning methods for automatic transcription of the battery. They are based on a transcription algorithm using a non-negative decomposition method, NMD. This thesis raises two main issues: the adaptation of methods to the analyzed signal and the use of deep learning. Taking into account the information of the signal analyzed in the model can be achieved by their introduction during the decomposition steps. A first approach is to reformulate the decomposition step in a probabilistic context to facilitate the introduction of a posteriori information with methods such as SI-PLCA and statistical NMD. A second approach is to implement an adaptation strategy directly in the NMD: the application of modelable filters to the patterns to model the recording conditions or the adaptation of the learned patterns directly to the signal by applying strong constraints to preserve their physical meaning. The second approach concerns the selection of the signal segments to be analyzed. It is best to analyze segments where at least one percussive event occurs. An onset detector based on a convolutional neural network (CNN) is adapted to detect only percussive onsets. The results obtained being very interesting, the detector is trained to detect only one instrument allowing the transcription of the three main drum instruments with three CNNs. Finally, the use of a CNN multi-output is studied to transcribe the part of battery with a single network
APA, Harvard, Vancouver, ISO, and other styles
36

Mollaret, Sébastien. "Artificial intelligence algorithms in quantitative finance." Thesis, Paris Est, 2021. http://www.theses.fr/2021PESC2002.

Full text
Abstract:
L'intelligence artificielle est devenue de plus en plus populaire en finance quantitative avec l'augmentation des capacités de calcul ainsi que de la complexité des modèles et a conduit à de nombreuses applications financières. Dans cette thèse, nous explorons trois applications différentes pour résoudre des défis concernant le domaine des dérivés financiers allant de la sélection de modèle, à la calibration de modèle ainsi que la valorisation des dérivés. Dans la Partie I, nous nous intéressons à un modèle avec changement de régime de volatilité afin de valoriser des dérivés sur actions. Les paramètres du modèle sont estimés à l'aide de l'algorithme d'Espérance-Maximisation (EM) et une composante de volatilité locale est ajoutée afin que le modèle soit calibré sur les prix d'options vanilles à l'aide de la méthode particulaire. Dans la Partie II, nous utilisons ensuite des réseaux de neurones profonds afin de calibrer un modèle à volatilité stochastique, dans lequel la volatilité est représentée par l'exponentielle d'un processus d'Ornstein-Uhlenbeck, afin d'approximer la fonction qui lie les paramètres du modèle aux volatilités implicites correspondantes hors ligne. Une fois l'approximation couteuse réalisée hors ligne, la calibration se réduit à un problème d'optimisation standard et rapide. Dans la Partie III, nous utilisons enfin des réseaux de neurones profonds afin de valorisation des options américaines sur de grands paniers d'actions pour surmonter la malédiction de la dimension. Différentes méthodes sont étudiées avec une approche de type Longstaff-Schwartz, où nous approximons les valeurs de continuation, et une approche de type contrôle stochastique, où nous résolvons l'équation différentielle partielle de valorisation en la reformulant en problème de contrôle stochastique à l'aide de la formule de Feynman-Kac non linéaire
Artificial intelligence has become more and more popular in quantitative finance given the increase of computer capacities as well as the complexity of models and has led to many financial applications. In the thesis, we have explored three different applications to solve financial derivatives challenges, from model selection, to model calibration and pricing. In Part I, we focus on a regime-switching model to price equity derivatives. The model parameters are estimated using the Expectation-Maximization (EM) algorithm and a local volatility component is added to fit vanilla option prices using the particle method. In Part II, we then use deep neural networks to calibrate a stochastic volatility model, where the volatility is modelled as the exponential of an Ornstein-Uhlenbeck process, by approximating the mapping between model parameters and corresponding implied volatilities offline. Once the expensive approximation has been performed offline, the calibration reduces to a standard & fast optimization problem.In Part III, we finally use deep neural networks to price American option on large baskets to solve the curse of the dimensionality. Different methods are studied with a Longstaff-Schwartz approach, where we approximate the continuation values, and a stochastic control approach, where we solve the pricing partial differential equation by reformulating the problem as a stochastic control problem using the non-linear Feynman-Kac formula
APA, Harvard, Vancouver, ISO, and other styles
37

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Full text
Abstract:
La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent
Early classification (EC) of time series is a recent research topic in the field of sequential data analysis. It consists in assigning a label to some data that is sequentially collected with new data points arriving over time, and the prediction of a label has to be made using as few data points as possible in the sequence. The EC problem is of paramount importance for supporting decision makers in many real-world applications, ranging from process control to fraud detection. It is particularly interesting for applications concerned with the costs induced by the acquisition of data points, or for applications which seek for rapid label prediction in order to take early actions. This is for example the case in the field of health, where it is necessary to provide a medical diagnosis as soon as possible from the sequence of medical observations collected over time. Another example is predictive maintenance with the objective to anticipate the breakdown of a machine from its sensor signals. In this doctoral work, we developed a new approach for this problem, based on the formulation of a sequential decision making problem, that is the EC model has to decide between classifying an incomplete sequence or delaying the prediction to collect additional data points. Specifically, we described this problem as a Partially Observable Markov Decision Process noted EC-POMDP. The approach consists in training an EC agent with Deep Reinforcement Learning (DRL) in an environment characterized by the EC-POMDP. The main motivation for this approach was to offer an end-to-end model for EC which is able to simultaneously learn optimal patterns in the sequences for classification and optimal strategic decisions for the time of prediction. Also, the method allows to set the importance of time against accuracy of the classification in the definition of rewards, according to the application and its willingness to make this compromise. In order to solve the EC-POMDP and model the policy of the EC agent, we applied an existing DRL algorithm, the Double Deep-Q-Network algorithm, whose general principle is to update the policy of the agent during training episodes, using a replay memory of past experiences. We showed that the application of the original algorithm to the EC problem lead to imbalanced memory issues which can weaken the training of the agent. Consequently, to cope with those issues and offer a more robust training of the agent, we adapted the algorithm to the EC-POMDP specificities and we introduced strategies of memory management and episode management. In experiments, we showed that these contributions improved the performance of the agent over the original algorithm, and that we were able to train an EC agent which compromised between speed and accuracy, on each sequence individually. We were also able to train EC agents on public datasets for which we have no expertise, showing that the method is applicable to various domains. Finally, we proposed some strategies to interpret the decisions of the agent, validate or reject them. In experiments, we showed how these solutions can help gain insight in the choice of action made by the agent
APA, Harvard, Vancouver, ISO, and other styles
38

Arnold, Ludovic. "Learning Deep Representations : Toward a better new understanding of the deep learning paradigm." Phd thesis, Université Paris Sud - Paris XI, 2013. http://tel.archives-ouvertes.fr/tel-00842447.

Full text
Abstract:
Since 2006, deep learning algorithms which rely on deep architectures with several layers of increasingly complex representations have been able to outperform state-of-the-art methods in several settings. Deep architectures can be very efficient in terms of the number of parameters required to represent complex operations which makes them very appealing to achieve good generalization with small amounts of data. Although training deep architectures has traditionally been considered a difficult problem, a successful approach has been to employ an unsupervised layer-wise pre-training step to initialize deep supervised models. First, unsupervised learning has many benefits w.r.t. generalization because it only relies on unlabeled data which is easily found. Second, the possibility to learn representations layer by layer instead of all layers at once improves generalization further and reduces computational time. However, deep learning is a very recent approach and still poses a lot of theoretical and practical questions concerning the consistency of layer-wise learning with many layers and difficulties such as evaluating performance, performing model selection and optimizing layers. In this thesis we first discuss the limitations of the current variational justification for layer-wise learning which does not generalize well to many layers. We ask if a layer-wise method can ever be truly consistent, i.e. capable of finding an optimal deep model by training one layer at a time without knowledge of the upper layers. We find that layer-wise learning can in fact be consistent and can lead to optimal deep generative models. To do this, we introduce the Best Latent Marginal (BLM) upper bound, a new criterion which represents the maximum log-likelihood of a deep generative model where the upper layers are unspecified. We prove that maximizing this criterion for each layer leads to an optimal deep architecture, provided the rest of the training goes well. Although this criterion cannot be computed exactly, we show that it can be maximized effectively by auto-encoders when the encoder part of the model is allowed to be as rich as possible. This gives a new justification for stacking models trained to reproduce their input and yields better results than the state-of-the-art variational approach. Additionally, we give a tractable approximation of the BLM upper-bound and show that it can accurately estimate the final log-likelihood of models. Taking advantage of these theoretical advances, we propose a new method for performing layer-wise model selection in deep architectures, and a new criterion to assess whether adding more layers is warranted. As for the difficulty of training layers, we also study the impact of metrics and parametrization on the commonly used gradient descent procedure for log-likelihood maximization. We show that gradient descent is implicitly linked with the metric of the underlying space and that the Euclidean metric may often be an unsuitable choice as it introduces a dependence on parametrization and can lead to a breach of symmetry. To mitigate this problem, we study the benefits of the natural gradient and show that it can restore symmetry, regrettably at a high computational cost. We thus propose that a centered parametrization may alleviate the problem with almost no computational overhead.
APA, Harvard, Vancouver, ISO, and other styles
39

Chandra, Siddhartha. "Apprentissage Profond pour des Prédictions Structurées Efficaces appliqué à la Classification Dense en Vision par Ordinateur." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC033/document.

Full text
Abstract:
Dans cette thèse, nous proposons une technique de prédiction structurée qui combine les vertus des champs aléatoires conditionnels Gaussiens (G-CRF) avec les réseaux de neurones convolutifs (CNN). L’idée à l’origine de cette thèse est l’observation que tout en étant d’une forme limitée, les GCRF nous permettent d’effectuer une inférence exacte de Maximum-A-Posteriori (MAP) de manière efficace. Nous préférons l’exactitude et la simplicité à la généralité et préconisons la prédiction structurée basée sur les G-CRFs dans les chaînes de traitement d’apprentissage en profondeur. Nous proposons des méthodes de prédiction structurées qui permettent de gérer (i) l’inférence exacte, (ii) les interactions par paires à court et à long terme, (iii) les expressions CNN riches pour les termes paires et (iv) l’entraînement de bout en bout aux côtés des CNN. Nous concevons de nouvelles stratégies de mise en œuvre qui nous permettent de surmonter les problèmes de mémoire et de calcul lorsque nous traitons des modèles graphiques entièrement connectés. Ces méthodes sont illustrées par des études expérimentales approfondies qui démontrent leur utilité. En effet, nos méthodes permettent une amélioration des résultats vis-à-vis de L’état de l’art sur des applications variées dans le domaine de la vision par ordinateur
In this thesis we propose a structured prediction technique that combines the virtues of Gaussian Conditional Random Fields (G-CRFs) with Convolutional Neural Networks (CNNs). The starting point of this thesis is the observation that while being of a limited form GCRFs allow us to perform exact Maximum-APosteriori (MAP) inference efficiently. We prefer exactness and simplicity over generality and advocate G-CRF based structured prediction in deep learning pipelines. Our proposed structured prediction methods accomodate (i) exact inference, (ii) both shortand long- term pairwise interactions, (iii) rich CNN-based expressions for the pairwise terms, and (iv) end-to-end training alongside CNNs. We devise novel implementation strategies which allow us to overcome memory and computational challenges
APA, Harvard, Vancouver, ISO, and other styles
40

Carvalho, Micael. "Deep representation spaces." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS292.

Full text
Abstract:
Ces dernières années, les techniques d’apprentissage profond ont fondamentalement transformé l'état de l'art de nombreuses applications de l'apprentissage automatique, devenant la nouvelle approche standard pour plusieurs d’entre elles. Les architectures provenant de ces techniques ont été utilisées pour l'apprentissage par transfert, ce qui a élargi la puissance des modèles profonds à des tâches qui ne disposaient pas de suffisamment de données pour les entraîner à partir de zéro. Le sujet d'étude de cette thèse couvre les espaces de représentation créés par les architectures profondes. Dans un premier temps, nous étudions les propriétés de leurs espaces, en prêtant un intérêt particulier à la redondance des dimensions et la précision numérique de leurs représentations. Nos résultats démontrent un fort degré de robustesse, pointant vers des schémas de compression simples et puissants. Ensuite, nous nous concentrons sur le l'affinement de ces représentations. Nous choisissons d'adopter un problème multi-tâches intermodal et de concevoir une fonction de coût capable de tirer parti des données de plusieurs modalités, tout en tenant compte des différentes tâches associées au même ensemble de données. Afin d'équilibrer correctement ces coûts, nous développons également un nouveau processus d'échantillonnage qui ne prend en compte que des exemples contribuant à la phase d'apprentissage, c'est-à-dire ceux ayant un coût positif. Enfin, nous testons notre approche sur un ensemble de données à grande échelle de recettes de cuisine et d'images associées. Notre méthode améliore de 5 fois l'état de l'art sur cette tâche, et nous montrons que l'aspect multitâche de notre approche favorise l'organisation sémantique de l'espace de représentation, lui permettant d'effectuer des sous-tâches jamais vues pendant l'entraînement, comme l'exclusion et la sélection d’ingrédients. Les résultats que nous présentons dans cette thèse ouvrent de nombreuses possibilités, y compris la compression de caractéristiques pour les applications distantes, l'apprentissage multi-modal et multitâche robuste et l'affinement de l'espace des caractéristiques. Pour l'application dans le contexte de la cuisine, beaucoup de nos résultats sont directement applicables dans une situation réelle, en particulier pour la détection d'allergènes, la recherche de recettes alternatives en raison de restrictions alimentaires et la planification de menus
In recent years, Deep Learning techniques have swept the state-of-the-art of many applications of Machine Learning, becoming the new standard approach for them. The architectures issued from these techniques have been used for transfer learning, which extended the power of deep models to tasks that did not have enough data to fully train them from scratch. This thesis' subject of study is the representation spaces created by deep architectures. First, we study properties inherent to them, with particular interest in dimensionality redundancy and precision of their features. Our findings reveal a strong degree of robustness, pointing the path to simple and powerful compression schemes. Then, we focus on refining these representations. We choose to adopt a cross-modal multi-task problem, and design a loss function capable of taking advantage of data coming from multiple modalities, while also taking into account different tasks associated to the same dataset. In order to correctly balance these losses, we also we develop a new sampling scheme that only takes into account examples contributing to the learning phase, i.e. those having a positive loss. Finally, we test our approach in a large-scale dataset of cooking recipes and associated pictures. Our method achieves a 5-fold improvement over the state-of-the-art, and we show that the multi-task aspect of our approach promotes a semantically meaningful organization of the representation space, allowing it to perform subtasks never seen during training, like ingredient exclusion and selection. The results we present in this thesis open many possibilities, including feature compression for remote applications, robust multi-modal and multi-task learning, and feature space refinement. For the cooking application, in particular, many of our findings are directly applicable in a real-world context, especially for the detection of allergens, finding alternative recipes due to dietary restrictions, and menu planning
APA, Harvard, Vancouver, ISO, and other styles
41

Ran, Peipei. "Imaging and diagnostic of sub-wavelength micro-structures, from closed-form algorithms to deep learning." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG061.

Full text
Abstract:
Le test électromagnétique d’un ensemble fini en forme de grille de tiges diélectriques cylindriques circulaires infiniment longues dont certaines manquent est investigué à partir de données fréquence simple et multiple et en régime temporel. Les distances sous-longueur d’onde entre tiges adjacentes et des diamètres de tige de sous-longueur d’onde sont considérées sur toute la bande de fréquences d’opération et cela conduit à un défi majeur en raison du besoin de super-résolution dans la microstructure, bien au-delà du critère de Rayleigh. Tout un ensemble de méthodes de résolution est étudié et des simulations numériques systématiques illustrent avantages et inconvénients, complétées par le traitement de données expérimentales en laboratoire acquises sur un prototype de micro-structure en chambre anéchoïque micro-onde. Ces méthodes, qui diffèrent selon les informations a priori prises en compte et la polyvalence qui en résulte, comprennent retournement temporel, inversions de source de contraste, binaires ou parcimonieuses, ainsi que réseaux de neurones convolutifs éventuellement combinés avec des réseaux récurrents
Electromagnetic probing of a gridlike, finite set of infinitely long circular cylindrical dielectric rods affected by missing ones is investigated from time-harmonic single and multiple frequency data. Sub-wavelength distances between adjacent rods and sub-wavelength rod diameters are assumed throughout the frequency band of operation and this leads to a severe challenge due to need of super-resolution within the present micro-structure, well beyond the Rayleigh criterion. A wealth of solution methods is investigated and comprehensive numerical simulations illustrate pros and cons, completed by processing laboratory-controlled experimental data acquired on a micro-structure prototype in a microwave anechoic chamber. These methods, which differ per a priori information accounted for and consequent versatility, include time-reversal, binary-specialized contrast-source and sparsity-constrained inversions, and convolutional neural networks possibly combined with recurrent ones
APA, Harvard, Vancouver, ISO, and other styles
42

Diallo, Boubacar. "Mesure de l'intégrité d'une image : des modèles physiques aux modèles d'apprentissage profond." Thesis, Poitiers, 2020. http://www.theses.fr/2020POIT2293.

Full text
Abstract:
Les images numériques sont devenues un outil de communication visuel puissant et efficace pour transmettre des messages, diffuser des idées et prouver des faits. L’apparition du smartphone avec une grande diversité de marques et de modèles facilite la création de nouveaux contenus visuels et leur diffusion dans les réseaux sociaux et les plateformes de partage d’images. Liés à ce phénomène de création et publication d'images et aidés par la disponibilité et la facilité d’utilisation des logiciels de manipulation d’images, de nombreux problèmes sont apparus allant de la diffusion de contenu illégal à la violation du droit d’auteur. La fiabilité des images numériques est remise en cause que ce soit pour de simples utilisateurs ou pour des professionnels experts tels que les tribunaux et les enquêteurs de police. Le phénomène des « fake news » est un exemple bien connu et répandu d’utilisation malveillante d’images numériques sur les réseaux.De nombreux chercheurs du domaine de la cybersécurité des images ont relevé les défis scientifiques liés aux manipulations des images. De nombreuses méthodes aux performances intéressantes ont été développées basées sur le traitement automatique des images et plus récemment l'adoption de l'apprentissage profond. Malgré la diversité des techniques proposées, certaines ne fonctionnent que pour certaines conditions spécifiques et restent vulnérables à des attaques malveillantes relativement simples. En effet, les images collectées sur Internet imposent de nombreuses contraintes aux algorithmes remettant en question de nombreuses techniques de vérification d’intégrité existantes. Il existe deux particularités principales à prendre en compte pour la détection d'une falsification : l’une est le manque d'informations sur l'acquisition de l'image d'origine, l'autre est la forte probabilité de transformations automatiques liées au partage de l'image telles que la compression avec pertes ou le redimensionnement.Dans cette thèse, nous sommes confrontés à plusieurs de ces défis liés à la cybersécurité des images notamment l’identification de modèles de caméra et la détection de falsification d’images. Après avoir passé en revue l'état de l'art du domaine, nous proposons une première méthode basée sur les données pour l’identification de modèles de caméra. Nous utilisons les techniques d’apprentissage profond basées sur les réseaux de neurones convolutifs (CNN) et développons une stratégie d’apprentissage prenant en compte la qualité des données d’entrée par rapport à la transformation appliquée. Une famille de réseaux CNN a été conçue pour apprendre les caractéristiques du modèle de caméra directement à partir d’une collection d’images subissant les mêmes transformations que celles couramment utilisées sur Internet. Notre intérêt s'est porté sur la compression avec pertes pour nos expérimentations, car c’est le type de post-traitement le plus utilisé sur Internet. L’approche proposée fournit donc une solution robuste face à la compression pour l’identification de modèles de caméra. Les performances obtenues par notre approche de détection de modèles de caméra sont également utilisées et adaptées pour la détection et la localisation de falsification d’images. Les performances obtenues soulignent la robustesse de nos propositions pour la classification de modèles de caméra et la détection de falsification d'images
Digital images have become a powerful and effective visual communication tool for delivering messages, diffusing ideas, and proving facts. The smartphone emergence with a wide variety of brands and models facilitates the creation of new visual content and its dissemination in social networks and image sharing platforms. Related to this phenomenon and helped by the availability and ease of use of image manipulation softwares, many issues have arisen ranging from the distribution of illegal content to copyright infringement. The reliability of digital images is questioned for common or expert users such as court or police investigators. A well known phenomenon and widespread examples are the "fake news" which oftenly include malicious use of digital images.Many researchers in the field of image forensic have taken up the scientific challenges associated with image manipulation. Many methods with interesting performances have been developed based on automatic image processing and more recently the adoption of deep learning. Despite the variety of techniques offered, performance are bound to specific conditions and remains vulnerable to relatively simple malicious attacks. Indeed, the images collected on the Internet impose many constraints on algorithms questioning many existing integrity verification techniques. There are two main peculiarities to be taken into account for the detection of a falsification: one is the lack of information on pristine image acquisition, the other is the high probability of automatic transformations linked to the image-sharing platforms such as lossy compression or resizing.In this thesis, we focus on several of these image forensic challenges including camera model identification and image tampering detection. After reviewing the state of the art in the field, we propose a first data-driven method for identifying camera models. We use deep learning techniques based on convolutional neural networks (CNNs) and develop a learning strategy considering the quality of the input data versus the applied transformation. A family of CNN networks has been designed to learn the characteristics of the camera model directly from a collection of images undergoing the same transformations as those commonly used on the Internet. Our interest focused on lossy compression for our experiments, because it is the most used type of post-processing on the Internet. The proposed approach, therefore, provides a robust solution to compression for camera model identification. The performance achieved by our camera model detection approach is also used and adapted for image tampering detection and localization. The performances obtained underline the robustness of our proposals for camera model identification and image forgery detection
APA, Harvard, Vancouver, ISO, and other styles
43

Dvornik, Mikita. "Learning with Limited Annotated Data for Visual Understanding." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM050.

Full text
Abstract:
La capacité des méthodes d'apprentissage profond à exceller en vision par ordinateur dépend fortement de la quantité de données annotées disponibles pour la formation. Pour certaines tâches, l'annotation peut être trop coûteuse et demander trop de travail, devenant ainsi le principal obstacle à une meilleure précision. Les algorithmes qui apprennent automatiquement à partir des données, sans supervision humaine, donnent de bien pires résultats que leurs homologues entièrement supervisés. Il y a donc une forte motivation à travailler sur des méthodes efficaces d'apprentissage avec des annotations limitées. Cette thèse propose d'exploiter les connaissances préalables sur la tâche et développe des solutions plus efficaces pour la compréhension des scènes et la classification de quelques images.Les principaux défis de la compréhension des scènes comprennent la détection d'objets, la sémantique et la segmentation des instances. De même, toutes ces tâches visent à reconnaître et localiser des objets, au niveau de la région ou au niveau plus précis des pixels, ce qui rend le processus d'annotation difficile. La première contribution de ce manuscrit est un réseau neuronal convolutionnel (CNN) qui effectue à la fois la détection d'objets et la segmentation sémantique. Nous concevons une architecture de réseau spécialisée, qui est formée pour résoudre les deux problèmes en un seul passage et qui fonctionne en temps réel. Grâce à la procédure de formation multitâche, les deux tâches bénéficient l'une de l'autre en termes de précision, sans données supplémentaires étiquetées.La deuxième contribution introduit une nouvelle technique d'augmentation des données, c'est-à-dire l'augmentation artificielle de la quantité de données de formation. Il vise à créer de nouvelles scènes par copier-coller d'objets d'une image à l'autre, dans un ensemble de données donné. Placer un objet dans un contexte approprié s'est avéré crucial pour améliorer la compréhension de la scène. Nous proposons de modéliser explicitement le contexte visuel à l'aide d'un CNN qui découvre les corrélations entre les catégories d'objets et leur voisinage typique, puis propose des emplacements réalistes à augmenter. Dans l'ensemble, le collage d'objets aux "bons endroits" permet d'améliorer les performances de détection et de segmentation des objets, avec des gains plus importants dans les scénarios d'annotations limitées.Pour certains problèmes, les données sont extrêmement rares et un algorithme doit apprendre de nouveaux concepts à partir de quelques exemples. Peu de classification consiste à apprendre un modèle prédictif capable de s'adapter efficacement à une nouvelle classe, avec seulement quelques échantillons annotés. Alors que la plupart des méthodes actuelles se concentrent sur le mécanisme d'adaptation, peu de travaux ont abordé explicitement le problème du manque de données sur la formation. Dans notre troisième article, nous montrons qu'en s'attaquant à la question fondamentale de la variance élevée des classificateurs d'apprentissage à faible tir, il est possible de surpasser considérablement les techniques existantes plus sophistiquées. Notre approche consiste à concevoir un ensemble de réseaux profonds pour tirer parti de la variance des classificateurs et à introduire de nouvelles stratégies pour encourager les réseaux à coopérer, tout en encourageant la diversité des prédictions. En faisant correspondre différentes sorties de réseaux sur des images d'entrée similaires, nous améliorons la précision et la robustesse du modèle par rapport à la formation d'ensemble classique. De plus, un seul réseau obtenu par distillation montre des performances similaires à celles de l'ensemble complet et donne des résultats à la pointe de la technologie, sans surcharge de calcul au moment du test
The ability of deep-learning methods to excel in computer vision highly depends on the amount of annotated data available for training. For some tasks, annotation may be too costly and labor intensive, thus becoming the main obstacle to better accuracy. Algorithms that learn from data automatically, without human supervision, perform substantially worse than their fully-supervised counterparts. Thus, there is a strong motivation to work on effective methods for learning with limited annotations. This thesis proposes to exploit prior knowledge about the task and develops more effective solutions for scene understanding and few-shot image classification.Main challenges of scene understanding include object detection, semantic and instance segmentation. Similarly, all these tasks aim at recognizing and localizing objects, at region- or more precise pixel-level, which makes the annotation process difficult. The first contribution of this manuscript is a Convolutional Neural Network (CNN) that performs both object detection and semantic segmentation. We design a specialized network architecture, that is trained to solve both problems in one forward pass, and operates in real-time. Thanks to the multi-task training procedure, both tasks benefit from each other in terms of accuracy, with no extra labeled data.The second contribution introduces a new technique for data augmentation, i.e., artificially increasing the amount of training data. It aims at creating new scenes by copy-pasting objects from one image to another, within a given dataset. Placing an object in a right context was found to be crucial in order to improve scene understanding performance. We propose to model visual context explicitly using a CNN that discovers correlations between object categories and their typical neighborhood, and then proposes realistic locations for augmentation. Overall, pasting objects in ``right'' locations allows to improve object detection and segmentation performance, with higher gains in limited annotation scenarios.For some problems, the data is extremely scarce, and an algorithm has to learn new concepts from a handful of examples. Few-shot classification consists of learning a predictive model that is able to effectively adapt to a new class, given only a few annotated samples. While most current methods concentrate on the adaptation mechanism, few works have tackled the problem of scarce training data explicitly. In our third contribution, we show that by addressing the fundamental high-variance issue of few-shot learning classifiers, it is possible to significantly outperform more sophisticated existing techniques. Our approach consists of designing an ensemble of deep networks to leverage the variance of the classifiers, and introducing new strategies to encourage the networks to cooperate, while encouraging prediction diversity. By matching different networks outputs on similar input images, we improve model accuracy and robustness, comparing to classical ensemble training. Moreover, a single network obtained by distillation shows similar to the full ensemble performance and yields state-of-the-art results with no computational overhead at test time
APA, Harvard, Vancouver, ISO, and other styles
44

Millan, Mégane. "L'apprentissage profond pour l'évaluation et le retour d'information lors de l'apprentissage de gestes." Thesis, Sorbonne université, 2020. http://www.theses.fr/2020SORUS057.

Full text
Abstract:
Apprendre un nouveau sport, ou un métier manuel est complexe. En effet, de nombreux gestes doivent être assimilés afin d’atteindre un bon niveau de compétences. Cependant, l’apprentissage de ces gestes ne peut se faire seul. En effet, il est nécessaire de voir la réalisation du geste d’un œil expert afin d’indiquer les corrections pour s’améliorer. Or les experts, que ce soit en sport ou dans les métiers manuels, sont peu disponibles pour analyser et évaluer les gestes d’un novice. Afin d’aider les experts dans cette tâche d’analyse, il est possible de développer des coachs virtuels. Selon les domaines, le coach va posséder plus ou moins de compétences, mais une évaluation selon des critères précis est toujours à privilégier. Fournir un retour sur les erreurs commises est également essentiel pour l’apprentissage d’un novice. Dans cette thèse, différentes solutions pour développer des coachs virtuels les plus efficaces possibles sont proposées. Dans un premier temps, et comme évoqué précédemment, il est nécessaire d’évaluer les gestes. Dans cette optique, un premier travail a consisté à comprendre les enjeux de l’analyse de gestes automatique, afin de développer un algorithme d’évaluation automatique qui soit le plus performant possible. Par la suite, deux algorithmes d’évaluation automatique de la qualité de gestes sont proposés. Ces deux algorithmes fondés sur l’apprentissage profond, ont par la suite été testés sur deux bases de données de gestes différentes afin d’évaluer leur généricité. Une fois l’évaluation réalisée, il est nécessaire de fournir un retour d’information pertinent à l’apprenant sur ses erreurs. Afin de garder une continuité dans les travaux réalisés, ce retour est également fondé sur les réseaux de neurones et l’apprentissage profond. En s’inspirant des méthodes d’explicabilité de réseaux de neurones, une méthode a été développée. Elle permet de remonter aux instants du geste où des erreurs ont été commises selon le modèle d’évaluation. Enfin coupler cette méthode à de la segmentation sémantique, permet d’indiquer aux apprenants quelle partie du geste a été mal réalisée, mais également de lui fournir des statistiques et une courbe d’apprentissage
Learning a new sport or manual work is complex. Indeed, many gestures have to be assimilated in order to reach a good level of skill. However, learning these gestures cannot be done alone. Indeed, it is necessary to see the gesture execution with an expert eye in order to indicate corrections for improvement. However, experts, whether in sports or in manual works, are not always available to analyze and evaluate a novice’s gesture. In order to help experts in this task of analysis, it is possible to develop virtual coaches. Depending on the field, the virtual coach will have more or less skills, but an evaluation according to precise criteria is always mandatory. Providing feedback on mistakes is also essential for the learning of a novice. In this thesis, different solutions for developing the most effective virtual coaches are proposed. First of all, and as mentioned above, it is necessary to evaluate the gestures. From this point of view, a first part consisted in understanding the stakes of automatic gesture analysis, in order to develop an automatic evaluation algorithm that is as efficient as possible. Subsequently, two algorithms for automatic quality evaluation are proposed. These two algorithms, based on deep learning, were then tested on two different gestures databases in order to evaluate their genericity. Once the evaluation has been carried out, it is necessary to provide relevant feedback to the learner on his errors. In order to maintain continuity in the work carried out, this feedback is also based on neural networks and deep learning. A method has been developed based on neural network explanability methods. It allows to go back to the moments of the gestures when errors were made according to the evaluation model. Finally, coupled with semantic segmentation, this method makes it possible to indicate to learners which part of the gesture was badly performed, and to provide them with statistics and a learning curve
APA, Harvard, Vancouver, ISO, and other styles
45

Sanabria, Rosas Laura Melissa. "Détection et caractérisation des moments saillants pour les résumés automatiques." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4104.

Full text
Abstract:
Le contenu vidéo est présent dans un nombre toujours plus grand de domaines, tant scientifiques que commerciaux. Le sport, en particulier le football, est l'une des industries qui a le plus investi dans le domaine de l'analyse vidéo, en raison de la popularité massive de ce sport. Bien que plusieurs méthodes de l'état de l'art utilisent des heuristiques pour générer des résumés de matchs de football, elles ont prouvé que de multiples modalités aident à détecter les meilleures actions du match. D'autre part, le domaine du résumé vidéo à usage général a progressé rapidement, offrant plusieurs approches d'apprentissage profond. Cependant, beaucoup d'entre elles sont basées sur des hypothèses qui ne sont pas réalisables pour les vidéos sportives. Le contenu vidéo a été pendant de nombreuses années la principale source pour les tâches automatiques dans le football, mais les données qui enregistrent tous les événements qui se produisent sur le terrain sont devenues dernièrement très importantes dans l'analyse du sport, car ces données d'événements fournissent des informations plus riches et nécessitent moins de traitement. Considérant que dans le résumé automatique de sports, l'objectif n'est pas seulement de montrer les actions les plus importantes du jeu, mais aussi d'évoquer autant d'émotions que celles évoquées par les éditeurs humains, nous proposons une méthode pour générer le résumé d'une vidéo de match de football en exploitant les métadonnées d'événement de tout le match et le contenu diffusé à la télévision. Nous avons conçu une architecture, introduisant (1) une méthode d'apprentissage d'instances multiples qui prend en compte la dépendance séquentielle entre les événements, (2) une couche d'attention multimodale hiérarchique qui saisit l'importance de chaque événement dans une action et (3) une méthode pour générer automatiquement plusieurs résumés d'un match de football en choisissant parmi une distribution de rangs, fournissant plusieurs résumés candidats qui sont suffisamment similaires mais avec une variabilité pertinente pour fournir différentes options à l'utilisateur final.De plus, nous avons proposé des solutions à certains défis supplémentaires dans le domaine du résumé des sports. À partir des signaux internes d'un modèle d'attention qui utilise des données d'événements comme entrée, nous avons introduit une représentation graphique des actions où l'axe des x du graphique représente la séquence d'événements et l'axe des y est la valeur du poids appris par la couche d'attention. Cette nouvelle représentation fournit un nouvel outil à l'éditeur contenant des informations significatives pour décider si une action est importante. Nous proposons également l'utilisation de techniques de repérage de mots-clés et de boosting pour détecter chaque fois qu'un joueur est mentionné par les commentateurs
Video content is present in an ever-increasing number of fields, both scientific and commercial. Sports, particularly soccer, is one of the industries that has invested the most in the field of video analytics, due to the massive popularity of the game. Although several state-of-the-art methods rely on handcrafted heuristics to generate summaries of soccer games, they have proven that multiple modalities help detect the best actions of the game. On the other hand, the field of general-purpose video summarization has advanced rapidly, offering several deep learning approaches. However, many of them are based on properties that are not feasible for sports videos. Video content has been for many years the main source for automatic tasks in soccer but the data that registers all the events happening on the field have become lately very important in sports analytics, since these event data provide richer information and requires less processing. Considering that in automatic sports summarization, the goal is not only to show the most important actions of the game, but also to evoke as much emotion as those evoked by human editors, we propose a method to generate the summary of a soccer match video exploiting the event metadata of the entire match and the content broadcast on TV. We have designed an architecture, introducing (1) a Multiple Instance Learning method that takes into account the sequential dependency among events, (2) a hierarchical multimodal attention layer that grasps the importance of each event in an action and (3) a method to automatically generate multiple summaries of a soccer match by sampling from a ranking distribution, providing multiple candidate summaries which are similar enough but with relevant variability to provide different options to the final user.We also introduced solutions to some additional challenges in the field of sports summarization. Based on the internal signals of an attention model that uses event data as input, we proposed a method to analyze the interpretability of our model through a graphical representation of actions where the x-axis of the graph represents the sequence of events, and the y-axis is the weight value learned by the attention layer. This new representation provides a new tool for the editor containing meaningful information to decide whether an action is important. We also proposed the use of keyword spotting and boosting techniques to detect every time a player is mentioned by the commentators as a solution for the missing event data
APA, Harvard, Vancouver, ISO, and other styles
46

Le, Thien-Hoa. "Neural Methods for Sentiment Analysis and Text Summarization." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0037.

Full text
Abstract:
Cette thèse aborde deux questions majeures du traitement automatique du langage naturel liées à l'analyse sémantique des textes : la détection des sentiments, et le résumé automatique. Dans ces deux applications, la nécessité d'analyser le sens du texte de manière précise est primordiale, d'une part pour identifier le sentiment exprimé au travers des mots, et d'autre part pour extraire les informations saillantes d’une phrase complexe et les réécrire de la manière la plus naturelle possible tout en respectant la sémantique du texte d'origine. Nous abordons ces deux questions par des approches d'apprentissage profond, qui permettent d'exploiter au mieux les données, en particulier lorsqu'elles sont disponibles en grande quantité. Analyse des sentiments neuronale. De nombreux réseaux de neurones convolutionnels profonds ont été adaptés du domaine de la vision aux tâches d’analyse des sentiments et de classification des textes. Cependant, ces études ne permettent pas de conclure de manière satisfaisante quant à l'importance de la profondeur du réseau pour obtenir les meilleures performances en classification de textes. Dans cette thèse, nous apportons de nouveaux éléments pour répondre à cette question. Nous proposons une adaptation du réseau convolutionnel profond DenseNet pour la classification de texte et étudions l’importance de la profondeur avec différents niveaux de granularité en entrée (mots ou caractères). Nous montrons que si les modèles profonds offrent de meilleures performances que les réseaux peu profonds lorsque le texte est représenté par une séquence de caractères, ce n'est pas le cas avec des mots. En outre, nous proposons de modéliser conjointement sentiments et actes de dialogue, qui constituent un facteur explicatif influent pour l’analyse du sentiment. Nous avons annoté manuellement les dialogues et les sentiments sur un corpus de micro-blogs, et entraîné un réseau multi-tâches sur ce corpus. Nous montrons que l'apprentissage par transfert peut être efficacement réalisé entre les deux tâches et analysons de plus certaines corrélations spécifiques entre ces deux aspects. Résumé de texte neuronal. L'analyse de sentiments n'apporte qu'une partie de l'information sémantique contenue dans les textes et est insuffisante pour bien comprendre le texte d'origine et prendre des décisions fondées. L'utilisateur d'un tel système a également besoin des raisons sous-jacentes pour vraiment comprendre les documents. Dans cette partie, notre objectif est d'étudier une autre forme d'information sémantique fournie par les modèles de résumé automatique. Nous proposons ainsi un modèle de résumé qui présente de meilleures propriétés d’explicabilité et qui est suffisamment souple pour prendre en charge divers modules d’analyse syntaxique. Plus spécifiquement, nous linéarisons l’arbre syntaxique sous la forme de segments de texte superposés, qui sont ensuite sélectionnés par un apprentissage par renforcement (RL) et re-générés sous une forme compressée. Par conséquent, le modèle proposé est capable de gérer à la fois le résumé par extraction et par abstraction. En outre, les modèles de résumé automatique faisant de plus en plus appel à des approches d'apprentissage par renforcement, nous proposons une étude basée sur l'analyse syntaxique des phrases pour tenter de mieux comprendre quels types d'information sont pris en compte dans ces approches. Nous comparons ainsi de manière détaillée les modèles avec apprentissage par renforcement et les modèles exploitant une connaissance syntaxique supplémentaire des phrases ainsi que leur combinaison, selon plusieurs dimensions liées à la qualité perçue des résumés générés. Nous montrons lorsqu'il existe une contrainte de ressources (calcul et mémoire) qu'il est préférable de n'utiliser que l'apprentissage par renforcement, qui donne des résultats presque aussi satisfaisants que des modèles syntaxiques, avec moins de paramètres et une convergence plus rapide
This thesis focuses on two Natural Language Processing tasks that require to extract semantic information from raw texts: Sentiment Analysis and Text Summarization. This dissertation discusses issues and seeks to improve neural models on both tasks, which have become the dominant paradigm in the past several years. Accordingly, this dissertation is composed of two parts: the first part (Neural Sentiment Analysis) deals with the computational study of people's opinions, sentiments, and the second part (Neural Text Summarization) tries to extract salient information from a complex sentence and rewrites it in a human-readable form. Neural Sentiment Analysis. Similar to computer vision, numerous deep convolutional neural networks have been adapted to sentiment analysis and text classification tasks. However, unlike the image domain, these studies are carried on different input data types and on different datasets, which makes it hard to know if a deep network is truly needed. In this thesis, we seek to find elements to address this question, i.e. whether neural networks must compute deep hierarchies of features for textual data in the same way as they do in vision. We thus propose a new adaptation of the deepest convolutional architecture (DenseNet) for text classification and study the importance of depth in convolutional models with different atom-levels (word or character) of input. We show that deep models indeed give better performances than shallow networks when the text input is represented as a sequence of characters. However, a simple shallow-and-wide network outperforms the deep DenseNet models with word inputs. Besides, to further improve sentiment classifiers and contextualize them, we propose to model them jointly with dialog acts, which are a factor of explanation and correlate with sentiments but are nevertheless often ignored. We have manually annotated both dialogues and sentiments on a Twitter-like social medium, and train a multi-task hierarchical recurrent network on joint sentiment and dialog act recognition. We show that transfer learning may be efficiently achieved between both tasks, and further analyze some specific correlations between sentiments and dialogues on social media. Neural Text Summarization. Detecting sentiments and opinions from large digital documents does not always enable users of such systems to take informed decisions, as other important semantic information is missing. People also need the main arguments and supporting reasons from the source documents to truly understand and interpret the document. To capture such information, we aim at making the neural text summarization models more explainable. We propose a model that has better explainability properties and is flexible enough to support various shallow syntactic parsing modules. More specifically, we linearize the syntactic tree into the form of overlapping text segments, which are then selected with reinforcement learning (RL) and regenerated into a compressed form. Hence, the proposed model is able to handle both extractive and abstractive summarization. Further, we observe that RL-based models are becoming increasingly ubiquitous for many text summarization tasks. We are interested in better understanding what types of information is taken into account by such models, and we propose to study this question from the syntactic perspective. We thus provide a detailed comparison of both RL-based and syntax-aware approaches and of their combination along several dimensions that relate to the perceived quality of the generated summaries such as number of repetitions, sentence length, distribution of part-of-speech tags, relevance and grammaticality. We show that when there is a resource constraint (computation and memory), it is wise to only train models with RL and without any syntactic information, as they provide nearly as good results as syntax-aware models with less parameters and faster training convergence
APA, Harvard, Vancouver, ISO, and other styles
47

Belilovsky, Eugene. "Apprentissage de graphes structuré et parcimonieux dans des données de haute dimension avec applications à l’imagerie cérébrale." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLC027.

Full text
Abstract:
Cette thèse présente de nouvelles méthodes d’apprentissage structuré et parcimonieux sur les graphes, ce qui permet de résoudre une large variété de problèmes d’imagerie cérébrale, ainsi que d’autres problèmes en haute dimension avec peu d’échantillon. La première partie de cette thèse propose des relaxation convexe de pénalité discrète et combinatoriale impliquant de la parcimonie et bounded total variation d’un graphe, ainsi que la bounded `2. Ceux-ci sont dévelopé dansle but d’apprendre un modèle linéaire interprétable et on démontre son efficacacité sur des données d’imageries cérébrales ainsi que sur les problèmes de reconstructions parcimonieux.Les sections successives de cette thèse traite de la découverte de structure sur des modèles graphiques “undirected” construit à partir de peu de données. En particulier, on se concentre sur des hypothèses de parcimonie et autres hypothèses de structures dans les modèles graphiques gaussiens. Deux contributions s’en dégagent. On construit une approche pour identifier les différentes entre des modèles graphiques gaussiens (GGMs) qui partagent la même structure sous-jacente. On dérive la distribution de différences de paramètres sous une pénalité jointe quand la différence des paramètres est parcimonieuse. On montre ensuite comment cette approche peut être utilisée pour obtenir des intervalles de confiances sur les différences prises par le GGM sur les arêtes. De là, on introduit un nouvel algorithme d’apprentissage lié au problème de découverte de structure sur les modèles graphiques non dirigées des échantillons observés. On démontre que les réseaux de neurones peuvent être utilisés pour apprendre des estimateurs efficacaces de ce problèmes. On montre empiriquement que ces méthodes sont une alternatives flexible et performantes par rapport aux techniques existantes
This dissertation presents novel structured sparse learning methods on graphs that address commonly found problems in the analysis of neuroimaging data as well as other high dimensional data with few samples. The first part of the thesis proposes convex relaxations of discrete and combinatorial penalties involving sparsity and bounded total variation on a graph as well as bounded `2 norm. These are developed with the aim of learning an interpretable predictive linear model and we demonstrate their effectiveness on neuroimaging data as well as a sparse image recovery problem.The subsequent parts of the thesis considers structure discovery of undirected graphical models from few observational data. In particular we focus on invoking sparsity and other structured assumptions in Gaussian Graphical Models (GGMs). To this end we make two contributions. We show an approach to identify differences in Gaussian Graphical Models (GGMs) known to have similar structure. We derive the distribution of parameter differences under a joint penalty when parameters are known to be sparse in the difference. We then show how this approach can be used to obtain confidence intervals on edge differences in GGMs. We then introduce a novel learning based approach to the problem structure discovery of undirected graphical models from observational data. We demonstrate how neural networks can be used to learn effective estimators for this problem. This is empirically shown to be flexible and efficient alternatives to existing techniques
APA, Harvard, Vancouver, ISO, and other styles
48

Zhang, Jian. "Modèles de Mobilité de Véhicules par Apprentissage Profond dans les Systèmes de Tranport Intelligents." Thesis, Ecole centrale de Lille, 2018. http://www.theses.fr/2018ECLI0015/document.

Full text
Abstract:
Les systèmes de transport intelligents ont acquis un grand intérêt pour la recherche ces dernières années. Alors que la simulation réaliste du trafic joue un rôle important, elle n'a pas reçu suffisamment d'attention. Cette thèse est consacrée à l'étude de la simulation du trafic au niveau microscopique et propose des modèles de mobilité des véhicules correspondants. À l'aide de méthodes d'apprentissage profond, ces modèles de mobilité ont fait leurs preuves avec une crédibilité prometteuse pour représenter les véhicules dans le monde réel. D'abord, un modèle de mobilité basé sur un réseau de neurones piloté par les données est proposé. Ce modèle provient de données de trajectoires du monde réel et permet de mimer des comportements de véhicules locaux. En analysant les performances de ce modèle de mobilité basé sur un apprentissage de base, nous indiquons qu’une amélioration est possible et proposons ses spécifications. Un MMC est alors introduit. La préparation de cette intégration est nécessaire, ce qui comprend un examen des modèles de mobilité traditionnels basés sur la dynamique et l’adaptation des modèles « classiques » à notre situation. Enfin, le modèle amélioré est présenté et une simulation de scénarios sophistiqués est construite pour valider les résultats théoriques. La performance de notre modèle de mobilité est prometteuse et des problèmes de mise en œuvre sont également discutés
The intelligent transportation systems gain great research interests in recent years. Although the realistic traffic simulation plays an important role, it has not received enough attention. This thesis is devoted to studying the traffic simulation in microscopic level, and proposes corresponding vehicular mobility models. Using deep learning methods, these mobility models have been proven with a promising credibility to represent the vehicles in real-world. Firstly, a data-driven neural network based mobility model is proposed. This model comes from real-world trajectory data and allows mimicking local vehicle behaviors. By analyzing the performance of this basic learning based mobility model, we indicate that an improvement is possible and we propose its specification. An HMM is then introduced. The preparation of this integration is necessary, which includes an examination of traditional dynamics based mobility models and the adaptation method of “classical” models to our situation. At last, the enhanced model is presented, and a sophisticated scenario simulation is built with it to validate the theoretical results. The performance of our mobility model is promising and implementation issues have also been discussed
APA, Harvard, Vancouver, ISO, and other styles
49

Pascal, Lucas. "Optimization of deep multi-task networks." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS535.

Full text
Abstract:
L'apprentissage multi-tâches est un paradigme d'apprentissage impliquant l’optimisation de paramètres par rapport à plusieurs tâches simultanément. En apprenant plusieurs tâches liées, un modèle d'apprentissage dispose d'un ensemble d'informations plus complet concernant le domaine dont les tâches sont issues, lui permettant ainsi de construire un meilleur ensemble d’hypothèse sur ce domaine. Cependant, en pratique, les gains de performance obtenus par les réseaux multi-tâches sont loin d'être systématiques. Il arrive au contraire que ces réseaux subissent une perte de performance liée à des phénomènes d’interférences entre les différentes tâches. Cette thèse traite du problème d'interférences en apprentissage multi-tâches, afin d'améliorer les capacités de généralisation des réseaux de neurones profonds
Multi-task learning (MTL) is a learning paradigm involving the joint optimization of parameters with respect to multiple tasks. By learning multiple related tasks, a learner receives more complete and complementary information on the input domain from which the tasks are issued. This allows to gain better understanding of the domain by building a more accurate set of assumptions of it. However, in practice, the broader use of MTL is hindered by the lack of consistent performance gains observed by deep multi-task networks. It is often the case that deep MTL networks suffer from performance degradation caused by task interference. This thesis addresses the problem of task interference in Multi-Task learning, in order to improve the generalization capabilities of deep neural networks
APA, Harvard, Vancouver, ISO, and other styles
50

Chen, Mickaël. "Learning with weak supervision using deep generative networks." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS024.

Full text
Abstract:
Nombre des succès de l’apprentissage profond reposent sur la disponibilité de données massivement collectées et annotées, exploités par des algorithmes supervisés. Ces annotations, cependant, peuvent s’avérer difficiles à obtenir. La conception de méthodes peu gourmandes en annotations est ainsi un enjeu important, abordé dans des approches semi-supervisées ou faiblement supervisées. Par ailleurs ont été récemment introduit les réseaux génératifs profonds, capable de manipuler des distributions complexes et à l’origine d’avancées majeures, en édition d’image et en adaptation de domaine par exemple. Dans cette thèse, nous explorons comment ces outils nouveaux peuvent être exploités pour réduire les besoins en annotations. En premier lieu, nous abordons la tâche de prédiction stochastique. Il s’agit de concevoir des systèmes de prédiction structurée tenant compte de la diversité des réponses possibles. Nous proposons dans ce cadre deux modèles, le premier pour des données multi-vues avec vues manquantes, et le second pour la prédiction de futurs possibles d'une séquence vidéo. Ensuite, nous étudions la décomposition en deux facteurs latents indépendants dans le cas où un seul facteur est annoté. Nous proposons des modèles qui visent à retrouver des représentations latentes sémantiquement cohérentes de ces facteurs explicatifs. Le premier modèle est appliqué en génération de données de capture de mouvements, le second, sur des données multi-vues. Enfin, nous nous attaquons au problème, crucial en vision par ordinateur, de la segmentation d’image. Nous proposons un modèle, inspiré des idées développées dans cette thèse, de segmentation d’objet entièrement non supervisé
Many successes of deep learning rely on the availability of massive annotated datasets that can be exploited by supervised algorithms. Obtaining those labels at a large scale, however, can be difficult, or even impossible in many situations. Designing methods that are less dependent on annotations is therefore a major research topic, and many semi-supervised and weakly supervised methods have been proposed. Meanwhile, the recent introduction of deep generative networks provided deep learning methods with the ability to manipulate complex distributions, allowing for breakthroughs in tasks such as image edition and domain adaptation. In this thesis, we explore how these new tools can be useful to further alleviate the need for annotations. Firstly, we tackle the task of performing stochastic predictions. It consists in designing systems for structured prediction that take into account the variability in possible outputs. We propose, in this context, two models. The first one performs predictions on multi-view data with missing views, and the second one predicts possible futures of a video sequence. Then, we study adversarial methods to learn a factorized latent space, in a setting with two explanatory factors but only one of them is annotated. We propose models that aim to uncover semantically consistent latent representations for those factors. One model is applied to the conditional generation of motion capture data, and another one to multi-view data. Finally, we focus on the task of image segmentation, which is of crucial importance in computer vision. Building on previously explored ideas, we propose a model for object segmentation that is entirely unsupervised
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography