Rozprawy doktorskie na temat „Apprentissages profond”

Kliknij ten link, aby zobaczyć inne rodzaje publikacji na ten temat: Apprentissages profond.

Utwórz poprawne odniesienie w stylach APA, MLA, Chicago, Harvard i wielu innych

Wybierz rodzaj źródła:

Sprawdź 50 najlepszych rozpraw doktorskich naukowych na temat „Apprentissages profond”.

Przycisk „Dodaj do bibliografii” jest dostępny obok każdej pracy w bibliografii. Użyj go – a my automatycznie utworzymy odniesienie bibliograficzne do wybranej pracy w stylu cytowania, którego potrzebujesz: APA, MLA, Harvard, Chicago, Vancouver itp.

Możesz również pobrać pełny tekst publikacji naukowej w formacie „.pdf” i przeczytać adnotację do pracy online, jeśli odpowiednie parametry są dostępne w metadanych.

Przeglądaj rozprawy doktorskie z różnych dziedzin i twórz odpowiednie bibliografie.

1

Hassanaly, Ravi. "Pseudo-healthy image reconstruction with deep generative models for the detection of dementia-related anomalies". Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS118.

Pełny tekst źródła
Streszczenie:
La neuroimagerie est devenue un outil essentiel dans l'étude des marqueurs de la maladie d'Alzheimer. Cependant, l'analyse de ces images complexes provenant de différentes modalités d'imagerie cérébrale reste un défi majeur pour les cliniciens. Pour surmonter cette difficulté, les méthodes de deep learning ont émergé comme une solution prometteuse pour l'analyse automatique et robuste des données de neuroimagerie. Dans cette thèse, nous explorons l'utilisation de modèles génératifs profonds pour la détection d'anomalies associées à la démence dans les données de tomographie par émission de positons au 18F-fluorodésoxyglucose (TEP au FDG). Notre méthode repose sur le principe de la reconstruction pseudo-saine, où nous entraînons un modèle génératif à reconstruire des images saines à partir de données pathologiques. Cette approche présente l'avantage de ne pas nécessiter de données annotées, qui sont longues et couteuses à acquérir, ainsi que d'être généralisable à différents types d'anomalies. Nous avons choisi d'implémenter un autoencodeur variationnel (VAE), un modèle simple mais qui a fait ses preuves dans le domaine du deep learning. Cependant, analyser la performance de nos modèles génératifs sans disposer de données labellisées ou de cartes d'anomalies mène à une évaluation incomplète. Pour résoudre ce problème, nous avons mis en place un cadre d'évaluation basé sur la simulation d'hypométabolisme dans les images de TEP au FDG. Ainsi, en créant des paires d'images saines et pathologiques, nous sommes en mesure d'évaluer la capacité du modèle à reconstruire des images pseudo-saines. De plus, cette méthodologie nous a permis de définir de nouvelles métriques pour évaluer la qualité des reconstructions générées par les modèles génératifs. Le cadre d'évaluation a rendu possible une étude comparative sur une vingtaine de variantes du VAE dans le contexte de la reconstruction pseudo-saine de TEP au FDG. Cela nous a permis d'identifier les modèles les plus performants pour la détection des anomalies liées à la démence. Enfin, plusieurs contributions significatives ont été apportées à des logiciels open-source. Un pipeline de traitement d'images TEP a été intégré au logiciel Clinica. De plus, cette thèse a donné lieu à de nombreux apports au logiciel ClinicaDL, avec notamment l'amélioration de sa structure, l'ajout de nouvelles fonctionnalités, la maintenance du logiciel, ou encore la participation à la gestion du projet
Neuroimaging has become an essential tool in the study of markers of Alzheimer's disease. However, analyzing complex multimodal brain images remains a major challenge for clinicians. To overcome this difficulty, deep learning methods have emerged as a promising solution for the automatic and robust analysis of neuroimaging data. In this thesis, we explore the use of deep generative models for the detection of anomalies associated with dementia in 18F-fluorodesoxyglucose positron emission tomography (FDG PET) data. Our method is based on the principle of pseudo-healthy reconstruction, where we train a generative model to reconstruct healthy images from pathological data. This approach has the advantage of not requiring annotated data, which are time-consuming and costly to acquire, as well as being generalizable to different types of anomalies. We chose to implement a variational autoencoder (VAE), a simple model, but that proved its worth in the field of deep learning. However, assessing the performance of our generative models without labeled data or ground truth anomaly maps leads to an incomplete evaluation. To solve this issue, we have introduced an evaluation framework based on the simulation of hypometabolism on FDG PET images. Thus, by creating pairs of healthy and diseased images, we are able to assess the model's ability to reconstruct pseudo-healthy images. In addition, this methodology has enabled us to define new metrics for assessing the quality of reconstructions obtained from generative models. The evaluation framework allowed us to carry out a comparative study on twenty VAE variants in the context of FDG PET pseudo-healthy reconstruction. The proposed benchmark enabled us to identify the best-performing models for detecting dementia-related anomalies. Finally, several significant contributions have been made to open-source software. A PET image processing pipeline has been integrated into the Clinica software. In addition, this thesis gave rise to numerous contributions to the development of the ClinicaDL software, including its improvement, the addition of new functionalities, software maintenance and participation in project management
Style APA, Harvard, Vancouver, ISO itp.
2

Béthune, Louis. "Apprentissage profond avec contraintes Lipschitz". Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES014.

Pełny tekst źródła
Streszczenie:
Cette thèse explore les caractéristiques et les applications des réseaux Lipschitz dans les tâches d'apprentissage automatique. Tout d'abord, le cadre de "l'optimisation en tant que couche" est présenté, mettant en avant diverses applications, notamment la paramétrisation des couches contraintes Lipschitz. Ensuite, l'expressivité de ces réseaux dans les tâches de classification est étudiée, révélant un compromis précision/robustesse contrôlé par la régularisation entropique de la perte, accompagnée de garanties de généralisation. Par la suite, la recherche se penche sur l'utilisation des fonctions de distance signée comme solution à un problème de transport optimal régularisé, mettant en avant leur efficacité dans l'apprentissage robuste en classe unique et la construction de surfaces implicites neurales. Ensuite, la thèse démontre l'adaptabilité de l'algorithme de rétropropagation pour propager des bornes au lieu de vecteurs, permettant un entraînement confidentiel des réseaux Lipschitz sans entraîner de surcoût en termes de temps d'exécution et de mémoire. Enfin, elle va au-delà des contraintes Lipschitz et explore l'utilisation de contraintes de convexité pour les quantiles multivariés
This thesis explores the characteristics and applications of Lipschitz networks in machine learning tasks. First, the framework of "optimization as a layer" is presented, showcasing various applications, including the parametrization of Lipschitz-constrained layers. Then, the expressiveness of these networks in classification tasks is investigated, revealing an accuracy/robustness tradeoff controlled by entropic regularization of the loss, accompanied by generalization guarantees. Subsequently, the research delves into the utilization of signed distance functions as a solution to a regularized optimal transport problem, showcasing their efficacy in robust one-class learning and the construction of neural implicit surfaces. After, the thesis demonstrates the adaptability of the back-propagation algorithm to propagate bounds instead of vectors, enabling differentially private training of Lipschitz networks without incurring runtime and memory overhead. Finally, it goes beyond Lipschitz constraints and explores the use of convexity constraint for multivariate quantiles
Style APA, Harvard, Vancouver, ISO itp.
3

Vialatte, Jean-Charles. "Convolution et apprentissage profond sur graphes". Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0118/document.

Pełny tekst źródła
Streszczenie:
Pour l’apprentissage automatisé de données régulières comme des images ou des signaux sonores, les réseaux convolutifs profonds s’imposent comme le modèle de deep learning le plus performant. En revanche, lorsque les jeux de données sont irréguliers (par example : réseaux de capteurs, de citations, IRMs), ces réseaux ne peuvent pas être utilisés. Dans cette thèse, nous développons une théorie algébrique permettant de définir des convolutions sur des domaines irréguliers, à l’aide d’actions de groupe (ou, plus généralement, de groupoïde) agissant sur les sommets d’un graphe, et possédant des propriétés liées aux arrêtes. A l’aide de ces convolutions, nous proposons des extensions des réseaux convolutifs à des structures de graphes. Nos recherches nous conduisent à proposer une formulation générique de la propagation entre deux couches de neurones que nous appelons la contraction neurale. De cette formule, nous dérivons plusieurs nouveaux modèles de réseaux de neurones, applicables sur des domaines irréguliers, et qui font preuve de résultats au même niveau que l’état de l’art voire meilleurs pour certains
Convolutional neural networks have proven to be the deep learning model that performs best on regularly structured datasets like images or sounds. However, they cannot be applied on datasets with an irregular structure (e.g. sensor networks, citation networks, MRIs). In this thesis, we develop an algebraic theory of convolutions on irregular domains. We construct a family of convolutions that are based on group actions (or, more generally, groupoid actions) that acts on the vertex domain and that have properties that depend on the edges. With the help of these convolutions, we propose extensions of convolutional neural netowrks to graph domains. Our researches lead us to propose a generic formulation of the propagation between layers, that we call the neural contraction. From this formulation, we derive many novel neural network models that can be applied on irregular domains. Through benchmarks and experiments, we show that they attain state-of-the-art performances, and beat them in some cases
Style APA, Harvard, Vancouver, ISO itp.
4

Terreau, Enzo. "Apprentissage de représentations d'auteurs et d'autrices à partir de modèles de langue pour l'analyse des dynamiques d'écriture". Electronic Thesis or Diss., Lyon 2, 2024. http://www.theses.fr/2024LYO20001.

Pełny tekst źródła
Streszczenie:
La démocratisation récente et massive des outils numériques a donné à tous le moyen de produire de l'information et de la partager sur le web, que ce soit à travers des blogs, des réseaux sociaux, des plateformes de partage, ... La croissance exponentielle de cette masse d'information disponible, en grande partie textuelle, nécessite le développement de modèles de traitement automatique du langage naturel (TAL), afin de la représenter mathématiquement pour ensuite la classer, la trier ou la recommander. C'est l'apprentissage de représentation. Il vise à construire un espace de faible dimension où les distances entre les objets projetées (mots, textes) reflètent les distances constatées dans le monde réel, qu'elles soient sémantique, stylistique, ...La multiplication des données disponibles, combinée à l'explosion des moyens de calculs et l'essor de l'apprentissage profond à permis de créer des modèles de langue extrêmement performant pour le plongement des mots et des documents. Ils assimilent des notions sémantiques et de langue complexes, en restant accessibles à tous et facilement spécialisables sur des tâches ou des corpus plus spécifiques. Il est possible de les utiliser pour construire des plongements d'auteurices. Seulement il est difficile de savoir sur quels aspects un modèle va se focaliser pour les rapprocher ou les éloigner. Dans un cadre littéraire, il serait préférable que les similarités se rapportent principalement au style écrit. Plusieurs problèmes se posent alors. La définition du style littéraire est floue, il est difficile d'évaluer l'écart stylistique entre deux textes et donc entre leurs plongements. En linguistique computationnelle, les approches visant à le caractériser sont principalement statistiques, s'appuyant sur des marqueurs du langage. Fort de ces constats, notre première contribution propose une méthode d'évaluation de la capacité des modèles de langue à appréhender le style écrit. Nous aurons au préalable détaillé comment le texte est représenté en apprentissage automatique puis en apprentissage profond, au niveau du mot, du document puis des auteurices. Nous aurons aussi présenté le traitement de la notion de style littéraire en TAL, base de notre méthode. Le transfert de connaissances entre les boîtes noires que sont les grands modèles de langue et ces méthodes issues de la linguistique n'en demeure pas moins complexe. Notre seconde contribution vise à réconcilier ces approches via un modèle d'apprentissage de représentations d'auteurices se focalisant sur le style, VADES (Variational Author and Document Embedding with Style). Nous nous comparons aux méthodes existantes et analysons leurs limites dans cette optique-là. Enfin, nous nous intéressons à l'apprentissage de plongements dynamiques d'auteurices et de documents. En effet, l'information temporelle est cruciale et permet une représentation plus fine des dynamiques d'écriture. Après une présentation de l'état de l'art, nous détaillons notre dernière contribution, B²ADE (Brownian Bridge for Author and Document Embedding), modélisant les auteurices comme des trajectoires. Nous finissons en décrivant plusieurs axes d'améliorations de nos méthodes ainsi que quelques problématiques pour de futurs travaux
The recent and massive democratization of digital tools has empowered individuals to generate and share information on the web through various means such as blogs, social networks, sharing platforms, and more. The exponential growth of available information, mostly textual data, requires the development of Natural Language Processing (NLP) models to mathematically represent it and subsequently classify, sort, or recommend it. This is the essence of representation learning. It aims to construct a low-dimensional space where the distances between projected objects (words, texts) reflect real-world distances, whether semantic, stylistic, and so on.The proliferation of available data, coupled with the rise in computing power and deep learning, has led to the creation of highly effective language models for word and document embeddings. These models incorporate complex semantic and linguistic concepts while remaining accessible to everyone and easily adaptable to specific tasks or corpora. One can use them to create author embeddings. However, it is challenging to determine the aspects on which a model will focus to bring authors closer or move them apart. In a literary context, it is preferable for similarities to primarily relate to writing style, which raises several issues. The definition of literary style is vague, assessing the stylistic difference between two texts and their embeddings is complex. In computational linguistics, approaches aiming to characterize it are mainly statistical, relying on language markers. In light of this, our first contribution is a framework to evaluate the ability of language models to grasp writing style. We will have previously elaborated on text embedding models in machine learning and deep learning, at the word, document, and author levels. We will also have presented the treatment of the notion of literary style in Natural Language Processing, which forms the basis of our method. Transferring knowledge between black-box large language models and these methods derived from linguistics remains a complex task. Our second contribution aims to reconcile these approaches through a representation learning model focusing on style, VADES (Variational Author and Document Embedding with Style). We compare our model to state-of-the-art ones and analyze their limitations in this context.Finally, we delve into dynamic author and document embeddings. Temporal information is crucial, allowing for a more fine-grained representation of writing dynamics. After presenting the state of the art, we elaborate on our last contribution, B²ADE (Brownian Bridge Author and Document Embedding), which models authors as trajectories. We conclude by outlining several leads for improving our methods and highlighting potential research directions for the future
Style APA, Harvard, Vancouver, ISO itp.
5

Katranji, Mehdi. "Apprentissage profond de la mobilité des personnes". Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCA024.

Pełny tekst źródła
Streszczenie:
La connaissance de la mobilité est un enjeu majeur pour les autorités organisatrices de mobilité et l'aménagement urbain. En raison du manque de définition formelle de la mobilité humaine, l'expression "mobilité des personnes" sera utilisée dans cette ouvrage. Ce sujet sera introduit par une description de l'écosystème en considérant ces acteurs et ces applications.La création d'un modèle d'apprentissage a des prérequis: la compréhension des typologies des ensembles de données disponibles, leurs forces et leurs faiblesses. Cet état de l'art de la connaissance de la mobilité passe par le modèle à quatre étapes qui existe et est utilisé depuis 1970 pour finir sur le renouvellement des méthodologies de ces dernières années.Nos modélisations de la mobilité des personnes sont ensuite présentées. Leur point commun est la mise en avant de l'individu contrairement aux approches classiques qui prennent comme référence la localité. Les modèles que nous proposons s'appuient sur le fait que la prise de décision des individus se fait selon leur perception de l'environnement.Cet ouvrage fini sur l'étude des méthodes d'apprentissage profond des machines de Boltzmann restreintes. Après un état de l'art de cette famille de modèles, nous recherchons des stratégies pour rendre ces modèles viables dans le monde applicatif. Ce dernier chapitre est notre contribution théorique principale, par l'amélioration de la robustesse et la performance de ces modèles
Knowledge of mobility is a major challenge for authorities mobility organisers and urban planning. Due to the lack of formal definition of human mobility, the term "people's mobility" will be used in this book. This topic will be introduced by a description of the ecosystem by considering these actors and applications.The creation of a learning model has prerequisites: an understanding of the typologies of the available data sets, their strengths and weaknesses. This state of the art in mobility knowledge is based on the four-step model that has existed and been used since 1970, ending with the renewal of the methodologies of recent years.Our models of people's mobility are then presented. Their common point is the emphasis on the individual, unlike traditional approaches that take the locality as a reference. The models we propose are based on the fact that the intake of individuals' decisions is based on their perception of the environment.This finished book on the study of the deep learning methods of Boltzmann machines restricted. After a state of the art of this family of models, we are looking for strategies to make these models viable in the application world. This last chapter is our contribution main theoretical, by improving robustness and performance of these models
Style APA, Harvard, Vancouver, ISO itp.
6

Deschaintre, Valentin. "Acquisition légère de matériaux par apprentissage profond". Thesis, Université Côte d'Azur (ComUE), 2019. http://theses.univ-cotedazur.fr/2019AZUR4078.

Pełny tekst źródła
Streszczenie:
Que ce soit pour le divertissement ou le design industriel, l’infographie est de plus en plus présente dans notre vie quotidienne. Cependant, reproduire une scène réelle dans un environnement virtuel reste une tâche complexe, nécessitant de nombreuses heures de travail. L’acquisition de géométries et de matériaux à partir d’exemples réels est une solution, mais c’est souvent au prix de processus d'acquisitions et de calibrations complexes. Dans cette thèse, nous nous concentrons sur la capture légère de matériaux afin de simplifier et d’accélérer le processus d’acquisition et de résoudre les défis industriels tels que la calibration des résultats. Les textures et les ombres sont quelques-uns des nombreux indices visuels qui permettent aux humains de comprendre l'apparence d'un matériau à partir d'une seule image. La conception d'algorithmes capables de tirer parti de ces indices pour récupérer des fonctions de distribution de réflectance bidirectionnelles (SVBRDF) variant dans l'espace à partir de quelques images pose un défi aux chercheurs en infographie depuis des décennies. Nous explorons l'utilisation de l'apprentissage profond pour la capture légère de matériaux et analyser ces indices visuels. Une fois entraînés, nos réseaux sont capables d'évaluer, par pixel, les normales, les albedos diffus et spéculaires et une rugosité à partir d’une seule image d’une surface plane éclairée par l'environnement ou un flash tenu à la main. Nous montrons également comment notre méthode améliore ses prédictions avec le nombre d'images en entrée et permet des reconstructions de haute qualité en utilisant jusqu'à 10 images d'entrées --- un bon compromis entre les approches existantes
Whether it is used for entertainment or industrial design, computer graphics is ever more present in our everyday life. Yet, reproducing a real scene appearance in a virtual environment remains a challenging task, requiring long hours from trained artists. A good solution is the acquisition of geometries and materials directly from real world examples, but this often comes at the cost of complex hardware and calibration processes. In this thesis, we focus on lightweight material appearance capture to simplify and accelerate the acquisition process and solve industrial challenges such as result image resolution or calibration. Texture, highlights, and shading are some of many visual cues that allow humans to perceive material appearance in pictures. Designing algorithms able to leverage these cues to recover spatially-varying bi-directional reflectance distribution functions (SVBRDFs) from a few images has challenged computer graphics researchers for decades. We explore the use of deep learning to tackle lightweight appearance capture and make sense of these visual cues. Once trained, our networks are capable of recovering per-pixel normals, diffuse albedo, specular albedo and specular roughness from as little as one picture of a flat surface lit by the environment or a hand-held flash. We show how our method improves its prediction with the number of input pictures to reach high quality reconstructions with up to 10 images --- a sweet spot between existing single-image and complex multi-image approaches --- and allows to capture large scale, HD materials. We achieve this goal by introducing several innovations on training data acquisition and network design, bringing clear improvement over the state of the art for lightweight material capture
Style APA, Harvard, Vancouver, ISO itp.
7

Paumard, Marie-Morgane. "Résolution automatique de puzzles par apprentissage profond". Thesis, CY Cergy Paris Université, 2020. http://www.theses.fr/2020CYUN1067.

Pełny tekst źródła
Streszczenie:
L’objectif de cette thèse est de développer des méthodes sémantiques de réassemblage dans le cadre compliqué des collections patrimoniales, où certains blocs sont érodés ou manquants.Le remontage de vestiges archéologiques est une tâche importante pour les sciences du patrimoine : il permet d’améliorer la compréhension et la conservation des vestiges et artefacts anciens. Certains ensembles de fragments ne peuvent être réassemblés grâce aux techniques utilisant les informations de contour et les continuités visuelles. Il est alors nécessaire d’extraire les informations sémantiques des fragments et de les interpréter. Ces tâches peuvent être accomplies automatiquement grâce aux techniques d’apprentissage profond couplées à un solveur, c’est-à-dire un algorithme de prise de décision sous contraintes.Cette thèse propose deux méthodes de réassemblage sémantique pour fragments 2D avec érosion, ainsi qu’un jeu de données et des métriques d’évaluation.La première méthode, Deepzzle, propose un réseau de neurones auquel succède un solveur. Le réseau de neurones est composé de deux réseaux convolutionnels siamois entraînés à prédire la position relative de deux fragments : il s'agit d'une classification à 9 classes. Le solveur utilise l’algorithme de Dijkstra pour maximiser la probabilité jointe. Deepzzle peut résoudre le cas de fragments manquants et surnuméraires, est capable de traiter une quinzaine de fragments par puzzle, et présente des performances supérieures à l’état de l’art de 25%.La deuxième méthode, Alphazzle, s’inspire d’AlphaZero et de recherche arborescente Monte Carlo (MCTS) à un joueur. Il s’agit d’une méthode itérative d’apprentissage profond par renforcement : à chaque étape, on place un fragment sur le réassemblage en cours. Deux réseaux de neurones guident le MCTS : un prédicteur d’action, qui utilise le fragment et le réassemblage en cours pour proposer une stratégie, et un évaluateur, qui est entraîné à prédire la qualité du résultat futur à partir du réassemblage en cours. Alphazzle prend en compte les relations entre tous les fragments et s’adapte à des puzzles de taille supérieure à ceux résolus par Deepzzle. Par ailleurs, Alphazzle se place dans le cadre patrimonial : en fin de réassemblage, le MCTS n’accède pas à la récompense, contrairement à AlphaZero. En effet, la récompense, qui indique si un puzzle est bien résolu ou non, ne peut être qu’estimée par l’algorithme, car seul un conservateur peut être certain de la qualité d’un réassemblage
The objective of this thesis is to develop semantic methods of reassembly in the complicated framework of heritage collections, where some blocks are eroded or missing.The reassembly of archaeological remains is an important task for heritage sciences: it allows to improve the understanding and conservation of ancient vestiges and artifacts. However, some sets of fragments cannot be reassembled with techniques using contour information or visual continuities. It is then necessary to extract semantic information from the fragments and to interpret them. These tasks can be performed automatically thanks to deep learning techniques coupled with a solver, i.e., a constrained decision making algorithm.This thesis proposes two semantic reassembly methods for 2D fragments with erosion and a new dataset and evaluation metrics.The first method, Deepzzle, proposes a neural network followed by a solver. The neural network is composed of two Siamese convolutional networks trained to predict the relative position of two fragments: it is a 9-class classification. The solver uses Dijkstra's algorithm to maximize the joint probability. Deepzzle can address the case of missing and supernumerary fragments, is capable of processing about 15 fragments per puzzle, and has a performance that is 25% better than the state of the art.The second method, Alphazzle, is based on AlphaZero and single-player Monte Carlo Tree Search (MCTS). It is an iterative method that uses deep reinforcement learning: at each step, a fragment is placed on the current reassembly. Two neural networks guide MCTS: an action predictor, which uses the fragment and the current reassembly to propose a strategy, and an evaluator, which is trained to predict the quality of the future result from the current reassembly. Alphazzle takes into account the relationships between all fragments and adapts to puzzles larger than those solved by Deepzzle. Moreover, Alphazzle is compatible with constraints imposed by a heritage framework: at the end of reassembly, MCTS does not access the reward, unlike AlphaZero. Indeed, the reward, which indicates if a puzzle is well solved or not, can only be estimated by the algorithm, because only a conservator can be sure of the quality of a reassembly
Style APA, Harvard, Vancouver, ISO itp.
8

Haykal, Vanessa. "Modélisation des séries temporelles par apprentissage profond". Thesis, Tours, 2019. http://www.theses.fr/2019TOUR4019.

Pełny tekst źródła
Streszczenie:
La prévision des séries temporelles est un problème qui est traité depuis de nombreuses années. Dans cette thèse, on s’est intéressé aux méthodes issues de l’apprentissage profond. Il est bien connu que si les relations entre les données sont temporelles, il est difficile de les analyser et de les prévoir avec précision en raison des tendances non linéaires et du bruit présent, spécifiquement pour les séries financières et électriques. A partir de ce contexte, nous proposons une nouvelle architecture de réduction de bruit qui modélise des séries d’erreurs récursives pour améliorer les prévisions. L’apprentissage hybride fusionne simultanément un réseau de neurones convolutifs (CNN) et un réseau récurrent à mémoire long et court termes (LSTM). Ce modèle se distingue par sa capacité à capturer globalement différentes propriétés telles que les caractéristiques locales du signal, d’apprendre les dépendances non linéaires à long terme et de s’adapter également à une résistance élevée au bruit. La seconde contribution concerne les limitations des approches globales en raison des changements de régimes dynamiques dans le signal. Nous présentons donc une modification locale non-supervisée de notre architecture précédente afin d’ajuster les résultats en pilotant le modèle par un modèle de Markov caché (HMM). Enfin, on s’est également intéressé aux techniques de multi-résolutions pour améliorer les performances des couches convolutives, notamment par la méthode de décomposition en mode variationnel (VMD)
Time series prediction is a problem that has been addressed for many years. In this thesis, we have been interested in methods resulting from deep learning. It is well known that if the relationships between the data are temporal, it is difficult to analyze and predict accurately due to non-linear trends and the existence of noise specifically in the financial and electrical series. From this context, we propose a new hybrid noise reduction architecture that models the recursive error series to improve predictions. The learning process fusessimultaneouslyaconvolutionalneuralnetwork(CNN)andarecurrentlongshort-term memory network (LSTM). This model is distinguished by its ability to capture globally a variety of hybrid properties, where it is able to extract local signal features, to learn long-term and non-linear dependencies, and to have a high noise resistance. The second contribution concerns the limitations of the global approaches because of the dynamic switching regimes in the signal. We present a local unsupervised modification with our previous architecture in order to adjust the results by adapting the Hidden Markov Model (HMM). Finally, we were also interested in multi-resolution techniques to improve the performance of the convolutional layers, notably by using the variational mode decomposition method (VMD)
Style APA, Harvard, Vancouver, ISO itp.
9

Sors, Arnaud. "Apprentissage profond pour l'analyse de l'EEG continu". Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAS006/document.

Pełny tekst źródła
Streszczenie:
Ces travaux de recherche visent à développer des méthodes d’apprentissage automatique pour l’analyse de l’électroencéphalogramme (EEG) continu. L’EEG continu est une modalité avantageuse pour l’évaluation fonctionnelle des états cérébraux en réanimation ou pour d’autres applications. Cependant son utilisation aujourd’hui demeure plus restreinte qu’elle ne pourrait l’être, car dans la plupart des cas l’interprétation est effectuée visuellement par des spécialistes.Les sous-parties de ce travail s’articulent autour de l’évaluation pronostique du coma post-anoxique, choisie comme application pilote. Un petit nombre d’enregistrement longue durée a été réalisé, et des enregistrements existants ont été récupérés au CHU Grenoble.Nous commençons par valider l’efficacité des réseaux de neurones profonds pour l’analyse EEG d’échantillons bruts. Nous choisissons à cet effet de travailler sur la classification de stades de sommeil. Nous utilisons un réseau de neurones convolutionnel adapté pour l’EEG que nous entrainons et évaluons sur le jeu de données SHHS (Sleep Heart Health Study). Cela constitue le premier system neuronal à cette échelle (5000 patients) pour l’analyse du sommeil. Les performances de classification atteignent ou dépassent l’état de l’art.En utilisation réelle, pour la plupart des applications cliniques le défi principal est le manque d’annotations adéquates sur les patterns EEG ou sur de court segments de données (et la difficulté d’en établir). Les annotations disponibles sont généralement haut niveau (par exemple, le devenir clinique) est sont donc peu nombreuses. Nous recherchons comment apprendre des représentations compactes de séquences EEG de façon non-supervisée/semi-supervisée. Le domaine de l’apprentissage non supervisé est encore jeune. Pour se comparer aux travaux existants nous commençons avec des données de type image, et investiguons l’utilisation de réseaux adversaires génératifs (GANs) pour l’apprentissage adversaire non-supervisé de représentations. La qualité et la stabilité de différentes variantes sont évaluées. Nous appliquons ensuite un GAN de Wasserstein avec pénalité sur les gradients à la génération de séquences EEG. Le système, entrainé sur des séquences mono-piste de patients en coma post anoxique, est capable de générer des séquences réalistes. Nous développons et discutons aussi des idées originales pour l’apprentissage de représentations en alignant des distributions dans l’espace de sortie du réseau représentatif.Pour finir, les signaux EEG multipistes ont des spécificités qu’il est souhaitable de prendre en compte dans les architectures de caractérisation. Chaque échantillon d’EEG est un mélange instantané des activités d’un certain nombre de sources. Partant de ce constat nous proposons un système d’analyse composé d’un sous-système d’analyse spatiale suivi d’un sous-système d’analyse temporelle. Le sous-système d’analyse spatiale est une extension de méthodes de séparation de sources construite à l’aide de couches neuronales avec des poids adaptatifs pour la recombinaison des pistes, c’est à dire que ces poids ne sont pas appris mais dépendent de caractéristiques du signal d’entrée. Nous montrons que cette architecture peut apprendre à réaliser une analyse en composantes indépendantes, si elle est entrainée sur une mesure de non-gaussianité. Pour l’analyse temporelle, des réseaux convolutionnels classiques utilisés séparément sur les pistes recombinées peuvent être utilisés
The objective of this research is to explore and develop machine learning methods for the analysis of continuous electroencephalogram (EEG). Continuous EEG is an interesting modality for functional evaluation of cerebral state in the intensive care unit and beyond. Today its clinical use remains more limited that it could be because interpretation is still mostly performed visually by trained experts. In this work we develop automated analysis tools based on deep neural models.The subparts of this work hinge around post-anoxic coma prognostication, chosen as pilot application. A small number of long-duration records were performed and available existing data was gathered from CHU Grenoble. Different components of a semi-supervised architecture that addresses the application are imagined, developed, and validated on surrogate tasks.First, we validate the effectiveness of deep neural networks for EEG analysis from raw samples. For this we choose the supervised task of sleep stage classification from single-channel EEG. We use a convolutional neural network adapted for EEG and we train and evaluate the system on the SHHS (Sleep Heart Health Study) dataset. This constitutes the first neural sleep scoring system at this scale (5000 patients). Classification performance reaches or surpasses the state of the art.In real use for most clinical applications, the main challenge is the lack of (and difficulty of establishing) suitable annotations on patterns or short EEG segments. Available annotations are high-level (for example, clinical outcome) and therefore they are few. We search how to learn compact EEG representations in an unsupervised/semi-supervised manner. The field of unsupervised learning using deep neural networks is still young. To compare to existing work we start with image data and investigate the use of generative adversarial networks (GANs) for unsupervised adversarial representation learning. The quality and stability of different variants are evaluated. We then apply Gradient-penalized Wasserstein GANs on EEG sequences generation. The system is trained on single channel sequences from post-anoxic coma patients and is able to generate realistic synthetic sequences. We also explore and discuss original ideas for learning representations through matching distributions in the output space of representative networks.Finally, multichannel EEG signals have specificities that should be accounted for in characterization architectures. Each EEG sample is an instantaneous mixture of the activities of a number of sources. Based on this statement we propose an analysis system made of a spatial analysis subsystem followed by a temporal analysis subsystem. The spatial analysis subsystem is an extension of source separation methods built with a neural architecture with adaptive recombination weights, i.e. weights that are not learned but depend on features of the input. We show that this architecture learns to perform Independent Component Analysis if it is trained on a measure of non-gaussianity. For temporal analysis, standard (shared) convolutional neural networks applied on separate recomposed channels can be used
Style APA, Harvard, Vancouver, ISO itp.
10

Sheikh, Shakeel Ahmad. "Apprentissage profond pour la détection du bégaiement". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0005.

Pełny tekst źródła
Streszczenie:
Le bégaiement est un trouble de la parole qui est le plus fréquemment observé parmi les troubles de la parole et se traduit par des comportements principaux. La fastidieuse tâche de détection et d'analyse des schémas de parole des Persons who stutter (PWS), dans le but de les rectifier, est souvent traitée manuellement par les orthophonistes et est biaisée par leurs croyances subjectives. De plus, les systèmes de reconnaissance automatique de la parole, «Automatic speech recognition (ASR)», ne parviennent pas non plus à reconnaître les bégaiements. Cela empêche les personnes handicapées d'accéder à des assistants numériques virtuels tels que Siri, Alexa, etc. Cette thèse tente de développer des systèmes de détection du bégaiement, Stuttering detection (SD), basés sur l'audio qui réussissent à capturer les différentes variabilités des énoncés de bégaiement telles que les styles d'expression, l'âge, les accents, etc., et apprennent des représentations robustes du bégaiement dans le but de fournir une évaluation juste, cohérente et impartiale de la parole bégayée. Alors que la plupart des systèmes SD existants utilisent plusieurs classificateurs binaires pour chaque type de bégaiement, nous présentons un système multi-classe unifié nommé StutterNet capable de détecter plusieurs types de bègues. En abordant le problème du déséquilibre des classes dans le domaine du bégaiement, nous avons étudié l'impact de l'application d'une fonction de perte pondérée et nous avons également présenté un StutterNet multi-contextuel pour améliorer la détection des types minoritaires. En exploitant les informations sur le locuteur et en supposant que les modèles de bégaiement sont invariants par rapport aux méta-données telles que les informations sur le locuteur, nous présentons un apprentissage multi-tâches «Multi-task learning (MTL)» SD qui apprend des représentations robustes discriminant le bégaiement et les invariantes par rapport au locuteur. En raison de la rareté des données non étiquetées, la tâche automatisée de détection du bégaiement est limitée dans son utilisation des modèles d'apprentissages profonds de grande taille lorsqu'il s'agit de capturer différentes variabilités. Nous avons introduit la toute première architecture d'apprentissage auto-supervisé «Self-supervised learning (SSL)», dans le domaine de la détection du bégaiement. L'architecture SSL entraîne d'abord un extracteur de caractéristiques pour une tâche de pré-texte en utilisant une grande quantité de données audio non étiquetées et non bégayantes pour capturer ces différentes variabilités. Puis elle applique l'extracteur de caractéristiques appris à une tâche SD en aval, en utilisant des données audio étiquetées limitées et bégayantes
Stuttering is a speech disorder that is most frequently observed among speech impairments and results in the form of core behaviours. The tedious and time-consuming task of detecting and analyzing speech patterns of PWS, with the goal of rectifying them is often handled manually by speech therapists, and is biased towards their subjective beliefs. Moreover, the ASR systems also fail to recognize the stuttered speech, which makes it impractical for PWS to access virtual digital assistants such as Siri, Alexa, etc.This thesis tries to develop audio based SD systems that successfully capture different variabilities from stuttering utterances such as speaking styles, age, accents, etc., and learns robust stuttering representations with an aim to provide a fair, consistent, and unbiased assessment of stuttered speech.While most of the existing SD systems use multiple binary classifiers for each stutter type, we present a unified multi-class StutterNet capable of detecting multiple stutter types. Approaching the class-imbalance problem in stuttering domain, we investigated the impact of applying weighted loss function, and, also presented Multi-contextual (MC) Multi-branch (MB) StutterNet to improve the detection performance of minority classes.Exploiting the speaker information with an assumption that the stuttering models should be invariant to meta-data such as speaker information, we present, an adversarial MTL SD method that learns robust stutter discrimintaive speaker-invariant representations.Due to paucity of unlabeled data, the automated SD task is limited in its use of large deep models in capturing different varaibilities, we introduced the first-ever SSL framework to SD domain. The SSL framework first trains a feature extractor for a pre-text task using a large quantity of unlabeled non-stuttering audio data to capture these different varaibilities, and then applies the learned feature extractor to a downstream SD task using limited labeled stuttering audio data
Style APA, Harvard, Vancouver, ISO itp.
11

Assis, Youssef. "Détection des anévrismes intracrâniens par apprentissage profond". Electronic Thesis or Diss., Université de Lorraine, 2024. http://www.theses.fr/2024LORR0012.

Pełny tekst źródła
Streszczenie:
Les anévrismes intracrâniens sont des dilatations locales des vaisseaux sanguins cérébraux, présentant un risque significatif de rupture, susceptible d'entraîner des conséquences graves. La détection précoce des anévrismes non rompus revêt donc une importance cruciale pour prévenir des complications potentiellement mortelles. Cependant, l'analyse des images médicales pour localiser ces anévrismes est une tâche complexe et chronophage, demandant du temps et d'expertise, et malgré cela reste susceptible d'erreurs d'interprétation. Face à ces défis, cette thèse explore des méthodes automatisées pour la détection des anévrismes, visant à faciliter le travail des radiologues et à améliorer l'efficacité du diagnostic. Notre approche se concentre sur l'utilisation de techniques d'intelligence artificielle, en particulier les réseaux de neurones profonds, pour la détection des anévrismes à partir d'images d'IRM angiographique par temps de vol (TOF-MRA). Nos travaux de recherche se sont articulés autour de plusieurs axes principaux. Tout d'abord, en raison de la rareté des données d'entraînement dans le domaine médical, nous avons adopté une méthode d'annotation rapide, bien qu'approximative, afin de faciliter la collection de données. Par ailleurs, nous proposons une stratégie basée sur des petits patchs. En association avec de la synthèse de données, les échantillons sont démultipliés dans la base d'apprentissage. En sélectionnant les échantillons, leur distribution est ajustée pour faciliter l'optimisation. Pour la détection automatisée des anévrismes, nous avons mise en place diverses architectures de réseaux de neurones. Une première approche a exploré les réseaux de segmentation d'images. Nous proposons dans un second temps une architecture innovante inspirée des travaux en détection d'objets. Ces architectures, notamment la dernière, ont permis d'obtenir des résultats compétitifs, en particulier en termes de sensibilité par rapport aux experts. Au-delà de la détection des anévrismes, nous avons étendu notre modèle à l'estimation de la pose des anévrismes dans les images 3D. Ceci peut grandement faciliter leur analyse et leur interprétation dans des plans de coupes reformatés. Une évaluation approfondie des modèles proposés a été systématiquement réalisée, incluant des études par ablation, l'exploitation de métriques adaptées au problème de la détection et des évaluations menées par des experts cliniciens, permettant d'apprécier leur efficacité potentielle pour une utilisation clinique. Nous avons en particulier mis en évidence les problèmes liés à l'incertitude dans l'annotation des bases de données existantes
Intracranial aneurysms are local dilatations of cerebral blood vessels, presenting a significant risk of rupture, which can lead to serious consequences. Early detection of unruptured aneurysms is therefore crucial to prevent potentially fatal complications. However, analyzing medical images to locate these aneurysms is a complex and time-consuming task, requiring time and expertise, and yet remains prone to errors in interpretation. Faced with these challenges, this thesis explores automated methods for the detection of aneurysms, aiming to facilitate the work of radiologists and improve diagnostic efficiency. Our approach focuses on the use of artificial intelligence techniques, particularly deep neural networks, for the detection of aneurysms from time-of-flight magnetic resonance angiography (TOF-MRA) images. Our research work is centered around several main axes. Firstly, due to the scarcity of training data in the medical field, we adopt a rapid, although approximate, annotation method to facilitate data collection. Furthermore, we propose a strategy based on small patches. In association with data synthesis, the samples are multiplied in the training database. By selecting the samples, their distribution is adjusted to facilitate optimization. Secondly, for the automated detection of aneurysms, we investigate various neural network architectures. An initial approach explores image segmentation networks. Then, we propose an innovative architecture inspired by object detection methods. These architectures, especially the latter, lead to competitive results, particularly in terms of sensitivity compared to experts. Thirdly, beyond the detection of aneurysms, we extend our model to estimate the pose of aneurysms in 3D images. This can greatly facilitate their analysis and interpretation in reformatted cross-sectional plans. A thorough evaluation of the proposed models is systematically carried out, including ablation studies, the use of metrics adapted to the problem of detection, and evaluations conducted by clinical experts, allowing us to assess their potential effectiveness for clinical use. In particular, we highlight the issues related to uncertainty in the annotation of existing databases
Style APA, Harvard, Vancouver, ISO itp.
12

Moradi, Fard Maziar. "Apprentissage de représentations de données dans un apprentissage non-supervisé". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM053.

Pełny tekst źródła
Streszczenie:
En raison du grand impact de l’apprentissage profond sur divers domaines de l’apprentissage automatique, leurs capacités à améliorer les approches de clustering ont récemment été étudiées. Dans un premier temps, des approches d’apprentissage profond (principalement des autoencodeurs) ont été utilisées pour réduire la dimensionnalité de l’espace d’origine et pour supprimer les éventuels bruits (également pour apprendre de nouvelles représentations de données). De telles approches de clustering qui utilisent des approches d’apprentissage en profondeur sont appelées deep clustering. Cette thèse se concentre sur le développement de modèles de deep clustering qui peuvent être utilisés pour différents types de données (par exemple, des images, du texte). Tout d’abord, nous proposons un algorithme DKM (Deep k-means) dans lequel l’apprentissage des représentations de données (via un autoencodeur profond) et des représentants de cluster (via k-means) est effectué de manière conjointe. Les résultats de notre approche DKM indiquent que ce modèle est capable de surpasser des algorithmes similaires en Deep Clustering. En effet, notre cadre proposé est capable de propager de manière lisse l’erreur de la fonction de coût à travers toutes les variables apprenables.De plus, nous proposons deux modèles nommés SD2C et PCD2C qui sont capables d’intégrer respectivement des mots d’amorçage et des contraintes par paires dans des approches de Deep Clustering de bout en bout. En utilisant de telles approches, les utilisateurs peuvent observer le reflet de leurs besoins en clustering. Enfin, les résultats obtenus à partir de ces modèles indiquent leur capacité à obtenir des résultats plus adaptés
Due to the great impact of deep learning on variety fields of machine learning, recently their abilities to improve clustering approaches have been investi- gated. At first, deep learning approaches (mostly Autoencoders) have been used to reduce the dimensionality of the original space and to remove possible noises (also to learn new data representations). Such clustering approaches that utilize deep learning approaches are called Deep Clustering. This thesis focuses on developing Deep Clustering models which can be used for different types of data (e.g., images, text). First we propose a Deep k-means (DKM) algorithm where learning data representations (through a deep Autoencoder) and cluster representatives (through the k-means) are performed in a joint way. The results of our DKM approach indicate that this framework is able to outperform similar algorithms in Deep Clustering. Indeed, our proposed framework is able to truly and smoothly backpropagate the loss function error through all learnable variables.Moreover, we propose two frameworks named SD2C and PCD2C which are able to integrate respectively seed words and pairwise constraints into end-to-end Deep Clustering frameworks. In fact, by utilizing such frameworks, the users can observe the reflection of their needs in clustering. Finally, the results obtained from these frameworks indicate their ability to obtain more tailored results
Style APA, Harvard, Vancouver, ISO itp.
13

Ostertag, Cécilia. "Analyse des pathologies neuro-dégénératives par apprentissage profond". Thesis, La Rochelle, 2022. http://www.theses.fr/2022LAROS003.

Pełny tekst źródła
Streszczenie:
Le suivi et l'établissement de pronostics sur l'état cognitif des personnes affectées par une maladie neurologique sont cruciaux, car ils permettent de fournir un traitement approprié à chaque patient, et cela le plus tôt possible. Ces patients sont donc suivis régulièrement pendant plusieurs années, dans le cadre d'études longitudinales. À chaque visite médicale, une grande quantité de données est acquise : présence de facteurs de risque associés à la maladie, imagerie médicale (IRM ou PET-scan), résultats de tests cognitifs, prélèvements de molécules identifiées comme biomarqueurs de la maladie, etc. Ces différentes modalités apportent des informations sur la progression de la maladie, certaines complémentaires et d'autres redondantes. De nombreux modèles d'apprentissage profond ont été appliqués avec succès aux données biomédicales, notamment pour des problématiques de segmentation d'organes ou de diagnostic de maladies. Ces travaux de thèse s'intéressent à la conception d'un modèle de type "réseau de neurones profond" pour la prédiction du déclin cognitif de patients à l'aide de données multimodales. Ainsi, nous proposons une architecture composée de sous-modules adaptés à chaque modalité : réseau convolutif 3D pour les IRM de cerveau, et couches entièrement connectées pour les données cliniques quantitatives et qualitatives. Pour évaluer l'évolution du patient, ce modèle prend en entrée les données de deux visites médicales quelconques. Ces deux visites sont comparées grâce à une architecture siamoise. Après avoir entraîné et validé ce modèle en utilisant comme cas d'application la maladie d'Alzheimer, nous nous intéressons au transfert de connaissance avec d'autres maladies neuro-dégénératives, et nous utilisons avec succès le transfert d'apprentissage pour appliquer notre modèle dans le cas de la maladie de Parkinson. Enfin, nous discutons des choix que nous avons pris pour la prise en compte de l'aspect temporel du problème, aussi bien lors de la création de la vérité terrain en fonction de l'évolution au long terme d'un score cognitif, que pour le choix d'utiliser des paires de visites au lieu de plus longues séquences
Monitoring and predicting the cognitive state of a subject affected by a neuro-degenerative disorder is crucial to provide appropriate treatment as soon as possible. Thus, these patients are followed for several years, as part of longitudinal medical studies. During each visit, a large quantity of data is acquired : risk factors linked to the pathology, medical imagery (MRI or PET scans for example), cognitive tests results, sampling of molecules that have been identified as bio-markers, etc. These various modalities give information about the disease's progression, some of them are complementary and others can be redundant. Several deep learning models have been applied to bio-medical data, notably for organ segmentation or pathology diagnosis. This PhD is focused on the conception of a deep neural network model for cognitive decline prediction, using multimodal data, here both structural brain MRI images and clinical data. In this thesis we propose an architecture made of sub-modules tailored to each modality : 3D convolutional network for the brain MRI, and fully connected layers for the quantitative and qualitative clinical data. To predict the patient's evolution, this model takes as input data from two medical visits for each patient. These visits are compared using a siamese architecture. After training and validating this model with Alzheimer's disease as our use case, we look into knowledge transfer to other neuro-degenerative pathologies, and we use transfer learning to adapt our model to Parkinson's disease. Finally, we discuss the choices we made to take into account the temporal aspect of our problem, both during the ground truth creation using the long-term evolution of a cognitive score, and for the choice of using pairs of visits as input instead of longer sequences
Style APA, Harvard, Vancouver, ISO itp.
14

Mazari, Ahmed. "Apprentissage profond pour la reconnaissance d’actions en vidéos". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS171.

Pełny tekst źródła
Streszczenie:
De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées pour traiter les données vidéos. Il devient nécessaire de développer des moyens automatiques pour analyser et interpréter la grande quantité de données vidéo disponibles. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème de l'attribution de catégories d'actions aux séquences vidéos. Cela peut être considéré comme un ingrédient clé pour construire la prochaine génération de systèmes visuels. Nous l'abordons avec des méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs. Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est donc tributaire de l'abondance de données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité à la disponibilité de données étiquetées)
Nowadays, video contents are ubiquitous through the popular use of internet and smartphones, as well as social media. Many daily life applications such as video surveillance and video captioning, as well as scene understanding require sophisticated technologies to process video data. It becomes of crucial importance to develop automatic means to analyze and to interpret the large amount of available video data. In this thesis, we are interested in video action recognition, i.e. the problem of assigning action categories to sequences of videos. This can be seen as a key ingredient to build the next generation of vision systems. It is tackled with AI frameworks, mainly with ML and Deep ConvNets. Current ConvNets are increasingly deeper, data-hungrier and this makes their success tributary of the abundance of labeled training data. ConvNets also rely on (max or average) pooling which reduces dimensionality of output layers (and hence attenuates their sensitivity to the availability of labeled data); however, this process may dilute the information of upstream convolutional layers and thereby affect the discrimination power of the trained video representations, especially when the learned action categories are fine-grained
Style APA, Harvard, Vancouver, ISO itp.
15

Cohen-Hadria, Alice. "Estimation de descriptions musicales et sonores par apprentissage profond". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS607.

Pełny tekst źródła
Streszczenie:
En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d'apprentissage automatique deviennent de plus en plus standard. En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones. Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones. Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image. La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l'estimation de structure. La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d'aligner automatiquement des paroles et des pistes audio. La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d'augmentation de données, un moyen d'augmenter considérablement la taille d'un ensemble d'entraînement. Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante
In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely, we will use convolutional neural networks, an image designed class neural networks. The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks. The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI. Singing voice separation is the third task. For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set. Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene
Style APA, Harvard, Vancouver, ISO itp.
16

Trabelsi, Anis. "Robustesse aux attaques en authentification digitale par apprentissage profond". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS580.

Pełny tekst źródła
Streszczenie:
L'identité des personnes sur Internet devient un problème de sécurité majeur. Depuis les accords de Bale, les institutions bancaires ont intégré la vérification de l'identité des personnes ou Know Your Customer (KYC) dans leur processus d'inscription. Avec la dématérialisation des banques, cette procédure est devenue l'e-KYC ou KYC à distance qui fonctionne à distance via le smartphone de l'utilisateur. De même, la vérification d'identité à distance est devenue la norme pour l'inscription aux outils de signature électronique. De nouvelles réglementations émergent pour sécuriser cette approche, par exemple, en France, le cadre PVID encadre l'acquisition à distance des documents d'identité et du visage des personnes dans le cadre du règlement eIDAS. Cela est nécessaire, car on assiste à l'émergence d'un nouveau type de criminalité numérique : l'usurpation d'identité profonde. Grâce aux nouveaux outils d'apprentissage profond, les imposteurs peuvent modifier leur apparence pour ressembler à quelqu'un d'autre en temps réel. Les imposteurs peuvent alors accomplir toutes les actions courantes requises lors d'une inscription à distance sans être détectés par les algorithmes de vérification d'identité. Aujourd'hui, il existe des applications sur smartphone et des outils destinés à un public plus limité qui permettent aux imposteurs de transformer facilement leur apparence en temps réel. Il existe même des méthodes pour usurper une identité à partir d'une seule image du visage de la victime. L'objectif de cette thèse est d'étudier les vulnérabilités des systèmes d'authentification d'identité à distance face aux nouvelles attaques
The identity of people on the Internet is becoming a major security issue. Since the Bale agreements, banking institutions have integrated the verification of people's identity or Know Your Customer (KYC) in their registration process. With the dematerialization of banks, this procedure has become e-KYC or remote KYC which works remotely through the user's smartphone. Similarly, remote identity verification has become the standard for enrollment in electronic signature tools. New regulations are emerging to secure this approach, for example, in France, the PVID framework regulates the remote acquisition of identity documents and people's faces under the eIDAS regulation. This is required because a new type of digital crime is emerging: deep identity theft. With new deep learning tools, imposters can change their appearance to look like someone else in real time. Imposters can then perform all the common actions required in a remote registration without being detected by identity verification algorithms. Today, smartphone applications and tools for a more limited audience exist allowing imposters to easily transform their appearance in real time. There are even methods to spoof an identity based on a single image of the victim's face. The objective of this thesis is to study the vulnerabilities of remote identity authentication systems against new attacks in order to propose solutions based on deep learning to make the systems more robust
Style APA, Harvard, Vancouver, ISO itp.
17

Bertrand, Hadrien. "Optimisation d'hyper-paramètres en apprentissage profond et apprentissage par transfert : applications en imagerie médicale". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT001/document.

Pełny tekst źródła
Streszczenie:
Ces dernières années, l'apprentissage profond a complètement changé le domaine de vision par ordinateur. Plus rapide, donnant de meilleurs résultats, et nécessitant une expertise moindre pour être utilisé que les méthodes classiques de vision par ordinateur, l'apprentissage profond est devenu omniprésent dans tous les problèmes d'imagerie, y compris l'imagerie médicale.Au début de cette thèse, la construction de réseaux de neurones adaptés à des tâches spécifiques ne bénéficiait pas encore de suffisamment d'outils ni d'une compréhension approfondie. Afin de trouver automatiquement des réseaux de neurones adaptés à des tâches spécifiques, nous avons ainsi apporté des contributions à l’optimisation d’hyper-paramètres de réseaux de neurones. Cette thèse propose une comparaison de certaines méthodes d'optimisation, une amélioration en performance d'une de ces méthodes, l'optimisation bayésienne, et une nouvelle méthode d'optimisation d'hyper-paramètres basé sur la combinaison de deux méthodes existantes : l'optimisation bayésienne et hyperband.Une fois équipés de ces outils, nous les avons utilisés pour des problèmes d'imagerie médicale : la classification de champs de vue en IRM, et la segmentation du rein en échographie 3D pour deux groupes de patients. Cette dernière tâche a nécessité le développement d'une nouvelle méthode d'apprentissage par transfert reposant sur la modification du réseau de neurones source par l'ajout de nouvelles couches de transformations géométrique et d'intensité.En dernière partie, cette thèse revient vers les méthodes classiques de vision par ordinateur, et nous proposons un nouvel algorithme de segmentation qui combine les méthodes de déformations de modèles et l'apprentissage profond. Nous montrons comment utiliser un réseau de neurones pour prédire des transformations globales et locales sans accès aux vérités-terrains de ces transformations. Cette méthode est validé sur la tâche de la segmentation du rein en échographie 3D
In the last few years, deep learning has changed irrevocably the field of computer vision. Faster, giving better results, and requiring a lower degree of expertise to use than traditional computer vision methods, deep learning has become ubiquitous in every imaging application. This includes medical imaging applications. At the beginning of this thesis, there was still a strong lack of tools and understanding of how to build efficient neural networks for specific tasks. Thus this thesis first focused on the topic of hyper-parameter optimization for deep neural networks, i.e. methods for automatically finding efficient neural networks on specific tasks. The thesis includes a comparison of different methods, a performance improvement of one of these methods, Bayesian optimization, and the proposal of a new method of hyper-parameter optimization by combining two existing methods: Bayesian optimization and Hyperband.From there, we used these methods for medical imaging applications such as the classification of field-of-view in MRI, and the segmentation of the kidney in 3D ultrasound images across two populations of patients. This last task required the development of a new transfer learning method based on the modification of the source network by adding new geometric and intensity transformation layers.Finally this thesis loops back to older computer vision methods, and we propose a new segmentation algorithm combining template deformation and deep learning. We show how to use a neural network to predict global and local transformations without requiring the ground-truth of these transformations. The method is validated on the task of kidney segmentation in 3D US images
Style APA, Harvard, Vancouver, ISO itp.
18

Bertrand, Hadrien. "Optimisation d'hyper-paramètres en apprentissage profond et apprentissage par transfert : applications en imagerie médicale". Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT001.

Pełny tekst źródła
Streszczenie:
Ces dernières années, l'apprentissage profond a complètement changé le domaine de vision par ordinateur. Plus rapide, donnant de meilleurs résultats, et nécessitant une expertise moindre pour être utilisé que les méthodes classiques de vision par ordinateur, l'apprentissage profond est devenu omniprésent dans tous les problèmes d'imagerie, y compris l'imagerie médicale.Au début de cette thèse, la construction de réseaux de neurones adaptés à des tâches spécifiques ne bénéficiait pas encore de suffisamment d'outils ni d'une compréhension approfondie. Afin de trouver automatiquement des réseaux de neurones adaptés à des tâches spécifiques, nous avons ainsi apporté des contributions à l’optimisation d’hyper-paramètres de réseaux de neurones. Cette thèse propose une comparaison de certaines méthodes d'optimisation, une amélioration en performance d'une de ces méthodes, l'optimisation bayésienne, et une nouvelle méthode d'optimisation d'hyper-paramètres basé sur la combinaison de deux méthodes existantes : l'optimisation bayésienne et hyperband.Une fois équipés de ces outils, nous les avons utilisés pour des problèmes d'imagerie médicale : la classification de champs de vue en IRM, et la segmentation du rein en échographie 3D pour deux groupes de patients. Cette dernière tâche a nécessité le développement d'une nouvelle méthode d'apprentissage par transfert reposant sur la modification du réseau de neurones source par l'ajout de nouvelles couches de transformations géométrique et d'intensité.En dernière partie, cette thèse revient vers les méthodes classiques de vision par ordinateur, et nous proposons un nouvel algorithme de segmentation qui combine les méthodes de déformations de modèles et l'apprentissage profond. Nous montrons comment utiliser un réseau de neurones pour prédire des transformations globales et locales sans accès aux vérités-terrains de ces transformations. Cette méthode est validé sur la tâche de la segmentation du rein en échographie 3D
In the last few years, deep learning has changed irrevocably the field of computer vision. Faster, giving better results, and requiring a lower degree of expertise to use than traditional computer vision methods, deep learning has become ubiquitous in every imaging application. This includes medical imaging applications. At the beginning of this thesis, there was still a strong lack of tools and understanding of how to build efficient neural networks for specific tasks. Thus this thesis first focused on the topic of hyper-parameter optimization for deep neural networks, i.e. methods for automatically finding efficient neural networks on specific tasks. The thesis includes a comparison of different methods, a performance improvement of one of these methods, Bayesian optimization, and the proposal of a new method of hyper-parameter optimization by combining two existing methods: Bayesian optimization and Hyperband.From there, we used these methods for medical imaging applications such as the classification of field-of-view in MRI, and the segmentation of the kidney in 3D ultrasound images across two populations of patients. This last task required the development of a new transfer learning method based on the modification of the source network by adding new geometric and intensity transformation layers.Finally this thesis loops back to older computer vision methods, and we propose a new segmentation algorithm combining template deformation and deep learning. We show how to use a neural network to predict global and local transformations without requiring the ground-truth of these transformations. The method is validated on the task of kidney segmentation in 3D US images
Style APA, Harvard, Vancouver, ISO itp.
19

Goh, Hanlin. "Apprentissage de Représentations Visuelles Profondes". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00948376.

Pełny tekst źródła
Streszczenie:
Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important.
Style APA, Harvard, Vancouver, ISO itp.
20

Moukari, Michel. "Estimation de profondeur à partir d'images monoculaires par apprentissage profond". Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC211/document.

Pełny tekst źródła
Streszczenie:
La vision par ordinateur est une branche de l'intelligence artificielle dont le but est de permettre à une machine d'analyser, de traiter et de comprendre le contenu d'images numériques. La compréhension de scène en particulier est un enjeu majeur en vision par ordinateur. Elle passe par une caractérisation à la fois sémantique et structurelle de l'image, permettant d'une part d'en décrire le contenu et, d'autre part, d'en comprendre la géométrie. Cependant tandis que l'espace réel est de nature tridimensionnelle, l'image qui le représente, elle, est bidimensionnelle. Une partie de l'information 3D est donc perdue lors du processus de formation de l'image et il est d'autant plus complexe de décrire la géométrie d'une scène à partir d'images 2D de celle-ci.Il existe plusieurs manières de retrouver l'information de profondeur perdue lors de la formation de l'image. Dans cette thèse nous nous intéressons à l’estimation d'une carte de profondeur étant donné une seule image de la scène. Dans ce cas, l'information de profondeur correspond, pour chaque pixel, à la distance entre la caméra et l'objet représenté en ce pixel. L'estimation automatique d'une carte de distances de la scène à partir d'une image est en effet une brique algorithmique critique dans de très nombreux domaines, en particulier celui des véhicules autonomes (détection d’obstacles, aide à la navigation).Bien que le problème de l'estimation de profondeur à partir d'une seule image soit un problème difficile et intrinsèquement mal posé, nous savons que l'Homme peut apprécier les distances avec un seul œil. Cette capacité n'est pas innée mais acquise et elle est possible en grande partie grâce à l'identification d'indices reflétant la connaissance a priori des objets qui nous entourent. Par ailleurs, nous savons que des algorithmes d'apprentissage peuvent extraire ces indices directement depuis des images. Nous nous intéressons en particulier aux méthodes d’apprentissage statistique basées sur des réseaux de neurones profond qui ont récemment permis des percées majeures dans de nombreux domaines et nous étudions le cas de l'estimation de profondeur monoculaire
Computer vision is a branch of artificial intelligence whose purpose is to enable a machine to analyze, process and understand the content of digital images. Scene understanding in particular is a major issue in computer vision. It goes through a semantic and structural characterization of the image, on one hand to describe its content and, on the other hand, to understand its geometry. However, while the real space is three-dimensional, the image representing it is two-dimensional. Part of the 3D information is thus lost during the process of image formation and it is therefore non trivial to describe the geometry of a scene from 2D images of it.There are several ways to retrieve the depth information lost in the image. In this thesis we are interested in estimating a depth map given a single image of the scene. In this case, the depth information corresponds, for each pixel, to the distance between the camera and the object represented in this pixel. The automatic estimation of a distance map of the scene from an image is indeed a critical algorithmic brick in a very large number of domains, in particular that of autonomous vehicles (obstacle detection, navigation aids).Although the problem of estimating depth from a single image is a difficult and inherently ill-posed problem, we know that humans can appreciate distances with one eye. This capacity is not innate but acquired and made possible mostly thanks to the identification of indices reflecting the prior knowledge of the surrounding objects. Moreover, we know that learning algorithms can extract these clues directly from images. We are particularly interested in statistical learning methods based on deep neural networks that have recently led to major breakthroughs in many fields and we are studying the case of the monocular depth estimation
Style APA, Harvard, Vancouver, ISO itp.
21

Vielzeuf, Valentin. "Apprentissage neuronal profond pour l'analyse de contenus multimodaux et temporels". Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC229/document.

Pełny tekst źródła
Streszczenie:
Notre perception est par nature multimodale, i.e. fait appel à plusieurs de nos sens. Pour résoudre certaines tâches, il est donc pertinent d’utiliser différentes modalités, telles que le son ou l’image.Cette thèse s’intéresse à cette notion dans le cadre de l’apprentissage neuronal profond. Pour cela, elle cherche à répondre à une problématique en particulier : comment fusionner les différentes modalités au sein d’un réseau de neurones ?Nous proposons tout d’abord d’étudier un problème d’application concret : la reconnaissance automatique des émotions dans des contenus audio-visuels.Cela nous conduit à différentes considérations concernant la modélisation des émotions et plus particulièrement des expressions faciales. Nous proposons ainsi une analyse des représentations de l’expression faciale apprises par un réseau de neurones profonds.De plus, cela permet d’observer que chaque problème multimodal semble nécessiter l’utilisation d’une stratégie de fusion différente.C’est pourquoi nous proposons et validons ensuite deux méthodes pour obtenir automatiquement une architecture neuronale de fusion efficace pour un problème multimodal donné, la première se basant sur un modèle central de fusion et ayant pour visée de conserver une certaine interprétation de la stratégie de fusion adoptée, tandis que la seconde adapte une méthode de recherche d'architecture neuronale au cas de la fusion, explorant un plus grand nombre de stratégies et atteignant ainsi de meilleures performances.Enfin, nous nous intéressons à une vision multimodale du transfert de connaissances. En effet, nous détaillons une méthode non traditionnelle pour effectuer un transfert de connaissances à partir de plusieurs sources, i.e. plusieurs modèles pré-entraînés. Pour cela, une représentation neuronale plus générale est obtenue à partir d’un modèle unique, qui rassemble la connaissance contenue dans les modèles pré-entraînés et conduit à des performances à l'état de l'art sur une variété de tâches d'analyse de visages
Our perception is by nature multimodal, i.e. it appeals to many of our senses. To solve certain tasks, it is therefore relevant to use different modalities, such as sound or image.This thesis focuses on this notion in the context of deep learning. For this, it seeks to answer a particular problem: how to merge the different modalities within a deep neural network?We first propose to study a problem of concrete application: the automatic recognition of emotion in audio-visual contents.This leads us to different considerations concerning the modeling of emotions and more particularly of facial expressions. We thus propose an analysis of representations of facial expression learned by a deep neural network.In addition, we observe that each multimodal problem appears to require the use of a different merge strategy.This is why we propose and validate two methods to automatically obtain an efficient fusion neural architecture for a given multimodal problem, the first one being based on a central fusion network and aimed at preserving an easy interpretation of the adopted fusion strategy. While the second adapts a method of neural architecture search in the case of multimodal fusion, exploring a greater number of strategies and therefore achieving better performance.Finally, we are interested in a multimodal view of knowledge transfer. Indeed, we detail a non-traditional method to transfer knowledge from several sources, i.e. from several pre-trained models. For that, a more general neural representation is obtained from a single model, which brings together the knowledge contained in the pre-trained models and leads to state-of-the-art performances on a variety of facial analysis tasks
Style APA, Harvard, Vancouver, ISO itp.
22

Kaabi, Rabeb. "Apprentissage profond et traitement d'images pour la détection de fumée". Electronic Thesis or Diss., Toulon, 2020. http://www.theses.fr/2020TOUL0017.

Pełny tekst źródła
Streszczenie:
Cette thèse aborde le problème de la détection des feux de forêt par des outils de traitement d’images et apprentissage machine. Un incendie de forêt est un feu qui se propage sur une étendue boisée. Il peut être d'origine naturelle (dû à la foudre ou à une éruption volcanique) ou humaine. Dans le monde entier, l’impact des feux de forêts sur de nombreux aspects de notre vie quotidienne se fait de plus en plus apparente sur l’écosystème entier. De nombreuses méthodes ont montré l’efficacité pour la détection des incendies de forêt. L’originalité du présent travail réside dans la détection précoce des incendies par la détection de la fumée de forêt et la classification des régions de fumée et de non fumée à l’aide d’apprentissage profond et des outils de traitement d’image. Un ensemble de techniques de prétraitement nous a aidé à avoir une base de donnée importante (ajout du bruit aux entrées, augmentation des données) qui nous a permis après de tester la robustesse du modèle basée sur le DBN qu’on a proposé et évaluer la performance en calculant les métriques suivantes (IoU, Précision, Rappel, F1 score). Finalement, l’algorithme proposé est testé sur plusieurs images afin de valider son efficacité. Les simulations de notre algorithme ont été comparées avec celles traités dans l’état de l’art (Deep CNN, SVM…) et ont fourni de très bons résultats
This thesis deals with the problem of forest fire detection using image processing and machine learning tools. A forest fire is a fire that spreads over a wooded area. It can be of natural origin (due to lightning or a volcanic eruption) or human. Around the world, the impact of forest fires on many aspects of our daily lives is becoming more and more apparent on the entire ecosystem.Many methods have been shown to be effective in detecting forest fires. The originality of the present work lies in the early detection of fires through the detection of forest smoke and the classification of smoky and non-smoky regions using deep learning and image processing tools. A set of pre-processing techniques helped us to have an important database which allowed us afterwards to test the robustness of the model based on deep belief network we proposed and to evaluate the performance by calculating the following metrics (IoU, Accuracy, Recall, F1 score). Finally, the proposed algorithm is tested on several images in order to validate its efficiency. The simulations of our algorithm have been compared with those processed in the state of the art (Deep CNN, SVM...) and have provided very good results. The results of the proposed methods gave an average classification accuracy of about 96.5% for the early detection of smoke
Style APA, Harvard, Vancouver, ISO itp.
23

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains". Thesis, Paris, ENST, 2017. http://www.theses.fr/2017ENST0071/document.

Pełny tekst źródła
Streszczenie:
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
Style APA, Harvard, Vancouver, ISO itp.
24

Doan, Tien Tai. "Réalisation d’une aide au diagnostic en orthodontie par apprentissage profond". Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG033.

Pełny tekst źródła
Streszczenie:
L'analyse et le diagnostic précis à partir d'images dentaires sont un facteur essentiel de la réussite des traitements orthodontiques. De nombreux procédés de traitement d'image ont été proposés pour résoudre ce problème. Cependant, ces études fonctionnent principalement sur de petits ensembles de données de radiographies dans des conditions de laboratoire et ne sont pas vraiment applicables en tant que produits ou services complets. Dans cette thèse, nous construisons des modèles d'apprentissage profond pour diagnostiquer des problèmes dentaires tels que la gingivite et les dents chevauchées à l'aide de photos prises par de téléphones portables. Nous étudions les couches cachées de ces modèles pour trouver les forces et les limites de chaque méthode. Nous proposons un pipeline complet intégrant le prétraitement des images, l'apprentissage du modèle et le post-traitement des résultats pour créer un processus d'analyse complet prêt à être mis en production en situation réel. Afin d'améliorer la fiabilité des modèles, nous avons étudié différentes méthodes d'augmentation des données, en particulier les méthodes d'adaptation de domaine en utilisant des approche de transfert d'images, à la fois supervisée et non supervisée, et obtenons des résultats prometteurs. Les approches de transformation d'images sont également utilisés pour simplifier le choix des appareils orthodontiques par les patients en leur montrant à quoi pourraient ressembler leurs dents pendant le traitement. Nos méthodes permettent de générées des images réalistes et en haute définition. Nous proposons également un nouveau modèle de transformation d'image non supervisé qui peut manipuler les caractéristiques de l'image sans nécessiter d'annotation supplémentaire. Notre modèle surpasse les techniques de pointe sur plusieurs applications de transformation d'images et est également étendu pour les problèmes de « few-shot learning »
Accurate processing and diagnosis of dental images is an essential factor determining the success of orthodontic treatment. Many image processing methods have been proposed to address this problem. Those studies mainly work on small datasets of radiographs under laboratory conditions and are not highly applicable as complete products or services. In this thesis, we train deep learning models to diagnose dental problems such as gingivitis and crowded teeth using mobile phones' images. We study feature layers of these models to find the strengths and limitations of each method. Besides training deep learning models, we also embed each of them in a pipeline, including preprocessing and post-processing steps, to create a complete product. For the lack of training data problem, we studied a variety of methods for data augmentation, especially domain adaptation methods using image-to-image translation models, both supervised and unsupervised, and obtain promising results. Image translation networks are also used to simplifying patients' choice of orthodontic appliances by showing them how their teeth could look like during treatment. Generated images have are realistic and in high resolution. Researching further into unsupervised image translation neural networks, we propose an unsupervised imageto- image translation model which can manipulate features of objects in the image without requiring additional annotation. Our model outperforms state-of-the-art techniques on multiple image translation applications and is also extended for few-shot learning problems
Style APA, Harvard, Vancouver, ISO itp.
25

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains". Electronic Thesis or Diss., Paris, ENST, 2017. http://www.theses.fr/2017ENST0071.

Pełny tekst źródła
Streszczenie:
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
Style APA, Harvard, Vancouver, ISO itp.
26

Israilov, Sardor. "De l'identification basée apprentissage profond à la commande basée modèle". Electronic Thesis or Diss., Université Côte d'Azur, 2024. http://www.theses.fr/2024COAZ4003.

Pełny tekst źródła
Streszczenie:
La nage des poissons reste un sujet complexe qui n'est pas encore totalement compris en raison de son aspect interdisciplinaire qui mêle la biologie et dynamique des fluides. Au fil des millénaires, les organismes naturels ont perfectionné leur biologie pour naviguer efficacement dans leur environnement et s'adapter à tout type de situations. Tout au long de l'histoire, l'humanité s'est inspirée de la nature pour innover et développer des systèmes biomimétiques. Le poisson robotique, en particulier, trouve nombres d'applications dans le monde réel et son contrôle doit encore être optimisé. L'apprentissage par renforcement profond a donné d'excellents résultats dans le contrôle des systèmes robotiques, dont la dynamique est trop complexe pour être entièrement modélisée et analysée. Dans cette thèse, nous avons exploré de nouvelles voies de contrôle d'un poisson biomimétique via l'apprentissage par renforcement afin de maximiser efficacement la force de poussée et la vitesse de déplacement. Cependant, pour comprendre pleinement ces nouveaux algorithmes basés sur les données, nous avons d'abord étudié l'application de ces méthodes sur une référence standard de la théorie du contrôle, le pendule inversé sur un chariot. Nous avons démontré que l'apprentissage par renforcement profond pouvait contrôler le système sans aucune connaissance préalable du système, en obtenant des performances comparables aux méthodes traditionnelles de la théorie du contrôle basée sur un modèle. Dans le troisième chapitre, nous nous concentrons sur la nage ondulatoire d'un poisson robotique avec différents objectifs et sources d'information de contrôle. Nos études indiquent que la force de poussée d'un poisson robotique peut être optimisée en utilisant des données provenant à la fois de capteurs de force et d'une caméra comme retour d'information pour la commande. Nos résultats démontrent qu'une commande carrée avec une fréquence particulière maximise la poussée et nous la rationalisons en utilisant le principe du maximum de Pontryagin. Un modèle approprié est établi qui montre un excellent accord entre la simulation et les résultats expérimentaux. Ensuite, nous nous concentrons sur la maximisation de la vitesse d'un poisson robotique à la fois dans plusieurs environnements virtuels et dans des expériences utilisant des données visuelles
Fish swimming remains a complex subject that is not yet fully understood due to the inter-section of biology and fluid dynamics. Through years of evolution, organisms in nature have perfected their biological mechanisms to navigate efficiently in their environment and adaptto particular situations. Throughout history, mankind has been inspired by nature to innovateand develop nature-like systems. Biomimetic robotic fish, in particular, has a number of appli-cations in the real world and its control is yet to be optimized. Deep Reinforcement Learning showed excellent results in control of robotic systems, where dynamics is too complex to befully modeled and analyzed. In this thesis, we explored new venues of control of a biomimetic fish via reinforcement learning to effectively maximize the thrust and speed. However, to fully comprehend the newly-emerged data-based algorithms, we first studied the application of these methods on a standard benchmark of a control theory, the inverted pendulum with a cart. We demonstrated that deep Reinforcement Learning could control the system without any prior knowledge of the system, achieving performance comparable to traditional model-based con-trol theory methods. In the third chapter, we focus on the undulatory swimming of a roboticfish, exploring various objectives and information sources for control. Our studies indicate that the thrust force of a robotic fish can be optimized using inputs from both force sensors and cameras as feedback for control. Our findings demonstrate that a square wave control with a particular frequency maximizes the thrust and we rationalize it using Pontryagin Maximum Principle. An appropriate model is established that shows an excellent agreement between simulation and experimental results. Subsequently, we concentrate on the speed maximization of a robotic fish both in several virtual environments and experiments using visual data. Once again, we find that deep Reinforcement Learning can find an excellent swimming gait with a square wave control that maximizes the swimming speed
Style APA, Harvard, Vancouver, ISO itp.
27

Ganaye, Pierre-Antoine. "A priori et apprentissage profond pour la segmentation en imagerie cérébrale". Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI100.

Pełny tekst źródła
Streszczenie:
L'imagerie médicale est un domaine vaste guidé par les avancées en instrumentation, en techniques d'acquisition et en traitement d’images. Les progrès réalisés dans ces grandes disciplines concourent tous à l'amélioration de la compréhension de phénomènes physiologiques comme pathologiques. En parallèle, l'accès à des bases de données d'imagerie plus large, associé au développement de la puissance de calcul, a favorisé le développement de méthodologies par apprentissage machine pour le traitement automatique des images dont les approches basées sur des réseaux de neurones profonds. Parmi les applications où les réseaux de neurones profonds apportent des solutions, on trouve la segmentation d’images qui consiste à localiser et délimiter dans une image les régions avec des propriétés spécifiques qui seront associées à une même structure. Malgré de nombreux travaux récents en segmentation d’images par réseaux de neurones, l'apprentissage des paramètres d'un réseau de neurones reste guidé par des mesures de performances quantitatives n'incluant pas la connaissance de haut niveau de l'anatomie. L’objectif de cette thèse est de développer des méthodes permettant d’intégrer des a priori dans des réseaux de neurones profonds, en ciblant la segmentation de structures cérébrales en imagerie IRM. Notre première contribution propose une stratégie d'intégration de la position spatiale du patch à classifier, pour améliorer le pouvoir discriminant du modèle de segmentation. Ce premier travail corrige considérablement les erreurs de segmentation étant très éloignées de la réalité anatomique, en améliorant également la qualité globale des résultats. Notre deuxième contribution est ciblée sur une méthodologie pour contraindre les relations d'adjacence entre les structures anatomiques, et ce directement lors de l'apprentissage des paramètres du réseau, dans le but de renforcer le réalisme des segmentations produites. Nos expériences permettent de conclure que la contrainte proposée corrige les adjacences non-admises, améliorant ainsi la consistance anatomique des segmentations produites par le réseau de neurones
Medical imaging is a vast field guided by advances in instrumentation, acquisition techniques and image processing. Advances in these major disciplines all contribute to the improvement of the understanding of both physiological and pathological phenomena. In parallel, access to broader imaging databases, combined with the development of computing power, has fostered the development of machine learning methodologies for automatic image processing, including approaches based on deep neural networks. Among the applications where deep neural networks provide solutions, we find image segmentation, which consists in locating and delimiting in an image regions with specific properties that will be associated with the same structure. Despite many recent studies in deep learning based segmentation, learning the parameters of a neural network is still guided by quantitative performance measures that do not include high-level knowledge of anatomy. The objective of this thesis is to develop methods to integrate a priori into deep neural networks, targeting the segmentation of brain structures in MRI imaging. Our first contribution proposes a strategy for integrating the spatial position of the patch to be classified, to improve the discriminating power of the segmentation model. This first work considerably corrects segmentation errors that are far away from the anatomical reality, also improving the overall quality of the results. Our second contribution focuses on a methodology to constrain adjacency relationships between anatomical structures, directly while learning network parameters, in order to reinforce the realism of the produced segmentations. Our experiments conclude that the proposed constraint corrects non-admitted adjacencies, thus improving the anatomical consistency of the segmentations produced by the neural network
Style APA, Harvard, Vancouver, ISO itp.
28

Routhier, Etienne. "Conception de séquences génomiques artificielles chez la levure par apprentissage profond". Thesis, Sorbonne université, 2021. http://www.theses.fr/2021SORUS465.

Pełny tekst źródła
Streszczenie:
Des avancées technologiques récentes dans le domaine des biotechnologies telles que CRISPR et la synthèse de novo d'oligonucléotides d'ADN permettent désormais de modifier précisément et dans de grandes proportions les génomes. Des projets visant à concevoir des génomes partiellement ou complètement synthétiques, en particulier des génomes de levure, se sont développés en tirant profit de ces technologies. Cependant, pour atteindre ces objectifs, il est nécessaire de contrôler l'activité des séquences artificielles, ce qui demeure aujourd'hui un défi. Heureusement, l'émergence récente de méthodologies d'apprentissage profond capables de reconnaître la fonction génomique associée à une séquence d'ADN peut fournir un outil puissant pour anticiper l'activité des génomes synthétiques et en faciliter la conception. Dans cette perspective, nous proposons d'utiliser les méthodologies d'apprentissage profond afin de concevoir des séquences synthétiques de levure permettant de contrôler la structure locale du génome. Je présenterai en particulier la méthodologie que nous avons développée afin de concevoir des séquences synthétiques positionnant précisément les nucléosomes - une molécule déterminant la structure de l'ADN à la plus basse échelle - chez la levure. Je montrerai aussi que cette méthodologie ouvre la perspective de concevoir des séquences contrôlant le niveau de structure immédiatement supérieur : les boucles. La conception de séquences contrôlant la structure locale permet d'identifier précisément les déterminants de cette structure
Recent technological advances in the field of biotechnologies such as CRISPR and the de novo DNA oligonucleotides synthesis now make it possible to modify precisely and intensively genomes. Projects aiming to design partially or completely synthetic genomes, in particular yeast genomes, have been developed by taking advantage of these technologies. However, to achieve this goal it is necessary to control the activity of artificial sequences, which remains a challenge today. Fortunately, the recent emergence of deep learning methodologies able to recognize the genomic function associated to a DNA sequence seems to provide a powerful tool for anticipating the activity of synthetic genomes and facilitating their design. In this perspective, we propose to use deep learning methodologies in order to design synthetic yeast sequences controlling the local structure of the genome. In particular, I will present the methodology we have developed in order to design synthetic sequences precisely positioning nucleosomes - a molecule determining the structure of DNA at the lowest scale - in yeast. I will also show that this methodology opens up the prospect of designing sequences controlling the immediately higher level of structure: loops. The design of sequences controlling the local structure makes it possible to precisely identify the determinants of this structure
Style APA, Harvard, Vancouver, ISO itp.
29

Etienne, Caroline. "Apprentissage profond appliqué à la reconnaissance des émotions dans la voix". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS517.

Pełny tekst źródła
Streszczenie:
Mes travaux de thèse s'intéressent à l'utilisation de nouvelles technologies d'intelligence artificielle appliquées à la problématique de la classification automatique des séquences audios selon l'état émotionnel du client au cours d'une conversation avec un téléconseiller. En 2016, l'idée est de se démarquer des prétraitements de données et modèles d'apprentissage automatique existant au sein du laboratoire, et de proposer un modèle qui soit le plus performant possible sur la base de données audios IEMOCAP. Nous nous appuyons sur des travaux existants sur les modèles de réseaux de neurones profonds pour la reconnaissance de la parole, et nous étudions leur extension au cas de la reconnaissance des émotions dans la voix. Nous nous intéressons ainsi à l'architecture neuronale bout-en-bout qui permet d'extraire de manière autonome les caractéristiques acoustiques du signal audio en vue de la tâche de classification à réaliser. Pendant longtemps, le signal audio est prétraité avec des indices paralinguistiques dans le cadre d'une approche experte. Nous choisissons une approche naïve pour le prétraitement des données qui ne fait pas appel à des connaissances paralinguistiques spécialisées afin de comparer avec l'approche experte. Ainsi le signal audio brut est transformé en spectrogramme temps-fréquence à l'aide d'une transformée de Fourier à court-terme. Exploiter un réseau neuronal pour une tâche de prédiction précise implique de devoir s'interroger sur plusieurs aspects. D'une part, il convient de choisir les meilleurs hyperparamètres possibles. D'autre part, il faut minimiser les biais présents dans la base de données (non discrimination) en ajoutant des données par exemple et prendre en compte les caractéristiques de la base de données choisie. Le but est d'optimiser le mieux possible l'algorithme de classification. Nous étudions ces aspects pour une architecture neuronale bout-en-bout qui associe des couches convolutives spécialisées dans le traitement de l'information visuelle, et des couches récurrentes spécialisées dans le traitement de l'information temporelle. Nous proposons un modèle d'apprentissage supervisé profond compétitif avec l'état de l'art sur la base de données IEMOCAP et cela justifie son utilisation pour le reste des expérimentations. Ce modèle de classification est constitué de quatre couches de réseaux de neurones à convolution et un réseau de neurones récurrent bidirectionnel à mémoire court-terme et long-terme (BLSTM). Notre modèle est évalué sur deux bases de données audios anglophones proposées par la communauté scientifique : IEMOCAP et MSP-IMPROV. Une première contribution est de montrer qu'avec un réseau neuronal profond, nous obtenons de hautes performances avec IEMOCAP et que les résultats sont prometteurs avec MSP-IMPROV. Une autre contribution de cette thèse est une étude comparative des valeurs de sortie des couches du module convolutif et du module récurrent selon le prétraitement de la voix opéré en amont : spectrogrammes (approche naïve) ou indices paralinguistiques (approche experte). À l'aide de la distance euclidienne, une mesure de proximité déterministe, nous analysons les données selon l'émotion qui leur est associée. Nous tentons de comprendre les caractéristiques de l'information émotionnelle extraite de manière autonome par le réseau. L'idée est de contribuer à une recherche centrée sur la compréhension des réseaux de neurones profonds utilisés en reconnaissance des émotions dans la voix et d'apporter plus de transparence et d'explicabilité à ces systèmes dont le mécanisme décisionnel est encore largement incompris
This thesis deals with the application of artificial intelligence to the automatic classification of audio sequences according to the emotional state of the customer during a commercial phone call. The goal is to improve on existing data preprocessing and machine learning models, and to suggest a model that is as efficient as possible on the reference IEMOCAP audio dataset. We draw from previous work on deep neural networks for automatic speech recognition, and extend it to the speech emotion recognition task. We are therefore interested in End-to-End neural architectures to perform the classification task including an autonomous extraction of acoustic features from the audio signal. Traditionally, the audio signal is preprocessed using paralinguistic features, as part of an expert approach. We choose a naive approach for data preprocessing that does not rely on specialized paralinguistic knowledge, and compare it with the expert approach. In this approach, the raw audio signal is transformed into a time-frequency spectrogram by using a short-term Fourier transform. In order to apply a neural network to a prediction task, a number of aspects need to be considered. On the one hand, the best possible hyperparameters must be identified. On the other hand, biases present in the database should be minimized (non-discrimination), for example by adding data and taking into account the characteristics of the chosen dataset. We study these aspects in order to develop an End-to-End neural architecture that combines convolutional layers specialized in the modeling of visual information with recurrent layers specialized in the modeling of temporal information. We propose a deep supervised learning model, competitive with the current state-of-the-art when trained on the IEMOCAP dataset, justifying its use for the rest of the experiments. This classification model consists of a four-layer convolutional neural networks and a bidirectional long short-term memory recurrent neural network (BLSTM). Our model is evaluated on two English audio databases proposed by the scientific community: IEMOCAP and MSP-IMPROV. A first contribution is to show that, with a deep neural network, we obtain high performances on IEMOCAP, and that the results are promising on MSP-IMPROV. Another contribution of this thesis is a comparative study of the output values ​​of the layers of the convolutional module and the recurrent module according to the data preprocessing method used: spectrograms (naive approach) or paralinguistic indices (expert approach). We analyze the data according to their emotion class using the Euclidean distance, a deterministic proximity measure. We try to understand the characteristics of the emotional information extracted autonomously by the network. The idea is to contribute to research focused on the understanding of deep neural networks used in speech emotion recognition and to bring more transparency and explainability to these systems, whose decision-making mechanism is still largely misunderstood
Style APA, Harvard, Vancouver, ISO itp.
30

Carbajal, Guillaume. "Apprentissage profond bout-en-bout pour le rehaussement de la parole". Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0017.

Pełny tekst źródła
Streszczenie:
Cette thèse s'insère dans le développement des systèmes de télécommunication mains-libres, en particulier avec des enceintes intelligentes en environnement domestique. L'utilisateur interagit avec un correspondant distant en étant généralement situé à quelques mètres de ce type de système. Les microphones sont susceptibles de capter des sons de l'environnement qui se mêlent à la voix de l'utilisateur, comme le bruit ambiant, l'écho acoustique et la réverbération. Ces types de distorsions peuvent gêner fortement l'écoute et la compréhension de la conversation par le correspondant distant, et il est donc nécessaire de les réduire. Des méthodes de filtrage existent pour réduire individuellement chacun de ces types de distorsion sonore, et leur réduction simultanée implique de combiner ces méthodes. Toutefois, celles-ci interagissent entre elles, et leurs interactions peuvent dégrader de la voix de l'utilisateur. Il est donc nécessaire d'optimiser conjointement ces méthodes. En premier lieu, nous présentons une approche de réduction de l'écho acoustique combinant un filtre d'annulation d'écho avec un post-filtre de suppression d'écho résiduel conçu de manière à s'adapter à différents modes de fonctionnement du filtre d'annulation. Pour cela, nous proposons d'estimer les coefficients du post-filtre en utilisant les spectres à court terme de plusieurs signaux observés, dont le signal estimé par le filtre d'annulation, en entrée d'un réseau de neurones. Nous montrons que cette approche améliore la performance et la robustesse du post-filtre en matière de réduction d'écho, tout en limitant la dégradation de la parole de l'utilisateur, sur plusieurs scénarios dans des conditions réelles. En second lieu, nous décrivons une approche conjointe de réduction multicanale de l'écho, de la réverbération et du bruit. Nous proposons de modéliser simultanément la parole cible et les signaux résiduels après annulation d'écho et déréverbération dans un cadre probabiliste et de représenter conjointement leurs spectres à court terme à l'aide d'un réseau de neurones récurrent. Nous intégrons cette modélisation dans un algorithme de montée par blocs de coordonnées pour mettre à jour les filtres d'annulation d'écho et de déréverbération, ainsi que le post-filtre de suppression des signaux résiduels. Nous évaluons notre approche sur des enregistrements réels dans différentes conditions. Nous montrons qu'elle améliore la qualité de la parole ainsi que la réduction de l'écho, de la réverbération et du bruit, par rapport à une approche optimisant séparément les méthodes de filtrage et une autre approche de réduction conjointe. En dernier lieu, nous formulons une version en ligne de notre approche adaptée aux situations où les conditions acoustiques varient dans le temps. Nous évaluons la qualité perceptuelle sur des exemples réels où l'utilisateur se déplace durant la conversation
This PhD falls within the development of hands-free telecommunication systems, more specifically smart speakers in domestic environments. The user interacts with another speaker at a far-end point and can be typically a few meters away from this kind of system. The microphones are likely to capture sounds of the environment which are added to the user's voice, such background noise, acoustic echo and reverberation. These types of distortion degrade speech quality, intelligibility and listening comfort for the far-end speaker, and must be reduced. Filtering methods can reduce individually each of these types of distortion. Reducing all of them implies combining the corresponding filtering methods. As these methods interact with each other which can deteriorate the user's speech, they must be jointly optimized. First of all, we introduce an acoustic echo reduction approach which combines an echo cancellation filter with a residual echo postfilter designed to adapt to the echo cancellation filter. To do so, we propose to estimate the postfilter coefficients using the short term spectra of multiple known signals, including the output of the echo cancellation filter, as inputs to a neural network. We show that this approach improves the performance and the robustness of the postfilter in terms of echo reduction, while limiting speech degradation, on several scenarios in real conditions. Secondly, we describe a joint approach for multichannel reduction of echo, reverberation and noise. We propose to simultaneously model the target speech and undesired residual signals after echo cancellation and dereveberation in a probabilistic framework, and to jointly represent their short-term spectra by means of a recurrent neural network. We develop a block-coordinate ascent algorithm to update the echo cancellation and dereverberation filters, as well as the postfilter that reduces the undesired residual signals. We evaluate our approach on real recordings in different conditions. We show that it improves speech quality and reduction of echo, reverberation and noise compared to a cascade of individual filtering methods and another joint reduction approach. Finally, we present an online version of our approach which is suitable for time-varying acoustic conditions. We evaluate the perceptual quality achieved on real examples where the user moves during the conversation
Style APA, Harvard, Vancouver, ISO itp.
31

Bouindour, Samir. "Apprentissage profond appliqué à la détection d'événements anormaux dans les flux vidéos". Electronic Thesis or Diss., Troyes, 2019. http://www.theses.fr/2019TROY0036.

Pełny tekst źródła
Streszczenie:
L'utilisation des caméras de surveillance s'est considérablement accru ces dernières années. Cette prolifération pose un problème sociétal de premier ordre, celui de l’exploitation des flux générés. Actuellement, ces données sont en majorité analysées par des opérateurs humains. Cependant, de nombreuses études remettent en cause la pertinence de cette approche. Il est chronophage et laborieux pour un opérateur de visionner des vidéos de surveillance durant de longues périodes. Compte tenu des progrès réalisés récemment dans le domaine de la vision par ordinateur, notamment par l'intermédiaire de l'apprentissage profond, une solution à ce problème réside dans le développement de systèmes intelligents capables d'épauler l'opérateur humain dans l'exploitation de ces données. Ces systèmes intelligents auront pour objectifs de modéliser les comportements normaux d'une scène surveillée et de détecter tout événement déviant, pouvant conduire à une faille de sécurité. Dans le cadre de cette thèse intitulée « Apprentissage profond appliqué à la détection d'événements anormaux dans les flux vidéos », on se propose de développer des algorithmes se basant sur l’apprentissage profond pour la détection et la localisation des événements vidéo anormaux pouvant refléter des situations à risque. Il s’agit, en fait, d’extraire des descripteurs spatiotemporels robustes et de définir des algorithmes de classification adaptés pour détecter des comportements suspects avec le minimum possible de fausses alarmes, tout en assurant un taux élevé de détection
The use of surveillance cameras has increased considerably in recent years. This proliferation poses a major societal problem, which is the exploitation of the generated video streams. Currently, most of these data are being analyzed by human operators. However, several studies question the relevance of this approach. It is time-consuming and laborious for an operator to monitor surveillance videos for long time periods. Given recent advances in computer vision, particularly through deep learning, one solution to this problem consists in the development of intelligent systems that can support the human operator in the exploitation of this data. These intelligent systems will aim to model the normal behaviours of a monitored scene and detect any deviant event that could lead to a security breach. Within the context of this thesis entitled "Deep learning applied to the detection of abnormal events in video streams", we propose to develop algorithms based on deep learning for the detection and localization of abnormal video events that may reflect dangerous situations. The purpose is to extract robust spatial and temporal descriptors and define classification algorithms adapted to detect suspicious behaviour with the minimum possible number of false alarms, while ensuring a high detection rate
Style APA, Harvard, Vancouver, ISO itp.
32

Dahmani, Sara. "Synthèse audiovisuelle de la parole expressive : modélisation des émotions par apprentissage profond". Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0137.

Pełny tekst źródła
Streszczenie:
Les travaux de cette thèse portent sur la modélisation des émotions pour la synthèse audiovisuelle expressive de la parole à partir du texte. Aujourd’hui, les résultats des systèmes de synthèse de la parole à partir du texte sont de bonne qualité, toutefois la synthèse audiovisuelle reste encore une problématique ouverte et la synthèse expressive l’est encore d’avantage. Nous proposons dans le cadre de cette thèse une méthode de modélisation des émotions malléable et flexible, permettant de mélanger les émotions comme on mélange les teintes sur une palette de couleurs. Dans une première partie, nous présentons et étudions deux corpus expressifs que nous avons construits. La stratégie d’acquisition ainsi que le contenu expressif de ces corpus sont analysés pour valider leur utilisation à des fins de synthèse audiovisuelle de la parole. Dans une seconde partie, nous proposons deux architectures neuronales pour la synthèse de la parole. Nous avons utilisé ces deux architectures pour modéliser trois aspects de la parole : 1) les durées des sons, 2) la modalité acoustique et 3) la modalité visuelle. Dans un premier temps, nous avons adopté une architecture entièrement connectée. Cette dernière nous a permis d’étudier le comportement des réseaux de neurones face à différents descripteurs contextuels et linguistiques. Nous avons aussi pu analyser, via des mesures objectives, la capacité du réseau à modéliser les émotions. La deuxième architecture neuronale proposée est celle d’un auto-encodeur variationnel. Cette architecture est capable d’apprendre une représentation latente des émotions sans utiliser les étiquettes des émotions. Après analyse de l’espace latent des émotions, nous avons proposé une procédure de structuration de ce dernier pour pouvoir passer d’une représentation par catégorie vers une représentation continue des émotions. Nous avons pu valider, via des expériences perceptives, la capacité de notre système à générer des émotions, des nuances d’émotions et des mélanges d’émotions, et cela pour la synthèse audiovisuelle expressive de la parole à partir du texte
: The work of this thesis concerns the modeling of emotions for expressive audiovisual textto-speech synthesis. Today, the results of text-to-speech synthesis systems are of good quality, however audiovisual synthesis remains an open issue and expressive synthesis is even less studied. As part of this thesis, we present an emotions modeling method which is malleable and flexible, and allows us to mix emotions as we mix shades on a palette of colors. In the first part, we present and study two expressive corpora that we have built. The recording strategy and the expressive content of these corpora are analyzed to validate their use for the purpose of audiovisual speech synthesis. In the second part, we present two neural architectures for speech synthesis. We used these two architectures to model three aspects of speech : 1) the duration of sounds, 2) the acoustic modality and 3) the visual modality. First, we use a fully connected architecture. This architecture allowed us to study the behavior of neural networks when dealing with different contextual and linguistic descriptors. We were also able to analyze, with objective measures, the network’s ability to model emotions. The second neural architecture proposed is a variational auto-encoder. This architecture is able to learn a latent representation of emotions without using emotion labels. After analyzing the latent space of emotions, we presented a procedure for structuring it in order to move from a discrete representation of emotions to a continuous one. We were able to validate, through perceptual experiments, the ability of our system to generate emotions, nuances of emotions and mixtures of emotions, and this for expressive audiovisual text-to-speech synthesis
Style APA, Harvard, Vancouver, ISO itp.
33

Deschamps, Sébastien. "Apprentissage actif profond pour la reconnaissance visuelle à partir de peu d’exemples". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS199.

Pełny tekst źródła
Streszczenie:
L’analyse automatique d’images a permis d’améliorer l’exploitation des capteurs d’image, avec des données qui proviennent de différents capteurs tels que des caméras de téléphone, des caméras de surveillance, des imageurs satellites ou encore des drones. L’apprentissage profond obtient d’excellents résultats dans les applications d’analyse d’images où de grandes quantités de données annotées sont disponibles, mais apprendre un nouveau classifieur d’images à partir de zéro est une tâche difficile. La plupart des méthodes de classification d’images sont supervisées, nécessitant des annotations, ce qui représente un investissement important. Différentes solutions d’apprentissage frugal (avec peu d’exemples annotés) existent, notamment l’apprentissage par transfert, l’apprentissage actif, l’apprentissage semi-supervisé ou bien le méta-apprentissage. L’objectif de cette thèse est d’étudier ces solutions d’apprentissage frugal pour des tâches de reconnaissance visuelle, notamment la classification d’images et la détection des changements dans des images satellites. Ainsi, le classifieur est entraîné de façon itérative en commençant avec très peu de données, et en demandant à l’utilisateur d’annoter le moins possible de données pour obtenir des performances satisfaisantes. L’apprentissage actif profond a été étudié initialement avec d’autres méthodes et nous a semblé le plus adapté à notre problématique métier, nous avons donc privilégié cette solution. Nous avons développé dans cette thèse une première approche interactive, où nous posons les questions les plus informatives sur la pertinence des données à un oracle (annotateur). En fonction de ses réponses, une fonction de décision est mise à jour itérativement. Nous modélisons la probabilité que les échantillons soient pertinents, en minimisant une fonction objectif capturant la représentativité, la diversité et l’ambiguïté des données. Les données avec une probabilité élevée sont ensuite sélectionnées pour annotation. Nous avons fait évoluer cette approche, en utilisant l’apprentissage par renforcement pour pondérer dynamiquement et précisément l’importance de la représentativité, l’ambiguïté et la diversité des données à chaque cycle d’apprentissage actif. Finalement, notre dernière approche consiste en un modèle d’affichage qui sélectionne des exemples virtuels les plus représentatifs et divers, qui remettent en question le modèle appris, de sorte à obtenir un modèle très discriminatoire dans les itérations suivantes de l’apprentissage actif. Les bons résultats obtenus face aux différentes baselines et l’état de l’art, en détection de changements dans des images satellites et en classification d’images, ont permis de démontrer la pertinence des modèles d'apprentissage frugal proposés, et ont donné lieu à diverses publications (Sahbi et al. 2021 ; Deschamps et Sahbi 2022b ; Deschamps et Sahbi 2022a ; Sahbi et Deschamps 2022)
Automatic image analysis has improved the exploitation of image sensors, with data coming from different sensors such as phone cameras, surveillance cameras, satellite imagers or even drones. Deep learning achieves excellent results in image analysis applications where large amounts of annotated data are available, but learning a new image classifier from scratch is a difficult task. Most image classification methods are supervised, requiring annotations, which is a significant investment. Different frugal learning solutions (with few annotated examples) exist, including transfer learning, active learning, semi-supervised learning or meta-learning. The goal of this thesis is to study these frugal learning solutions for visual recognition tasks, namely image classification and change detection in satellite images. The classifier is trained iteratively by starting with only a few annotated samples, and asking the user to annotate as little data as possible to obtain satisfactory performance. Deep active learning was initially studied with other methods and suited our operational problem the most, so we chose this solution. In this thesis, we have developed an interactive approach, where we ask the most informative questions about the relevance of the data to an oracle (annotator). Based on its answers, a decision function is iteratively updated. We model the probability that the samples are relevant, by minimizing an objective function capturing the representativeness, diversity and ambiguity of the data. Data with high probability are then selected for annotation. We have improved this approach, using reinforcement learning to dynamically and accurately weight the importance of representativeness, diversity and ambiguity of the data in each active learning cycle. Finally, our last approach consists of a display model that selects the most representative and diverse virtual examples, which adversely challenge the learned model, in order to obtain a highly discriminative model in subsequent iterations of active learning. The good results obtained against the different baselines and the state of the art in the tasks of satellite image change detection and image classification have demonstrated the relevance of the proposed frugal learning models, and have led to various publications (Sahbi et al. 2021; Deschamps and Sahbi 2022b; Deschamps and Sahbi 2022a; Sahbi and Deschamps2022)
Style APA, Harvard, Vancouver, ISO itp.
34

Philip, Julien. "Édition et rendu à base d’images multi-vues par apprentissage profond et optimisation". Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4048.

Pełny tekst źródła
Streszczenie:
Les images de synthèse (CGI) prennent une place grandissante dans notre environnement. Que ce soit dans les jeux vidéos ou les films, leur qualité ne cesse de s’accroître nécessitant la création fastidieuse de contenus artistiques. L’émergence de la réalité virtuelle et augmentée, entraine la nécessité de rendre des environnements existants. Pour permettre l’utilisation généralisée des images de synthèse dans des applications telles que la télé-présence ou les visites virtuelles, la digitalisation manuelle des contenus par des artistes se doit d’être évitée. Une des solutions peut provenir des techniques de Rendu à Base d’Images (IBR) qui permettent de rendre des scènes, depuis un point de vue libre, à partir d’un ensemble de photographies parcimonieux. Bien que ces méthodes ne nécessitent que peu de travail artistique, elles n’autorisent cependant pas le contrôle ou l’édition du contenu. Dans cette thèse, nous explorons l’Edition et le Rendu d’Images Multi-vues. Afin de permettre à des scènes, capturées avec le moins de contraintes possibles, d’être rendues avec des altérations telles que la suppression d’objets, l’édition d’éclairage, ou la composition de scènes, nous exploitons les techniques d’optimisation et d’apprentissage profond. Nous concevons nos méthodes afin qu’elles tirent pleinement avantage de l’information présente dans le contenu multi-vues, tout en en respectant ses contraintes spécifiques. Pour la suppression d’objets, nous introduisons un algorithme de remplissage automatique, multi-vues cohérent, utilisant une représentation planaire. Les plans sont des objets simples et efficaces pour combler la géométrie, dont la cohérence multi-vues émerge naturellement lorsque le remplissage est effectué dans un espace texture rectifié et partagé. Ils permettent aussi le respect des effets de perspective. Nous démontrons la capacité d’enlever des objets, à grande l’échelle, dans des scènes contenant plusieurs centaines d’images. Nous traitons ensuite le problème du rééclairage des scènes extérieures par une méthode d’apprentissage profond. Elle permet de modifier l’illumination, en enlevant et synthétisant les ombres portées, pour une position du soleil quelconque, tout en tenant compte des variations d’illumination globale. Une représentation géométrique approximative, reconstruite en utilisant la stéréo multi-vues, est utilisée pour générer des images tampons d’illumination et d’ombres qui guident un réseau de neurones. Nous entrainons ce réseau sur un ensemble de scènes synthétiques, permettant une supervision complète. Une augmentation des données minutieuse permet à notre réseau de généraliser aux scènes réelles et de produire l’état de l’art en terme de résultats. Nous démontrons ensuite, la capacité du réseau à être utilisé pour composer des scènes réelles, capturées dans des conditions d’orientation et d’éclairages différentes. Nous présentons ensuite des contributions à la qualité de l'IBR. Nous introduisons un algorithme de maillage de cartes de profondeur et de leur simplification. Nous démontrons son impact sur la qualité et les performances d’une nouvelle méthode d’IBR utilisant l’apprentissage. Enfin, nous introduisons une méthode qui combine rééclairage, IBR, et analyse de matériaux. Afin de permettre un rendu à base d’images, rééclairable et tenant compte des effets spéculaires, nous extrayons du contenu multi-vues les variations d’apparence des matériaux et l’information de texture haute résolution, sous la forme de plusieurs rendus IBR heuristiques. Nous les combinons ensuite avec des rendus d’irradiance, obtenus par lancer de rayons, qui spécifient les conditions d’éclairage initiales et désirées. Cette combinaison permet d’entrainer un réseau de neurones à extraire implicitement les propriétés des matériaux et à produire des points de vue rééclairés réalistes [...]
Computer-generated imagery (CGI) takes a growing place in our everyday environment. Whether it is in video games or movies, CGI techniques are constantly improving in quality but also require ever more qualitative artistic content which takes a growing time to create. With the emergence of virtual and augmented reality, often comes the need to render or re-render assets that exist in our world. To allow widespread use of CGI in applications such as telepresence or virtual visits, the need for manual artistic replication of assets must be removed from the process. This can be done with the help of Image-Based Rendering (IBR) techniques that allow scenes or objects to be rendered in a free-viewpoint manner from a set of sparse input photographs. While this process requires little to no artistic work, it also does not allow for artistic control or editing of scene content. In this dissertation, we explore Multi-view Image Editing and Rendering. To allow casually captured scenes to be rendered with content alterations such as object removal, lighting edition, or scene compositing, we leverage the use of optimization techniques and modern deep-learning. We design our methods to take advantage of all the information present in multi-view content while handling specific constraints such as multi-view coherency. For object removal, we introduce a new plane-based multi-view inpainting algorithm. Planes are a simple yet effective way to fill geometry and they naturally enforce multi-view coherency as inpainting is computed in a shared rectified texture space, allowing us to correctly respect perspective. We demonstrate instance-based object removal at the scale of a street in scenes composed of several hundreds of images. We next address outdoor relighting with a learning-based algorithm that efficiently allows the illumination in a scene to be changed, while removing and synthesizing cast shadows for any given sun position and accounting for global illumination. An approximate geometric proxy built using multi-view stereo is used to generate illumination and shadow related image buffers that guide a neural network. We train this network on a set of synthetic scenes allowing full supervision of the learning pipeline. Careful data augmentation allows our network to transfer to real scenes and provides state of the art relighting results. We also demonstrate the capacity of this network to be used to compose real scenes captured under different lighting conditions and orientation. We then present contributions to image-based rendering quality. We discuss how our carefully designed depth-map meshing and simplification algorithm improve rendering performance and quality of a new learning-based IBR method. Finally, we present a method that combines relighting, IBR, and material analysis. To enable relightable IBR with accurate glossy effects, we extract both material appearance variations and qualitative texture information from multi-view content in the form of several IBR heuristics. We further combine them with path-traced irradiance images that specify the input and target lighting. This combination allows a neural network to be trained to implicitly extract material properties and produce realistic-looking relit viewpoints. Separating diffuse and specular supervision is crucial in obtaining high-quality output
Style APA, Harvard, Vancouver, ISO itp.
35

Frizzi, Sebastien. "Apprentissage profond en traitement d'images : application pour la détection de fumée et feu". Electronic Thesis or Diss., Toulon, 2021. http://www.theses.fr/2021TOUL0007.

Pełny tekst źródła
Streszczenie:
Les chercheurs ont établi une forte corrélation entre les étés chauds et la fréquence ainsi que l'intensité desincendies de forêt. Le réchauffement climatique dû aux gaz à effet de serre tels que le dioxyde de carboneaugmente la température dans certaines parties du monde. Or, les incendies libèrent des quantitésimportantes de gaz à effet de serre, engendrant une augmentation de la température moyenne sur terreinduisant à son tour une augmentation des incendies de forêt... Les incendies détruisent des millionsd'hectares de zones forestières, des écosystèmes abritant de nombreuses espèces et ont un cout importantpour nos sociétés. La prévention et les moyens de maîtrise des incendies doivent être une priorité pour arrêtercette spirale infernale.Dans ce cadre, la détection de la fumée est très importante, car elle est le premier indice d'un début d'incendie.Le feu et surtout la fumée sont des objets difficiles à détecter dans les images visibles en raison de leurcomplexité en termes de forme, de couleur et de texture. Cependant, l'apprentissage profond couplé à lasurveillance vidéo peut atteindre cet objectif. L'architecture des réseaux de neurones convolutifs (CNN) estcapable de détecter avec une très bonne précision la fumée et le feu dans les images RVB. De plus, cesstructures peuvent segmenter la fumée ainsi que le feu en temps réel. La richesse de la base de donnéesd'apprentissage des réseaux profonds est un élément très important permettant une bonne généralisation.Ce manuscrit présente différentes architectures profondes basées sur des réseaux convolutifs permettant dedétecter et localiser la fumée et le feu dans les images vidéo dans le domaine du visible
Researchers have found a strong correlation between hot summers and the frequency and intensity of forestfires. Global warming due to greenhouse gases such as carbon dioxide is increasing the temperature in someparts of the world. Fires release large amounts of greenhouse gases, causing an increase in the earth'saverage temperature, which in turn causes an increase in forest fires... Fires destroy millions of hectares offorest areas, ecosystems sheltering numerous species and have a significant cost for our societies. Theprevention and control of fires must be a priority to stop this infernal spiral.In this context, smoke detection is very important because it is the first clue of an incipient fire. Fire andespecially smoke are difficult objects to detect in visible images due to their complexity in terms of shape, colorand texture. However, deep learning coupled with video surveillance can achieve this goal. Convolutionalneural network (CNN) architecture is able to detect smoke and fire in RGB images with very good accuracy.Moreover, these structures can segment smoke as well as fire in real time. The richness of the deep networklearning database is a very important element allowing a good generalization.This manuscript presents different deep architectures based on convolutional networks to detect and localizesmoke and fire in video images in the visible domain
Style APA, Harvard, Vancouver, ISO itp.
36

Guesdon, Romain. "Estimation de poses humaines par apprentissage profond : application aux passagers des véhicules autonomes". Electronic Thesis or Diss., Lyon 2, 2024. http://www.theses.fr/2024LYO20002.

Pełny tekst źródła
Streszczenie:
La recherche concernant les voitures autonomes a fortement progressé ces dernières décennies, en se concentrant particulièrement sur l'analyse de l'environnement extérieur et sur les tâches liées à la conduite. Cela a permis une importante croissance de l'autonomie des véhicules particuliers. Dans ce nouveau contexte, il peut être pertinent de s'intéresser aux passagers de ces véhicules autonomes afin d'étudier le comportement de ces derniers face à cette révolution du moyen de transport. C'est pour approfondir ces thématiques que le projet région AURA AutoBehave a été mis en place. Ce projet réunit plusieurs laboratoires menant des recherches dans différentes disciplines scientifiques liées à cette thématique telles que la vision par ordinateur, la biomécanique, les émotions ou encore l'économie des transports. Cette thèse menée au laboratoire LIRIS s'inscrit donc dans ce projet, dans laquelle nous nous intéressons aux méthodes d'estimation de poses humaines des passagers par apprentissage profond. Nous avons d'abord étudié les solutions de l'état de l'art, et avons développé un jeu de données ainsi qu'une métrique plus adaptée aux contraintes de notre contexte. Nous nous sommes également intéressés à la visibilité des points afin d'aider l'estimation de la pose. Par la suite, nous nous sommes attaqués à la problématique de généralisation de domaine pour l'estimation de poses dans le but de proposer une solution efficace dans des conditions inconnues. Ainsi, nous nous sommes intéressés à la génération de données synthétiques de passagers pour l'estimation de poses afin de combler le manque de jeux de données annotés disponibles dans notre contexte. Nous avons étudié l'application de réseaux génératifs ainsi que de méthodes modélisation 3D à notre problématique. Nous nous sommes appuyés sur ces données pour proposer différentes stratégies d'entraînement et deux nouvelles architectures. L'approche par fusion proposée associée aux stratégies d'entraînement permet de tirer profit de jeux de données génériques et de jeux de données spécifiques, afin d'améliorer les capacités de généralisation des méthodes d'estimation de poses à l'intérieur d'une voiture, en particulier sur le bas du corps
Research into autonomous cars has made great strides in recent decades, focusing particularly on analysis of the external environment and driving-related tasks. This has led to a significant increase in the autonomy of private vehicles. In this new context, it may be relevant to take an interest in the passengers of these autonomous vehicles, to study their behavior in the face of this revolution in the means of transport. The AURA AutoBehave project has been set up to explore these issues in greater depth. This project brings together several laboratories conducting research in different scientific disciplines linked to this theme, such as computer vision, biomechanics, emotions, and transport economics. This thesis carried out at the LIRIS laboratory is part of this project, in which we focus on methods for estimating the human poses of passengers using deep learning. We first looked at state-of-the-art solutions and developed both a dataset and a metric better suited to the constraints of our context. We also studied the visibility of the keypoints to help estimate the pose. We then tackled the problem of domain generalisation for pose estimation to propose an efficient solution under unknown conditions. Thus, we focused on the generation of synthetic passenger data for pose estimation. Among other things, we studied the application of generative networks and 3D modeling methods to our problem. We have used this data to propose different training strategies and two new network architectures. The proposed fusion approach associated with the training strategies makes it possible to take advantage of both generic and specific datasets, to improve the generalisation capabilities of pose estimation methods inside a car, particularly on the lower body
Style APA, Harvard, Vancouver, ISO itp.
37

Peiffer, Elsa. "Implications des structures cérébrales profondes dans les apprentissages procéduraux". Lyon 1, 2000. http://www.theses.fr/2000LYO1T267.

Pełny tekst źródła
Style APA, Harvard, Vancouver, ISO itp.
38

Franceschi, Jean-Yves. "Apprentissage de représentations et modèles génératifs profonds dans les systèmes dynamiques". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS014.

Pełny tekst źródła
Streszczenie:
L'essor de l'apprentissage profond trouve notamment sa source dans les avancées scientifiques qu'il a permises en termes d'apprentissage de représentations et de modèles génératifs. Dans leur grande majorité, ces progrès ont cependant été obtenus sur des données textuelles et visuelles statiques, les données temporelles demeurant un défi pour ces méthodes. Compte tenu de leur importance pour l'automatisation croissante de multiples tâches, de plus en plus de travaux en apprentissage automatique s'intéressent aux problématiques d'évolution temporelle. Dans cette thèse, nous étudions ainsi plusieurs aspects de la temporalité et des systèmes dynamiques dans les réseaux de neurones profonds pour l'apprentissage non supervisé de représentations et de modèles génératifs. Premièrement, nous présentons une méthode générale d'apprentissage de représentations non supervisée pour les séries temporelles prenant en compte des besoins pratiques d'efficacité et de flexibilité. Dans un second temps, nous nous intéressons à l'apprentissage pour les séquences structurées de nature spatio-temporelle, couvrant les vidéos et phénomènes physiques. En les modélisant par des équations différentielles paramétrisées par des réseaux de neurones, nous montrons la corrélation entre la découverte de représentations pertinentes d'un côté, et de l'autre la fabrique de modèles prédictifs performants sur ces données. Enfin, nous analysons plus généralement dans une troisième partie les populaires réseaux antagonistes génératifs dont nous décrivons la dynamique d'apprentissage par des équations différentielles, nous permettant d'améliorer la compréhension de leur fonctionnement
The recent rise of deep learning has been motivated by numerous scientific breakthroughs, particularly regarding representation learning and generative modeling. However, most of these achievements have been obtained on image or text data, whose evolution through time remains challenging for existing methods. Given their importance for autonomous systems to adapt in a constantly evolving environment, these challenges have been actively investigated in a growing body of work. In this thesis, we follow this line of work and study several aspects of temporality and dynamical systems in deep unsupervised representation learning and generative modeling. Firstly, we present a general-purpose deep unsupervised representation learning method for time series tackling scalability and adaptivity issues arising in practical applications. We then further study in a second part representation learning for sequences by focusing on structured and stochastic spatiotemporal data: videos and physical phenomena. We show in this context that performant temporal generative prediction models help to uncover meaningful and disentangled representations, and conversely. We highlight to this end the crucial role of differential equations in the modeling and embedding of these natural sequences within sequential generative models. Finally, we more broadly analyze in a third part a popular class of generative models, generative adversarial networks, under the scope of dynamical systems. We study the evolution of the involved neural networks with respect to their training time by describing it with a differential equation, allowing us to gain a novel understanding of this generative model
Style APA, Harvard, Vancouver, ISO itp.
39

Zhang, Jian. "Modèles de Mobilité de Véhicules par Apprentissage Profond dans les Systèmes de Tranport Intelligents". Thesis, Ecole centrale de Lille, 2018. http://www.theses.fr/2018ECLI0015/document.

Pełny tekst źródła
Streszczenie:
Les systèmes de transport intelligents ont acquis un grand intérêt pour la recherche ces dernières années. Alors que la simulation réaliste du trafic joue un rôle important, elle n'a pas reçu suffisamment d'attention. Cette thèse est consacrée à l'étude de la simulation du trafic au niveau microscopique et propose des modèles de mobilité des véhicules correspondants. À l'aide de méthodes d'apprentissage profond, ces modèles de mobilité ont fait leurs preuves avec une crédibilité prometteuse pour représenter les véhicules dans le monde réel. D'abord, un modèle de mobilité basé sur un réseau de neurones piloté par les données est proposé. Ce modèle provient de données de trajectoires du monde réel et permet de mimer des comportements de véhicules locaux. En analysant les performances de ce modèle de mobilité basé sur un apprentissage de base, nous indiquons qu’une amélioration est possible et proposons ses spécifications. Un MMC est alors introduit. La préparation de cette intégration est nécessaire, ce qui comprend un examen des modèles de mobilité traditionnels basés sur la dynamique et l’adaptation des modèles « classiques » à notre situation. Enfin, le modèle amélioré est présenté et une simulation de scénarios sophistiqués est construite pour valider les résultats théoriques. La performance de notre modèle de mobilité est prometteuse et des problèmes de mise en œuvre sont également discutés
The intelligent transportation systems gain great research interests in recent years. Although the realistic traffic simulation plays an important role, it has not received enough attention. This thesis is devoted to studying the traffic simulation in microscopic level, and proposes corresponding vehicular mobility models. Using deep learning methods, these mobility models have been proven with a promising credibility to represent the vehicles in real-world. Firstly, a data-driven neural network based mobility model is proposed. This model comes from real-world trajectory data and allows mimicking local vehicle behaviors. By analyzing the performance of this basic learning based mobility model, we indicate that an improvement is possible and we propose its specification. An HMM is then introduced. The preparation of this integration is necessary, which includes an examination of traditional dynamics based mobility models and the adaptation method of “classical” models to our situation. At last, the enhanced model is presented, and a sophisticated scenario simulation is built with it to validate the theoretical results. The performance of our mobility model is promising and implementation issues have also been discussed
Style APA, Harvard, Vancouver, ISO itp.
40

Jneid, Khoder. "Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment". Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM062.

Pełny tekst źródła
Streszczenie:
Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette construction initiale de modèle est coûteuse et il est difficile de maintenir ces modèles au cours de la vie du bâtiment. Au cours de la thèse, nous étudions l'apprentissage par renforcement (RL) pour optimiser la consommation d'énergie des systèmes CVC tout en maintenant un bon confort thermique et une bonne qualité de l'air. Plus précisément, nous nous concentrons sur les algorithmes d'apprentissage par renforcement sans modèle qui apprennent en interagissant avec l'environnement (le bâtiment, y compris le système CVC) et qui ne nécessitent donc pas de modèles précis de celui-ci. En outre, les approches en ligne sont prises en compte. Le principal défi d'un RL sans modèle en ligne est le nombre de jours nécessaires à l'algorithme pour acquérir suffisamment de données et de retours d'actions pour commencer à agir correctement. L'objectif de cette thèse est d'accélérer l'apprentissage les algorithmes RL sans modèle pour converger plus rapidement afin de les rendre applicables dans les applications du monde réel, le contrôle du chauffage, de la ventilation et de la climatisation. Deux approches ont été explorées au cours de la thèse pour atteindre notre objectif : la première approche combine la RBC avec la RL basé sur la valeur, et la seconde approche combine les règles floues avec le RL basé sur la politique. La première approche exploite les règles RBC pendant l'apprentissage, tandis que dans la seconde, les règles floues sont injectées directement dans la politique. Les tests sont effectués sur un bureau simulé, réplique d'un bureau réeel dans le bâtiment de Grenoble INP pendant la période hivernale
Heating, ventilation, and air-conditioning (HVAC) systems account for high energy consumption in buildings. Conventional approaches used to control HVAC systems rely on rule-based control (RBC) that consists of predefined rules set by an expert. Model-predictive control (MPC), widely explored in literature, is not adopted in the industry since it is a model-based approach that requires to build models of the building at the first stage to be used in the optimization phase and thus is time-consuming and expensive. During the PhD, we investigate reinforcement learning (RL) to optimize the energy consumption of HVAC systems while maintaining good thermal comfort and good air quality. Specifically, we focus on model-free RL algorithms that learn through interaction with the environment (building including the HVAC) and thus not requiring to have accurate models of the environment. In addition, online approaches are considered. The main challenge of an online model-free RL is the number of days that are necessary for the algorithm to acquire enough data and actions feedback to start acting properly. Hence, the research subject of the PhD is boosting model-free RL algorithms to converge faster to make them applicable in real-world applications, HVAC control. Two approaches have been explored during the PhD to achieve our objective: the first approach combines RBC with value-based RL, and the second approach combines fuzzy rules with policy-based RL. Both approaches aim to boost the convergence of RL by guiding the RL policy but they are completely different. The first approach exploits RBC rules during training while in the second approach, the fuzzy rules are injected directly into the policy. Tests areperformed on a simulated office during winter. This simulated office is a replica of a real office at Grenoble INP
Style APA, Harvard, Vancouver, ISO itp.
41

Furnon, Nicolas. "Apprentissage profond pour le rehaussement de la parole dans les antennes acoustiques ad-hoc". Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0277.

Pełny tekst źródła
Streszczenie:
Un grand nombre d’appareils que nous utilisons au quotidien embarque un ou plusieurs microphones afin de rendre possible leur utilisation par commande vocale. Le réseau de microphones que l’on peut former avec ces appareils est ce qu’on appelle une antenne acoustique ad-hoc (AAAH). Une étape de rehaussement de la parole est souvent appliquée afin d’optimiser l’exécution des commandes vocales. Pour cela, les AAAH, de par leur flexibilité d’utilisation, leur large étendue spatiale et la diversité de leurs enregistrements, offrent un grand potentiel. Ce potentiel est néanmoins difficilement exploitable à cause de la mobilité des appareils, leur faible puissance et les contraintes en bande passante. Ceslimites empêchent d’utiliser les algorithmes de rehaussement de la parole « classiques » qui reposent sur un nœud de fusion et requièrent de fortes puissances de calcul.Cette thèse propose de rallier le domaine de l’apprentissage profond à celui des AAAH, en conciliant la puissance de modélisation des réseaux de neurones (RN) à la flexibilité d’utilisation des AAAH. Pour cela, nous présentons un système distribué de rehaussement de la parole. Il est distribué en cela que la contrainte d’un centre de fusion est levée. Des signaux dits compressés, échangés entre les nœuds, permettent de véhiculer l’information spatiale tout en réduisant la consommation en bande passante. Des RN sont utilisés afin d’estimer les coefficients d’un filtre de Wiener multicanal. Une analyse empirique détaillée de ce système est conduite à la fois sur données synthétiques et sur données réelles afin de valider son efficacité et de mettre en évidence l’intérêt d’utiliser conjointement des RN et des algorithmes distribués classiques de rehaussement de la parole. Nous montrons ainsi que notre système obtient des performances équivalentes à celles de l’état de l’art, tout en étant plus flexible et en réduisant significativement la complexité algorithmique.Par ailleurs, nous développons notre solution pour l’adapter à des conditions d’utilisation propres aux AAAH. Nous étudions son comportement lorsque le nombre d’appareils de l’AAAH varie, et nous comparons l’influence de deux mécanismes d’attention, l’un d’attention spatiale et l’autre d’auto-attention. Les deux mécanismes d’attention rendent notre système résilient à un nombre variable d’appareils et les poids du mécanisme d’auto-attention révèlent l’utilité de l’information convoyée par chaque signal. Nous analysons également le comportement de notre système lorsque les signaux des différents appareils sont désynchronisés. Nous proposons une solution pour améliorer les performances de notre système en conditions asynchrones, en présentant un autre mécanisme d’attention. Nous montrons que ce mécanisme d’attention permet de retrouver un ordre de grandeur du décalage d’horloge entre les appareils d’une AAAH. Enfin, nous montrons que notre système est une solution viable pour la séparation de sources de parole. Même avec des RN d’architecture simple, il est capable d’exploiter efficacement l’information spatiale enregistrée par tous les appareils d’une AAAH dans une configuration typique de réunion
More and more devices we use in our daily life are embedded with one or more microphones so that they can be voice controlled. Put together, these devices can form a so-called ad-hoc microphone array (AHMA). A speech enhancement step is often applied on the recorded signals to optimise the execution of the voice commands. To this effect, AHMAs are of high interest because of their flexible usage, their wide spatial coverage and the diversity of their recordings. However, it is challenging to exploit the potential of mbox{AHMAs} because devices that compose them may move and have a limited power and bandwidth capacity. Because of these limits, the speech enhancement solutions deployed in ``classic'' microphone arrays, relying on a fusion center and high processing loads, cannot be afforded.This thesis combines the modelling power of deep neural networks (DNNs) with the flexibility of use of AHMAs. To this end, we introduce a distributed speech enhancement system, which does not rely on a fusion center. So-called compressed signals are sent among the nodes and convey the spatial information recorded by the whole AHMA, while reducing the bandwidth requirements. DNNs are used to estimate the coefficients of a multichannel Wiener filter. We conduct an empirical analysis of this sytem, both on synthesized and real data, in order to validate its efficiency and to highlight the benefits of jointly using DNNs and distributed speech enhancement algorithms. We show that our system performs comparatively well compared with a state-of-the-art solution, while being more flexible and significantly reducing the computation cost.Besides, we develop our solution to adapt it to the typical usage conditions of mbox{AHMAs}. We study its behaviour when the number of devices in the AHMA varies. We introduce and compare a spatial attention mechanism and a self-attention mechanism. Both mechanisms make our system robust to a varying number of devices. We show that the weights of the self-attention mechanism reveal the utility of the information carried by each signal.We also analyse our system when the signals recorded by different devices are not synchronised. We propose a solution to improve its performance in such conditions by introducing a temporal attention mechanism. We show that this mechanism can help estimating the sampling time offset between the several devices of the AHMA.Lastly, we show that our system is also efficient for source separation. It can efficiently process the spatial information recorded by the whole AHMA in a typical meeting scenario and alleviate the needs of a complex DNN architecture
Style APA, Harvard, Vancouver, ISO itp.
42

Khodji, Hiba. "Apprentissage profond et transfert de connaissances pour la détection d'erreurs dans les séquences biologiques". Electronic Thesis or Diss., Strasbourg, 2023. http://www.theses.fr/2023STRAD058.

Pełny tekst źródła
Streszczenie:
L'utilisation généralisée des technologies à haut débit dans le domaine biomédical génère d'énormes quantités de données, notamment la nouvelle génération de technologies de séquençage du génome. L'alignement multiple de séquences sert d'outil fondamental pour analyser ces données, avec des applications dans l'annotation des génomes, prédiction des structures et fonctions des protéines, ou la compréhension des relations évolutives, etc. Toutefois, divers facteurs, tels que des algorithmes d'alignement peu fiables, une prédiction de gènes incorrecte, ou des séquençages génomiques incomplets, ont tendance à compromettre la précision des alignements multiples de séquences. Dans cette thèse, nous nous intéressons à l'évaluation de la qualité des données en utilisant des techniques d'apprentissage profond. Nous proposons des modèles basés sur les réseaux de neurones convolutifs pour l'identification d'erreurs dans les représentations visuelles des alignements. Notre objectif principal est de proposer un outil d'assistance aux experts du domaine dans leurs études, où la fiabilité des alignements est cruciale. Ainsi, nous nous sommes intéressés à fournir des explications fiables pour les prédictions de nos modèles en exploitant l'intelligence artificielle explicable (XAI). Plus particulièrement, nous avons exploité les explications visuelles comme fondement pour un mécanisme de transfert d'apprentissage visant principalement à améliorer la capacité d'un modèle à discerner les caractéristiques les plus pertinentes dans les données d'entrée. Enfin, nous avons proposé de nouvelles métriques conçues pour permettre l'évaluation de cette capacité. Les premiers résultats suggèrent que notre approche parvient à trouver un bon équilibre entre la complexité d'un modèle, sa performance, et son explicabilité, et qu'elle peut être exploitée dans des domaines où la disponibilité des données est limitée et la compréhension des résultats est cruciale
The widespread use of high throughput technologies in the biomedical field is producing massive amounts of data, notably the new generation of genome sequencing technologies. Multiple Sequence Alignment (MSA) serves as a fundamental tool for the analysis of this data, with applications including genome annotation, protein structure and function prediction, or understanding evolutionary relationships, etc. However, the accuracy of MSA is often compromised due to factors such as unreliable alignment algorithms, inaccurate gene prediction, or incomplete genome sequencing. This thesis addresses the issue of data quality assessment by leveraging deep learning techniques. We propose novel models based on convolutional neural networks for the identification of errors in visual representations of MSAs. Our primary objective is to assist domain experts in their research studies, where the accuracy of MSAs is crucial. Therefore, we focused on providing reliable explanations for our model predictions by harnessing the potential of explainable artificial intelligence (XAI). Particularly, we leveraged visual explanations as a foundation for a transfer learning framework that aims essentially to improve a model's ability to focus on underlying features in an input. Finally, we proposed novel evaluation metrics designed to assess this ability. Initial findings suggest that our approach achieves a good balance between model complexity, performance, and explainability, and could be leveraged in domains where data availability is limited and the need for comprehensive result explanation is paramount
Style APA, Harvard, Vancouver, ISO itp.
43

Zheng, Léon. "Frugalité en données et efficacité computationnelle dans l'apprentissage profond". Electronic Thesis or Diss., Lyon, École normale supérieure, 2024. http://www.theses.fr/2024ENSL0009.

Pełny tekst źródła
Streszczenie:
Cette thèse s’intéresse à deux enjeux de frugalité et d’efficacité dans l’apprentissage profond moderne : frugalité en données et efficacité en ressources de calcul. Premièrement, nous étudions l’apprentissage auto-supervisé, une approche prometteuse en vision par ordinateur qui ne nécessite pas d’annotations des données pour l'apprentissage de représentations. En particulier, nous proposons d’unifier plusieurs fonctions objectives auto-supervisées dans un cadre de noyaux invariants par rotation, ce qui ouvre des perspectives en termes de réduction de coût de calcul de ces fonctions objectives. Deuxièmement, étant donné que l’opération prédominante des réseaux de neurones profonds est la multiplication matricielle, nous nous penchons sur la construction d’algorithmes rapides qui permettent d’effectuer la multiplication matrice-vecteur avec une complexité presque linéaire. Plus spécifiquement, nous étudions le problème de factorisation creuse de matrices sous contrainte de parcimonie "butterfly", une structure commune à plusieurs transformées rapides comme la transformée de Fourier discrète. La thèse établit des garanties théoriques sur l’algorithme de factorisation butterfly, et étudie le potentiel de la parcimonie butterfly pour la réduction du coût computationnel des réseaux de neurones lors de leur phase d’apprentissage ou d’inférence. Nous explorons notamment l’efficacité des implémentations GPU de la multiplication matricielle avec parcimonie butterfly, dans le but d’accélérer réellement des réseaux de neurones parcimonieux
This thesis focuses on two challenges of frugality and efficiency in modern deep learning: data frugality and computational resource efficiency. First, we study self-supervised learning, a promising approach in computer vision that does not require data annotations for learning representations. In particular, we propose a unification of several self-supervised objective functions under a framework based on rotation-invariant kernels, which opens up prospects to reduce the computational cost of these objective functions. Second, given that matrix multiplication is the predominant operation in deep neural networks, we focus on the construction of fast algorithms that allow matrix-vector multiplication with nearly linear complexity. More specifically, we examine the problem of sparse matrix factorization under the constraint of butterfly sparsity, a structure common to several fast transforms like the discrete Fourier transform. The thesis establishes new theoretical guarantees for butterfly factorization algorithms, and explores the potential of butterfly sparsity to reduce the computational costs of neural networks during their training or inference phase. In particular, we explore the efficiency of GPU implementations for butterfly sparse matrix multiplication, with the goal of truly accelerating sparse neural networks
Style APA, Harvard, Vancouver, ISO itp.
44

Mollaret, Sébastien. "Artificial intelligence algorithms in quantitative finance". Thesis, Paris Est, 2021. http://www.theses.fr/2021PESC2002.

Pełny tekst źródła
Streszczenie:
L'intelligence artificielle est devenue de plus en plus populaire en finance quantitative avec l'augmentation des capacités de calcul ainsi que de la complexité des modèles et a conduit à de nombreuses applications financières. Dans cette thèse, nous explorons trois applications différentes pour résoudre des défis concernant le domaine des dérivés financiers allant de la sélection de modèle, à la calibration de modèle ainsi que la valorisation des dérivés. Dans la Partie I, nous nous intéressons à un modèle avec changement de régime de volatilité afin de valoriser des dérivés sur actions. Les paramètres du modèle sont estimés à l'aide de l'algorithme d'Espérance-Maximisation (EM) et une composante de volatilité locale est ajoutée afin que le modèle soit calibré sur les prix d'options vanilles à l'aide de la méthode particulaire. Dans la Partie II, nous utilisons ensuite des réseaux de neurones profonds afin de calibrer un modèle à volatilité stochastique, dans lequel la volatilité est représentée par l'exponentielle d'un processus d'Ornstein-Uhlenbeck, afin d'approximer la fonction qui lie les paramètres du modèle aux volatilités implicites correspondantes hors ligne. Une fois l'approximation couteuse réalisée hors ligne, la calibration se réduit à un problème d'optimisation standard et rapide. Dans la Partie III, nous utilisons enfin des réseaux de neurones profonds afin de valorisation des options américaines sur de grands paniers d'actions pour surmonter la malédiction de la dimension. Différentes méthodes sont étudiées avec une approche de type Longstaff-Schwartz, où nous approximons les valeurs de continuation, et une approche de type contrôle stochastique, où nous résolvons l'équation différentielle partielle de valorisation en la reformulant en problème de contrôle stochastique à l'aide de la formule de Feynman-Kac non linéaire
Artificial intelligence has become more and more popular in quantitative finance given the increase of computer capacities as well as the complexity of models and has led to many financial applications. In the thesis, we have explored three different applications to solve financial derivatives challenges, from model selection, to model calibration and pricing. In Part I, we focus on a regime-switching model to price equity derivatives. The model parameters are estimated using the Expectation-Maximization (EM) algorithm and a local volatility component is added to fit vanilla option prices using the particle method. In Part II, we then use deep neural networks to calibrate a stochastic volatility model, where the volatility is modelled as the exponential of an Ornstein-Uhlenbeck process, by approximating the mapping between model parameters and corresponding implied volatilities offline. Once the expensive approximation has been performed offline, the calibration reduces to a standard & fast optimization problem.In Part III, we finally use deep neural networks to price American option on large baskets to solve the curse of the dimensionality. Different methods are studied with a Longstaff-Schwartz approach, where we approximate the continuation values, and a stochastic control approach, where we solve the pricing partial differential equation by reformulating the problem as a stochastic control problem using the non-linear Feynman-Kac formula
Style APA, Harvard, Vancouver, ISO itp.
45

Mlynarski, Pawel. "Apprentissage profond pour la segmentation des tumeurs cérébrales et des organes à risque en radiothérapie". Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4084.

Pełny tekst źródła
Streszczenie:
Les images médicales jouent un rôle important dans le diagnostic et la prise en charge des cancers. Les oncologues analysent des images pour déterminer les différentes caractéristiques de la tumeur, pour proposer un traitement adapté et suivre l'évolution de la maladie. L'objectif de cette thèse est de proposer des méthodes efficaces de segmentation automatique des tumeurs cérébrales et des organes à risque dans le contexte de la radiothérapie, à partir des images de résonance magnétique (IRM). Premièrement, nous nous intéressons à la segmentation des tumeurs cérébrales en utilisant des réseaux neuronaux convolutifs entrainés sur des IRM segmentés par des experts. Nous proposons un modèle de segmentation ayant un grand champ récepteur 3D tout en étant efficace en termes de complexité de calcul, en combinant des réseaux neuronaux convolutifs 2D et 3D. Nous abordons aussi les problèmes liés à l'utilisation conjointe des différentes séquences IRM (T1, T2, FLAIR). Nous introduisons ensuite un modèle de segmentation qui est entrainé avec des images faiblement annotées en complément des images segmentées, souvent disponibles en quantités très limitées du fait de leur coût. Nous montrons que ce niveau mixte de supervision améliore considérablement la performance de segmentation quand le nombre d'images entièrement annotées est limité. Finalement, nous proposons une méthodologie pour segmenter, de manière cohérente anatomiquement, les organes à risque dans le contexte de la radiothérapie des tumeurs cérébrales. Les segmentations produites par notre système sur un ensemble d'IRM acquis dans le Centre Antoine Lacassagne (Nice) sont évaluées par un radiothérapeute expérimenté
Medical images play an important role in cancer diagnosis and treatment. Oncologists analyze images to determine the different characteristics of the cancer, to plan the therapy and to observe the evolution of the disease. The objective of this thesis is to propose efficient methods for automatic segmentation of brain tumors and organs at risk in the context of radiotherapy planning, using Magnetic Resonance (MR) images. First, we focus on segmentation of brain tumors using Convolutional Neural Networks (CNN) trained on MRIs manually segmented by experts. We propose a segmentation model having a large 3D receptive field while being efficient in terms of computational complexity, based on combination of 2D and 3D CNNs. We also address problems related to the joint use of several MRI sequences (T1, T2, FLAIR). Second, we introduce a segmentation model which is trained using weakly-annotated images in addition to fully-annotated images (with voxelwise labels), which are usually available in very limited quantities due to their cost. We show that this mixed level of supervision considerably improves the segmentation accuracy when the number of fully-annotated images is limited.\\ Finally, we propose a methodology for an anatomy-consistent segmentation of organs at risk in the context of radiotherapy of brain tumors. The segmentations produced by our system on a set of MRIs acquired in the Centre Antoine Lacassagne (Nice, France) are evaluated by an experienced radiotherapist
Style APA, Harvard, Vancouver, ISO itp.
46

Zheng, Qiao. "Apprentissage profond pour la segmentation robuste et l’analyse explicable des images cardiaques volumiques et dynamiques". Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4013.

Pełny tekst źródła
Streszczenie:
L’IRM cardiaque est largement utilisée par les cardiologues car elle permet d’extraire des informations riches dans les images. Toutefois, si cela est fait manuellement, le processus d’extraction des informations est fastidieux et prend beaucoup de temps. Compte tenu des progrès de l’intelligence artificielle, je développe des méthodes d’apprentissage profond pour traiter l’automatisation de plusieurs tâches essentielles de l’analyse de l’IRM cardiaque. Tout d’abord, je propose une méthode basée sur les réseaux de neurones convolutifs pour effectuer la segmentation cardiaque sur des ensembles d’images IRM petit axe. Dans cette méthode, étant donné que la prédiction d’une segmentation d’une coupe dépend de celle d’une coupe adjacente, la cohérence 3D et la robustesse sont explicitement imposées. De plus, je propose une méthode de classification de plusieurs pathologies cardiaques, avec une nouvelle approche d’apprentissage profond pour extraire des attributs dérivés des images afin de caractériser la forme et le mouvement du cœur. En particulier, le modèle de classification est explicable, simple et flexible. Enfin et surtout, la même méthode d’extraction d’éléments est appliquée à un ensemble de données exceptionnellement volumineux (UK Biobank). La classification non supervisée des données est ensuite effectuée sur les attributs extraits pour caractériser ces pathologies cardiaques. Pour conclure, je discute de plusieurs prolongements possibles de mes recherches
Cardiac MRI is widely used by cardiologists as it allows extracting rich information from images. However, if done manually, the information extraction process is tedious and time-consuming. Given the advance of artificial intelligence, I develop deep learning methods to address the automation of several essential tasks on cardiac MRI analysis. First, I propose a method based on convolutional neural networks to perform cardiac segmentation on short axis MRI image stacks. In this method, since the prediction of a segmentation of a slice is dependent upon the already existing segmentation of an adjacent slice, 3D-consistency and robustness is explicitly enforced. Second, I develop a method to classify cardiac pathologies, with a novel deep learning approach to extract image-derived features to characterize the shape and motion of the heart. In particular, the classification model is explainable, simple and flexible. Last but not least, the same feature extraction method is applied to an exceptionally large dataset (UK Biobank). Unsupervised cluster analysis is then performed on the extracted features in search of their further relation with cardiac pathology characterization. To conclude, I discuss several possible extensions of my research
Style APA, Harvard, Vancouver, ISO itp.
47

De, Bois Maxime. "Apprentissage profond sous contraintes biomédicales pour la prédiction de la glycémie future de patients diabétiques". Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG065.

Pełny tekst źródła
Streszczenie:
Malgré ses récents succès en vision assistée par ordinateur ou en traduction automatique, l’utilisation de l’apprentissage profond dans le secteur biomédical fait face à de nombreux challenges. Parmi eux, nous comptons l’accès difficile à des données en quantité et qualité suffisantes, ainsi que le besoin en l’interopérabilité et en l’interprétabilité des modèles. Dans cette thèse, nous nous intéressons à ces différentes problématiques à la lueur de la création de modèles prédisant la glycémie future de patients diabétiques. De tels modèles permettraient aux patients d’anticiper les variations de leur glycémie au quotidien, les aidant ainsi à mieux la réguler afin d’éviter les états d’hypoglycémie et d’hyperglycémie.Pour cela, nous utilisons trois ensembles de données. Tandis que le premier a été récolté à l’occasion de cette thèse sur plusieurs patients diabétiques de type 2, les deux autres sont composés de patients diabétiques de type 1, à la fois réels et virtuels. Dans l’ensemble des études, nous utilisons les données passées de glycémie, d’insuline et de glucides de chaque patient pour construire des modèles personnalisés prédisant la glycémie du patient 30 minutes dans le futur.Dans un premier temps, nous faisons une analyse détaillée de l’état de l’art en construisant une base de résultats de référence open source de modèles prédictifs de glycémie. Bien que prometteurs, nous mettons en évidence la difficulté qu’ont les modèles profonds à effectuer des prédictions qui soient à la fois précises et sans danger pour le patient.Afin d’améliorer l’acceptabilité clinique des modèles, nous proposons d’intégrer des contraintes cliniques au sein de l’apprentissage des modèles. À cet effet nous proposons de nouvelles fonctions de coût permettant d’améliorer la cohérence des prédictions et de se focaliser davantage sur les erreurs de prédictions cliniquement dangereuses. Nous explorons son utilisation pratique à travers un algorithme permettant d’obtenir un modèle maximisant la précision des prédictions tout en respectant des contraintes cliniques fixées au préalable.Puis, nous étudions la piste de l’apprentissage par transfert pour améliorer les performances des modèles prédictifs de glycémie. Celui-ci permet de faciliter l’apprentissage des modèles personnalisés aux patients en réutilisant les connaissances apprises sur d’autres patients. En particulier nous proposons le cadre de l’apprentissage par transfert multi-sources adverse. Celui-ci permet de significativement améliorer les performances des modèles en permettant l’apprentissage de connaissances a priori qui sont plus générales, car agnostiques des patients sources du transfert. Nous investiguons différents scénarios de transfert à travers l’utilisation de nos trois jeux de données. Nous montrons qu’il est possible d’effectuer un transfert de connaissance à partir de données provenant de dispositifs expérimentaux différents, de patients de types de diabète différents, mais aussi à partir de patients virtuels.Enfin, nous nous intéressons à l’amélioration de l’interprétabilité des modèles profonds à travers le principe d’attention. En particulier, nous explorons l’utilisation d’un modèle profond et interprétable pour la prédiction de la glycémie. Celui-ci implémente un double mécanisme d’attention lui permettant d’estimer la contribution de chaque variable en entrée au modèle à la prédiction finale. Nous montrons empiriquement l’intérêt d’un tel modèle pour la prédiction de glycémie en analysant son comportement dans le calcul de ses prédictions
Despite its recent successes in computer vision or machine translation, the use of deep learning in the biomedical field faces many challenges. Among them, we have the difficult access to data in sufficient quantity and quality, as well as the need of having interoperable and the interpretable models. In this thesis, we are interested in these different issues from the perspective of the creation of models predicting future glucose values of diabetic patients. Such models would allow patients to anticipate daily glucose variations, helping its regulation in order to avoid states of hypoglycemia or hyperglycemia.To this end, we use three datasets. While the first was collected during this thesis on several type-2 diabetic patients, the other two are composed of type-1 diabetic patients, both real and virtual. Across the studies, we use each patient’s past glucose, insulin, and carbohydrate data to build personalized models that predict the patient’s glucose values 30 minutes into the future.First, we do a detailed state-of-the-art analysis by building an open-source benchmark of glucosepredictive models. While promising, we highlight the difficulty deep models have in making predictions that are at the same time accurate and safe for the patient.In order to improve the clinical acceptability of the models, we investigate the integration of clinical constraints within the training of the models. We propose new cost functions enhancing the coherence of successive predictions. In addition, they enable the training to focus on clinically dangerous errors. We explore its practical use through an algorithm that enables the training of a model maximizing the precision of the predictions while respecting the clinical constraints set beforehand.Then, we study the use of transfer learning to improve the performance of glucose-predictive models. It eases the learning of personalized models by reusing the knowledge learned on other patients. In particular, we propose the adversarial multi-source transfer learning framework. It significantly improves the performance of the models by allowing the learning of a priori knowledge which is more general, by being agnostic of the patients that are the source of the transfer. We investigate different transfer scenarios through the use of our three datasets. We show that it is possible to transfer knowledge using data coming from different experimental devices, from patients of different types of diabetes, but also from virtual patients.Finally, we are interested in improving the interpretability of deep models through the attention mechanism. In particular, we explore the use of a deep and interpretable model for the prediction of glucose. It implements a double attention mechanism enabling the estimation of the contribution of each input variable to the model to the final prediction. We empirically show the value of such a model for the prediction of glucose by analyzing its behavior in the computation of its predictions
Style APA, Harvard, Vancouver, ISO itp.
48

Droniou, Alain. "Apprentissage de représentations et robotique développementale : quelques apports de l'apprentissage profond pour la robotique autonome". Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066056/document.

Pełny tekst źródła
Streszczenie:
Afin de pouvoir évoluer de manière autonome et sûre dans leur environnement, les robots doivent être capables d'en construire un modèle fiable et pertinent. Pour des tâches variées dans des environnements complexes, il est difficile de prévoir de manière exhaustive les capacités nécessaires au robot. Il est alors intéressant de doter les robots de mécanismes d'apprentissage leur donnant la possibilité de construire eux-mêmes des représentations adaptées à leur environnement. Se posent alors deux questions : quelle doit être la nature des représentations utilisées et par quels mécanismes peuvent-elles être apprises ? Nous proposons pour cela l'utilisation de l'hypothèse des sous-variétés afin de développer des architectures permettant de faire émerger une représentation symbolique de flux sensorimoteurs bruts. Nous montrons que le paradigme de l'apprentissage profond fournit des mécanismes appropriés à l'apprentissage autonome de telles représentations. Nous démontrons que l'exploitation de la nature multimodale des flux sensorimoteurs permet d'en obtenir une représentation symbolique pertinente. Dans un second temps, nous étudions le problème de l'évolution temporelle des stimuli. Nous discutons les défauts de la plupart des approches aujourd'hui utilisées et nous esquissons une approche à partir de laquelle nous approfondissons deux sous-problèmes. Dans une troisième partie, nous proposons des pistes de recherche pour permettre le passage des expériences de laboratoire à des environnements naturels. Nous explorons plus particulièrement la problématique de la curiosité artificielle dans des réseaux de neurones non supervisés
This thesis studies the use of deep neural networks to learn high level representations from raw inputs on robots, based on the "manifold hypothesis"
Style APA, Harvard, Vancouver, ISO itp.
49

Droniou, Alain. "Apprentissage de représentations et robotique développementale : quelques apports de l'apprentissage profond pour la robotique autonome". Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066056.

Pełny tekst źródła
Streszczenie:
Afin de pouvoir évoluer de manière autonome et sûre dans leur environnement, les robots doivent être capables d'en construire un modèle fiable et pertinent. Pour des tâches variées dans des environnements complexes, il est difficile de prévoir de manière exhaustive les capacités nécessaires au robot. Il est alors intéressant de doter les robots de mécanismes d'apprentissage leur donnant la possibilité de construire eux-mêmes des représentations adaptées à leur environnement. Se posent alors deux questions : quelle doit être la nature des représentations utilisées et par quels mécanismes peuvent-elles être apprises ? Nous proposons pour cela l'utilisation de l'hypothèse des sous-variétés afin de développer des architectures permettant de faire émerger une représentation symbolique de flux sensorimoteurs bruts. Nous montrons que le paradigme de l'apprentissage profond fournit des mécanismes appropriés à l'apprentissage autonome de telles représentations. Nous démontrons que l'exploitation de la nature multimodale des flux sensorimoteurs permet d'en obtenir une représentation symbolique pertinente. Dans un second temps, nous étudions le problème de l'évolution temporelle des stimuli. Nous discutons les défauts de la plupart des approches aujourd'hui utilisées et nous esquissons une approche à partir de laquelle nous approfondissons deux sous-problèmes. Dans une troisième partie, nous proposons des pistes de recherche pour permettre le passage des expériences de laboratoire à des environnements naturels. Nous explorons plus particulièrement la problématique de la curiosité artificielle dans des réseaux de neurones non supervisés
This thesis studies the use of deep neural networks to learn high level representations from raw inputs on robots, based on the "manifold hypothesis"
Style APA, Harvard, Vancouver, ISO itp.
50

Bouchama, Lyes. "Apport des techniques d'apprentissage (profond) à la microscopie holographique pour applications médicales". Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS022.

Pełny tekst źródła
Streszczenie:
Mon travail s'inscrit dans le cadre du partenariat stratégique Télécom SudParis (TSP) et TRIBVN/T-life, dédié au développement de nouvelles approches en microscopie optique, couplées à l'intelligence artificielle, en vue d'identifier, de prédire et de monitorer les pathologies hématologiques et parasitologiques. C'est dans cette perspective que nous avons développé, dans le laboratoire, un prototype de microscope reposant sur un principe d'imagerie non conventionnelle à synthèse d'ouverture, basée sur l'approche FPM (Fourier Ptychographic Microscopy). Cette approche permet de dépasser les limites en résolution de l'optique conventionnelle ou, de façon équivalente, accéder à des champs de vue très larges (de 4 à 25 fois plus importants) à résolution fixée. Elle permet, en sus, de diversifier la nature des données acquises (avec l'enregistrement de la phase en complément des données d'intensité).Toutefois, en raison de certaines contraintes, notamment le temps d'acquisition et de reconstruction des images pour obtenir une qualité optimale, cette technologie rencontre encore des difficultés pour trouver ses applications et être commercialisée par les différents acteurs du domaine de la microscopie. Le travail réalisé dans cette thèse a permis des avancées significatives sur certains des aspects limitants de cette technologie grâce à la mise en œuvre de modèles à base de réseaux de neurones. Nous avons proposé une relocalisation automatique des images bimodales efficace sur de grands champs de vue, grâce à un post-traitement basé sur un U-Net. Nous avons aussi proposé une approche originale, alliant apprentissage statistique et optimisation guidée par la physique pour réduire les temps d'acquisition des images et les temps de reconstruction. Ces modèles ont démontré leur efficacité, par des diagnostics plus précis et discriminants, dans des applications de parasitologie et d'hématologie. Les contributions apportées ont un potentiel d'application qui dépasse le domaine de la FPM, ouvrant des perspectives dans divers autres champs de l'imagerie calculatoire
This research is part of the Télécom SudParis (TSP) and TRIBVN/T-life strategic partnership, dedicated to the development of new approaches in optical microscopy, coupled with artificial intelligence, to identify, predict and monitor hematological and parasitological pathologies.In this regard, we developed a prototype microscope based on a computational imaging principle with a synthetic aperture, based on the FPM (Fourier Ptychographic Microscopy) approach. This approach makes it possible to overcome conventional optics' resolution limits, or equivalently access very large fields of view (from 4 to 25 times larger) at fixed resolution. It also enables us to diversify the nature of the data acquired (with phase recording in addition to intensity data).However, despite its promise, the technology faces challenges in widespread adoption and commercialization within the microscopy field, primarily due to constraints such as the time-intensive process required for image acquisition and reconstruction to achieve optimal quality.The research conducted in this thesis has led to substantial advancements in overcoming certain limitations of this technology, leveraging models based on neural networks.We have proposed an efficient automatic refocusing of bimodal images over large fields of view, thanks to post-processing based on a U-Net. We have also proposed an original approach, combining statistical learning and physics-driven optimization to reduce image acquisition and reconstruction times.These frameworks have validated their efficacy by yielding more precise and discriminating diagnoses in the fields of parasitology and haematology.The potential applications of these contributions go far beyond the field of FPM, opening up perspectives in various other fields of computational imaging
Style APA, Harvard, Vancouver, ISO itp.
Oferujemy zniżki na wszystkie plany premium dla autorów, których prace zostały uwzględnione w tematycznych zestawieniach literatury. Skontaktuj się z nami, aby uzyskać unikalny kod promocyjny!

Do bibliografii