To see the other types of publications on this topic, follow the link: Apprentissage profonds.

Dissertations / Theses on the topic 'Apprentissage profonds'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage profonds.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Franceschi, Jean-Yves. "Apprentissage de représentations et modèles génératifs profonds dans les systèmes dynamiques." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS014.

Full text
Abstract:
L'essor de l'apprentissage profond trouve notamment sa source dans les avancées scientifiques qu'il a permises en termes d'apprentissage de représentations et de modèles génératifs. Dans leur grande majorité, ces progrès ont cependant été obtenus sur des données textuelles et visuelles statiques, les données temporelles demeurant un défi pour ces méthodes. Compte tenu de leur importance pour l'automatisation croissante de multiples tâches, de plus en plus de travaux en apprentissage automatique s'intéressent aux problématiques d'évolution temporelle. Dans cette thèse, nous étudions ainsi plusieurs aspects de la temporalité et des systèmes dynamiques dans les réseaux de neurones profonds pour l'apprentissage non supervisé de représentations et de modèles génératifs. Premièrement, nous présentons une méthode générale d'apprentissage de représentations non supervisée pour les séries temporelles prenant en compte des besoins pratiques d'efficacité et de flexibilité. Dans un second temps, nous nous intéressons à l'apprentissage pour les séquences structurées de nature spatio-temporelle, couvrant les vidéos et phénomènes physiques. En les modélisant par des équations différentielles paramétrisées par des réseaux de neurones, nous montrons la corrélation entre la découverte de représentations pertinentes d'un côté, et de l'autre la fabrique de modèles prédictifs performants sur ces données. Enfin, nous analysons plus généralement dans une troisième partie les populaires réseaux antagonistes génératifs dont nous décrivons la dynamique d'apprentissage par des équations différentielles, nous permettant d'améliorer la compréhension de leur fonctionnement
The recent rise of deep learning has been motivated by numerous scientific breakthroughs, particularly regarding representation learning and generative modeling. However, most of these achievements have been obtained on image or text data, whose evolution through time remains challenging for existing methods. Given their importance for autonomous systems to adapt in a constantly evolving environment, these challenges have been actively investigated in a growing body of work. In this thesis, we follow this line of work and study several aspects of temporality and dynamical systems in deep unsupervised representation learning and generative modeling. Firstly, we present a general-purpose deep unsupervised representation learning method for time series tackling scalability and adaptivity issues arising in practical applications. We then further study in a second part representation learning for sequences by focusing on structured and stochastic spatiotemporal data: videos and physical phenomena. We show in this context that performant temporal generative prediction models help to uncover meaningful and disentangled representations, and conversely. We highlight to this end the crucial role of differential equations in the modeling and embedding of these natural sequences within sequential generative models. Finally, we more broadly analyze in a third part a popular class of generative models, generative adversarial networks, under the scope of dynamical systems. We study the evolution of the involved neural networks with respect to their training time by describing it with a differential equation, allowing us to gain a novel understanding of this generative model
APA, Harvard, Vancouver, ISO, and other styles
2

Bietti, Alberto. "Méthodes à noyaux pour les réseaux convolutionnels profonds." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM051.

Full text
Abstract:
La disponibilité de quantités massives de données, comme des images dans les réseaux sociaux, des signaux audio de téléphones mobiles, ou des données génomiques ou médicales, a accéléré le développement des techniques d'apprentissage automatique. Ces méthodes exploitent des motifs statistiques dans ces grandes bases de données pour effectuer de bonnes prédictions sur des nouvelles images, signaux, ou séquences de protéines. Récemment, les systèmes d'apprentissage profond ont émergé comme des algorithmes d'apprentissage très efficaces. Ces modèles multi-couche effectuent leurs prédictions de façon hiérarchique, et peuvent être entraînés à très grande échelle avec des méthodes de gradient. Leur succès a été particulièrement marqué lorsque les données sont des signaux naturels comme des images ou des signaux audio, pour des tâches comme la reconnaissance visuelle, la détection d'objets, ou la reconnaissance de la parole. Pour de telles tâches, l'apprentissage profond donne souvent la meilleure performance empirique, mais leur compréhension théorique reste difficile à cause du grand nombre de paramètres, et de la grande dimension des données. Leur succès est souvent attribué à leur capacité d'exploiter des structures des signaux naturels, par exemple en apprenant des représentations invariantes et multi-échelle de signaux naturels à travers un bon choix d'architecture, par exemple avec des convolutions et des opérations de pooling. Néanmoins, ces propriétés sont encore mal comprises théoriquement, et l'écart entre la théorique et pratique en apprentissage continue à augmenter. Cette thèse vise à réduire cet écart grâce à l'étude d'espaces de fonctions qui surviennent à partir d'une certaine architecture, en particulier pour les architectures convolutives. Notre approche se base sur les méthodes à noyaux, et considère des espaces de Hilbert à noyaux reproduisant (RKHS) associés à certains noyaux construits de façon hiérarchique selon une architecture donnée. Cela nous permet d'étudier précisément des propriétés de régularité, d'invariance, de stabilité aux déformations du signal, et d'approximation des fonctions du RKHS. Ces propriétés sur la représentation sont aussi liées à des questions d'optimisation pour l'entraînement de réseaux profonds à très grand nombre de neurones par descente de gradient, qui donnent lieu à de tels noyaux. Cette théorie suggère également des nouvelles stratégies pratiques de régularisation qui permettent d'obtenir une meilleure performance en généralisation pour des petits jeux de données, et une performance état de l'art pour la robustesse à des perturbations adversariales en vision
The increased availability of large amounts of data, from images in social networks, speech waveforms from mobile devices, and large text corpuses, to genomic and medical data, has led to a surge of machine learning techniques. Such methods exploit statistical patterns in these large datasets for making accurate predictions on new data. In recent years, deep learning systems have emerged as a remarkably successful class of machine learning algorithms, which rely on gradient-based methods for training multi-layer models that process data in a hierarchical manner. These methods have been particularly successful in tasks where the data consists of natural signals such as images or audio; this includes visual recognition, object detection or segmentation, and speech recognition.For such tasks, deep learning methods often yield the best known empirical performance; yet, the high dimensionality of the data and large number of parameters of these models make them challenging to understand theoretically. Their success is often attributed in part to their ability to exploit useful structure in natural signals, such as local stationarity or invariance, for instance through choices of network architectures with convolution and pooling operations. However, such properties are still poorly understood from a theoretical standpoint, leading to a growing gap between the theory and practice of machine learning. This thesis is aimed towards bridging this gap, by studying spaces of functions which arise from given network architectures, with a focus on the convolutional case. Our study relies on kernel methods, by considering reproducing kernel Hilbert spaces (RKHSs) associated to certain kernels that are constructed hierarchically based on a given architecture. This allows us to precisely study smoothness, invariance, stability to deformations, and approximation properties of functions in the RKHS. These representation properties are also linked with optimization questions when training deep networks with gradient methods in some over-parameterized regimes where such kernels arise. They also suggest new practical regularization strategies for obtaining better generalization performance on small datasets, and state-of-the-art performance for adversarial robustness on image tasks
APA, Harvard, Vancouver, ISO, and other styles
3

Lucas, Thomas. "Modèles génératifs profonds : sur-généralisation et abandon de mode." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM049.

Full text
Abstract:
Cette dissertation explore le sujet des modèles génératifs appliqués aux images naturelles.Cette tâche consiste a modéliser la distribution des données observées, et peut permettre de générer des données artificielles semblables aux données d'origine, où de compresser des images.Les modèles à variable latentes, qui sont au cœur de cette thèse, cherchent a résumer les principaux facteurs de variation d'une image en une variable qui peut être manipulée.En particulier, nos contributions sont basées sur deux modèles génératifs a variable latentes: le modèle génératif adversarial (GAN) et l' encodeur variationel (VAE).Récemment, les GAN ont significativement amélioré la qualité des images générées par des modèles profonds, générant des images très convaincantes.Malheureusement ces modèles ont du mal à modéliser tous les modes de la distribution d'origine, ie ils ne couvrent pas les données dans toute leur variabilité.A l'inverse, les modèles basés sur le maximum de vraisemblance tels que les VAEs couvrent typiquement toute la variabilité des données, et en offrent une mesure objective.Mais ces modèles produisent des échantillons de qualité visuelle inférieure, qui sont plus facilement distingués de vrais images.Le travail présenté dans cette thèse a pour but d'obtenir le meilleur des deux mondes: des échantillons de bonne qualité tout en modélisant tout le support de la distribution.La première contribution de ce manuscrit est un modèle génératif profond qui encode la structure globale des images dans une variable latente, basé sur le VAE, et utilise un modèle autoregressif pour modéliser les détails de bas niveau.Nous proposons une procédure d'entrainement qui utilise une fonction de perte auxiliaire pour contrôler quelle information est capturée par la variable latent et quelle information est laissée à un décodeur autoregressif.Au contraire des précédentes approches pour construire des modèles hybrides de ce genre, notre modèle de nécessite pas de contraindre la capacité du décodeur autoregressif pour empêcher des modèles dégénérés qui ignorent la variable latente.La deuxième contribution est bâtie sur le modèle du GAN standard, qui utilise un discriminateur pour guider le modèle génératif.Le discriminateur évalue généralement la qualité d'échantillons individuels, ce qui rend la tache d'évaluer la variabilité des données difficile.A la place, nous proposons de fournir au discriminateur des ensembles de données, ou batches, qui mélangent des vraies images et des images générées.Nous l'entrainons à prédire le ratio de vrais et de faux éléments dans l'ensemble.Ces batches servent d'approximation de la vrai distribution des images générées et permettent au discriminateur d'approximer des statistiques sur leur distributionLes lacunes mutuelles des VAEs et des GANs peuvent, en principe, être réglées en entrainant des modèles hybrides qui utilisent les deux types d'objectif.Dans notre troisième contribution, nous montrons que les hypothèses paramétriques habituelles faites par les VAE produisent un conflit entre les deux, menant à des performances décevantes pour les modèles hybrides.Nous proposons une solution basée sur des modèles profonds inversibles, qui entraine un espace de features dans lequel les hypothèses habituelles peuvent être faites sans poser problème.Notre approche fourni des évaluations e vraisemblance dans l'espace des images tout en étant capable de tirer profit de l'entrainement adversaire.Elle obtient des échantillons de qualité équivalente au modèle pleinement adversaires tout en améliorant les scores de maximum de vraisemblance au moment de la publication, ce qui constitue une amélioration significative
This dissertation explores the topic of generative modelling of natural images,which is the task of fitting a data generating distribution.Such models can be used to generate artificial data resembling the true data, or to compress images.Latent variable models, which are at the core of our contributions, seek to capture the main factors of variations of an image into a variable that can be manipulated.In particular we build on two successful latent variable generative models, the generative adversarial network (GAN) and Variational autoencoder (VAE) models.Recently GANs significantly improved the quality of images generated by deep models, obtaining very compelling samples.Unfortunately these models struggle to capture all the modes of the original distribution, ie they do not cover the full variability of the dataset.Conversely, likelihood based models such as VAEs typically cover the full variety of the data well and provide an objective measure of coverage.However these models produce samples of inferior visual quality that are more easily distinguished from real ones.The work presented in this thesis strives for the best of both worlds: to obtain compelling samples while modelling the full support of the distribution.To achieve that, we focus on i) the optimisation problems used and ii) practical model limitations that hinder performance.The first contribution of this manuscript is a deep generative model that encodes global image structure into latent variables, built on the VAE, and autoregressively models low level detail.We propose a training procedure relying on an auxiliary loss function to control what information is captured by the latent variables and what information is left to an autoregressive decoder.Unlike previous approaches to such hybrid models, ours does not need to restrict the capacity of the autoregressive decoder to prevent degenerate models that ignore the latent variables.The second contribution builds on the standard GAN model, which trains a discriminator network to provide feedback to a generative network.The discriminator usually assesses the quality of individual samples, which makes it hard to evaluate the variability of the data.Instead we propose to feed the discriminator with emph{batches} that mix both true and fake samples, and train it to predict the ratio of true samples in the batch.These batches work as approximations of the distribution of generated images and allows the discriminator to approximate distributional statistics.We introduce an architecture that is well suited to solve this problem efficiently,and show experimentally that our approach reduces mode collapse in GANs on two synthetic datasets, and obtains good results on the CIFAR10 and CelebA datasets.The mutual shortcomings of VAEs and GANs can in principle be addressed by training hybrid models that use both types of objective.In our third contribution, we show that usual parametric assumptions made in VAEs induce a conflict between them, leading to lackluster performance of hybrid models.We propose a solution based on deep invertible transformations, that trains a feature space in which usual assumptions can be made without harm.Our approach provides likelihood computations in image space while being able to take advantage of adversarial training.It obtains GAN-like samples that are competitive with fully adversarial models while improving likelihood scores over existing hybrid models at the time of publication, which is a significant advancement
APA, Harvard, Vancouver, ISO, and other styles
4

Walker, Emmanuelle Le Ray Anne. "Réflexions sur le développement des concepts chez les jeunes sourds profonds." [S.l.] : [s.n.], 2007. http://castore.univ-nantes.fr/castore/GetOAIRef?idDoc=19576.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Medrouk, Indira Lisa. "Réseaux profonds pour la classification des opinions multilingue." Electronic Thesis or Diss., Paris 8, 2018. http://www.theses.fr/2018PA080081.

Full text
Abstract:
À l’ère de l’avènement des réseaux sociaux où tout un chacun peut se targuerd’être un producteur de contenus, l’intérêt grandissant de la recherche etl’industrie pour l’analyse automatique des opinions est un fait incontestable.Cette thèse traite de la fouille d’opinions en adressant principalement une caractéristiqueinhérente aux avis publiés sur le Web reflétant leurs caractèresglobalisés et multilingue.Pour adresser la problématique multilingue des opinions, le modèle proposéest inspiré du processus d’acquisition des langues simultanées avec intensitéégale chez les jeunes enfants. Il est basé sur des réseaux neuronauxprofonds, avec comme intention de se défaire de pré-traitements, de choixmanuels de caractéristiques et surtout d’avoir une chaîne de traitement sansinterdépendances de langues, de traduction ou de langue pivot.L’évaluation du modèle proposé a été effectué sur des corpus composés dequatre langues, à savoir le français, l’anglais, le grec et l’arabe pour répondreà une classification d’opinion suivant deux polarités, positive et négative,ainsi qu’une classification thématique. Les diverses expérimentations alliantvariation de taille de corpus, regroupement bi-tri et quadrilingue présentésà un réseau profond sans modules additionnels ont montré qu’à l’instar dudéveloppement de la compétence bilingue chez l’enfant qui est liée à la qualitéet la quantité de son immersion au contexte linguistique, le réseau apprendmieux dans un environnement riche et varié.Dans le cadre de la problématique de la classification des opinions, ledeuxième volet de la thèse présente une étude comparative de deux modèlesde réseaux profonds : les réseaux convolutionnels et les réseaux récurrents.Notre contribution consiste à démontrer leur complémentarité selon leurscombinaisons dans un contexte multilingue
In the era of social networks where everyone can claim to be a contentproducer, the growing interest in research and industry is an indisputablefact for the opinion mining domain.This thesis is mainly addressing a Web inherent characteristic reflectingits globalized and multilingual character.To address the multilingual opinion mining issue, the proposed model isinspired by the process of acquiring simultaneous languages with equal intensityamong young children. The incorporate corpus-based input is raw, usedwithout any pre-processing, translation, annotation nor additional knowledgefeatures. For the machine learning approach, we use two different deep neuralnetworks. The evaluation of the proposed model was executed on corpusescomposed of four different languages, namely French, English, Greek and Arabic,to emphasize the ability of a deep learning model in order to establishthe sentiment polarity of reviews and topics classification in a multilingualenvironment. The various experiments combining corpus size variations forbi and quadrilingual grouping languages, presented to our models withoutadditional modules, have shown that, such as children bilingual competencedevelopment, which is linked to quality and quantity of their immersion in thelinguistic context, the network learns better in a rich and varied environment.As part of the problem of opinion classification, the second part of thethesis presents a comparative study of two models of deep networks : convolutionalnetworks and recurrent networks. Our contribution consists in demonstratingtheir complementarity according to their combinations in a multilingualcontext
APA, Harvard, Vancouver, ISO, and other styles
6

Blot, Michaël. "Étude de l'apprentissage et de la généralisation des réseaux profonds en classification d'images." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS412.

Full text
Abstract:
L'intelligence artificielle connait une résurgence ces dernières années. En cause, la capacité croissante à rassembler et à stocker un nombre considérable de données digitalisées. Ces immenses bases de données permettent aux algorithmes de machine learning de répondre à certaines tâches par apprentissage supervisé. Parmi les données digitalisées, les images demeurent prépondérantes dans l’environnement moderne. D'immenses datasets ont été constitués. De plus, la classification d'image a permis l’essor de modèles jusqu'alors négligés, les réseaux de neurones profonds ou deep learning. Cette famille d'algorithmes démontre une grande facilité à apprendre parfaitement des datasets, même de très grande taille. Leurs capacités de généralisation demeure largement incomprise, mais les réseaux de convolutions sont aujourd'hui l'état de l'art incontesté. D'un point de vue recherche et application du deep learning, les demandes vont être de plus en plus exigeantes, nécessitant de fournir un effort pour porter les performances des réseaux de neurone au maximum de leurs capacités. C'est dans cet objectif que se place nos recherches dont les contributions sont présentées dans cette thèse. Nous nous sommes d'abord penchés sur la question de l'entrainement et avons envisagé d’accélérer celui ci grâce à des méthodes distribuées. Nous avons ensuite étudié les architectures dans le but de les améliorer sans toutefois trop augmenter leurs complexités. Enfin nous avons particulièrement étudié la régularisation de l'entrainement des réseaux. Nous avons envisagé un critère de régularisation basée sur la théorie de l'information que nous avons déployé de deux façons différentes
Artificial intelligence is experiencing a resurgence in recent years. This is due to the growing ability to collect and store a considerable amount of digitized data. These huge databases allow machine learning algorithms to respond to certain tasks through supervised learning. Among the digitized data, images remain predominant in the modern environment. Huge datasets have been created. moreover, the image classification has allowed the development of previously neglected models, deep neural networks or deep learning. This family of algorithms demonstrates a great facility to learn perfectly datasets, even very large. Their ability to generalize remains largely misunderstood, but the networks of convolutions are today the undisputed state of the art. From a research and application point of view of deep learning, the demands will be more and more demanding, requiring to make an effort to bring the performances of the neuron networks to the maximum of their capacities. This is the purpose of our research, whose contributions are presented in this thesis. We first looked at the issue of training and considered accelerating it through distributed methods. We then studied the architectures in order to improve them without increasing their complexity. Finally, we particularly study the regularization of network training. We studied a regularization criterion based on information theory that we deployed in two different ways
APA, Harvard, Vancouver, ISO, and other styles
7

Langlois, Julien. "Vision industrielle et réseaux de neurones profonds : application au dévracage de pièces plastiques industrielles." Thesis, Nantes, 2019. http://www.theses.fr/2019NANT4010/document.

Full text
Abstract:
Ces travaux de thèse présentent une méthode d’estimation de pose de pièces industrielles en vue de leur dévracage à partir d’un système mono-caméra 2D en utilisant une approche par apprentissage avec des réseaux profonds. Dans un premier temps, des réseaux de neurones assurent la segmentation d’un nombre prédéterminé de pièces dans la scène. En appliquant le masque binaire d’une pièce à l’image originale, un second réseau infère la profondeur locale de cet objet. En parallèle des coordonnées de la pièce dans l’image, cette profondeur est employée dans deux réseaux estimant à la fois l’orientation de l’objet sous la forme d’un quaternion et sa translation sur l’axe Z. Enfin, un module de recalage travaillant sur la rétro-projection de la profondeur et le modèle 3D de l’objet, permet d’affiner la pose prédite par les réseaux. Afin de pallier le manque de données réelles annotées dans un contexte industriel, un processus de création de données synthétiques est proposé. En effectuant des rendus aux multiples luminosités, la versatilité du jeu de données permet d’anticiper les différentes conditions hostiles d’exploitation du réseau dans un environnement de production
This work presents a pose estimation method from a RGB image of industrial parts placed in a bin. In a first time, neural networks are used to segment a certain number of parts in the scene. After applying an object mask to the original image, a second network is inferring the local depth of the part. Both the local pixel coordinates of the part and the local depth are used in two networks estimating the orientation of the object as a quaternion and its translation on the Z axis. Finally, a registration module working on the back-projected local depth and the 3D model of the part is refining the pose inferred from the previous networks. To deal with the lack of annotated real images in an industrial context, an data generation process is proposed. By using various light parameters, the dataset versatility allows to anticipate multiple challenging exploitation scenarios within an industrial environment
APA, Harvard, Vancouver, ISO, and other styles
8

Ogier, du Terrail Jean. "Réseaux de neurones convolutionnels profonds pour la détection de petits véhicules en imagerie aérienne." Thesis, Normandie, 2018. http://www.theses.fr/2018NORMC276/document.

Full text
Abstract:
Cette thèse présente une tentative d'approche du problème de la détection et discrimination des petits véhicules dans des images aériennes en vue verticale par l'utilisation de techniques issues de l'apprentissage profond ou "deep-learning". Le caractère spécifique du problème permet d'utiliser des techniques originales mettant à profit les invariances des automobiles et autres avions vus du ciel.Nous commencerons par une étude systématique des détecteurs dits "single-shot", pour ensuite analyser l'apport des systèmes à plusieurs étages de décision sur les performances de détection. Enfin nous essayerons de résoudre le problème de l'adaptation de domaine à travers la génération de données synthétiques toujours plus réalistes, et son utilisation dans l'apprentissage de ces détecteurs
The following manuscript is an attempt to tackle the problem of small vehicles detection in vertical aerial imagery through the use of deep learning algorithms. The specificities of the matter allows the use of innovative techniques leveraging the invariance and self similarities of automobiles/planes vehicles seen from the sky.We will start by a thorough study of single shot detectors. Building on that we will examine the effect of adding multiple stages to the detection decision process. Finally we will try to come to grips with the domain adaptation problem in detection through the generation of better looking synthetic data and its use in the training process of these detectors
APA, Harvard, Vancouver, ISO, and other styles
9

Lathuiliere, Stéphane. "Modèles profonds de régression et applications à la vision par ordinateur pour l'interaction homme-robot." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM026/document.

Full text
Abstract:
Dans le but d’interagir avec des êtres humains, les robots doivent effectuer destâches de perception basique telles que la détection de visage, l’estimation dela pose des personnes ou la reconnaissance de la parole. Cependant, pour interagir naturellement, avec les hommes, le robot doit modéliser des conceptsde haut niveau tels que les tours de paroles dans un dialogue, le centre d’intérêtd’une conversion, ou les interactions entre les participants. Dans ce manuscrit,nous suivons une approche ascendante (dite “top-down”). D’une part, nousprésentons deux méthodes de haut niveau qui modélisent les comportementscollectifs. Ainsi, nous proposons un modèle capable de reconnatre les activitésqui sont effectuées par différents des groupes de personnes conjointement, telsque faire la queue, discuter. Notre approche gère le cas général où plusieursactivités peuvent se dérouler simultanément et en séquence. D’autre part,nous introduisons une nouvelle approche d’apprentissage par renforcement deréseau de neurones pour le contrôle de la direction du regard du robot. Notreapproche permet à un robot d’apprendre et d’adapter sa stratégie de contrôledu regard dans le contexte de l’interaction homme-robot. Le robot est ainsicapable d’apprendre à concentrer son attention sur des groupes de personnesen utilisant seulement ses propres expériences (sans supervision extérieur).Dans un deuxième temps, nous étudions en détail les approchesd’apprentissage profond pour les problèmes de régression. Les problèmesde régression sont cruciaux dans le contexte de l’interaction homme-robotafin d’obtenir des informations fiables sur les poses de la tête et du corpsdes personnes faisant face au robot. Par conséquent, ces contributions sontvraiment générales et peuvent être appliquées dans de nombreux contextesdifférents. Dans un premier temps, nous proposons de coupler un mélangegaussien de régressions inverses linéaires avec un réseau de neurones convolutionnels. Deuxièmement, nous introduisons un modèle de mélange gaussien-uniforme afin de rendre l’algorithme d’apprentissage plus robuste aux annotations bruitées. Enfin, nous effectuons une étude à grande échelle pour mesurerl’impact de plusieurs choix d’architecture et extraire des recommandationspratiques lors de l’utilisation d’approches d’apprentissage profond dans destâches de régression. Pour chacune de ces contributions, une intense validation expérimentale a été effectuée avec des expériences en temps réel sur lerobot NAO ou sur de larges et divers ensembles de données
In order to interact with humans, robots need to perform basic perception taskssuch as face detection, human pose estimation or speech recognition. However, in order have a natural interaction with humans, the robot needs to modelhigh level concepts such as speech turns, focus of attention or interactions between participants in a conversation. In this manuscript, we follow a top-downapproach. On the one hand, we present two high-level methods that model collective human behaviors. We propose a model able to recognize activities thatare performed by different groups of people jointly, such as queueing, talking.Our approach handles the general case where several group activities can occur simultaneously and in sequence. On the other hand, we introduce a novelneural network-based reinforcement learning approach for robot gaze control.Our approach enables a robot to learn and adapt its gaze control strategy inthe context of human-robot interaction. The robot is able to learn to focus itsattention on groups of people from its own audio-visual experiences.Second, we study in detail deep learning approaches for regression prob-lems. Regression problems are crucial in the context of human-robot interaction in order to obtain reliable information about head and body poses or theage of the persons facing the robot. Consequently, these contributions are really general and can be applied in many different contexts. First, we proposeto couple a Gaussian mixture of linear inverse regressions with a convolutionalneural network. Second, we introduce a Gaussian-uniform mixture model inorder to make the training algorithm more robust to noisy annotations. Finally,we perform a large-scale study to measure the impact of several architecturechoices and extract practical recommendations when using deep learning approaches in regression tasks. For each of these contributions, a strong experimental validation has been performed with real-time experiments on the NAOrobot or on large and diverse data-sets
APA, Harvard, Vancouver, ISO, and other styles
10

Carbajal, Guillaume. "Apprentissage profond bout-en-bout pour le rehaussement de la parole." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0017.

Full text
Abstract:
Cette thèse s'insère dans le développement des systèmes de télécommunication mains-libres, en particulier avec des enceintes intelligentes en environnement domestique. L'utilisateur interagit avec un correspondant distant en étant généralement situé à quelques mètres de ce type de système. Les microphones sont susceptibles de capter des sons de l'environnement qui se mêlent à la voix de l'utilisateur, comme le bruit ambiant, l'écho acoustique et la réverbération. Ces types de distorsions peuvent gêner fortement l'écoute et la compréhension de la conversation par le correspondant distant, et il est donc nécessaire de les réduire. Des méthodes de filtrage existent pour réduire individuellement chacun de ces types de distorsion sonore, et leur réduction simultanée implique de combiner ces méthodes. Toutefois, celles-ci interagissent entre elles, et leurs interactions peuvent dégrader de la voix de l'utilisateur. Il est donc nécessaire d'optimiser conjointement ces méthodes. En premier lieu, nous présentons une approche de réduction de l'écho acoustique combinant un filtre d'annulation d'écho avec un post-filtre de suppression d'écho résiduel conçu de manière à s'adapter à différents modes de fonctionnement du filtre d'annulation. Pour cela, nous proposons d'estimer les coefficients du post-filtre en utilisant les spectres à court terme de plusieurs signaux observés, dont le signal estimé par le filtre d'annulation, en entrée d'un réseau de neurones. Nous montrons que cette approche améliore la performance et la robustesse du post-filtre en matière de réduction d'écho, tout en limitant la dégradation de la parole de l'utilisateur, sur plusieurs scénarios dans des conditions réelles. En second lieu, nous décrivons une approche conjointe de réduction multicanale de l'écho, de la réverbération et du bruit. Nous proposons de modéliser simultanément la parole cible et les signaux résiduels après annulation d'écho et déréverbération dans un cadre probabiliste et de représenter conjointement leurs spectres à court terme à l'aide d'un réseau de neurones récurrent. Nous intégrons cette modélisation dans un algorithme de montée par blocs de coordonnées pour mettre à jour les filtres d'annulation d'écho et de déréverbération, ainsi que le post-filtre de suppression des signaux résiduels. Nous évaluons notre approche sur des enregistrements réels dans différentes conditions. Nous montrons qu'elle améliore la qualité de la parole ainsi que la réduction de l'écho, de la réverbération et du bruit, par rapport à une approche optimisant séparément les méthodes de filtrage et une autre approche de réduction conjointe. En dernier lieu, nous formulons une version en ligne de notre approche adaptée aux situations où les conditions acoustiques varient dans le temps. Nous évaluons la qualité perceptuelle sur des exemples réels où l'utilisateur se déplace durant la conversation
This PhD falls within the development of hands-free telecommunication systems, more specifically smart speakers in domestic environments. The user interacts with another speaker at a far-end point and can be typically a few meters away from this kind of system. The microphones are likely to capture sounds of the environment which are added to the user's voice, such background noise, acoustic echo and reverberation. These types of distortion degrade speech quality, intelligibility and listening comfort for the far-end speaker, and must be reduced. Filtering methods can reduce individually each of these types of distortion. Reducing all of them implies combining the corresponding filtering methods. As these methods interact with each other which can deteriorate the user's speech, they must be jointly optimized. First of all, we introduce an acoustic echo reduction approach which combines an echo cancellation filter with a residual echo postfilter designed to adapt to the echo cancellation filter. To do so, we propose to estimate the postfilter coefficients using the short term spectra of multiple known signals, including the output of the echo cancellation filter, as inputs to a neural network. We show that this approach improves the performance and the robustness of the postfilter in terms of echo reduction, while limiting speech degradation, on several scenarios in real conditions. Secondly, we describe a joint approach for multichannel reduction of echo, reverberation and noise. We propose to simultaneously model the target speech and undesired residual signals after echo cancellation and dereveberation in a probabilistic framework, and to jointly represent their short-term spectra by means of a recurrent neural network. We develop a block-coordinate ascent algorithm to update the echo cancellation and dereverberation filters, as well as the postfilter that reduces the undesired residual signals. We evaluate our approach on real recordings in different conditions. We show that it improves speech quality and reduction of echo, reverberation and noise compared to a cascade of individual filtering methods and another joint reduction approach. Finally, we present an online version of our approach which is suitable for time-varying acoustic conditions. We evaluate the perceptual quality achieved on real examples where the user moves during the conversation
APA, Harvard, Vancouver, ISO, and other styles
11

Blier, Léonard. "Some Principled Methods for Deep Reinforcement Learning." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG040.

Full text
Abstract:
Cette thèse développe et étudie certaines méthodes de principe pour l'apprentissage profond (DL) et l'apprentissage par renforcement (RL).Dans la partie II, nous étudions le DL selon le point de vue du “Minimum Description Length” principe, qui formalise le rasoir d'Occam, et postule qu'un bon modèle prédictif est un modèle capable de compresser sans perte les données (en prenant en compte le coût de la description du modèle lui-même). Les modèles de DL, par le nombre de paramètres à encoder, semblent aller à l'encontre de ce principe. Nous démontrons expérimentalement la capacité de compression des modèles de DL, même en tenant compte de l'encodage des paramètres, montrant ainsi que ces approches sont bien fondées du point de vue de la théorie de l'information.Dans la partie III, nous étudions deux limitations des approches standard de DL et RL, et nous développons des méthodes mathématiquement bien fondées pour les dépasser;La première concerne l'optimisation des modèles de DL avec SGD, et le coût important du choix d'un bon taux d'apprentissage. Nous introduisons la méthode Alrao (All learning rates at once) : chaque unité (ou neurone) du réseau obtient son propre taux d'apprentissage tiré aléatoirement à partir d'une distribution couvrant de nombreux ordres de grandeur. De façon surprenante, Alrao obtient des résultats proches de ceux de SGD avec un taux d'apprentissage optimal, et ce pour diverses architectures et problèmes.Le second aborde les environnements de RL en temps quasi continu (robotique, contrôle, jeux vidéos,…) : nous montrons que la discrétisation temporelle (nombre d'actions par seconde) est un facteur critique, et empiriquement que les approches basées sur Q-learning ne peuvent plus apprendre quand le nombre d'action par seconde devient grand. Formellement, nous prouvons que le Q-learning n'existe pas en temps continu. Nous détaillons une méthode mathématiquement bien fondée pour construire un algorithme RL invariant à la discrétisation temporelle, et confirmons cette approche empiriquement.La partie principale de cette thèse, (Partie IV), étudie l'opérateur des états successeurs en RL, et comment il peut améliorer l'efficacité de l'apprentissage de la fonction valeur.Dans un environnement où la récompense n'est reçue que très rarement, l'apprentissage de la fonction valeur est un problème difficile. L'opérateur des états successeurs est un objet mathématique qui exprime les fonctions valeur de toutes les fonctions de récompense possibles pour une politique fixe. L'apprentissage de cet opérateur peut se faire sans signaux de récompense et peut extraire des informations de chaque transition observée, illustrant une approche de RL non supervisé.Nous proposons un traitement formel de cet objet dans des espaces finis et continus avec des approximateurs de fonctions, comme les réseaux de neurones. Nous présentons plusieurs algorithmes d'apprentissage et les résultats associés. De même que la fonction valeur, l'opérateur des états successeurs satisfait une équation de Bellman. De plus, il satisfait également deux autres équations à point fixe : une équation de Bellman en arrière et une équation de Bellman-Newton, exprimant la compositionalité des chemins dans le processus de Markov. Ces nouvelles relations nous permettent de généraliser à partir des trajectoires observées de plusieurs façons, ce qui peut conduire à une plus grande efficacité en pratique.Enfin, (partie V), l'étude de l'opérateur des états successeurs et de ses algorithmes nous permet de dériver des méthodes non biaisées dans le cadre d'un RL à buts multiples. Nous montrons en outre que l'algorithme Hindsight Experience Replay, populaire dans ce cadre mais connu pour être biaisé, est en fait non biaisé dans la classe importante des environnements déterministes
This thesis develops and studies some principled methods for Deep Learning (DL) and deep Reinforcement Learning (RL).In Part II, we study the efficiency of DL models from the context of the Minimum Description Length principle, which formalize Occam's razor, and holds that a good model of data is a model that is good at losslessly compressing the data, including the cost of describing the model itself. Deep neural networks might seem to go against this principle given the large number of parameters to be encoded. Surprisingly, we demonstrate experimentally the ability of deep neural networks to compress the training data even when accounting for parameter encoding, hence showing that DL approaches are well principled from this information theory viewpoint.In Part III, we tackle two limitations of standard approaches in DL and RL, and develop principled methods, improving robustness empirically.The first one concerns optimisation of deep learning models with SGD, and the cost of finding the optimal learning rate, which prevents using a new method out of the box without hyperparameter tuning. When design a principled optimisation method for DL, 'All Learning Rates At Once' : each unit or feature in the network gets its own learning rate sampled from a random distribution spanning several orders of magnitude. Perhaps surprisingly, Alrao performs close to SGD with an optimally tuned learning rate, for various architectures and problems.The second one tackles near continuous-time RL environments (such as robotics, control environment, …) : we show that time discretization (number of action per second) in as a critical factor, and that empirically, Q-learning-based approaches collapse with small time steps. Formally, we prove that Q-learning does not exist in continuous time. We detail a principled way to build an off-policy RL algorithm that yields similar performances over a wide range of time discretizations, and confirm this robustness empirically.The main part of this thesis, (Part IV), studies the Successor States Operator in RL, and how it can improve sample efficiency of policy evaluation. In an environment with a very sparse reward, learning the value function is a hard problem. At the beginning of training, no learning will occur until a reward is observed. This highlight the fact that not all the observed information is used. Leveraging this information might lead to better sample efficiency. The Successor State Operator is an object that expresses the value functions of all possible reward functions for a given, fixed policy. Learning the successor state operator can be done without reward signals, and can extract information from every observed transition, illustrating an unsupervised reinforcement learning approach.We offer a formal treatment of these objects in both finite and continuous spaces with function approximators. We present several learning algorithms and associated results. Similarly to the value function, the successor states operator satisfies a Bellman equation. Additionally, it also satisfies two other fixed point equations: a backward Bellman equation and a Bellman-Newton equation, expressing path compositionality in the Markov process. These new relation allow us to generalize from observed trajectories in several ways, potentially leading to more sample efficiency. Every of these equations lead to corresponding algorithms for any function approximators such as neural networks.Finally, (Part V) the study of the successor states operator and its algorithms allow us to derive unbiased methods in the setting of multi-goal RL, dealing with the issue of extremely sparse rewards. We additionally show that the popular Hindsight Experience Replay algorithm, known to be biased, is actually unbiased in the large class of deterministic environments
APA, Harvard, Vancouver, ISO, and other styles
12

Hardy, Corentin. "Contribution au développement de l’apprentissage profond dans les systèmes distribués." Thesis, Rennes 1, 2019. http://www.theses.fr/2019REN1S020/document.

Full text
Abstract:
L'apprentissage profond permet de développer un nombre de services de plus en plus important. Il nécessite cependant de grandes bases de données d'apprentissage et beaucoup de puissance de calcul. Afin de réduire les coûts de cet apprentissage profond, nous proposons la mise en œuvre d'un apprentissage collaboratif. Les futures utilisateurs des services permis par l'apprentissage profond peuvent ainsi participer à celui-ci en mettant à disposition leurs machines ainsi que leurs données sans déplacer ces dernières sur le cloud. Nous proposons différentes méthodes afin d'apprendre des réseaux de neurones profonds dans ce contexte de système distribué
Deep learning enables the development of a growing number of services. However, it requires large training databases and a lot of computing power. In order to reduce the costs of this deep learning, we propose a distributed computing setup to enable collaborative learning. Future users can participate with their devices and their data without moving private data in datacenters. We propose methods to train deep neural network in this distibuted system context
APA, Harvard, Vancouver, ISO, and other styles
13

Mercadier, Yves. "Classification automatique de textes par réseaux de neurones profonds : application au domaine de la santé." Thesis, Montpellier, 2020. http://www.theses.fr/2020MONTS068.

Full text
Abstract:
Cette thèse porte sur l'analyse de données textuelles dans le domaine de la santé et en particulier sur la classification supervisée multi-classes de données issues de la littérature biomédicale et des médias sociaux.Une des difficultés majeures lors de l'exploration de telles données par des méthodes d'apprentissage supervisées est de posséder un jeu de données suffisant en nombre d'exemples pour l'entraînement des modèles. En effet, il est généralement nécessaire de catégoriser les données manuellement avant de réaliser l'étape d'apprentissage. La taille importante des jeux de données rend cette tâche de catégorisation très coûteuse, qu'il convient de réduire par des systèmes semi-automatiques.Dans ce contexte, l’apprentissage actif, pendant lequel l’oracle intervient pour choisir les meilleurs exemples à étiqueter, s’avère prometteur. L’intuition est la suivante : en choisissant les exemples intelligemment et non aléatoirement, les modèles devraient s’améliorer avec moins d’efforts pour l’oracle et donc à moindre coût (c’est-a-dire avec moins d’exemples annotés). Dans cette thèse, nous évaluerons différentes approches d’apprentissage actif combinées avec des modèles d’apprentissage profond récents.Par ailleurs, lorsque l’on dispose de peu de données annotées, une possibilité d’amélioration est d’augmenter artificiellement la quantité de données pendant la phase d’entraînement du modèle, en créant de nouvelles données de manière automatique à partir des données existantes. Plus précisément, il s’agit d’injecter de la connaissance en tenant compte des propriétés invariantes des données par rapport à certaines transformations. Les données augmentées peuvent ainsi couvrir un espace d’entrée inexploré, éviter le sur-apprentissage et améliorer la généralisation du modèle. Dans cette thèse, nous proposerons et évaluerons une nouvelle approche d'augmentation de données textuelles
This Ph.D focuses on the analysis of textual data in the health domain and in particular on the supervised multi-class classification of data from biomedical literature and social media.One of the major difficulties when exploring such data by supervised learning methods is to have a sufficient number of data sets for models training. Indeed, it is generally necessary to label manually the data before performing the learning step. The large size of the data sets makes this labellisation task very expensive, which should be reduced with semi-automatic systems.In this context, active learning, in which the Oracle intervenes to choose the best examples to label, is promising. The intuition is as follows: by choosing the smartly the examples and not randomly, the models should improve with less effort for the oracle and therefore at lower cost (i.e. with less annotated examples). In this PhD, we will evaluate different active learning approaches combined with recent deep learning models.In addition, when small annotated data set is available, one possibility of improvement is to artificially increase the data quantity during the training phase, by automatically creating new data from existing data. More precisely, we inject knowledge by taking into account the invariant properties of the data with respect to certain transformations. The augmented data can thus cover an unexplored input space, avoid overfitting and improve the generalization of the model. In this Ph.D, we will propose and evaluate a new approach for textual data augmentation.These two contributions will be evaluated on different textual datasets in the medical domain
APA, Harvard, Vancouver, ISO, and other styles
14

Ducoffe, Mélanie. "Active learning et visualisation des données d'apprentissage pour les réseaux de neurones profonds." Thesis, Université Côte d'Azur (ComUE), 2018. http://www.theses.fr/2018AZUR4115/document.

Full text
Abstract:
Notre travail est présenté en trois parties indépendantes. Tout d'abord, nous proposons trois heuristiques d'apprentissage actif pour les réseaux de neurones profonds : Nous mettons à l'échelle le `query by committee' , qui agrège la décision de sélectionner ou non une donnée par le vote d'un comité. Pour se faire nous formons le comité à l'aide de différents masques de dropout. Un autre travail se base sur la distance des exemples à la marge. Nous proposons d'utiliser les exemples adversaires comme une approximation de la dite distance. Nous démontrons également des bornes de convergence de notre méthode dans le cas de réseaux linéaires. L’usage des exemples adversaires ouvrent des perspectives de transférabilité d’apprentissage actif d’une architecture à une autre. Puis, nous avons formulé une heuristique d'apprentissage actif qui s'adapte tant au CNNs qu'aux RNNs. Notre méthode sélectionne les données qui minimisent l'énergie libre variationnelle. Dans un second temps, nous nous sommes concentrés sur la distance de Wasserstein. Nous projetons les distributions dans un espace où la distance euclidienne mimique la distance de Wasserstein. Pour se faire nous utilisons une architecture siamoise. Également, nous démontrons les propriétés sous-modulaires des prototypes de Wasserstein et comment les appliquer à l'apprentissage actif. Enfin, nous proposons de nouveaux outils de visualisation pour expliquer les prédictions d'un CNN sur du langage naturel. Premièrement, nous détournons une stratégie d'apprentissage actif pour confronter la pertinence des phrases sélectionnées aux techniques de phraséologie les plus récentes. Deuxièmement, nous profitons des algorithmes de déconvolution des CNNs afin de présenter une nouvelle perspective sur l'analyse d'un texte
Our work is presented in three separate parts which can be read independently. Firstly we propose three active learning heuristics that scale to deep neural networks: We scale query by committee, an ensemble active learning methods. We speed up the computation time by sampling a committee of deep networks by applying dropout on the trained model. Another direction was margin-based active learning. We propose to use an adversarial perturbation to measure the distance to the margin. We also establish theoretical bounds on the convergence of our Adversarial Active Learning strategy for linear classifiers. Some inherent properties of adversarial examples opens up promising opportunity to transfer active learning data from one network to another. We also derive an active learning heuristic that scales to both CNN and RNN by selecting the unlabeled data that minimize the variational free energy. Secondly, we focus our work on how to fasten the computation of Wasserstein distances. We propose to approximate Wasserstein distances using a Siamese architecture. From another point of view, we demonstrate the submodular properties of Wasserstein medoids and how to apply it in active learning. Eventually, we provide new visualization tools for explaining the predictions of CNN on a text. First, we hijack an active learning strategy to confront the relevance of the sentences selected with active learning to state-of-the-art phraseology techniques. These works help to understand the hierarchy of the linguistic knowledge acquired during the training of CNNs on NLP tasks. Secondly, we take advantage of deconvolution networks for image analysis to present a new perspective on text analysis to the linguistic community that we call Text Deconvolution Saliency
APA, Harvard, Vancouver, ISO, and other styles
15

Chen, Mickaël. "Learning with weak supervision using deep generative networks." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS024.

Full text
Abstract:
Nombre des succès de l’apprentissage profond reposent sur la disponibilité de données massivement collectées et annotées, exploités par des algorithmes supervisés. Ces annotations, cependant, peuvent s’avérer difficiles à obtenir. La conception de méthodes peu gourmandes en annotations est ainsi un enjeu important, abordé dans des approches semi-supervisées ou faiblement supervisées. Par ailleurs ont été récemment introduit les réseaux génératifs profonds, capable de manipuler des distributions complexes et à l’origine d’avancées majeures, en édition d’image et en adaptation de domaine par exemple. Dans cette thèse, nous explorons comment ces outils nouveaux peuvent être exploités pour réduire les besoins en annotations. En premier lieu, nous abordons la tâche de prédiction stochastique. Il s’agit de concevoir des systèmes de prédiction structurée tenant compte de la diversité des réponses possibles. Nous proposons dans ce cadre deux modèles, le premier pour des données multi-vues avec vues manquantes, et le second pour la prédiction de futurs possibles d'une séquence vidéo. Ensuite, nous étudions la décomposition en deux facteurs latents indépendants dans le cas où un seul facteur est annoté. Nous proposons des modèles qui visent à retrouver des représentations latentes sémantiquement cohérentes de ces facteurs explicatifs. Le premier modèle est appliqué en génération de données de capture de mouvements, le second, sur des données multi-vues. Enfin, nous nous attaquons au problème, crucial en vision par ordinateur, de la segmentation d’image. Nous proposons un modèle, inspiré des idées développées dans cette thèse, de segmentation d’objet entièrement non supervisé
Many successes of deep learning rely on the availability of massive annotated datasets that can be exploited by supervised algorithms. Obtaining those labels at a large scale, however, can be difficult, or even impossible in many situations. Designing methods that are less dependent on annotations is therefore a major research topic, and many semi-supervised and weakly supervised methods have been proposed. Meanwhile, the recent introduction of deep generative networks provided deep learning methods with the ability to manipulate complex distributions, allowing for breakthroughs in tasks such as image edition and domain adaptation. In this thesis, we explore how these new tools can be useful to further alleviate the need for annotations. Firstly, we tackle the task of performing stochastic predictions. It consists in designing systems for structured prediction that take into account the variability in possible outputs. We propose, in this context, two models. The first one performs predictions on multi-view data with missing views, and the second one predicts possible futures of a video sequence. Then, we study adversarial methods to learn a factorized latent space, in a setting with two explanatory factors but only one of them is annotated. We propose models that aim to uncover semantically consistent latent representations for those factors. One model is applied to the conditional generation of motion capture data, and another one to multi-view data. Finally, we focus on the task of image segmentation, which is of crucial importance in computer vision. Building on previously explored ideas, we propose a model for object segmentation that is entirely unsupervised
APA, Harvard, Vancouver, ISO, and other styles
16

Bisot, Victor. "Apprentissage de représentations pour l'analyse de scènes sonores." Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0016.

Full text
Abstract:
Ce travail de thèse s’intéresse au problème de l’analyse des sons environnementaux avec pour objectif d’extraire automatiquement de l’information sur le contexte dans lequel un son a été enregistré. Ce domaine de recherche a connu un succès grandissant ces dernières années entraînant une rapide évolution du nombre de travaux et des méthodes employées. Nos travaux explorent et contribuent à plusieurs grandes familles d’approches pour l’analyse de scènes et événements sonores allant de l’ingénierie de descripteurs jusqu’aux réseaux de neurones profonds. Notre travail se focalise sur les techniques d’apprentissage de représentations par factorisation en matrices positives (NMF), qui sont particulièrement adaptées à l’analyse d’environnements multi-sources tels que les scènes sonores. Nous commençons par montrer que les spectrogrammes contiennent suffisamment d’information pour discriminer les scènes sonores en proposant une combinaison de descripteurs d’images extraits à partir des images temps-fréquence. Nous quittons ensuite le monde de l’ingénierie de descripteurs pour aller vers un apprentissage automatique des représentations. Nous entamons cette partie du travail en nous intéressant aux approches non-supervisées, en particulier à l’apprentissage de descripteurs par différentes variantes de la NMF. Plusieurs des approches proposées confirment l’intérêt de l’apprentissage de caractéristiques par NMF en obtenant des performances supérieures aux meilleures approches par extraction de descripteurs. Nous proposons ensuite d’améliorer les représentations apprises en introduisant le modèle TNMF, une variante supervisée de la NMF. Les modèles et algorithmes TNMF proposés se basent sur un apprentissage conjoint du classifieur et du dictionnaire de sorte à minimiser un coût de classification. Dans une dernière partie, nous discutons des liens de compatibilité entre la NMF et certaines approches par réseaux de neurones profonds. Nous proposons et adaptons des architectures de réseaux de neurones à l’utilisation de la NMF. Les modèles introduits nous permettent d’atteindre des performances état de l’art sur des tâches de classification de scènes et de détection d’événements sonores. Enfin nous explorons la possibilité d’entraîner conjointement la NMF et les paramètres du réseau, regroupant ainsi les différentes étapes de nos systèmes en un seul problème d’optimisation
This thesis work focuses on the computational analysis of environmental sound scenes and events. The objective of such tasks is to automatically extract information about the context in which a sound has been recorded. The interest for this area of research has been rapidly increasing in the last few years leading to a constant growth in the number of works and proposed approaches. We explore and contribute to the main families of approaches to sound scene and event analysis, going from feature engineering to deep learning. Our work is centered at representation learning techniques based on nonnegative matrix factorization, which are particularly suited to analyse multi-source environments such as acoustic scenes. As a first approach, we propose a combination of image processing features with the goal of confirming that spectrograms contain enough information to discriminate sound scenes and events. From there, we leave the world of feature engineering to go towards automatically learning the features. The first step we take in that direction is to study the usefulness of matrix factorization for unsupervised feature learning techniques, especially by relying on variants of NMF. Several of the compared approaches allow us indeed to outperform feature engineering approaches to such tasks. Next, we propose to improve the learned representations by introducing the TNMF model, a supervised variant of NMF. The proposed TNMF models and algorithms are based on jointly learning nonnegative dictionaries and classifiers by minimising a target classification cost. The last part of our work highlights the links and the compatibility between NMF and certain deep neural network systems by proposing and adapting neural network architectures to the use of NMF as an input representation. The proposed models allow us to get state of the art performance on scene classification and overlapping event detection tasks. Finally we explore the possibility of jointly learning NMF and neural networks parameters, grouping the different stages of our systems in one optimisation problem
APA, Harvard, Vancouver, ISO, and other styles
17

Cherti, Mehdi. "Deep generative neural networks for novelty generation : a foundational framework, metrics and experiments." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS029/document.

Full text
Abstract:
Des avancées significatives sur les réseaux de neurones profonds ont récemment permis le développement de technologies importantes comme les voitures autonomes et les assistants personnels intelligents basés sur la commande vocale. La plupart des succès en apprentissage profond concernent la prédiction, alors que les percées initiales viennent des modèles génératifs. Actuellement, même s'il existe des outils puissants dans la littérature des modèles génératifs basés sur les réseaux profonds, ces techniques sont essentiellement utilisées pour la prédiction ou pour générer des objets connus (i.e., des images de haute qualité qui appartiennent à des classes connues) : un objet généré qui est à priori inconnu est considéré comme une erreur (Salimans et al., 2016) ou comme un objet fallacieux (Bengio et al., 2013b). En d'autres termes, quand la prédiction est considérée comme le seul objectif possible, la nouveauté est vue comme une erreur - que les chercheurs ont essayé d'éliminer au maximum. Cette thèse défends le point de vue que, plutôt que d'éliminer ces nouveautés, on devrait les étudier et étudier le potentiel génératif des réseaux neuronaux pour créer de la nouveauté utile - particulièrement sachant l'importance économique et sociétale de la création d'objets nouveaux dans les sociétés contemporaines. Cette thèse a pour objectif d'étudier la génération de la nouveauté et sa relation avec les modèles de connaissance produits par les réseaux neurones profonds génératifs. Notre première contribution est la démonstration de l'importance des représentations et leur impact sur le type de nouveautés qui peuvent être générées : une conséquence clé est qu'un agent créatif a besoin de re-représenter les objets connus et utiliser cette représentation pour générer des objets nouveaux. Ensuite, on démontre que les fonctions objectives traditionnelles utilisées dans la théorie de l'apprentissage statistique, comme le maximum de vraisemblance, ne sont pas nécessairement les plus adaptées pour étudier la génération de nouveauté. On propose plusieurs alternatives à un niveau conceptuel. Un deuxième résultat clé est la confirmation que les modèles actuels - qui utilisent les fonctions objectives traditionnelles - peuvent en effet générer des objets inconnus. Cela montre que même si les fonctions objectives comme le maximum de vraisemblance s'efforcent à éliminer la nouveauté, les implémentations en pratique échouent à le faire. A travers une série d'expérimentations, on étudie le comportement de ces modèles ainsi que les objets qu'ils génèrent. En particulier, on propose une nouvelle tâche et des métriques pour la sélection de bons modèles génératifs pour la génération de la nouveauté. Finalement, la thèse conclue avec une série d'expérimentations qui clarifie les caractéristiques des modèles qui génèrent de la nouveauté. Les expériences montrent que la sparsité, le niveaux du niveau de corruption et la restriction de la capacité des modèles tuent la nouveauté et que les modèles qui arrivent à reconnaître des objets nouveaux arrivent généralement aussi à générer de la nouveauté
In recent years, significant advances made in deep neural networks enabled the creation of groundbreaking technologies such as self-driving cars and voice-enabled personal assistants. Almost all successes of deep neural networks are about prediction, whereas the initial breakthroughs came from generative models. Today, although we have very powerful deep generative modeling techniques, these techniques are essentially being used for prediction or for generating known objects (i.e., good quality images of known classes): any generated object that is a priori unknown is considered as a failure mode (Salimans et al., 2016) or as spurious (Bengio et al., 2013b). In other words, when prediction seems to be the only possible objective, novelty is seen as an error that researchers have been trying hard to eliminate. This thesis defends the point of view that, instead of trying to eliminate these novelties, we should study them and the generative potential of deep nets to create useful novelty, especially given the economic and societal importance of creating new objects in contemporary societies. The thesis sets out to study novelty generation in relationship with data-driven knowledge models produced by deep generative neural networks. Our first key contribution is the clarification of the importance of representations and their impact on the kind of novelties that can be generated: a key consequence is that a creative agent might need to rerepresent known objects to access various kinds of novelty. We then demonstrate that traditional objective functions of statistical learning theory, such as maximum likelihood, are not necessarily the best theoretical framework for studying novelty generation. We propose several other alternatives at the conceptual level. A second key result is the confirmation that current models, with traditional objective functions, can indeed generate unknown objects. This also shows that even though objectives like maximum likelihood are designed to eliminate novelty, practical implementations do generate novelty. Through a series of experiments, we study the behavior of these models and the novelty they generate. In particular, we propose a new task setup and metrics for selecting good generative models. Finally, the thesis concludes with a series of experiments clarifying the characteristics of models that can exhibit novelty. Experiments show that sparsity, noise level, and restricting the capacity of the net eliminates novelty and that models that are better at recognizing novelty are also good at generating novelty
APA, Harvard, Vancouver, ISO, and other styles
18

Cîrstea, Bogdan-Ionut. "Contribution à la reconnaissance de l'écriture manuscrite en utilisant des réseaux de neurones profonds et le calcul quantique." Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0059.

Full text
Abstract:
Dans cette thèse, nous fournissons plusieurs contributions des domaines de l’apprentissage profond et du calcul quantique à la reconnaissance de l’écriture manuscrite. Nous commençons par intégrer certaines des techniques d’apprentissage profond les plus récentes(comme dropout, batch normalization et différentes fonctions d’activation) dans les réseaux de neurones à convolution et obtenons des meilleures performances sur le fameux jeu de données MNIST. Nous proposons ensuite des réseaux TSTN (Tied Spatial Transformer Networks), une variante des réseaux STN (Spatial Transformer Networks) avec poids partagés, ainsi que différentes variantes d’entraînement du TSTN. Nous présentons des performances améliorées sur une variante déformée du jeu de données MNIST. Dans un autre travail, nous comparons les performances des réseaux récurrents de neurones Associative Long Short-Term Memory (ALSTM), une architecture récemment introduite, par rapport aux réseaux récurrents de neurones Long Short-Term Memory (LSTM), sur le jeu de données de reconnaissance d’écriture arabe IFN-ENIT. Enfin, nous proposons une architecture de réseau de neurones que nous appelons réseau hybride classique-quantique, capable d’intégrer et de tirer parti de l’informatique quantique. Alors que nos simulations sont effectuées à l’aide du calcul classique (sur GPU), nos résultats sur le jeu de données Fashion-MNIST suggèrent que des améliorations exponentielles en complexité computationnelle pourraient être réalisables, en particulier pour les réseaux de neurones récurrents utilisés pour la classification de séquence
In this thesis, we provide several contributions from the fields of deep learning and quantum computation to handwriting recognition. We begin by integrating some of the more recent deep learning techniques (such as dropout, batch normalization and different activation functions) into convolutional neural networks and show improved performance on the well-known MNIST dataset. We then propose Tied Spatial Transformer Networks (TSTNs), a variant of Spatial Transformer Networks (STNs) with shared weights, as well as different training variants of the TSTN. We show improved performance on a distorted variant of the MNIST dataset. In another work, we compare the performance of Associative Long Short-Term Memory (ALSTM), a recently introduced recurrent neural network (RNN) architecture, against Long Short-Term Memory (LSTM), on the Arabic handwriting recognition IFN-ENIT dataset. Finally, we propose a neural network architecture, which we name a hybrid classical-quantum neural network, which can integrate and take advantage of quantum computing. While our simulations are performed using classical computation (on a GPU), our results on the Fashion-MNIST dataset suggest that exponential improvements in computational requirements might be achievable, especially for recurrent neural networks trained for sequence classification
APA, Harvard, Vancouver, ISO, and other styles
19

Simonnet, Edwin. "Réseaux de neurones profonds appliqués à la compréhension de la parole." Thesis, Le Mans, 2019. http://www.theses.fr/2019LEMA1006/document.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre de l'émergence de l'apprentissage profond et aborde la compréhension de la parole assimilée à l'extraction et à la représentation automatique du sens contenu dans les mots d'une phrase parlée. Nous étudions une tâche d'étiquetage en concepts sémantiques dans un contexte de dialogue oral évaluée sur le corpus français MEDIA. Depuis une dizaine d'années, les modèles neuronaux prennent l'ascendant dans de nombreuses tâches de traitement du langage naturel grâce à des avancées algorithmiques ou à la mise à disposition d'outils de calcul puissants comme les processeurs graphiques. De nombreux obstacles rendent la compréhension complexe, comme l'interprétation difficile des transcriptions automatiques de la parole étant donné que de nombreuses erreurs sont introduites par le processus de reconnaissance automatique en amont du module de compréhension. Nous présentons un état de l'art décrivant la compréhension de la parole puis les méthodes d'apprentissage automatique supervisé pour la résoudre en commençant par des systèmes classiques pour finir avec des techniques d'apprentissage profond. Les contributions sont ensuite exposées suivant trois axes. Premièrement, nous développons une architecture neuronale efficace consistant en un réseau récurent bidirectionnel encodeur-décodeur avec mécanisme d’attention. Puis nous abordons la gestion des erreurs de reconnaissance automatique et des solutions pour limiter leur impact sur nos performances. Enfin, nous envisageons une désambiguïsation de la tâche de compréhension permettant de rendre notre système plus performant
This thesis is a part of the emergence of deep learning and focuses on spoken language understanding assimilated to the automatic extraction and representation of the meaning supported by the words in a spoken utterance. We study a semantic concept tagging task used in a spoken dialogue system and evaluated with the French corpus MEDIA. For the past decade, neural models have emerged in many natural language processing tasks through algorithmic advances or powerful computing tools such as graphics processors. Many obstacles make the understanding task complex, such as the difficult interpretation of automatic speech transcriptions, as many errors are introduced by the automatic recognition process upstream of the comprehension module. We present a state of the art describing spoken language understanding and then supervised automatic learning methods to solve it, starting with classical systems and finishing with deep learning techniques. The contributions are then presented along three axes. First, we develop an efficient neural architecture consisting of a bidirectional recurrent network encoder-decoder with attention mechanism. Then we study the management of automatic recognition errors and solutions to limit their impact on our performances. Finally, we envisage a disambiguation of the comprehension task making the systems more efficient
APA, Harvard, Vancouver, ISO, and other styles
20

Nerlikar, Vivek. "Digital Twin in Structural Health Monitoring for Aerospace using Machine Learning." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG080.

Full text
Abstract:
Les systèmes industriels modernes utilisent souvent une combinaison de matériaux tels que les métaux, le béton et les composites, soigneusement optimisés pour obtenir des performances supérieures tout en minimisant les coûts. Les structures sont principalement soumises à des charges dynamiques pendant leur durée de vie. Les problèmes de fabrication et/ou les sollicitations perpétuelles entraînent souvent des changements dans un système qui ont un impact négatif sur ses performances actuelles et/ou futures; ces changements peuvent être définis comme des dommages. L'identification des dommages est un processus crucial qui garantit le bon fonctionnement des équipements ou des structures tout au long de leur cycle de vie. Elle alerte le service de maintenance pour qu'il prenne les mesures nécessaires à la réparation. Le Structural Health Monitoring (SHM) est une technique potentielle d'identification des dommages qui a attiré plus d'attention au cours des dernières décennies. Elle permet de surmonter les inconvénients des méthodes traditionnelles de contrôle non destructif. Dans cette thèse, nous avons utilisé la technique des ondes guidées ultrasoniques (GW) pour le SHM. La sensibilité des ondes guidées aux conditions environnementales et opérationnelles (EOC) modifie les signaux de réponse et peut masquer les signatures de défauts. Il est donc difficile d'isoler les signatures de défauts à l'aide de méthodes telles que la comparaison à une référence, qui consiste à comparer des signaux GW sans dommages avec les acquisitions actuelles. Les méthodes sans état de référence peuvent constituer une alternative, mais elles sont limitées à des géométries simples. En outre, la grande sensibilité des ondes guidées aux variations des EOC et au bruit de mesure constitue un défi pour la modélisation des ondes guidées. Les récentes avancées en matière d'apprentissage automatique ont créé de nouveaux axes de modélisation, notamment la modélisation basée sur les données et la modélisation basée sur la physique, souvent désignée sous le nom d'apprentissage automatique scientifique. La modélisation basée sur les données est extrêmement utile pour modéliser les phénomènes qui ne peuvent être expliqués par la physique, ce qui permet d'isoler les signatures de défauts subtils et de développer des procédures robustes de détection des dommages. Toutefois, les méthodes de ML basées sur la modélisation nécessitent davantage de données pour capturer toutes les informations permettant d'améliorer la capacité de généralisation des modèles ML. Le SHM, quant à lui, tend à générer des données généralement exemptes de dommages, car les épisodes de dommages sont rares. Cette lacune particulière peut être comblée par une modélisation basée sur la physique. Dans cette approche, les capacités de modélisation physique sont combinées avec des données de mesure pour expliquer des phénomènes inexplicables à l'aide de la modélisation physique. L'objectif principal est de développer une méthodologie de détection des défauts dans les panneaux composites. Cette méthodologie est conçue pour surveiller des structures similaires, telles que des pales d'éoliennes ou de turbines à réaction, sans exiger des états sans dommages de toutes les structures, évitant ainsi le besoin de comparaisons directes à un état de référence. Le deuxième objectif est de développer un modèle de ML basé sur la physique pour intégrer des simulations avec des données expérimentales. Le développement de ce modèle implique une modélisation multi-fidélité et métamodélisation. Pour valider ce modèle, nous utilisons un ensemble de données expérimentales et de simulation sur une plaque en aluminium. En outre, le modèle développé est utilisé pour générer des réponses GW réalistes à la taille de l'endommagement et à la position des capteurs. Ces signaux générés sont ensuite utilisés pour calculer une courbe de probabilité de détection (POD), afin d'évaluer la fiabilité d'un système SHM basé sur le GW
Modern engineering systems and structures often utilize a combination of materials such as metals, concrete, and composites, carefully optimized to achieve superior performance in their designated functions while also minimizing overall economic costs. Primarily, engineering structures are subjected to dynamic loads during their operational life. The manufacturing issues and/or the perpetual dynamic operations often lead to some changes into a system that adversely impact its present and/or future performance; these changes can be defined as damage. The identification of damage is a crucial process that ensures the smooth functioning of equipment or structures throughout their life cycle. It alerts the maintenance department to take the necessary measures for repair. Structural Health Monitoring (SHM) is a potential damage identification technique which has attracted more attention in the last few decades. It has the capability to overcome the downsides of traditional Non-Destructive Testing (NDT). In this thesis, we used Ultrasonic Guided Waves (GW) technique for SHM. However, sensitivity of GW to Environmental and Operational Conditions (EOC) modify the response signals to mask defect signatures. This makes it difficult to isolate defect signatures using methods such as baseline comparison, where damage-free GW signals are compared with current acquisitions Baseline-free methods can be an alternative, but they are limited to simple geometries. Moreover, high sensitivity of GW to EOC and measurement noise poses a challenge in modelling GW through physics-based models. The recent advancements in Machine Learning (ML) has created a new modelling axis, including data-driven modelling and physics-based modelling, often referred to as Scientific ML. Data-driven modelling is extremely helpful to model the phenomena that cannot be explained by physics, allowing for the isolation of subtle defect signatures and the development of robust damage detection procedures. However, ML-based methods require more data to capture all the information to enhance the generalization capability of ML models. SHM, on the other hand, tends to generate mostly damage-free data, as damage episodes seldom occur. This particular gap can be filled through physics-based modeling. In this approach, the modeling capabilities of physics-based models are combined with measurement data to explain unexplainable phenomena using ML. The primary objective of this thesis is to develop a data-driven damage detection methodology for identifying defects in composite panels. This methodology is designed for monitoring similar structures, such as wind or jet turbine blades, without requiring pristine (damage-free) states of all structures, thereby avoiding the need for direct baseline comparisons. The second goal is to develop a physics-based ML model for integrating physics-based simulations with experimental data within the context of a Digital Twin. The development of this physics-based ML model involves multi-fidelity modeling and surrogate modeling. To validate this model, we utilize an experimental and simulation dataset of an Aluminium panel. Furthermore, the developed model is employed to generate realistic GW responses at the required damage size and sensor path. These generated signals are then used to compute a Probability of Detection (POD) curve, assessing the reliability of a GW-based SHM system
APA, Harvard, Vancouver, ISO, and other styles
21

Caubriere, Antoine. "Du signal au concept : réseaux de neurones profonds appliqués à la compréhension de la parole." Thesis, Le Mans, 2021. https://tel.archives-ouvertes.fr/tel-03177996.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre de l’apprentissage profond appliqué à la compréhension de la parole. Jusqu'à présent, cette tâche était réalisée par l’intermédiaire d’une chaîne de composants mettant en oeuvre, par exemple, un système de reconnaissance de la parole, puis différents traitements du langage naturel, avant d’impliquer un système de compréhension du langage sur les transcriptions automatiques enrichies. Récemment, des travaux dans le domaine de la reconnaissance de la parole ont montré qu’il était possible de produire une séquence de mots directement à partir du signal acoustique. Dans le cadre de cette thèse, il est question d’exploiter ces avancées et de les étendre pour concevoir un système composé d’un seul modèle neuronal entièrement optimisé pour la tâche de compréhension de la parole, du signal au concept. Tout d’abord, nous présentons un état de l’art décrivant les principes de l’apprentissage neuronal profond, de la reconnaissance de la parole, et de la compréhension de la parole. Nous décrivons ensuite les contributions réalisées selon trois axes principaux. Nous proposons un premier système répondant à la problématique posée et l’appliquons à une tâche de reconnaissance des entités nommées. Puis, nous proposons une stratégie de transfert d’apprentissage guidée par une approche de type curriculum learning. Cette stratégie s’appuie sur les connaissances génériques apprises afin d’améliorer les performances d’un système neuronal sur une tâche d’extraction de concepts sémantiques. Ensuite, nous effectuons une analyse des erreurs produites par notre approche, tout en étudiant le fonctionnement de l’architecture neuronale proposée. Enfin, nous mettons en place une mesure de confiance permettant d’évaluer la fiabilité d’une hypothèse produite par notre système
This thesis is part of the deep learning applied to spoken language understanding. Until now, this task was performed through a pipeline of components implementing, for example, a speech recognition system, then different natural language processing, before involving a language understanding system on enriched automatic transcriptions. Recently, work in the field of speech recognition has shown that it is possible to produce a sequence of words directly from the acoustic signal. Within the framework of this thesis, the aim is to exploit these advances and extend them to design a system composed of a single neural model fully optimized for the spoken language understanding task, from signal to concept. First, we present a state of the art describing the principles of deep learning, speech recognition, and speech understanding. Then, we describe the contributions made along three main axes. We propose a first system answering the problematic posed and apply it to a task of named entities recognition. Then, we propose a transfer learning strategy guided by a curriculum learning approach. This strategy is based on the generic knowledge learned to improve the performance of a neural system on a semantic concept extraction task. Then, we perform an analysis of the errors produced by our approach, while studying the functioning of the proposed neural architecture. Finally, we set up a confidence measure to evaluate the reliability of a hypothesis produced by our system
APA, Harvard, Vancouver, ISO, and other styles
22

Mohammad, Noshine. "Exploration des modèles d’apprentissage statistique profonds couplés à la spectrométrie de masse pour améliorer la surveillance épidémiologique des maladies infectieuses." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS617.

Full text
Abstract:
La spectrométrie de masse de type MALDI-TOF (matrix assisted laser desorption and ionisation time of flight) est une méthode de diagnostic en microbiologie rapide et robuste, permettant d'identifier les espèces de micro-organismes grâce à leur empreinte protéique constituée par le spectre de masse. Cependant, les applications clinico-épidémiologiques de cette technologie demeurent limitées par les outils bio-informatiques à disposition. Cette thèse se focalise sur l'application de modèles d'apprentissage statistique profonds aux données de spectrométrie de masse de type MALDI-TOF dans un but de surveillance épidémiologique des maladies infectieuses. Elle inclut la surveillance des épidémies de champignons et de mycobactéries en milieu hospitalier, ainsi que la caractérisation des anophèles vecteurs du paludisme. Nous avons examiné l'impact des méthodes de préparation des échantillons et de l'analyse informatique des spectres de masse sur l'amélioration de l'apprentissage, afin d’identifier les clones fongiques épidémiques en milieu hospitalier et prévenir leur propagation. Notre étude a montré que le réseau de neurones à convolution (CNN) a un potentiel élevé pour identifier les spectres de clones spécifiques de Candida parapsilosis, atteignant une précision de 94 % en optimisant des paramètres essentiels (milieux de culture, temps de croissance, et la machine d'acquisition des spectres). Pour détecter des clones épidémiques Aspergillus flavus dans des cohortes hospitalières multicentriques, le CNN a également réussi à classer correctement la plupart des isolats, atteignant une précision supérieure à 93 % pour deux des trois appareils utilisés. Nous avons aussi montré qu’en utilisant des modèles d'apprentissage profond optimisés, tels qu'un CNN et un réseau de neurones à convolution temporelle (TCN), nous pouvons prédire l'âge des moustiques avec une précision moyenne de deux jours (meilleure erreur absolue moyenne : 1,74 jours). Cette approche permettrait ainsi de surveiller efficacement la structure de l'âge des populations de moustiques anophèles sauvages et de mieux les cibler par des mesures de contrôle. Enfin, nous avons démontré les performances de diverses architectures de réseaux de neurones et de différentes méthodes de représentation des spectres de masse, en utilisant différentes cohortes couvrant diverses problématiques épidémiologiques telles que la prédiction de l'âge, l'identification d'espèces étroitement apparentées des moustiques anophèles, la distinction entre sous-espèces proches, ainsi que la détection de la résistance chez le Mycobacterium abscessus. L'étude a montré que parmi les différents modèles évalués, les modèles les plus performants, tels que les TCN et un réseau de neurones récurrents, pouvaient obtenir des résultats notables, atteignant une précision d'identification de 93 % pour les espèces d'Anophèles étroitement liées et de 95 % pour les sous-espèces de Mycobacterium abscessus. De plus, l'utilisation de CNN et de TCN a permis de détecter les souches résistantes chez Mycobacterium abscessus avec une précision dépassant 97 %. Cette thèse met en lumière l'utilisation de l'apprentissage profond en conjonction avec le MALDI-TOF, une approche jusqu'ici peu explorée. Avec la généralisation des instruments MALDI-TOF et la possibilité de coupler les analyses à des applications en ligne utilisant l'apprentissage profond, cette approche semble prometteuse, ouvrant la voie à d'autres applications épidémiologiques au-delà de la simple identification d’espèce, telles que la détection de clusters épidémiologiques de microorganismes résistants aux médicaments, la surveillance de la transmission des maladies bactériennes et fongiques, et l’évaluation de l'efficacité des interventions ciblées de lutte antivectorielle
MALDI-TOF (matrix assisted laser desorption and ionisation time of flight) mass spectrometry is a rapid and robust diagnostic method for microbiology, enabling microorganism species to be identified on the basis of their protein fingerprint in the mass spectrum. However, the clinical and epidemiological applications of this technology remain limited by the bioinformatics tools available. This thesis focuses on the application of deep statistical learning models to MALDI-TOF mass spectrometry data for the purpose of epidemiological surveillance of infectious diseases. This includes the monitoring of fungal and mycobacterial epidemics in hospitals, as well as the characterisation of Anopheles vectors of malaria.We examined the impact of sample preparation methods and computer analysis of mass spectra on improving learning, in order to identify epidemic fungal clones in hospitals and prevent their spread. Our study showed that the convolution neural network (CNN) has a high potential for identifying the spectra of specific Candida parapsilosis clones, achieving 94% accuracy by optimising essential parameters (culture media, growth time, and the spectra acquisition machine). To detect epidemic Aspergillus flavus clones in multicentre hospital cohorts, the CNN was also able to classify most isolates correctly, achieving accuracy of over 93% for two of the three instruments used. We have also shown that by using optimised deep learning models, such as a CNN and a temporal convolution neural network (TCN), we can predict the age of mosquitoes with an average accuracy of two days (best mean absolute error: 1.74 days). This approach will enable us to effectively monitor the age structure of wild Anopheles mosquito populations and target them more effectively with control measures. Finally, we demonstrated the performance of various neural network architectures and mass spectra representation methods, using different cohorts covering various epidemiological issues such as age prediction, identification of closely related species of Anopheles mosquitoes, distinction between closely related subspecies, and detection of resistance in Mycobacterium abscessus. The study showed that of the different models evaluated, the best performing models, such as TCNs and a recurrent neural network, were able to achieve notable results, reaching an identification accuracy of 93% for closely related Anopheles species and 95% for Mycobacterium abscessus subspecies. In addition, the use of CNN and TCN enabled the detection of resistant strains in Mycobacterium abscessus with an accuracy of over 97%. This thesis highlights the use of deep learning in conjunction with MALDI-TOF, a hitherto little explored approach. With the widespread availability of MALDI-TOF instruments and the possibility of coupling analyses to online applications using deep learning, this approach looks promising, opening the way to other epidemiological applications beyond simple species identification, such as detecting epidemiological clusters of drug-resistant microorganisms, monitoring the transmission of bacterial and fungal diseases, and evaluating the effectiveness of targeted vector control interventions
APA, Harvard, Vancouver, ISO, and other styles
23

Dvornik, Mikita. "Learning with Limited Annotated Data for Visual Understanding." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM050.

Full text
Abstract:
La capacité des méthodes d'apprentissage profond à exceller en vision par ordinateur dépend fortement de la quantité de données annotées disponibles pour la formation. Pour certaines tâches, l'annotation peut être trop coûteuse et demander trop de travail, devenant ainsi le principal obstacle à une meilleure précision. Les algorithmes qui apprennent automatiquement à partir des données, sans supervision humaine, donnent de bien pires résultats que leurs homologues entièrement supervisés. Il y a donc une forte motivation à travailler sur des méthodes efficaces d'apprentissage avec des annotations limitées. Cette thèse propose d'exploiter les connaissances préalables sur la tâche et développe des solutions plus efficaces pour la compréhension des scènes et la classification de quelques images.Les principaux défis de la compréhension des scènes comprennent la détection d'objets, la sémantique et la segmentation des instances. De même, toutes ces tâches visent à reconnaître et localiser des objets, au niveau de la région ou au niveau plus précis des pixels, ce qui rend le processus d'annotation difficile. La première contribution de ce manuscrit est un réseau neuronal convolutionnel (CNN) qui effectue à la fois la détection d'objets et la segmentation sémantique. Nous concevons une architecture de réseau spécialisée, qui est formée pour résoudre les deux problèmes en un seul passage et qui fonctionne en temps réel. Grâce à la procédure de formation multitâche, les deux tâches bénéficient l'une de l'autre en termes de précision, sans données supplémentaires étiquetées.La deuxième contribution introduit une nouvelle technique d'augmentation des données, c'est-à-dire l'augmentation artificielle de la quantité de données de formation. Il vise à créer de nouvelles scènes par copier-coller d'objets d'une image à l'autre, dans un ensemble de données donné. Placer un objet dans un contexte approprié s'est avéré crucial pour améliorer la compréhension de la scène. Nous proposons de modéliser explicitement le contexte visuel à l'aide d'un CNN qui découvre les corrélations entre les catégories d'objets et leur voisinage typique, puis propose des emplacements réalistes à augmenter. Dans l'ensemble, le collage d'objets aux "bons endroits" permet d'améliorer les performances de détection et de segmentation des objets, avec des gains plus importants dans les scénarios d'annotations limitées.Pour certains problèmes, les données sont extrêmement rares et un algorithme doit apprendre de nouveaux concepts à partir de quelques exemples. Peu de classification consiste à apprendre un modèle prédictif capable de s'adapter efficacement à une nouvelle classe, avec seulement quelques échantillons annotés. Alors que la plupart des méthodes actuelles se concentrent sur le mécanisme d'adaptation, peu de travaux ont abordé explicitement le problème du manque de données sur la formation. Dans notre troisième article, nous montrons qu'en s'attaquant à la question fondamentale de la variance élevée des classificateurs d'apprentissage à faible tir, il est possible de surpasser considérablement les techniques existantes plus sophistiquées. Notre approche consiste à concevoir un ensemble de réseaux profonds pour tirer parti de la variance des classificateurs et à introduire de nouvelles stratégies pour encourager les réseaux à coopérer, tout en encourageant la diversité des prédictions. En faisant correspondre différentes sorties de réseaux sur des images d'entrée similaires, nous améliorons la précision et la robustesse du modèle par rapport à la formation d'ensemble classique. De plus, un seul réseau obtenu par distillation montre des performances similaires à celles de l'ensemble complet et donne des résultats à la pointe de la technologie, sans surcharge de calcul au moment du test
The ability of deep-learning methods to excel in computer vision highly depends on the amount of annotated data available for training. For some tasks, annotation may be too costly and labor intensive, thus becoming the main obstacle to better accuracy. Algorithms that learn from data automatically, without human supervision, perform substantially worse than their fully-supervised counterparts. Thus, there is a strong motivation to work on effective methods for learning with limited annotations. This thesis proposes to exploit prior knowledge about the task and develops more effective solutions for scene understanding and few-shot image classification.Main challenges of scene understanding include object detection, semantic and instance segmentation. Similarly, all these tasks aim at recognizing and localizing objects, at region- or more precise pixel-level, which makes the annotation process difficult. The first contribution of this manuscript is a Convolutional Neural Network (CNN) that performs both object detection and semantic segmentation. We design a specialized network architecture, that is trained to solve both problems in one forward pass, and operates in real-time. Thanks to the multi-task training procedure, both tasks benefit from each other in terms of accuracy, with no extra labeled data.The second contribution introduces a new technique for data augmentation, i.e., artificially increasing the amount of training data. It aims at creating new scenes by copy-pasting objects from one image to another, within a given dataset. Placing an object in a right context was found to be crucial in order to improve scene understanding performance. We propose to model visual context explicitly using a CNN that discovers correlations between object categories and their typical neighborhood, and then proposes realistic locations for augmentation. Overall, pasting objects in ``right'' locations allows to improve object detection and segmentation performance, with higher gains in limited annotation scenarios.For some problems, the data is extremely scarce, and an algorithm has to learn new concepts from a handful of examples. Few-shot classification consists of learning a predictive model that is able to effectively adapt to a new class, given only a few annotated samples. While most current methods concentrate on the adaptation mechanism, few works have tackled the problem of scarce training data explicitly. In our third contribution, we show that by addressing the fundamental high-variance issue of few-shot learning classifiers, it is possible to significantly outperform more sophisticated existing techniques. Our approach consists of designing an ensemble of deep networks to leverage the variance of the classifiers, and introducing new strategies to encourage the networks to cooperate, while encouraging prediction diversity. By matching different networks outputs on similar input images, we improve model accuracy and robustness, comparing to classical ensemble training. Moreover, a single network obtained by distillation shows similar to the full ensemble performance and yields state-of-the-art results with no computational overhead at test time
APA, Harvard, Vancouver, ISO, and other styles
24

Goh, Hanlin. "Apprentissage de Représentations Visuelles Profondes." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00948376.

Full text
Abstract:
Les avancées récentes en apprentissage profond et en traitement d'image présentent l'opportunité d'unifier ces deux champs de recherche complémentaires pour une meilleure résolution du problème de classification d'images dans des catégories sémantiques. L'apprentissage profond apporte au traitement d'image le pouvoir de représentation nécessaire à l'amélioration des performances des méthodes de classification d'images. Cette thèse propose de nouvelles méthodes d'apprentissage de représentations visuelles profondes pour la résolution de cette tache. L'apprentissage profond a été abordé sous deux angles. D'abord nous nous sommes intéressés à l'apprentissage non supervisé de représentations latentes ayant certaines propriétés à partir de données en entrée. Il s'agit ici d'intégrer une connaissance à priori, à travers un terme de régularisation, dans l'apprentissage d'une machine de Boltzmann restreinte. Nous proposons plusieurs formes de régularisation qui induisent différentes propriétés telles que la parcimonie, la sélectivité et l'organisation en structure topographique. Le second aspect consiste au passage graduel de l'apprentissage non supervisé à l'apprentissage supervisé de réseaux profonds. Ce but est réalisé par l'introduction sous forme de supervision, d'une information relative à la catégorie sémantique. Deux nouvelles méthodes sont proposées. Le premier est basé sur une régularisation top-down de réseaux de croyance profonds à base de machines des Boltzmann restreintes. Le second optimise un cout intégrant un critère de reconstruction et un critère de supervision pour l'entrainement d'autoencodeurs profonds. Les méthodes proposées ont été appliquées au problème de classification d'images. Nous avons adopté le modèle sac-de-mots comme modèle de base parce qu'il offre d'importantes possibilités grâce à l'utilisation de descripteurs locaux robustes et de pooling par pyramides spatiales qui prennent en compte l'information spatiale de l'image. L'apprentissage profonds avec agrégation spatiale est utilisé pour apprendre un dictionnaire hiérarchique pour l'encodage de représentations visuelles de niveau intermédiaire. Cette méthode donne des résultats très compétitifs en classification de scènes et d'images. Les dictionnaires visuels appris contiennent diverses informations non-redondantes ayant une structure spatiale cohérente. L'inférence est aussi très rapide. Nous avons par la suite optimisé l'étape de pooling sur la base du codage produit par le dictionnaire hiérarchique précédemment appris en introduisant introduit une nouvelle paramétrisation dérivable de l'opération de pooling qui permet un apprentissage par descente de gradient utilisant l'algorithme de rétro-propagation. Ceci est la première tentative d'unification de l'apprentissage profond et du modèle de sac de mots. Bien que cette fusion puisse sembler évidente, l'union de plusieurs aspects de l'apprentissage profond de représentations visuelles demeure une tache complexe à bien des égards et requiert encore un effort de recherche important.
APA, Harvard, Vancouver, ISO, and other styles
25

Rossi, Simone. "Improving Scalability and Inference in Probabilistic Deep Models." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS042.

Full text
Abstract:
Au cours de la dernière décennie, l'apprentissage profond a atteint un niveau de maturité suffisant pour devenir le choix privilégié pour résoudre les problèmes liés à l'apprentissage automatique ou pour aider les processus de prise de décision.En même temps, l'apprentissage profond n'a généralement pas la capacité de quantifier avec précision l'incertitude de ses prédictions, ce qui rend ces modèles moins adaptés aux applications critiques en matière de risque.Une solution possible pour résoudre ce problème est d'utiliser une formulation bayésienne ; cependant, bien que cette solution soit élégante, elle est analytiquement difficile à mettre en œuvre et nécessite des approximations. Malgré les énormes progrès réalisés au cours des dernières années, il reste encore beaucoup de chemin à parcourir pour rendre ces approches largement applicables. Dans cette thèse, nous adressons certains des défis de l'apprentissage profond bayésien moderne, en proposant et en étudiant des solutions pour améliorer la scalabilité et l'inférence de ces modèles.La première partie de la thèse est consacrée aux modèles profonds où l'inférence est effectuée en utilisant l'inférence variationnelle (VI).Plus précisément, nous étudions le rôle de l'initialisation des paramètres variationnels et nous montrons comment des stratégies d'initialisation prudentes peuvent permettre à l'inférence variationnelle de fournir de bonnes performances même dans des modèles à grande échelle.Dans cette partie de la thèse, nous étudions également l'effet de sur-régularisation de l'objectif variationnel sur les modèles sur-paramétrés.Pour résoudre ce problème, nous proposons une nouvelle paramétrisation basée sur la transformée de Walsh-Hadamard ; non seulement cela résout l'effet de sur-régularisation de l'objectif variationnel mais cela nous permet également de modéliser des postérités non factorisées tout en gardant la complexité temporelle et spatiale sous contrôle.La deuxième partie de la thèse est consacrée à une étude sur le rôle des prieurs.Bien qu'étant un élément essentiel de la règle de Bayes, il est généralement difficile de choisir de bonnes prieurs pour les modèles d'apprentissage profond.Pour cette raison, nous proposons deux stratégies différentes basées (i) sur l'interprétation fonctionnelle des réseaux de neurones et (ii) sur une procédure évolutive pour effectuer une sélection de modèle sur les hyper-paramètres antérieurs, semblable à la maximisation de la vraisemblance marginale.Pour conclure cette partie, nous analysons un autre type de modèle bayésien (processus Gaussien) et nous étudions l'effet de l'application d'un a priori sur tous les hyperparamètres de ces modèles, y compris les variables supplémentaires requises par les approximations du inducing points.Nous montrons également comment il est possible d'inférer des a posteriori de forme libre sur ces variables, qui, par convention, auraient été autrement estimées par point
Throughout the last decade, deep learning has reached a sufficient level of maturity to become the preferred choice to solve machine learning-related problems or to aid decision making processes.At the same time, deep learning is generally not equipped with the ability to accurately quantify the uncertainty of its predictions, thus making these models less suitable for risk-critical applications.A possible solution to address this problem is to employ a Bayesian formulation; however, while this offers an elegant treatment, it is analytically intractable and it requires approximations.Despite the huge advancements in the last few years, there is still a long way to make these approaches widely applicable.In this thesis, we address some of the challenges for modern Bayesian deep learning, by proposing and studying solutions to improve scalability and inference of these models.The first part of the thesis is dedicated to deep models where inference is carried out using variational inference (VI).Specifically, we study the role of initialization of the variational parameters and we show how careful initialization strategies can make VI deliver good performance even in large scale models.In this part of the thesis we also study the over-regularization effect of the variational objective on over-parametrized models.To tackle this problem, we propose an novel parameterization based on the Walsh-Hadamard transform; not only this solves the over-regularization effect of VI but it also allows us to model non-factorized posteriors while keeping time and space complexity under control.The second part of the thesis is dedicated to a study on the role of priors.While being an essential building block of Bayes' rule, picking good priors for deep learning models is generally hard.For this reason, we propose two different strategies based (i) on the functional interpretation of neural networks and (ii) on a scalable procedure to perform model selection on the prior hyper-parameters, akin to maximization of the marginal likelihood.To conclude this part, we analyze a different kind of Bayesian model (Gaussian process) and we study the effect of placing a prior on all the hyper-parameters of these models, including the additional variables required by the inducing-point approximations.We also show how it is possible to infer free-form posteriors on these variables, which conventionally would have been otherwise point-estimated
APA, Harvard, Vancouver, ISO, and other styles
26

Hocquet, Guillaume. "Class Incremental Continual Learning in Deep Neural Networks." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPAST070.

Full text
Abstract:
Nous nous intéressons au problème de l'apprentissage continu de réseaux de neurones artificiels dans le cas où les données ne sont accessibles que pour une seule catégorie à la fois. Pour remédier au problème de l'oubli catastrophique qui limite les performances d'apprentissage dans ces conditions, nous proposons une approche basée sur la représentation des données d'une catégorie par une loi normale. Les transformations associées à ces représentations sont effectuées à l'aide de réseaux inversibles, qui peuvent alors être entraînés avec les données d'une seule catégorie. Chaque catégorie se voit attribuer un réseau pour représenter ses caractéristiques. Prédire la catégorie revient alors à identifier le réseau le plus représentatif. L'avantage d'une telle approche est qu'une fois qu'un réseau est entraîné, il n'est plus nécessaire de le mettre à jour par la suite, chaque réseau étant indépendant des autres. C'est cette propriété particulièrement avantageuse qui démarque notre méthode des précédents travaux dans ce domaine. Nous appuyons notre démonstration sur des expériences réalisées sur divers jeux de données et montrons que notre approche fonctionne favorablement comparé à l'état de l'art. Dans un second temps, nous proposons d'optimiser notre approche en réduisant son impact en mémoire en factorisant les paramètres des réseaux. Il est alors possible de réduire significativement le coût de stockage de ces réseaux avec une perte de performances limitée. Enfin, nous étudions également des stratégies pour produire des réseaux capables d'être réutilisés sur le long terme et nous montrons leur pertinence par rapport aux réseaux traditionnellement utilisés pour l'apprentissage continu
We are interested in the problem of continual learning of artificial neural networks in the case where the data are available for only one class at a time. To address the problem of catastrophic forgetting that restrain the learning performances in these conditions, we propose an approach based on the representation of the data of a class by a normal distribution. The transformations associated with these representations are performed using invertible neural networks, which can be trained with the data of a single class. Each class is assigned a network that will model its features. In this setting, predicting the class of a sample corresponds to identifying the network that best fit the sample. The advantage of such an approach is that once a network is trained, it is no longer necessary to update it later, as each network is independent of the others. It is this particularly advantageous property that sets our method apart from previous work in this area. We support our demonstration with experiments performed on various datasets and show that our approach performs favorably compared to the state of the art. Subsequently, we propose to optimize our approach by reducing its impact on memory by factoring the network parameters. It is then possible to significantly reduce the storage cost of these networks with a limited performance loss. Finally, we also study strategies to produce efficient feature extractor models for continual learning and we show their relevance compared to the networks traditionally used for continual learning
APA, Harvard, Vancouver, ISO, and other styles
27

Sanabria, Rosas Laura Melissa. "Détection et caractérisation des moments saillants pour les résumés automatiques." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4104.

Full text
Abstract:
Le contenu vidéo est présent dans un nombre toujours plus grand de domaines, tant scientifiques que commerciaux. Le sport, en particulier le football, est l'une des industries qui a le plus investi dans le domaine de l'analyse vidéo, en raison de la popularité massive de ce sport. Bien que plusieurs méthodes de l'état de l'art utilisent des heuristiques pour générer des résumés de matchs de football, elles ont prouvé que de multiples modalités aident à détecter les meilleures actions du match. D'autre part, le domaine du résumé vidéo à usage général a progressé rapidement, offrant plusieurs approches d'apprentissage profond. Cependant, beaucoup d'entre elles sont basées sur des hypothèses qui ne sont pas réalisables pour les vidéos sportives. Le contenu vidéo a été pendant de nombreuses années la principale source pour les tâches automatiques dans le football, mais les données qui enregistrent tous les événements qui se produisent sur le terrain sont devenues dernièrement très importantes dans l'analyse du sport, car ces données d'événements fournissent des informations plus riches et nécessitent moins de traitement. Considérant que dans le résumé automatique de sports, l'objectif n'est pas seulement de montrer les actions les plus importantes du jeu, mais aussi d'évoquer autant d'émotions que celles évoquées par les éditeurs humains, nous proposons une méthode pour générer le résumé d'une vidéo de match de football en exploitant les métadonnées d'événement de tout le match et le contenu diffusé à la télévision. Nous avons conçu une architecture, introduisant (1) une méthode d'apprentissage d'instances multiples qui prend en compte la dépendance séquentielle entre les événements, (2) une couche d'attention multimodale hiérarchique qui saisit l'importance de chaque événement dans une action et (3) une méthode pour générer automatiquement plusieurs résumés d'un match de football en choisissant parmi une distribution de rangs, fournissant plusieurs résumés candidats qui sont suffisamment similaires mais avec une variabilité pertinente pour fournir différentes options à l'utilisateur final.De plus, nous avons proposé des solutions à certains défis supplémentaires dans le domaine du résumé des sports. À partir des signaux internes d'un modèle d'attention qui utilise des données d'événements comme entrée, nous avons introduit une représentation graphique des actions où l'axe des x du graphique représente la séquence d'événements et l'axe des y est la valeur du poids appris par la couche d'attention. Cette nouvelle représentation fournit un nouvel outil à l'éditeur contenant des informations significatives pour décider si une action est importante. Nous proposons également l'utilisation de techniques de repérage de mots-clés et de boosting pour détecter chaque fois qu'un joueur est mentionné par les commentateurs
Video content is present in an ever-increasing number of fields, both scientific and commercial. Sports, particularly soccer, is one of the industries that has invested the most in the field of video analytics, due to the massive popularity of the game. Although several state-of-the-art methods rely on handcrafted heuristics to generate summaries of soccer games, they have proven that multiple modalities help detect the best actions of the game. On the other hand, the field of general-purpose video summarization has advanced rapidly, offering several deep learning approaches. However, many of them are based on properties that are not feasible for sports videos. Video content has been for many years the main source for automatic tasks in soccer but the data that registers all the events happening on the field have become lately very important in sports analytics, since these event data provide richer information and requires less processing. Considering that in automatic sports summarization, the goal is not only to show the most important actions of the game, but also to evoke as much emotion as those evoked by human editors, we propose a method to generate the summary of a soccer match video exploiting the event metadata of the entire match and the content broadcast on TV. We have designed an architecture, introducing (1) a Multiple Instance Learning method that takes into account the sequential dependency among events, (2) a hierarchical multimodal attention layer that grasps the importance of each event in an action and (3) a method to automatically generate multiple summaries of a soccer match by sampling from a ranking distribution, providing multiple candidate summaries which are similar enough but with relevant variability to provide different options to the final user.We also introduced solutions to some additional challenges in the field of sports summarization. Based on the internal signals of an attention model that uses event data as input, we proposed a method to analyze the interpretability of our model through a graphical representation of actions where the x-axis of the graph represents the sequence of events, and the y-axis is the weight value learned by the attention layer. This new representation provides a new tool for the editor containing meaningful information to decide whether an action is important. We also proposed the use of keyword spotting and boosting techniques to detect every time a player is mentioned by the commentators as a solution for the missing event data
APA, Harvard, Vancouver, ISO, and other styles
28

Vialatte, Jean-Charles. "Convolution et apprentissage profond sur graphes." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0118/document.

Full text
Abstract:
Pour l’apprentissage automatisé de données régulières comme des images ou des signaux sonores, les réseaux convolutifs profonds s’imposent comme le modèle de deep learning le plus performant. En revanche, lorsque les jeux de données sont irréguliers (par example : réseaux de capteurs, de citations, IRMs), ces réseaux ne peuvent pas être utilisés. Dans cette thèse, nous développons une théorie algébrique permettant de définir des convolutions sur des domaines irréguliers, à l’aide d’actions de groupe (ou, plus généralement, de groupoïde) agissant sur les sommets d’un graphe, et possédant des propriétés liées aux arrêtes. A l’aide de ces convolutions, nous proposons des extensions des réseaux convolutifs à des structures de graphes. Nos recherches nous conduisent à proposer une formulation générique de la propagation entre deux couches de neurones que nous appelons la contraction neurale. De cette formule, nous dérivons plusieurs nouveaux modèles de réseaux de neurones, applicables sur des domaines irréguliers, et qui font preuve de résultats au même niveau que l’état de l’art voire meilleurs pour certains
Convolutional neural networks have proven to be the deep learning model that performs best on regularly structured datasets like images or sounds. However, they cannot be applied on datasets with an irregular structure (e.g. sensor networks, citation networks, MRIs). In this thesis, we develop an algebraic theory of convolutions on irregular domains. We construct a family of convolutions that are based on group actions (or, more generally, groupoid actions) that acts on the vertex domain and that have properties that depend on the edges. With the help of these convolutions, we propose extensions of convolutional neural netowrks to graph domains. Our researches lead us to propose a generic formulation of the propagation between layers, that we call the neural contraction. From this formulation, we derive many novel neural network models that can be applied on irregular domains. Through benchmarks and experiments, we show that they attain state-of-the-art performances, and beat them in some cases
APA, Harvard, Vancouver, ISO, and other styles
29

Moradi, Fard Maziar. "Apprentissage de représentations de données dans un apprentissage non-supervisé." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM053.

Full text
Abstract:
En raison du grand impact de l’apprentissage profond sur divers domaines de l’apprentissage automatique, leurs capacités à améliorer les approches de clustering ont récemment été étudiées. Dans un premier temps, des approches d’apprentissage profond (principalement des autoencodeurs) ont été utilisées pour réduire la dimensionnalité de l’espace d’origine et pour supprimer les éventuels bruits (également pour apprendre de nouvelles représentations de données). De telles approches de clustering qui utilisent des approches d’apprentissage en profondeur sont appelées deep clustering. Cette thèse se concentre sur le développement de modèles de deep clustering qui peuvent être utilisés pour différents types de données (par exemple, des images, du texte). Tout d’abord, nous proposons un algorithme DKM (Deep k-means) dans lequel l’apprentissage des représentations de données (via un autoencodeur profond) et des représentants de cluster (via k-means) est effectué de manière conjointe. Les résultats de notre approche DKM indiquent que ce modèle est capable de surpasser des algorithmes similaires en Deep Clustering. En effet, notre cadre proposé est capable de propager de manière lisse l’erreur de la fonction de coût à travers toutes les variables apprenables.De plus, nous proposons deux modèles nommés SD2C et PCD2C qui sont capables d’intégrer respectivement des mots d’amorçage et des contraintes par paires dans des approches de Deep Clustering de bout en bout. En utilisant de telles approches, les utilisateurs peuvent observer le reflet de leurs besoins en clustering. Enfin, les résultats obtenus à partir de ces modèles indiquent leur capacité à obtenir des résultats plus adaptés
Due to the great impact of deep learning on variety fields of machine learning, recently their abilities to improve clustering approaches have been investi- gated. At first, deep learning approaches (mostly Autoencoders) have been used to reduce the dimensionality of the original space and to remove possible noises (also to learn new data representations). Such clustering approaches that utilize deep learning approaches are called Deep Clustering. This thesis focuses on developing Deep Clustering models which can be used for different types of data (e.g., images, text). First we propose a Deep k-means (DKM) algorithm where learning data representations (through a deep Autoencoder) and cluster representatives (through the k-means) are performed in a joint way. The results of our DKM approach indicate that this framework is able to outperform similar algorithms in Deep Clustering. Indeed, our proposed framework is able to truly and smoothly backpropagate the loss function error through all learnable variables.Moreover, we propose two frameworks named SD2C and PCD2C which are able to integrate respectively seed words and pairwise constraints into end-to-end Deep Clustering frameworks. In fact, by utilizing such frameworks, the users can observe the reflection of their needs in clustering. Finally, the results obtained from these frameworks indicate their ability to obtain more tailored results
APA, Harvard, Vancouver, ISO, and other styles
30

Balikas, Georgios. "Explorer et apprendre à partir de collections de textes multilingues à l'aide des modèles probabilistes latents et des réseaux profonds." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM054/document.

Full text
Abstract:
Le texte est l'une des sources d'informations les plus répandues et les plus persistantes. L'analyse de contenu du texte se réfère à des méthodes d'étude et de récupération d'informations à partir de documents. Aujourd'hui, avec une quantité de texte disponible en ligne toujours croissante l'analyse de contenu du texte revêt une grande importance parce qu' elle permet une variété d'applications. À cette fin, les méthodes d'apprentissage de la représentation sans supervision telles que les modèles thématiques et les word embeddings constituent des outils importants.L'objectif de cette dissertation est d'étudier et de relever des défis dans ce domaine.Dans la première partie de la thèse, nous nous concentrons sur les modèles thématiques et plus précisément sur la manière d'incorporer des informations antérieures sur la structure du texte à ces modèles.Les modèles de sujets sont basés sur le principe du sac-de-mots et, par conséquent, les mots sont échangeables. Bien que cette hypothèse profite les calculs des probabilités conditionnelles, cela entraîne une perte d'information.Pour éviter cette limitation, nous proposons deux mécanismes qui étendent les modèles de sujets en intégrant leur connaissance de la structure du texte. Nous supposons que les documents sont répartis dans des segments de texte cohérents. Le premier mécanisme attribue le même sujet aux mots d'un segment. La seconde, capitalise sur les propriétés de copulas, un outil principalement utilisé dans les domaines de l'économie et de la gestion des risques, qui sert à modéliser les distributions communes de densité de probabilité des variables aléatoires tout en n'accédant qu'à leurs marginaux.La deuxième partie de la thèse explore les modèles de sujets bilingues pour les collections comparables avec des alignements de documents explicites. En règle générale, une collection de documents pour ces modèles se présente sous la forme de paires de documents comparables. Les documents d'une paire sont écrits dans différentes langues et sont thématiquement similaires. À moins de traductions, les documents d'une paire sont semblables dans une certaine mesure seulement. Pendant ce temps, les modèles de sujets représentatifs supposent que les documents ont des distributions thématiques identiques, ce qui constitue une hypothèse forte et limitante. Pour le surmonter, nous proposons de nouveaux modèles thématiques bilingues qui intègrent la notion de similitude interlingue des documents qui constituent les paires dans leurs processus générateurs et d'inférence.La dernière partie de la thèse porte sur l'utilisation d'embeddings de mots et de réseaux de neurones pour trois applications d'exploration de texte. Tout d'abord, nous abordons la classification du document polylinguistique où nous soutenons que les traductions d'un document peuvent être utilisées pour enrichir sa représentation. À l'aide d'un codeur automatique pour obtenir ces représentations de documents robustes, nous démontrons des améliorations dans la tâche de classification de documents multi-classes. Deuxièmement, nous explorons la classification des tweets à plusieurs tâches en soutenant que, en formant conjointement des systèmes de classification utilisant des tâches corrélées, on peut améliorer la performance obtenue. À cette fin, nous montrons comment réaliser des performances de pointe sur une tâche de classification du sentiment en utilisant des réseaux neuronaux récurrents. La troisième application que nous explorons est la récupération d'informations entre langues. Compte tenu d'un document écrit dans une langue, la tâche consiste à récupérer les documents les plus similaires à partir d'un ensemble de documents écrits dans une autre langue. Dans cette ligne de recherche, nous montrons qu'en adaptant le problème du transport pour la tâche d'estimation des distances documentaires, on peut obtenir des améliorations importantes
Text is one of the most pervasive and persistent sources of information. Content analysis of text in its broad sense refers to methods for studying and retrieving information from documents. Nowadays, with the ever increasing amounts of text becoming available online is several languages and different styles, content analysis of text is of tremendous importance as it enables a variety of applications. To this end, unsupervised representation learning methods such as topic models and word embeddings constitute prominent tools.The goal of this dissertation is to study and address challengingproblems in this area, focusing on both the design of novel text miningalgorithms and tools, as well as on studying how these tools can be applied to text collections written in a single or several languages.In the first part of the thesis we focus on topic models and more precisely on how to incorporate prior information of text structure to such models.Topic models are built on the premise of bag-of-words, and therefore words are exchangeable. While this assumption benefits the calculations of the conditional probabilities it results in loss of information.To overcome this limitation we propose two mechanisms that extend topic models by integrating knowledge of text structure to them. We assume that the documents are partitioned in thematically coherent text segments. The first mechanism assigns the same topic to the words of a segment. The second, capitalizes on the properties of copulas, a tool mainly used in the fields of economics and risk management that is used to model the joint probability density distributions of random variables while having access only to their marginals.The second part of the thesis explores bilingual topic models for comparable corpora with explicit document alignments. Typically, a document collection for such models is in the form of comparable document pairs. The documents of a pair are written in different languages and are thematically similar. Unless translations, the documents of a pair are similar to some extent only. Meanwhile, representative topic models assume that the documents have identical topic distributions, which is a strong and limiting assumption. To overcome it we propose novel bilingual topic models that incorporate the notion of cross-lingual similarity of the documents that constitute the pairs in their generative and inference processes. Calculating this cross-lingual document similarity is a task on itself, which we propose to address using cross-lingual word embeddings.The last part of the thesis concerns the use of word embeddings and neural networks for three text mining applications. First, we discuss polylingual document classification where we argue that translations of a document can be used to enrich its representation. Using an auto-encoder to obtain these robust document representations we demonstrate improvements in the task of multi-class document classification. Second, we explore multi-task sentiment classification of tweets arguing that by jointly training classification systems using correlated tasks can improve the obtained performance. To this end we show how can achieve state-of-the-art performance on a sentiment classification task using recurrent neural networks. The third application we explore is cross-lingual information retrieval. Given a document written in one language, the task consists in retrieving the most similar documents from a pool of documents written in another language. In this line of research, we show that by adapting the transportation problem for the task of estimating document distances one can achieve important improvements
APA, Harvard, Vancouver, ISO, and other styles
31

Katranji, Mehdi. "Apprentissage profond de la mobilité des personnes." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCA024.

Full text
Abstract:
La connaissance de la mobilité est un enjeu majeur pour les autorités organisatrices de mobilité et l'aménagement urbain. En raison du manque de définition formelle de la mobilité humaine, l'expression "mobilité des personnes" sera utilisée dans cette ouvrage. Ce sujet sera introduit par une description de l'écosystème en considérant ces acteurs et ces applications.La création d'un modèle d'apprentissage a des prérequis: la compréhension des typologies des ensembles de données disponibles, leurs forces et leurs faiblesses. Cet état de l'art de la connaissance de la mobilité passe par le modèle à quatre étapes qui existe et est utilisé depuis 1970 pour finir sur le renouvellement des méthodologies de ces dernières années.Nos modélisations de la mobilité des personnes sont ensuite présentées. Leur point commun est la mise en avant de l'individu contrairement aux approches classiques qui prennent comme référence la localité. Les modèles que nous proposons s'appuient sur le fait que la prise de décision des individus se fait selon leur perception de l'environnement.Cet ouvrage fini sur l'étude des méthodes d'apprentissage profond des machines de Boltzmann restreintes. Après un état de l'art de cette famille de modèles, nous recherchons des stratégies pour rendre ces modèles viables dans le monde applicatif. Ce dernier chapitre est notre contribution théorique principale, par l'amélioration de la robustesse et la performance de ces modèles
Knowledge of mobility is a major challenge for authorities mobility organisers and urban planning. Due to the lack of formal definition of human mobility, the term "people's mobility" will be used in this book. This topic will be introduced by a description of the ecosystem by considering these actors and applications.The creation of a learning model has prerequisites: an understanding of the typologies of the available data sets, their strengths and weaknesses. This state of the art in mobility knowledge is based on the four-step model that has existed and been used since 1970, ending with the renewal of the methodologies of recent years.Our models of people's mobility are then presented. Their common point is the emphasis on the individual, unlike traditional approaches that take the locality as a reference. The models we propose are based on the fact that the intake of individuals' decisions is based on their perception of the environment.This finished book on the study of the deep learning methods of Boltzmann machines restricted. After a state of the art of this family of models, we are looking for strategies to make these models viable in the application world. This last chapter is our contribution main theoretical, by improving robustness and performance of these models
APA, Harvard, Vancouver, ISO, and other styles
32

Deschaintre, Valentin. "Acquisition légère de matériaux par apprentissage profond." Thesis, Université Côte d'Azur (ComUE), 2019. http://theses.univ-cotedazur.fr/2019AZUR4078.

Full text
Abstract:
Que ce soit pour le divertissement ou le design industriel, l’infographie est de plus en plus présente dans notre vie quotidienne. Cependant, reproduire une scène réelle dans un environnement virtuel reste une tâche complexe, nécessitant de nombreuses heures de travail. L’acquisition de géométries et de matériaux à partir d’exemples réels est une solution, mais c’est souvent au prix de processus d'acquisitions et de calibrations complexes. Dans cette thèse, nous nous concentrons sur la capture légère de matériaux afin de simplifier et d’accélérer le processus d’acquisition et de résoudre les défis industriels tels que la calibration des résultats. Les textures et les ombres sont quelques-uns des nombreux indices visuels qui permettent aux humains de comprendre l'apparence d'un matériau à partir d'une seule image. La conception d'algorithmes capables de tirer parti de ces indices pour récupérer des fonctions de distribution de réflectance bidirectionnelles (SVBRDF) variant dans l'espace à partir de quelques images pose un défi aux chercheurs en infographie depuis des décennies. Nous explorons l'utilisation de l'apprentissage profond pour la capture légère de matériaux et analyser ces indices visuels. Une fois entraînés, nos réseaux sont capables d'évaluer, par pixel, les normales, les albedos diffus et spéculaires et une rugosité à partir d’une seule image d’une surface plane éclairée par l'environnement ou un flash tenu à la main. Nous montrons également comment notre méthode améliore ses prédictions avec le nombre d'images en entrée et permet des reconstructions de haute qualité en utilisant jusqu'à 10 images d'entrées --- un bon compromis entre les approches existantes
Whether it is used for entertainment or industrial design, computer graphics is ever more present in our everyday life. Yet, reproducing a real scene appearance in a virtual environment remains a challenging task, requiring long hours from trained artists. A good solution is the acquisition of geometries and materials directly from real world examples, but this often comes at the cost of complex hardware and calibration processes. In this thesis, we focus on lightweight material appearance capture to simplify and accelerate the acquisition process and solve industrial challenges such as result image resolution or calibration. Texture, highlights, and shading are some of many visual cues that allow humans to perceive material appearance in pictures. Designing algorithms able to leverage these cues to recover spatially-varying bi-directional reflectance distribution functions (SVBRDFs) from a few images has challenged computer graphics researchers for decades. We explore the use of deep learning to tackle lightweight appearance capture and make sense of these visual cues. Once trained, our networks are capable of recovering per-pixel normals, diffuse albedo, specular albedo and specular roughness from as little as one picture of a flat surface lit by the environment or a hand-held flash. We show how our method improves its prediction with the number of input pictures to reach high quality reconstructions with up to 10 images --- a sweet spot between existing single-image and complex multi-image approaches --- and allows to capture large scale, HD materials. We achieve this goal by introducing several innovations on training data acquisition and network design, bringing clear improvement over the state of the art for lightweight material capture
APA, Harvard, Vancouver, ISO, and other styles
33

Paumard, Marie-Morgane. "Résolution automatique de puzzles par apprentissage profond." Thesis, CY Cergy Paris Université, 2020. http://www.theses.fr/2020CYUN1067.

Full text
Abstract:
L’objectif de cette thèse est de développer des méthodes sémantiques de réassemblage dans le cadre compliqué des collections patrimoniales, où certains blocs sont érodés ou manquants.Le remontage de vestiges archéologiques est une tâche importante pour les sciences du patrimoine : il permet d’améliorer la compréhension et la conservation des vestiges et artefacts anciens. Certains ensembles de fragments ne peuvent être réassemblés grâce aux techniques utilisant les informations de contour et les continuités visuelles. Il est alors nécessaire d’extraire les informations sémantiques des fragments et de les interpréter. Ces tâches peuvent être accomplies automatiquement grâce aux techniques d’apprentissage profond couplées à un solveur, c’est-à-dire un algorithme de prise de décision sous contraintes.Cette thèse propose deux méthodes de réassemblage sémantique pour fragments 2D avec érosion, ainsi qu’un jeu de données et des métriques d’évaluation.La première méthode, Deepzzle, propose un réseau de neurones auquel succède un solveur. Le réseau de neurones est composé de deux réseaux convolutionnels siamois entraînés à prédire la position relative de deux fragments : il s'agit d'une classification à 9 classes. Le solveur utilise l’algorithme de Dijkstra pour maximiser la probabilité jointe. Deepzzle peut résoudre le cas de fragments manquants et surnuméraires, est capable de traiter une quinzaine de fragments par puzzle, et présente des performances supérieures à l’état de l’art de 25%.La deuxième méthode, Alphazzle, s’inspire d’AlphaZero et de recherche arborescente Monte Carlo (MCTS) à un joueur. Il s’agit d’une méthode itérative d’apprentissage profond par renforcement : à chaque étape, on place un fragment sur le réassemblage en cours. Deux réseaux de neurones guident le MCTS : un prédicteur d’action, qui utilise le fragment et le réassemblage en cours pour proposer une stratégie, et un évaluateur, qui est entraîné à prédire la qualité du résultat futur à partir du réassemblage en cours. Alphazzle prend en compte les relations entre tous les fragments et s’adapte à des puzzles de taille supérieure à ceux résolus par Deepzzle. Par ailleurs, Alphazzle se place dans le cadre patrimonial : en fin de réassemblage, le MCTS n’accède pas à la récompense, contrairement à AlphaZero. En effet, la récompense, qui indique si un puzzle est bien résolu ou non, ne peut être qu’estimée par l’algorithme, car seul un conservateur peut être certain de la qualité d’un réassemblage
The objective of this thesis is to develop semantic methods of reassembly in the complicated framework of heritage collections, where some blocks are eroded or missing.The reassembly of archaeological remains is an important task for heritage sciences: it allows to improve the understanding and conservation of ancient vestiges and artifacts. However, some sets of fragments cannot be reassembled with techniques using contour information or visual continuities. It is then necessary to extract semantic information from the fragments and to interpret them. These tasks can be performed automatically thanks to deep learning techniques coupled with a solver, i.e., a constrained decision making algorithm.This thesis proposes two semantic reassembly methods for 2D fragments with erosion and a new dataset and evaluation metrics.The first method, Deepzzle, proposes a neural network followed by a solver. The neural network is composed of two Siamese convolutional networks trained to predict the relative position of two fragments: it is a 9-class classification. The solver uses Dijkstra's algorithm to maximize the joint probability. Deepzzle can address the case of missing and supernumerary fragments, is capable of processing about 15 fragments per puzzle, and has a performance that is 25% better than the state of the art.The second method, Alphazzle, is based on AlphaZero and single-player Monte Carlo Tree Search (MCTS). It is an iterative method that uses deep reinforcement learning: at each step, a fragment is placed on the current reassembly. Two neural networks guide MCTS: an action predictor, which uses the fragment and the current reassembly to propose a strategy, and an evaluator, which is trained to predict the quality of the future result from the current reassembly. Alphazzle takes into account the relationships between all fragments and adapts to puzzles larger than those solved by Deepzzle. Moreover, Alphazzle is compatible with constraints imposed by a heritage framework: at the end of reassembly, MCTS does not access the reward, unlike AlphaZero. Indeed, the reward, which indicates if a puzzle is well solved or not, can only be estimated by the algorithm, because only a conservator can be sure of the quality of a reassembly
APA, Harvard, Vancouver, ISO, and other styles
34

Haykal, Vanessa. "Modélisation des séries temporelles par apprentissage profond." Thesis, Tours, 2019. http://www.theses.fr/2019TOUR4019.

Full text
Abstract:
La prévision des séries temporelles est un problème qui est traité depuis de nombreuses années. Dans cette thèse, on s’est intéressé aux méthodes issues de l’apprentissage profond. Il est bien connu que si les relations entre les données sont temporelles, il est difficile de les analyser et de les prévoir avec précision en raison des tendances non linéaires et du bruit présent, spécifiquement pour les séries financières et électriques. A partir de ce contexte, nous proposons une nouvelle architecture de réduction de bruit qui modélise des séries d’erreurs récursives pour améliorer les prévisions. L’apprentissage hybride fusionne simultanément un réseau de neurones convolutifs (CNN) et un réseau récurrent à mémoire long et court termes (LSTM). Ce modèle se distingue par sa capacité à capturer globalement différentes propriétés telles que les caractéristiques locales du signal, d’apprendre les dépendances non linéaires à long terme et de s’adapter également à une résistance élevée au bruit. La seconde contribution concerne les limitations des approches globales en raison des changements de régimes dynamiques dans le signal. Nous présentons donc une modification locale non-supervisée de notre architecture précédente afin d’ajuster les résultats en pilotant le modèle par un modèle de Markov caché (HMM). Enfin, on s’est également intéressé aux techniques de multi-résolutions pour améliorer les performances des couches convolutives, notamment par la méthode de décomposition en mode variationnel (VMD)
Time series prediction is a problem that has been addressed for many years. In this thesis, we have been interested in methods resulting from deep learning. It is well known that if the relationships between the data are temporal, it is difficult to analyze and predict accurately due to non-linear trends and the existence of noise specifically in the financial and electrical series. From this context, we propose a new hybrid noise reduction architecture that models the recursive error series to improve predictions. The learning process fusessimultaneouslyaconvolutionalneuralnetwork(CNN)andarecurrentlongshort-term memory network (LSTM). This model is distinguished by its ability to capture globally a variety of hybrid properties, where it is able to extract local signal features, to learn long-term and non-linear dependencies, and to have a high noise resistance. The second contribution concerns the limitations of the global approaches because of the dynamic switching regimes in the signal. We present a local unsupervised modification with our previous architecture in order to adjust the results by adapting the Hidden Markov Model (HMM). Finally, we were also interested in multi-resolution techniques to improve the performance of the convolutional layers, notably by using the variational mode decomposition method (VMD)
APA, Harvard, Vancouver, ISO, and other styles
35

Sors, Arnaud. "Apprentissage profond pour l'analyse de l'EEG continu." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAS006/document.

Full text
Abstract:
Ces travaux de recherche visent à développer des méthodes d’apprentissage automatique pour l’analyse de l’électroencéphalogramme (EEG) continu. L’EEG continu est une modalité avantageuse pour l’évaluation fonctionnelle des états cérébraux en réanimation ou pour d’autres applications. Cependant son utilisation aujourd’hui demeure plus restreinte qu’elle ne pourrait l’être, car dans la plupart des cas l’interprétation est effectuée visuellement par des spécialistes.Les sous-parties de ce travail s’articulent autour de l’évaluation pronostique du coma post-anoxique, choisie comme application pilote. Un petit nombre d’enregistrement longue durée a été réalisé, et des enregistrements existants ont été récupérés au CHU Grenoble.Nous commençons par valider l’efficacité des réseaux de neurones profonds pour l’analyse EEG d’échantillons bruts. Nous choisissons à cet effet de travailler sur la classification de stades de sommeil. Nous utilisons un réseau de neurones convolutionnel adapté pour l’EEG que nous entrainons et évaluons sur le jeu de données SHHS (Sleep Heart Health Study). Cela constitue le premier system neuronal à cette échelle (5000 patients) pour l’analyse du sommeil. Les performances de classification atteignent ou dépassent l’état de l’art.En utilisation réelle, pour la plupart des applications cliniques le défi principal est le manque d’annotations adéquates sur les patterns EEG ou sur de court segments de données (et la difficulté d’en établir). Les annotations disponibles sont généralement haut niveau (par exemple, le devenir clinique) est sont donc peu nombreuses. Nous recherchons comment apprendre des représentations compactes de séquences EEG de façon non-supervisée/semi-supervisée. Le domaine de l’apprentissage non supervisé est encore jeune. Pour se comparer aux travaux existants nous commençons avec des données de type image, et investiguons l’utilisation de réseaux adversaires génératifs (GANs) pour l’apprentissage adversaire non-supervisé de représentations. La qualité et la stabilité de différentes variantes sont évaluées. Nous appliquons ensuite un GAN de Wasserstein avec pénalité sur les gradients à la génération de séquences EEG. Le système, entrainé sur des séquences mono-piste de patients en coma post anoxique, est capable de générer des séquences réalistes. Nous développons et discutons aussi des idées originales pour l’apprentissage de représentations en alignant des distributions dans l’espace de sortie du réseau représentatif.Pour finir, les signaux EEG multipistes ont des spécificités qu’il est souhaitable de prendre en compte dans les architectures de caractérisation. Chaque échantillon d’EEG est un mélange instantané des activités d’un certain nombre de sources. Partant de ce constat nous proposons un système d’analyse composé d’un sous-système d’analyse spatiale suivi d’un sous-système d’analyse temporelle. Le sous-système d’analyse spatiale est une extension de méthodes de séparation de sources construite à l’aide de couches neuronales avec des poids adaptatifs pour la recombinaison des pistes, c’est à dire que ces poids ne sont pas appris mais dépendent de caractéristiques du signal d’entrée. Nous montrons que cette architecture peut apprendre à réaliser une analyse en composantes indépendantes, si elle est entrainée sur une mesure de non-gaussianité. Pour l’analyse temporelle, des réseaux convolutionnels classiques utilisés séparément sur les pistes recombinées peuvent être utilisés
The objective of this research is to explore and develop machine learning methods for the analysis of continuous electroencephalogram (EEG). Continuous EEG is an interesting modality for functional evaluation of cerebral state in the intensive care unit and beyond. Today its clinical use remains more limited that it could be because interpretation is still mostly performed visually by trained experts. In this work we develop automated analysis tools based on deep neural models.The subparts of this work hinge around post-anoxic coma prognostication, chosen as pilot application. A small number of long-duration records were performed and available existing data was gathered from CHU Grenoble. Different components of a semi-supervised architecture that addresses the application are imagined, developed, and validated on surrogate tasks.First, we validate the effectiveness of deep neural networks for EEG analysis from raw samples. For this we choose the supervised task of sleep stage classification from single-channel EEG. We use a convolutional neural network adapted for EEG and we train and evaluate the system on the SHHS (Sleep Heart Health Study) dataset. This constitutes the first neural sleep scoring system at this scale (5000 patients). Classification performance reaches or surpasses the state of the art.In real use for most clinical applications, the main challenge is the lack of (and difficulty of establishing) suitable annotations on patterns or short EEG segments. Available annotations are high-level (for example, clinical outcome) and therefore they are few. We search how to learn compact EEG representations in an unsupervised/semi-supervised manner. The field of unsupervised learning using deep neural networks is still young. To compare to existing work we start with image data and investigate the use of generative adversarial networks (GANs) for unsupervised adversarial representation learning. The quality and stability of different variants are evaluated. We then apply Gradient-penalized Wasserstein GANs on EEG sequences generation. The system is trained on single channel sequences from post-anoxic coma patients and is able to generate realistic synthetic sequences. We also explore and discuss original ideas for learning representations through matching distributions in the output space of representative networks.Finally, multichannel EEG signals have specificities that should be accounted for in characterization architectures. Each EEG sample is an instantaneous mixture of the activities of a number of sources. Based on this statement we propose an analysis system made of a spatial analysis subsystem followed by a temporal analysis subsystem. The spatial analysis subsystem is an extension of source separation methods built with a neural architecture with adaptive recombination weights, i.e. weights that are not learned but depend on features of the input. We show that this architecture learns to perform Independent Component Analysis if it is trained on a measure of non-gaussianity. For temporal analysis, standard (shared) convolutional neural networks applied on separate recomposed channels can be used
APA, Harvard, Vancouver, ISO, and other styles
36

Arnez, Yagualca Fabio Alejandro. "Deep neural network uncertainty runtime monitoring for robust and safe AI-based automated navigation." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG100.

Full text
Abstract:
Les réseaux neuronaux profonds (RNP) ont révolutionné diverses industries au cours de la dernière décennie, comme les véhicules hautement automatisés et les véhicules aériens sans pilote. Les RNP peuvent améliorer notoirement les performances grâce à leur efficacité dans le traitement d'entrées sensorielles complexes et à leur puissant apprentissage de représentation qui surpasse les méthodes traditionnelles dans différentes tâches d'automatisation.Malgré les améliorations impressionnantes des performances introduites par les RNP, ils présentent encore des limites importantes en raison de leur complexité, de leur opacité et de leur manque d'interprétabilité. Plus important encore, dans le cadre de cette thèse, les RNP sont sensibles aux changements de distribution des données, la représentation de la confiance dans les prédictions des RNP n'est pas simple, et la spécification et la vérification des propriétés au moment de la conception peuvent devenir irréalisables dans les RNP de grande taille. Bien que la réduction des erreurs provenant des composants d'apprentissage profond soit essentielle pour construire des systèmes basés sur l'IA de confiance qui peuvent être déployés et adoptés dans la société, il est également crucial de relever les défis susmentionnés. Cette thèse propose de nouvelles méthodes pour surmonter les limitations susmentionnées qui exploitent les informations d'incertitude pour construire des systèmes basés sur l'IA de confiance. L'approche est ascendante, partant de la perspective au niveau des composants et se déplaçant ensuite vers le point de vue au niveau du système. L'utilisation de l'incertitude au niveau des composants est présentée pour la tâche de détection des décalages dans la distribution des données afin de permettre la détection de situations qui peuvent avoir un impact sur la fiabilité de la fonctionnalité d'un composant DNN et, par conséquent, sur le comportement d'un système automatisé. Ensuite, la perspective du système est introduite en prenant en compte un ensemble de composants en séquence, où un composant consomme les prédictions d'un autre pour faire ses propres prédictions. À cet égard, une méthode de propagation de l'incertitude est fournie afin qu'un composant en aval puisse prendre en compte l'incertitude des prédictions d'un composant en amont dans le système. Enfin, un cadre de gestion dynamique des risques est proposé pour faire face aux incertitudes qui surviennent tout au long du système de navigation autonome
Deep Neural Networks (DNNs) have revolutionized various industries in the past decade, such as highly automated vehicles and unmanned aerial vehicles. DNNs can achieve a notorious performance improvement due to their effectiveness in processing complex sensory inputs and their powerful representation learning that outperforms traditional methods across different automation tasks.Despite the impressive performance improvements introduced by DNNs, they still have significant limitations due to their complexity, opacity, and lack of interpretability. More importantly, for the scope of this thesis, DNNs are susceptible to data distribution shifts, confidence representation in DNN predictions is not straightforward, and design-time property specification and verification can become unfeasible in large DNNs. While reducing errors from deep learning components is essential for building trustworthy AI-based systems that can be deployed and adopted in society, addressing these before-mentioned challenges is crucial as well.This thesis proposes new methods to overcome the aforementioned limitations that leverage uncertainty information to build trustworthy AI-based systems. The approach is bottom-up, starting from the component-level perspective and then moving to the systems-level point of view. The use of uncertainty at the component level is presented for the data distribution shift detection task to enable the detection of situations that may impact the reliability of a DNN component functionality and, therefore, the behavior of an automated system. Next, the system perspective is introduced by taking into account a set of components in sequence, where one component consumes the predictions from another to make its own predictions. In this regard, a method to propagate uncertainty is provided so that a downstream component can consider the uncertainty from the predictions of an upstream component. Finally, a framework for dynamic risk management is proposed to cope with the uncertainties that arise along the autonomous navigation system
APA, Harvard, Vancouver, ISO, and other styles
37

Benamar, Alexandra. "Évaluation et adaptation de plongements lexicaux au domaine à travers l'exploitation de connaissances syntaxiques et sémantiques." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG035.

Full text
Abstract:
Les modèles de plongements lexicaux se sont imposés comme les modèles de représentation les plus populaires en TAL. Afin d'obtenir de bonnes performances, ils nécessitent d'être entraînés sur de grands corpus de données provenant principalement du domaine général et sont fréquemment affinés pour être appliqués à des données de spécialité. Cependant, l'affinage des données est une pratique coûteuse en termes de ressources et son efficacité est controversée.Dans le cadre de cette thèse, nous évaluons l'utilisation de modèles de plongements lexicaux sur des corpus de spécialité et nous montrons que la proximité entre les vocabulaires des données d'entraînement et des données d'application joue un rôle majeur dans la représentation des termes hors-vocabulaire. Nous observons que cela est principalement dû à la tokenisation initiale des mots, et nous proposons une mesure pour calculer l'impact de la segmentation des mots sur leur représentation.Pour résoudre ce problème, nous proposons deux méthodes permettant d'injecter des connaissances linguistiques aux représentations générées par les Transformer : une méthode intervient à l'échelle des données et l'autre à l'échelle du modèle. Notre recherche démontre que l'ajout de contexte syntaxique et sémantique peut améliorer l'application de modèles auto-supervisés à des domaines de spécialité, tant pour la représentation du vocabulaire que pour la résolution de tâches de TAL. Les méthodes proposées peuvent être utilisées pour n'importe quelle langue disposant d'informations linguistiques ou d'autres connaissances externes. Le code utilisé pour les expériences a été publié pour faciliter la reproductibilité et des mesures ont été prises pour limiter l'impact environnemental en réduisant le nombre d'expériences
Word embeddings have established themselves as the most popular representation in NLP. To achieve good performance, they require training on large data sets mainly from the general domain and are frequently finetuned for specialty data. However, finetuning is a resource-intensive practice and its effectiveness is controversial.In this thesis, we evaluate the use of word embedding models on specialty corpora and show that proximity between the vocabularies of the training and application data plays a major role in the representation of out-of-vocabulary terms. We observe that this is mainly due to the initial tokenization of words and propose a measure to compute the impact of the tokenization of words on their representation. To solve this problem, we propose two methods for injecting linguistic knowledge into representations generated by Transformers: one at the data level and the other at the model level. Our research demonstrates that adding syntactic and semantic context can improve the application of self-supervised models to specialty domains, both for vocabulary representation and for NLP tasks.The proposed methods can be used for any language with linguistic information or external knowledge available. The code used for the experiments has been published to facilitate reproducibility and measures have been taken to limit the environmental impact by reducing the number of experiments
APA, Harvard, Vancouver, ISO, and other styles
38

Chevalier, Marion. "Résolution variable et information privilégiée pour la reconnaissance d'images." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066726/document.

Full text
Abstract:
La classification des images revêt un intérêt majeur dans de nombreuses tâches de reconnaissance visuelle, en particulier pour la reconnaissance de véhicules au sol via les systèmes aéroportés, où les images traitées sont de faible résolution du fait de la large distance entre le porteur et la scène observée. Durant l'apprentissage, des données complémentaires peuvent être disponibles, qu'il s'agisse de connaissances sur les conditions de prise de vue ou de la version haute-résolution des images. Dans nos travaux, on s'intéresse au problème de la reconnaissance d'images faiblement résolues en prenant en compte des informations complémentaires pendant l'apprentissage. On montre d'abord l'intérêt des réseaux convolutionnels profonds pour la reconnaissance d'images faiblement résolues, en proposant notamment une architecture apprise sur les données. D'autre part, on s'appuie sur le cadre de l'apprentissage avec information privilégiée pour bénéficier des données d'entraînement complémentaires, ici les versions haute-résolution des images. Nous proposons deux méthodes d'intégration de l'information privilégiée dans l'apprentissage des réseaux de neurones. Notre premier modèle s'appuie sur ces données complémentaires pour calculer un niveau de difficulté absolue, attribuant un poids important aux images les plus facilement reconnaissables. Notre deuxième modèle introduit une contrainte de similitude entre les modèles appris sur chaque type de données. On valide expérimentalement nos deux modèles dans plusieurs cas d'application, notamment dans un contexte orienté grain-fin et sur une base de données contenant du bruit d'annotation
Image classification has a prominent interest in numerous visual recognition tasks, particularly for vehicle recognition in airborne systems, where the images have a low resolution because of the large distance between the system and the observed scene. During the training phase, complementary data such as knowledge on the position of the system or high-resolution images may be available. In our work, we focus on the task of low-resolution image classification while taking into account supplementary information during the training phase. We first show the interest of deep convolutional networks for the low-resolution image recognition, especially by proposing an architecture learned on the targeted data. On the other hand, we rely on the framework of learning using privileged information to benefit from the complementary training data, here the high-resolution versions of the images. We propose two novel methods for integrating privileged information in the learning phase of neural networks. Our first model relies on these complementary data to compute an absolute difficulty level, assigning a large weight to the most easily recognized images. Our second model introduces a similarity constraint between the networks learned on each type of data. We experimentally validate our models on several application cases, especially in a fine-grained oriented context and on a dataset containing annotation noise
APA, Harvard, Vancouver, ISO, and other styles
39

Ostertag, Cécilia. "Analyse des pathologies neuro-dégénératives par apprentissage profond." Thesis, La Rochelle, 2022. http://www.theses.fr/2022LAROS003.

Full text
Abstract:
Le suivi et l'établissement de pronostics sur l'état cognitif des personnes affectées par une maladie neurologique sont cruciaux, car ils permettent de fournir un traitement approprié à chaque patient, et cela le plus tôt possible. Ces patients sont donc suivis régulièrement pendant plusieurs années, dans le cadre d'études longitudinales. À chaque visite médicale, une grande quantité de données est acquise : présence de facteurs de risque associés à la maladie, imagerie médicale (IRM ou PET-scan), résultats de tests cognitifs, prélèvements de molécules identifiées comme biomarqueurs de la maladie, etc. Ces différentes modalités apportent des informations sur la progression de la maladie, certaines complémentaires et d'autres redondantes. De nombreux modèles d'apprentissage profond ont été appliqués avec succès aux données biomédicales, notamment pour des problématiques de segmentation d'organes ou de diagnostic de maladies. Ces travaux de thèse s'intéressent à la conception d'un modèle de type "réseau de neurones profond" pour la prédiction du déclin cognitif de patients à l'aide de données multimodales. Ainsi, nous proposons une architecture composée de sous-modules adaptés à chaque modalité : réseau convolutif 3D pour les IRM de cerveau, et couches entièrement connectées pour les données cliniques quantitatives et qualitatives. Pour évaluer l'évolution du patient, ce modèle prend en entrée les données de deux visites médicales quelconques. Ces deux visites sont comparées grâce à une architecture siamoise. Après avoir entraîné et validé ce modèle en utilisant comme cas d'application la maladie d'Alzheimer, nous nous intéressons au transfert de connaissance avec d'autres maladies neuro-dégénératives, et nous utilisons avec succès le transfert d'apprentissage pour appliquer notre modèle dans le cas de la maladie de Parkinson. Enfin, nous discutons des choix que nous avons pris pour la prise en compte de l'aspect temporel du problème, aussi bien lors de la création de la vérité terrain en fonction de l'évolution au long terme d'un score cognitif, que pour le choix d'utiliser des paires de visites au lieu de plus longues séquences
Monitoring and predicting the cognitive state of a subject affected by a neuro-degenerative disorder is crucial to provide appropriate treatment as soon as possible. Thus, these patients are followed for several years, as part of longitudinal medical studies. During each visit, a large quantity of data is acquired : risk factors linked to the pathology, medical imagery (MRI or PET scans for example), cognitive tests results, sampling of molecules that have been identified as bio-markers, etc. These various modalities give information about the disease's progression, some of them are complementary and others can be redundant. Several deep learning models have been applied to bio-medical data, notably for organ segmentation or pathology diagnosis. This PhD is focused on the conception of a deep neural network model for cognitive decline prediction, using multimodal data, here both structural brain MRI images and clinical data. In this thesis we propose an architecture made of sub-modules tailored to each modality : 3D convolutional network for the brain MRI, and fully connected layers for the quantitative and qualitative clinical data. To predict the patient's evolution, this model takes as input data from two medical visits for each patient. These visits are compared using a siamese architecture. After training and validating this model with Alzheimer's disease as our use case, we look into knowledge transfer to other neuro-degenerative pathologies, and we use transfer learning to adapt our model to Parkinson's disease. Finally, we discuss the choices we made to take into account the temporal aspect of our problem, both during the ground truth creation using the long-term evolution of a cognitive score, and for the choice of using pairs of visits as input instead of longer sequences
APA, Harvard, Vancouver, ISO, and other styles
40

Mazari, Ahmed. "Apprentissage profond pour la reconnaissance d’actions en vidéos." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS171.

Full text
Abstract:
De nos jours, les contenus vidéos sont omniprésents grâce à Internet et les smartphones, ainsi que les médias sociaux. De nombreuses applications de la vie quotidienne, telles que la vidéo surveillance et la description de contenus vidéos, ainsi que la compréhension de scènes visuelles, nécessitent des technologies sophistiquées pour traiter les données vidéos. Il devient nécessaire de développer des moyens automatiques pour analyser et interpréter la grande quantité de données vidéo disponibles. Dans cette thèse, nous nous intéressons à la reconnaissance d'actions dans les vidéos, c.a.d au problème de l'attribution de catégories d'actions aux séquences vidéos. Cela peut être considéré comme un ingrédient clé pour construire la prochaine génération de systèmes visuels. Nous l'abordons avec des méthodes d'intelligence artificielle, sous le paradigme de l'apprentissage automatique et de l'apprentissage profond, notamment les réseaux de neurones convolutifs. Les réseaux de neurones convolutifs actuels sont de plus en plus profonds, plus gourmands en données et leur succès est donc tributaire de l'abondance de données d'entraînement étiquetées. Les réseaux de neurones convolutifs s'appuient également sur le pooling qui réduit la dimensionnalité des couches de sortie (et donc atténue leur sensibilité à la disponibilité de données étiquetées)
Nowadays, video contents are ubiquitous through the popular use of internet and smartphones, as well as social media. Many daily life applications such as video surveillance and video captioning, as well as scene understanding require sophisticated technologies to process video data. It becomes of crucial importance to develop automatic means to analyze and to interpret the large amount of available video data. In this thesis, we are interested in video action recognition, i.e. the problem of assigning action categories to sequences of videos. This can be seen as a key ingredient to build the next generation of vision systems. It is tackled with AI frameworks, mainly with ML and Deep ConvNets. Current ConvNets are increasingly deeper, data-hungrier and this makes their success tributary of the abundance of labeled training data. ConvNets also rely on (max or average) pooling which reduces dimensionality of output layers (and hence attenuates their sensitivity to the availability of labeled data); however, this process may dilute the information of upstream convolutional layers and thereby affect the discrimination power of the trained video representations, especially when the learned action categories are fine-grained
APA, Harvard, Vancouver, ISO, and other styles
41

Bertrand, Hadrien. "Optimisation d'hyper-paramètres en apprentissage profond et apprentissage par transfert : applications en imagerie médicale." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT001/document.

Full text
Abstract:
Ces dernières années, l'apprentissage profond a complètement changé le domaine de vision par ordinateur. Plus rapide, donnant de meilleurs résultats, et nécessitant une expertise moindre pour être utilisé que les méthodes classiques de vision par ordinateur, l'apprentissage profond est devenu omniprésent dans tous les problèmes d'imagerie, y compris l'imagerie médicale.Au début de cette thèse, la construction de réseaux de neurones adaptés à des tâches spécifiques ne bénéficiait pas encore de suffisamment d'outils ni d'une compréhension approfondie. Afin de trouver automatiquement des réseaux de neurones adaptés à des tâches spécifiques, nous avons ainsi apporté des contributions à l’optimisation d’hyper-paramètres de réseaux de neurones. Cette thèse propose une comparaison de certaines méthodes d'optimisation, une amélioration en performance d'une de ces méthodes, l'optimisation bayésienne, et une nouvelle méthode d'optimisation d'hyper-paramètres basé sur la combinaison de deux méthodes existantes : l'optimisation bayésienne et hyperband.Une fois équipés de ces outils, nous les avons utilisés pour des problèmes d'imagerie médicale : la classification de champs de vue en IRM, et la segmentation du rein en échographie 3D pour deux groupes de patients. Cette dernière tâche a nécessité le développement d'une nouvelle méthode d'apprentissage par transfert reposant sur la modification du réseau de neurones source par l'ajout de nouvelles couches de transformations géométrique et d'intensité.En dernière partie, cette thèse revient vers les méthodes classiques de vision par ordinateur, et nous proposons un nouvel algorithme de segmentation qui combine les méthodes de déformations de modèles et l'apprentissage profond. Nous montrons comment utiliser un réseau de neurones pour prédire des transformations globales et locales sans accès aux vérités-terrains de ces transformations. Cette méthode est validé sur la tâche de la segmentation du rein en échographie 3D
In the last few years, deep learning has changed irrevocably the field of computer vision. Faster, giving better results, and requiring a lower degree of expertise to use than traditional computer vision methods, deep learning has become ubiquitous in every imaging application. This includes medical imaging applications. At the beginning of this thesis, there was still a strong lack of tools and understanding of how to build efficient neural networks for specific tasks. Thus this thesis first focused on the topic of hyper-parameter optimization for deep neural networks, i.e. methods for automatically finding efficient neural networks on specific tasks. The thesis includes a comparison of different methods, a performance improvement of one of these methods, Bayesian optimization, and the proposal of a new method of hyper-parameter optimization by combining two existing methods: Bayesian optimization and Hyperband.From there, we used these methods for medical imaging applications such as the classification of field-of-view in MRI, and the segmentation of the kidney in 3D ultrasound images across two populations of patients. This last task required the development of a new transfer learning method based on the modification of the source network by adding new geometric and intensity transformation layers.Finally this thesis loops back to older computer vision methods, and we propose a new segmentation algorithm combining template deformation and deep learning. We show how to use a neural network to predict global and local transformations without requiring the ground-truth of these transformations. The method is validated on the task of kidney segmentation in 3D US images
APA, Harvard, Vancouver, ISO, and other styles
42

Cohen-Hadria, Alice. "Estimation de descriptions musicales et sonores par apprentissage profond." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS607.

Full text
Abstract:
En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d'apprentissage automatique deviennent de plus en plus standard. En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones. Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones. Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image. La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l'estimation de structure. La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d'aligner automatiquement des paroles et des pistes audio. La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d'augmentation de données, un moyen d'augmenter considérablement la taille d'un ensemble d'entraînement. Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante
In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely, we will use convolutional neural networks, an image designed class neural networks. The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks. The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI. Singing voice separation is the third task. For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set. Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene
APA, Harvard, Vancouver, ISO, and other styles
43

Trabelsi, Anis. "Robustesse aux attaques en authentification digitale par apprentissage profond." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS580.

Full text
Abstract:
L'identité des personnes sur Internet devient un problème de sécurité majeur. Depuis les accords de Bale, les institutions bancaires ont intégré la vérification de l'identité des personnes ou Know Your Customer (KYC) dans leur processus d'inscription. Avec la dématérialisation des banques, cette procédure est devenue l'e-KYC ou KYC à distance qui fonctionne à distance via le smartphone de l'utilisateur. De même, la vérification d'identité à distance est devenue la norme pour l'inscription aux outils de signature électronique. De nouvelles réglementations émergent pour sécuriser cette approche, par exemple, en France, le cadre PVID encadre l'acquisition à distance des documents d'identité et du visage des personnes dans le cadre du règlement eIDAS. Cela est nécessaire, car on assiste à l'émergence d'un nouveau type de criminalité numérique : l'usurpation d'identité profonde. Grâce aux nouveaux outils d'apprentissage profond, les imposteurs peuvent modifier leur apparence pour ressembler à quelqu'un d'autre en temps réel. Les imposteurs peuvent alors accomplir toutes les actions courantes requises lors d'une inscription à distance sans être détectés par les algorithmes de vérification d'identité. Aujourd'hui, il existe des applications sur smartphone et des outils destinés à un public plus limité qui permettent aux imposteurs de transformer facilement leur apparence en temps réel. Il existe même des méthodes pour usurper une identité à partir d'une seule image du visage de la victime. L'objectif de cette thèse est d'étudier les vulnérabilités des systèmes d'authentification d'identité à distance face aux nouvelles attaques
The identity of people on the Internet is becoming a major security issue. Since the Bale agreements, banking institutions have integrated the verification of people's identity or Know Your Customer (KYC) in their registration process. With the dematerialization of banks, this procedure has become e-KYC or remote KYC which works remotely through the user's smartphone. Similarly, remote identity verification has become the standard for enrollment in electronic signature tools. New regulations are emerging to secure this approach, for example, in France, the PVID framework regulates the remote acquisition of identity documents and people's faces under the eIDAS regulation. This is required because a new type of digital crime is emerging: deep identity theft. With new deep learning tools, imposters can change their appearance to look like someone else in real time. Imposters can then perform all the common actions required in a remote registration without being detected by identity verification algorithms. Today, smartphone applications and tools for a more limited audience exist allowing imposters to easily transform their appearance in real time. There are even methods to spoof an identity based on a single image of the victim's face. The objective of this thesis is to study the vulnerabilities of remote identity authentication systems against new attacks in order to propose solutions based on deep learning to make the systems more robust
APA, Harvard, Vancouver, ISO, and other styles
44

Oyallon, Edouard. "Analyzing and introducing structures in deep convolutional neural networks." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLEE060.

Full text
Abstract:
Cette thèse étudie des propriétés empiriques des réseaux de neurones convolutifs profonds, et en particulier de la transformée en Scattering. En effet, l’analyse théorique de ces derniers est difficile et représente jusqu’à ce jour un défi : les couches successives de neurones ont la capacité de réaliser des opérations complexes, dont la nature est encore inconnue, via des algorithmes d’apprentissages dont les garanties de convergences ne sont pas bien comprises. Pourtant, ces réseaux de neurones sont de formidables outils pour s’attaquer à une grande variété de tâches difficiles telles la classification d’images, ou plus simplement effectuer des prédictions. La transformée de Scattering est un opérateur mathématique, non-linéaire dont les spécifications sont inspirées par les réseaux convolutifs. Dans ce travail, elle est appliquée sur des images naturelles et obtient des résultats compétitifs avec les architectures non-supervisées. En plaçant un réseau de neurones convolutifs supervisés à la suite du Scattering, on obtient des performances compétitives sur ImageNet2012, qui est le plus grand jeux de donnée d’images étiquetées accessibles aux chercheurs. Cela nécessite d’implémenter un algorithme efficace sur carte graphique. Dans un second temps, cette thèse s’intéresse aux propriétés des couches à différentes profondeurs. On montre qu’un phénomène de réduction de dimensionnalité progressif à lieu et on s’intéresse aux propriétés de classifications supervisées lorsqu’on varie des hyper paramètres de ces réseaux. Finalement, on introduit une nouvelle classe de réseaux convolutifs, dont les opérateurs sont structurés par des groupes de symétries du problème de classification
This thesis studies empirical properties of deep convolutional neural networks, and in particular the Scattering Transform. Indeed, the theoretical analysis of the latter is hard and until now remains a challenge: successive layers of neurons have the ability to produce complex computations, whose nature is still unknown, thanks to learning algorithms whose convergence guarantees are not well understood. However, those neural networks are outstanding tools to tackle a wide variety of difficult tasks, like image classification or more formally statistical prediction. The Scattering Transform is a non-linear mathematical operator whose properties are inspired by convolutional networks. In this work, we apply it to natural images, and obtain competitive accuracies with unsupervised architectures. Cascading a supervised neural networks after the Scattering permits to compete on ImageNet2012, which is the largest dataset of labeled images available. An efficient GPU implementation is provided. Then, this thesis focuses on the properties of layers of neurons at various depths. We show that a progressive dimensionality reduction occurs and we study the numerical properties of the supervised classification when we vary the hyper parameters of the network. Finally, we introduce a new class of convolutional networks, whose linear operators are structured by the symmetry groups of the classification task
APA, Harvard, Vancouver, ISO, and other styles
45

Peiffer, Elsa. "Implications des structures cérébrales profondes dans les apprentissages procéduraux." Lyon 1, 2000. http://www.theses.fr/2000LYO1T267.

Full text
APA, Harvard, Vancouver, ISO, and other styles
46

Rosar, Kós Lassance Carlos Eduardo. "Graphs for deep learning representations." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2020. http://www.theses.fr/2020IMTA0204.

Full text
Abstract:
Ces dernières années, les méthodes d'apprentissage profond ont atteint l'état de l'art dans une vaste gamme de tâches d'apprentissage automatique, y compris la classification d'images et la traduction automatique. Ces architectures sont assemblées pour résoudre des tâches d'apprentissage automatique de bout en bout. Afin d'atteindre des performances de haut niveau, ces architectures nécessitent souvent d'un très grand nombre de paramètres. Les conséquences indésirables sont multiples, et pour y remédier, il est souhaitable de pouvoir comprendre ce qui se passe à l'intérieur des architectures d'apprentissage profond. Il est difficile de le faire en raison de: i) la dimension élevée des représentations ; et ii) la stochasticité du processus de formation. Dans cette thèse, nous étudions ces architectures en introduisant un formalisme à base de graphes, s'appuyant notamment sur les récents progrès du traitement de signaux sur graphe (TSG). À savoir, nous utilisons des graphes pour représenter les espaces latents des réseaux neuronaux profonds. Nous montrons que ce formalisme des graphes nous permet de répondre à diverses questions, notamment: i) mesurer des capacités de généralisation ;ii) réduire la quantité de des choix arbitraires dans la conception du processus d'apprentissage ; iii)améliorer la robustesse aux petites perturbations ajoutées sur les entrées ; et iv) réduire la complexité des calculs
In recent years, Deep Learning methods have achieved state of the art performance in a vast range of machine learning tasks, including image classification and multilingual automatic text translation. These architectures are trained to solve machine learning tasks in an end-to-end fashion. In order to reach top-tier performance, these architectures often require a very large number of trainable parameters. There are multiple undesirable consequences, and in order to tackle these issues, it is desired to be able to open the black boxes of deep learning architectures. Problematically, doing so is difficult due to the high dimensionality of representations and the stochasticity of the training process. In this thesis, we investigate these architectures by introducing a graph formalism based on the recent advances in Graph Signal Processing (GSP). Namely, we use graphs to represent the latent spaces of deep neural networks. We showcase that this graph formalism allows us to answer various questions including: ensuring generalization abilities, reducing the amount of arbitrary choices in the design of the learning process, improving robustness to small perturbations added to the inputs, and reducing computational complexity
APA, Harvard, Vancouver, ISO, and other styles
47

Moukari, Michel. "Estimation de profondeur à partir d'images monoculaires par apprentissage profond." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC211/document.

Full text
Abstract:
La vision par ordinateur est une branche de l'intelligence artificielle dont le but est de permettre à une machine d'analyser, de traiter et de comprendre le contenu d'images numériques. La compréhension de scène en particulier est un enjeu majeur en vision par ordinateur. Elle passe par une caractérisation à la fois sémantique et structurelle de l'image, permettant d'une part d'en décrire le contenu et, d'autre part, d'en comprendre la géométrie. Cependant tandis que l'espace réel est de nature tridimensionnelle, l'image qui le représente, elle, est bidimensionnelle. Une partie de l'information 3D est donc perdue lors du processus de formation de l'image et il est d'autant plus complexe de décrire la géométrie d'une scène à partir d'images 2D de celle-ci.Il existe plusieurs manières de retrouver l'information de profondeur perdue lors de la formation de l'image. Dans cette thèse nous nous intéressons à l’estimation d'une carte de profondeur étant donné une seule image de la scène. Dans ce cas, l'information de profondeur correspond, pour chaque pixel, à la distance entre la caméra et l'objet représenté en ce pixel. L'estimation automatique d'une carte de distances de la scène à partir d'une image est en effet une brique algorithmique critique dans de très nombreux domaines, en particulier celui des véhicules autonomes (détection d’obstacles, aide à la navigation).Bien que le problème de l'estimation de profondeur à partir d'une seule image soit un problème difficile et intrinsèquement mal posé, nous savons que l'Homme peut apprécier les distances avec un seul œil. Cette capacité n'est pas innée mais acquise et elle est possible en grande partie grâce à l'identification d'indices reflétant la connaissance a priori des objets qui nous entourent. Par ailleurs, nous savons que des algorithmes d'apprentissage peuvent extraire ces indices directement depuis des images. Nous nous intéressons en particulier aux méthodes d’apprentissage statistique basées sur des réseaux de neurones profond qui ont récemment permis des percées majeures dans de nombreux domaines et nous étudions le cas de l'estimation de profondeur monoculaire
Computer vision is a branch of artificial intelligence whose purpose is to enable a machine to analyze, process and understand the content of digital images. Scene understanding in particular is a major issue in computer vision. It goes through a semantic and structural characterization of the image, on one hand to describe its content and, on the other hand, to understand its geometry. However, while the real space is three-dimensional, the image representing it is two-dimensional. Part of the 3D information is thus lost during the process of image formation and it is therefore non trivial to describe the geometry of a scene from 2D images of it.There are several ways to retrieve the depth information lost in the image. In this thesis we are interested in estimating a depth map given a single image of the scene. In this case, the depth information corresponds, for each pixel, to the distance between the camera and the object represented in this pixel. The automatic estimation of a distance map of the scene from an image is indeed a critical algorithmic brick in a very large number of domains, in particular that of autonomous vehicles (obstacle detection, navigation aids).Although the problem of estimating depth from a single image is a difficult and inherently ill-posed problem, we know that humans can appreciate distances with one eye. This capacity is not innate but acquired and made possible mostly thanks to the identification of indices reflecting the prior knowledge of the surrounding objects. Moreover, we know that learning algorithms can extract these clues directly from images. We are particularly interested in statistical learning methods based on deep neural networks that have recently led to major breakthroughs in many fields and we are studying the case of the monocular depth estimation
APA, Harvard, Vancouver, ISO, and other styles
48

Vielzeuf, Valentin. "Apprentissage neuronal profond pour l'analyse de contenus multimodaux et temporels." Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC229/document.

Full text
Abstract:
Notre perception est par nature multimodale, i.e. fait appel à plusieurs de nos sens. Pour résoudre certaines tâches, il est donc pertinent d’utiliser différentes modalités, telles que le son ou l’image.Cette thèse s’intéresse à cette notion dans le cadre de l’apprentissage neuronal profond. Pour cela, elle cherche à répondre à une problématique en particulier : comment fusionner les différentes modalités au sein d’un réseau de neurones ?Nous proposons tout d’abord d’étudier un problème d’application concret : la reconnaissance automatique des émotions dans des contenus audio-visuels.Cela nous conduit à différentes considérations concernant la modélisation des émotions et plus particulièrement des expressions faciales. Nous proposons ainsi une analyse des représentations de l’expression faciale apprises par un réseau de neurones profonds.De plus, cela permet d’observer que chaque problème multimodal semble nécessiter l’utilisation d’une stratégie de fusion différente.C’est pourquoi nous proposons et validons ensuite deux méthodes pour obtenir automatiquement une architecture neuronale de fusion efficace pour un problème multimodal donné, la première se basant sur un modèle central de fusion et ayant pour visée de conserver une certaine interprétation de la stratégie de fusion adoptée, tandis que la seconde adapte une méthode de recherche d'architecture neuronale au cas de la fusion, explorant un plus grand nombre de stratégies et atteignant ainsi de meilleures performances.Enfin, nous nous intéressons à une vision multimodale du transfert de connaissances. En effet, nous détaillons une méthode non traditionnelle pour effectuer un transfert de connaissances à partir de plusieurs sources, i.e. plusieurs modèles pré-entraînés. Pour cela, une représentation neuronale plus générale est obtenue à partir d’un modèle unique, qui rassemble la connaissance contenue dans les modèles pré-entraînés et conduit à des performances à l'état de l'art sur une variété de tâches d'analyse de visages
Our perception is by nature multimodal, i.e. it appeals to many of our senses. To solve certain tasks, it is therefore relevant to use different modalities, such as sound or image.This thesis focuses on this notion in the context of deep learning. For this, it seeks to answer a particular problem: how to merge the different modalities within a deep neural network?We first propose to study a problem of concrete application: the automatic recognition of emotion in audio-visual contents.This leads us to different considerations concerning the modeling of emotions and more particularly of facial expressions. We thus propose an analysis of representations of facial expression learned by a deep neural network.In addition, we observe that each multimodal problem appears to require the use of a different merge strategy.This is why we propose and validate two methods to automatically obtain an efficient fusion neural architecture for a given multimodal problem, the first one being based on a central fusion network and aimed at preserving an easy interpretation of the adopted fusion strategy. While the second adapts a method of neural architecture search in the case of multimodal fusion, exploring a greater number of strategies and therefore achieving better performance.Finally, we are interested in a multimodal view of knowledge transfer. Indeed, we detail a non-traditional method to transfer knowledge from several sources, i.e. from several pre-trained models. For that, a more general neural representation is obtained from a single model, which brings together the knowledge contained in the pre-trained models and leads to state-of-the-art performances on a variety of facial analysis tasks
APA, Harvard, Vancouver, ISO, and other styles
49

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains." Thesis, Paris, ENST, 2017. http://www.theses.fr/2017ENST0071/document.

Full text
Abstract:
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
APA, Harvard, Vancouver, ISO, and other styles
50

Kaabi, Rabeb. "Apprentissage profond et traitement d'images pour la détection de fumée." Electronic Thesis or Diss., Toulon, 2020. http://www.theses.fr/2020TOUL0017.

Full text
Abstract:
Cette thèse aborde le problème de la détection des feux de forêt par des outils de traitement d’images et apprentissage machine. Un incendie de forêt est un feu qui se propage sur une étendue boisée. Il peut être d'origine naturelle (dû à la foudre ou à une éruption volcanique) ou humaine. Dans le monde entier, l’impact des feux de forêts sur de nombreux aspects de notre vie quotidienne se fait de plus en plus apparente sur l’écosystème entier. De nombreuses méthodes ont montré l’efficacité pour la détection des incendies de forêt. L’originalité du présent travail réside dans la détection précoce des incendies par la détection de la fumée de forêt et la classification des régions de fumée et de non fumée à l’aide d’apprentissage profond et des outils de traitement d’image. Un ensemble de techniques de prétraitement nous a aidé à avoir une base de donnée importante (ajout du bruit aux entrées, augmentation des données) qui nous a permis après de tester la robustesse du modèle basée sur le DBN qu’on a proposé et évaluer la performance en calculant les métriques suivantes (IoU, Précision, Rappel, F1 score). Finalement, l’algorithme proposé est testé sur plusieurs images afin de valider son efficacité. Les simulations de notre algorithme ont été comparées avec celles traités dans l’état de l’art (Deep CNN, SVM…) et ont fourni de très bons résultats
This thesis deals with the problem of forest fire detection using image processing and machine learning tools. A forest fire is a fire that spreads over a wooded area. It can be of natural origin (due to lightning or a volcanic eruption) or human. Around the world, the impact of forest fires on many aspects of our daily lives is becoming more and more apparent on the entire ecosystem.Many methods have been shown to be effective in detecting forest fires. The originality of the present work lies in the early detection of fires through the detection of forest smoke and the classification of smoky and non-smoky regions using deep learning and image processing tools. A set of pre-processing techniques helped us to have an important database which allowed us afterwards to test the robustness of the model based on deep belief network we proposed and to evaluate the performance by calculating the following metrics (IoU, Accuracy, Recall, F1 score). Finally, the proposed algorithm is tested on several images in order to validate its efficiency. The simulations of our algorithm have been compared with those processed in the state of the art (Deep CNN, SVM...) and have provided very good results. The results of the proposed methods gave an average classification accuracy of about 96.5% for the early detection of smoke
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography