Tesi sul tema "Réseaux de neurones récurrents convolutifs"

Segui questo link per vedere altri tipi di pubblicazioni sul tema: Réseaux de neurones récurrents convolutifs.

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-50 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Réseaux de neurones récurrents convolutifs".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Shahkarami, Abtin. "Complexity reduction over bi-RNN-based Kerr nonlinearity equalization in dual-polarization fiber-optic communications via a CRNN-based approach". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT034.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les dégradations dues à la non-linéarité de Kerr dans les fibres optiques limitent les débits d’information des systèmes de communications. Les effets linéaires, tels que la dispersion chromatique et la dispersion modale de polarisation, peuvent être compensés par égalisation linéaire, de mise en oeuvre relativement simple, au niveau du récepteur. A l’inverse, la complexité de calcul des techniques classiques de réduction de la non-linéarité, telles que la rétro-propagation numérique, peut être considérable. Les réseaux neuronaux ont récemment attiré l’attention, dans ce contexte, pour la mise en oeuvre d’égaliseurs non-linéaires à faible complexité. Cette thèse porte sur l’étude des réseaux neuronaux récurrents pour compenser efficacement les dégradations des canaux dans les transmissions à longue distance multiplexés en polarisation. Nous présentons une architecture hybride de réseaux neuronaux récurrents convolutifs (CRNN), comprenant un encodeur basé sur un réseau neuronal convolutif (CNN) suivie d’une couche récurrente travaillant en tandem. L’encodeur basé sur CNN représente efficacement la mémoire de canal à court terme résultant de la dispersion chromatique, tout en faisant passer le signal vers un espace latent avec moins de caractéristiques pertinentes. La couche récurrente suivante est implémentée sous la forme d’un RNN unidirectionnel de type vanille, chargé de capturer les interactions à longue portée négligées par l’encodeur CNN. Nous démontrons que le CRNN proposé atteint la performance des égaliseurs actuels dans la communication par fibre optique, avec une complexité de calcul significativement plus faible selon le modèle du système. Enfin, le compromis performance-complexité est établi pour un certain nombre de modèles, y compris les réseaux neuronaux multicouches entièrement connectés, les CNN, les réseaux neuronaux récurrents bidirectionnels, les réseaux long short-term memory bidirectionnels (bi-LSTM), les réseaux gated recurrent units bidirectionnels, les modèles bi-LSTM convolutifs et le modèle hybride proposé
The impairments arising from the Kerr nonlinearity in optical fibers limit the achievable information rates in fiber-optic communication. Unlike linear effects, such as chromatic dispersion and polarization-mode dispersion, which can be compensated via relatively simple linear equalization at the receiver, the computational complexity of the conventional nonlinearity mitigation techniques, such as the digital backpropagation, can be substantial. Neural networks have recently attracted attention, in this context, for low-complexity nonlinearity mitigation in fiber-optic communications. This Ph.D. dissertation deals with investigating the recurrent neural networks to efficiently compensate for the nonlinear channel impairments in dual-polarization long-haul fiber-optic transmission. We present a hybrid convolutional recurrent neural network (CRNN) architecture, comprising a convolutional neural network (CNN) -based encoder followed by a recurrent layer working in tandem. The CNN-based encoder represents the shortterm channel memory arising from the chromatic dispersion efficiently, while transitioning the signal to a latent space with fewer relevant features. The subsequent recurrent layer is implemented in the form of a unidirectional vanilla RNN, responsible for capturing the long-range interactions neglected by the CNN encoder. We demonstrate that the proposed CRNN achieves the performance of the state-of-theart equalizers in optical fiber communication, with significantly lower computational complexity depending on the system model. Finally, the performance complexity trade-off is established for a number of models, including multi-layer fully-connected neural networks, CNNs, bidirectional recurrent neural networks, bidirectional long short-term memory (bi-LSTM), bidirectional gated recurrent units, convolutional bi-LSTM models, and the suggested hybrid model
2

Barhoumi, Amira. "Une approche neuronale pour l’analyse d’opinions en arabe". Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1022.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse s’inscrit dans le cadre de l’analyse d’opinions en arabe. Son objectif consiste à déterminer la polarité globale d’un énoncé textuel donné écrit en Arabe standard moderne (ASM) ou dialectes arabes. Cette thématique est un domaine de recherche en plein essor et a fait l’objet de nombreuses études avec une majorité de travaux actuels traitant des langues indo-européennes, en particulier la langue anglaise. Une des difficultés à laquelle se confronte cette thèse est le traitement de la langue arabe qui est une langue morphologiquement riche avec une grande variabilité des formes de surface observables dans les données d’apprentissage. Nous souhaitons pallier ce problème en produisant, de manière totalement automatique et contrôlée, de nouvelles représentations vectorielles continues (en anglais embeddings) spécifiques à la langue arabe. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection de polarité, en exploitant la puissance des embeddings. En effet, ceux-ci se sont révélés un atout fondamental dans différentes tâches de traitement automatique des langues naturelles (TALN). Notre contribution dans le cadre de cette thèse porte plusieurs axes. Nous commençons, d’abord, par une étude préliminaire des différentes ressources d’embeddings de mots pré-entraînés existants en langue arabe. Ces embeddings considèrent les mots comme étant des unités séparées par des espaces afin de capturer, dans l'espace de projection, des similarités sémantiques et syntaxiques. Ensuite, nous nous focalisons sur les spécificités de la langue arabe en proposant des embeddings spécifiques pour cette langue. Les phénomènes comme l’agglutination et la richesse morphologique de l’arabe sont alors pris en compte. Ces embeddings spécifiques ont été utilisés, seuls et combinés, comme entrée à deux réseaux neuronaux (l’un convolutif et l’autre récurrent) apportant une amélioration des performances dans la détection de polarité sur un corpus de revues. Nous proposons une analyse poussée des embeddings proposées. Dans une évaluation intrinsèque, nous proposons un nouveau protocole introduisant la notion de la stabilité de polarités (sentiment stability) dans l’espace d'embeddings. Puis, nous proposons une analyse qualitative extrinsèque de nos embeddings en utilisant des méthodes de projection et de visualisation
My thesis is part of Arabic sentiment analysis. Its aim is to determine the global polarity of a given textual statement written in MSA or dialectal arabic. This research area has been subject of numerous studies dealing with Indo-European languages, in particular English. One of difficulties confronting this thesis is the processing of Arabic. In fact, Arabic is a morphologically rich language which implies a greater sparsity : we want to overcome this problem by producing, in a completely automatic way, new arabic specific embeddings. Our study focuses on the use of a neural approach to improve polarity detection, using embeddings. These embeddings have revealed fundamental in various natural languages processing tasks (NLP). Our contribution in this thesis concerns several axis. First, we begin with a preliminary study of the various existing pre-trained word embeddings resources in arabic. These embeddings consider words as space separated units in order to capture semantic and syntactic similarities in the embedding space. Second, we focus on the specifity of Arabic language. We propose arabic specific embeddings that take into account agglutination and morphological richness of Arabic. These specific embeddings have been used, alone and in combined way, as input to neural networks providing an improvement in terms of classification performance. Finally, we evaluate embeddings with intrinsic and extrinsic methods specific to sentiment analysis task. For intrinsic embeddings evaluation, we propose a new protocol introducing the notion of sentiment stability in the embeddings space. We propose also a qualitaive extrinsic analysis of our embeddings by using visualisation methods
3

Boutin, Victor. "Etude d’un algorithme hiérarchique de codage épars et prédictif : vers un modèle bio-inspiré de la perception visuelle". Thesis, Aix-Marseille, 2020. http://www.theses.fr/2020AIXM0028.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La représentation concise et efficace de l'information est un problème qui occupe une place centrale dans l'apprentissage machine. Le cerveau, et plus particulièrement le cortex visuel, ont depuis longtemps trouvé des solutions performantes et robustes afin de résoudre un tel problème. A l'échelle locale, le codage épars est l'un des mécanismes les plus prometteurs pour modéliser le traitement de l'information au sein des populations de neurones dans le cortex visuel. A l'échelle structurelle, le codage prédictif suggère que les signaux descendants observés dans le cortex visuel modulent l'activité des neurones pour inclure des détails contextuels au flux d'information ascendant. Cette thèse propose de combiner codage épars et codage prédictif au sein d'un modèle hiérarchique et convolutif. D'un point de vue computationnel, nous démontrons que les connections descendantes, introduites par le codage prédictif, permettent une convergence meilleure et plus rapide du modèle. De plus, nous analysons les effets des connections descendantes sur l'organisation des populations de neurones, ainsi que leurs conséquences sur la manière dont notre algorithme se représente les images. Nous montrons que les connections descendantes réorganisent les champs d'association de neurones dans V1 afin de permettre une meilleure intégration des contours. En outre, nous observons que ces connections permettent une meilleure reconstruction des images bruitées. Nos résultats suggèrent que l'inspiration des neurosciences fournit un cadre prometteur afin de développer des algorithmes de vision artificielles plus performants et plus robustes
Building models to efficiently represent images is a central and difficult problem in the machine learning community. The neuroscientific study of the early visual cortical areas is a great source of inspiration to find economical and robust solutions. For instance, Sparse Coding (SC) is one of the most successful frameworks to model neural computation at the local scale in the visual cortex. At the structural scale of the ventral visual pathways, the Predictive Coding (PC) theory has been proposed to model top-down and bottom-up interaction between cortical regions. The presented thesis introduces a model called the Sparse Deep Predictive Coding (SDPC) that combines Sparse Coding and Predictive Coding in a hierarchical and convolutional architecture. We analyze the SPDC from a computational and a biological perspective. In terms of computation, the recurrent connectivity introduced by the PC framework allows the SDPC to converge to lower prediction errors with a higher convergence rate. In addition, we combine neuroscientific evidence with machine learning methods to analyze the impact of recurrent processing at both the neural organization and representational level. At the neural organization level, the feedback signal of the model accounted for a reorganization of the V1 association fields that promotes contour integration. At the representational level, the SDPC exhibited significant denoising ability which is highly correlated with the strength of the feedback from V2 to V1. These results from the SDPC model demonstrate that neuro-inspiration might be the right methodology to design more powerful and more robust computer vision algorithms
4

Pothier, Dominique. "Réseaux convolutifs à politiques". Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69184.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Malgré leurs excellentes performances, les exigences élevées des réseaux de neurones artificiels en terme de volume de données et de puissance de calcul limitent leur adoption dans plusieurs domaines. C'est pourquoi il reste important de développer de nouvelles architectures moins voraces. Ce mémoire cherche à produire une architecture plus flexible et moins vorace en s'appuyant sur la théorie de l'apprentissage par renforcement. En considérant le réseau comme un agent suivant une politique, on réalise que cette politique est beaucoup plus rigide que celle suivie habituellement par les agents d'apprentissage par renforcement. Nous posons l'hypothèse qu'une architecture capable de formuler une politique plus flexible pourrait atteindre des performances similaires tout en limitant son utilisation de ressources. L'architecture que nous proposons s'inspire de la recherche faite en prédiction de paramètres, particulièrement de l'architecture hypernetwork, que nous utilisons comme base de référence. Nos résultats montrent que l'apprentissage d'une politique dynamique aussi performante que les politiques statiques suivies par les réseaux conventionnels n'est pas une tâche triviale. Nos meilleurs résultats indiquent une diminution du nombre de paramètres de 33%, une diminution des calculs de 12% au prix d'une baisse de l'exactitude des prédictions de 2%. Malgré ces résultats, nous croyons que notre architecture est un point de départ pouvant être amélioré de plusieurs manières que nous explorons rapidement en conclusion.
Despite their excellent performances, artificial neural networks high demand of both data and computational power limit their adoption in many domains. Developing less demanding architecture thus remain an important endeavor. This thesis seeks to produce a more flexible and less resource-intensive architecture by using reinforcement learning theory. When considering a network as an agent instead of a function approximator, one realize that the implicit policy followed by popular feed forward networks is extremely simple. We hypothesize that an architecture able to learn a more flexible policy could reach similar performances while reducing its resource footprint. The architecture we propose is inspired by research done in weight prediction, particularly by the hypernetwork architecture, which we use as a baseline model.Our results show that learning a dynamic policy achieving similar results to the static policies of conventional networks is not a trivial task. Our proposed architecture succeeds in limiting its parameter space by 20%, but does so at the cost of a 24% computation increase and loss of5% accuracy. Despite those results, we believe that this architecture provides a baseline that can be improved in multiple ways that we describe in the conclusion.
5

Al, Hajj Hassan. "Video analysis for augmented cataract surgery". Thesis, Brest, 2018. http://www.theses.fr/2018BRES0041/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L’ère numérique change de plus en plus le monde en raison de la quantité de données récoltées chaque jour. Le domaine médical est fortement affecté par cette explosion, car l’exploitation de ces données est un véritable atout pour l’aide à la pratique médicale. Dans cette thèse, nous proposons d’utiliser les vidéos chirurgicales dans le but de créer un système de chirurgie assistée par ordinateur. Nous nous intéressons principalement à reconnaître les gestes chirurgicaux à chaque instant afin de fournir aux chirurgiens des recommandations et des informations pertinentes. Pour ce faire, l’objectif principal de cette thèse est de reconnaître les outils chirurgicaux dans les vidéos de chirurgie de la cataracte. Dans le flux vidéo du microscope, ces outils sont partiellement visibles et certains se ressemblent beaucoup. Pour relever ces défis, nous proposons d'ajouter une caméra supplémentaire filmant la table opératoire. Notre objectif est donc de détecter la présence des outils dans les deux types de flux vidéo : les vidéos du microscope et les vidéos de la table opératoire. Le premier enregistre l'oeil du patient et le second enregistre les activités de la table opératoire. Deux tâches sont proposées pour détecter les outils dans les vidéos de la table : la détection des changements et la détection de présence d'outil. Dans un premier temps, nous proposons un système similaire pour ces deux tâches. Il est basé sur l’extraction des caractéristiques visuelles avec des méthodes de classification classique. Il fournit des résultats satisfaisants pour la détection de changement, cependant, il fonctionne insuffisamment bien pour la tâche de détection de présence des outils sur la table. Dans un second temps, afin de résoudre le problème du choix des caractéristiques, nous utilisons des architectures d’apprentissage profond pour la détection d'outils chirurgicaux sur les deux types de vidéo. Pour surmonter les défis rencontrés dans les vidéos de la table, nous proposons de générer des vidéos artificielles imitant la scène de la table opératoire et d’utiliser un réseau de neurones à convolutions (CNN) à base de patch. Enfin, nous exploitons l'information temporelle en utilisant un réseau de neurones récurrent analysant les résultats de CNNs. Contrairement à notre hypothèse, les expérimentations montrent des résultats insuffisants pour la détection de présence des outils sur la table, mais de très bons résultats dans les vidéos du microscope. Nous obtenons des résultats encore meilleurs dans les vidéos du microscope après avoir fusionné l’information issue de la détection des changements sur la table et la présence des outils dans l’oeil
The digital era is increasingly changing the world due to the sheer volume of data produced every day. The medical domain is highly affected by this revolution, because analysing this data can be a source of education/support for the clinicians. In this thesis, we propose to reuse the surgery videos recorded in the operating rooms for computer-assisted surgery system. We are chiefly interested in recognizing the surgical gesture being performed at each instant in order to provide relevant information. To achieve this goal, this thesis addresses the surgical tool recognition problem, with applications in cataract surgery. The main objective of this thesis is to address the surgical tool recognition problem in cataract surgery videos.In the surgical field, those tools are partially visible in videos and highly similar to one another. To address the visual challenges in the cataract surgical field, we propose to add an additional camera filming the surgical tray. Our goal is to detect the tool presence in the two complementary types of videos: tool-tissue interaction and surgical tray videos. The former records the patient's eye and the latter records the surgical tray activities.Two tasks are proposed to perform the task on the surgical tray videos: tools change detection and tool presence detection.First, we establish a similar pipeline for both tasks. It is based on standard classification methods on top of visual learning features. It yields satisfactory results for the tools change task, howev-lateer, it badly performs the surgical tool presence task on the tray. Second, we design deep learning architectures for the surgical tool detection on both video types in order to address the difficulties in manually designing the visual features.To alleviate the inherent challenges on the surgical tray videos, we propose to generate simulated surgical tray scenes along with a patch-based convolutional neural network (CNN).Ultimately, we study the temporal information using RNN processing the CNN results. Contrary to our primary hypothesis, the experimental results show deficient results for surgical tool presence on the tray but very good results on the tool-tissue interaction videos. We achieve even better results in the surgical field after fusing the tool change information coming from the tray and tool presence signals on the tool-tissue interaction videos
6

Boné, Romuald. "Réseaux de neurones récurrents pour la prévision de séries temporelles". Tours, 2000. http://www.theses.fr/2000TOUR4003.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les réseaux de neurones à propagation avant sont statiques, leurs sorties ne dépendant que des entrées courantes. Pour contourner cette limitation, la technique la plus répandue repose sur l'utilisation de fenêtres temporelles. Ces techniques sont insuffisantes lorsqu'une mémoire relativement profondes est nécessaire ou lorsque la profondeur de celle-ci est inconnue. Les réseaux de neurones récurrents sont capables de modéliser des dépendances temporelles de durée quelconque entre les entrées et les sorties désirées associées, en utilisant une mémoire implicite, codée grace aux connexions récurrentes et aux sorties des neurones eux-mêmes. Cependant, en pratique les réseaux récurrents sont associés à des algorithmes d'apprentissage bases sur le calcul du gradient, qui présentent des limitations dans la prise en compte des dépendances à moyen ou long terme. La résolution de ce problème peut passer par l'ajout de connexions contenant des retards. Le choix de la localisation de ces connexions et du nombre de retards nécessaires restent à la charge de l'expérimentateur. Nous proposons une nouvelle approche qui repose sur la définition de critères pour l'ajout sélectif de connexions à délais. Il en résulte des algorithmes constructifs, permettant d'adapter l'architecture du réseau au problème temporel à traiter. Le premier critère propose correspond à la variation de l'erreur lors de l'exploration restreinte des différentes alternatives d'implantation de connexions supplémentaires. L'exploration consiste en un apprentissage limite à quelques itérations. Le deuxième critère repose sur un calcul des corrélations entre des quantités générées à l'intérieur du réseau au cours de l'apprentissage, et correspond à une estimation de la variation des poids des connexions à délais candidates. Des expérimentations systématiques ont été menées sur des problèmes de référence de prévision de séries temporelles. Les résultats obtenus montrent l'intérêt de nos contributions.
7

Strock, Anthony. "Mémoire de travail dans les réseaux de neurones récurrents aléatoires". Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0195.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La mémoire de travail peut être définie comme la capacité à stocker temporairement et à manipuler des informations de toute nature.Par exemple, imaginez que l'on vous demande d'additionner mentalement une série de nombres. Afin de réaliser cette tâche, vous devez garder une trace de la somme partielle qui doit être mise à jour à chaque fois qu'un nouveau nombre est donné. La mémoire de travail est précisément ce qui permettrait de maintenir (i.e. stocker temporairement) la somme partielle et de la mettre à jour (i.e. manipuler). Dans cette thèse, nous proposons d'explorer les implémentations neuronales de cette mémoire de travail en utilisant un nombre restreint d'hypothèses.Pour ce faire, nous nous plaçons dans le contexte général des réseaux de neurones récurrents et nous proposons d'utiliser en particulier le paradigme du reservoir computing.Ce type de modèle très simple permet néanmoins de produire des dynamiques dont l'apprentissage peut tirer parti pour résoudre une tâche donnée.Dans ce travail, la tâche à réaliser est une mémoire de travail à porte (gated working memory).Le modèle reçoit en entrée un signal qui contrôle la mise à jour de la mémoire.Lorsque la porte est fermée, le modèle doit maintenir son état de mémoire actuel, alors que lorsqu'elle est ouverte, il doit la mettre à jour en fonction d'une entrée.Dans notre approche, cette entrée supplémentaire est présente à tout instant, même lorsqu'il n'y a pas de mise à jour à faire.En d'autres termes, nous exigeons que notre modèle soit un système ouvert, i.e. un système qui est toujours perturbé par ses entrées mais qui doit néanmoins apprendre à conserver une mémoire stable.Dans la première partie de ce travail, nous présentons l'architecture du modèle et ses propriétés, puis nous montrons sa robustesse au travers d'une étude de sensibilité aux paramètres.Celle-ci montre que le modèle est extrêmement robuste pour une large gamme de paramètres.Peu ou prou, toute population aléatoire de neurones peut être utilisée pour effectuer le gating.Par ailleurs, après apprentissage, nous mettons en évidence une propriété intéressante du modèle, à savoir qu'une information peut être maintenue de manière entièrement distribuée, i.e. sans être corrélée à aucun des neurones mais seulement à la dynamique du groupe.Plus précisément, la mémoire de travail n'est pas corrélée avec l'activité soutenue des neurones ce qui a pourtant longtemps été observé dans la littérature et remis en cause récemment de façon expérimentale.Ce modèle vient confirmer ces résultats au niveau théorique.Dans la deuxième partie de ce travail, nous montrons comment ces modèles obtenus par apprentissage peuvent être étendus afin de manipuler l'information qui se trouve dans l'espace latent.Nous proposons pour cela de considérer les conceptors qui peuvent être conceptualisé comme un jeu de poids synaptiques venant contraindre la dynamique du réservoir et la diriger vers des sous-espaces particuliers; par exemple des sous-espaces correspondants au maintien d'une valeur particulière.Plus généralement, nous montrons que ces conceptors peuvent non seulement maintenir des informations, ils peuvent aussi maintenir des fonctions.Dans le cas du calcul mental évoqué précédemment, ces conceptors permettent alors de se rappeler et d'appliquer l'opération à effectuer sur les différentes entrées données au système.Ces conceptors permettent donc d'instancier une mémoire de type procédural en complément de la mémoire de travail de type déclaratif.Nous concluons ce travail en remettant en perspective ce modèle théorique vis à vis de la biologie et des neurosciences
Working memory can be defined as the ability to temporarily store and manipulate information of any kind.For example, imagine that you are asked to mentally add a series of numbers.In order to accomplish this task, you need to keep track of the partial sum that needs to be updated every time a new number is given.The working memory is precisely what would make it possible to maintain (i.e. temporarily store) the partial sum and to update it (i.e. manipulate).In this thesis, we propose to explore the neuronal implementations of this working memory using a limited number of hypotheses.To do this, we place ourselves in the general context of recurrent neural networks and we propose to use in particular the reservoir computing paradigm.This type of very simple model nevertheless makes it possible to produce dynamics that learning can take advantage of to solve a given task.In this job, the task to be performed is a gated working memory task.The model receives as input a signal which controls the update of the memory.When the door is closed, the model should maintain its current memory state, while when open, it should update it based on an input.In our approach, this additional input is present at all times, even when there is no update to do.In other words, we require our model to be an open system, i.e. a system which is always disturbed by its inputs but which must nevertheless learn to keep a stable memory.In the first part of this work, we present the architecture of the model and its properties, then we show its robustness through a parameter sensitivity study.This shows that the model is extremely robust for a wide range of parameters.More or less, any random population of neurons can be used to perform gating.Furthermore, after learning, we highlight an interesting property of the model, namely that information can be maintained in a fully distributed manner, i.e. without being correlated to any of the neurons but only to the dynamics of the group.More precisely, working memory is not correlated with the sustained activity of neurons, which has nevertheless been observed for a long time in the literature and recently questioned experimentally.This model confirms these results at the theoretical level.In the second part of this work, we show how these models obtained by learning can be extended in order to manipulate the information which is in the latent space.We therefore propose to consider conceptors which can be conceptualized as a set of synaptic weights which constrain the dynamics of the reservoir and direct it towards particular subspaces; for example subspaces corresponding to the maintenance of a particular value.More generally, we show that these conceptors can not only maintain information, they can also maintain functions.In the case of mental arithmetic mentioned previously, these conceptors then make it possible to remember and apply the operation to be carried out on the various inputs given to the system.These conceptors therefore make it possible to instantiate a procedural working memory in addition to the declarative working memory.We conclude this work by putting this theoretical model into perspective with respect to biology and neurosciences
8

Etienne, Caroline. "Apprentissage profond appliqué à la reconnaissance des émotions dans la voix". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS517.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Mes travaux de thèse s'intéressent à l'utilisation de nouvelles technologies d'intelligence artificielle appliquées à la problématique de la classification automatique des séquences audios selon l'état émotionnel du client au cours d'une conversation avec un téléconseiller. En 2016, l'idée est de se démarquer des prétraitements de données et modèles d'apprentissage automatique existant au sein du laboratoire, et de proposer un modèle qui soit le plus performant possible sur la base de données audios IEMOCAP. Nous nous appuyons sur des travaux existants sur les modèles de réseaux de neurones profonds pour la reconnaissance de la parole, et nous étudions leur extension au cas de la reconnaissance des émotions dans la voix. Nous nous intéressons ainsi à l'architecture neuronale bout-en-bout qui permet d'extraire de manière autonome les caractéristiques acoustiques du signal audio en vue de la tâche de classification à réaliser. Pendant longtemps, le signal audio est prétraité avec des indices paralinguistiques dans le cadre d'une approche experte. Nous choisissons une approche naïve pour le prétraitement des données qui ne fait pas appel à des connaissances paralinguistiques spécialisées afin de comparer avec l'approche experte. Ainsi le signal audio brut est transformé en spectrogramme temps-fréquence à l'aide d'une transformée de Fourier à court-terme. Exploiter un réseau neuronal pour une tâche de prédiction précise implique de devoir s'interroger sur plusieurs aspects. D'une part, il convient de choisir les meilleurs hyperparamètres possibles. D'autre part, il faut minimiser les biais présents dans la base de données (non discrimination) en ajoutant des données par exemple et prendre en compte les caractéristiques de la base de données choisie. Le but est d'optimiser le mieux possible l'algorithme de classification. Nous étudions ces aspects pour une architecture neuronale bout-en-bout qui associe des couches convolutives spécialisées dans le traitement de l'information visuelle, et des couches récurrentes spécialisées dans le traitement de l'information temporelle. Nous proposons un modèle d'apprentissage supervisé profond compétitif avec l'état de l'art sur la base de données IEMOCAP et cela justifie son utilisation pour le reste des expérimentations. Ce modèle de classification est constitué de quatre couches de réseaux de neurones à convolution et un réseau de neurones récurrent bidirectionnel à mémoire court-terme et long-terme (BLSTM). Notre modèle est évalué sur deux bases de données audios anglophones proposées par la communauté scientifique : IEMOCAP et MSP-IMPROV. Une première contribution est de montrer qu'avec un réseau neuronal profond, nous obtenons de hautes performances avec IEMOCAP et que les résultats sont prometteurs avec MSP-IMPROV. Une autre contribution de cette thèse est une étude comparative des valeurs de sortie des couches du module convolutif et du module récurrent selon le prétraitement de la voix opéré en amont : spectrogrammes (approche naïve) ou indices paralinguistiques (approche experte). À l'aide de la distance euclidienne, une mesure de proximité déterministe, nous analysons les données selon l'émotion qui leur est associée. Nous tentons de comprendre les caractéristiques de l'information émotionnelle extraite de manière autonome par le réseau. L'idée est de contribuer à une recherche centrée sur la compréhension des réseaux de neurones profonds utilisés en reconnaissance des émotions dans la voix et d'apporter plus de transparence et d'explicabilité à ces systèmes dont le mécanisme décisionnel est encore largement incompris
This thesis deals with the application of artificial intelligence to the automatic classification of audio sequences according to the emotional state of the customer during a commercial phone call. The goal is to improve on existing data preprocessing and machine learning models, and to suggest a model that is as efficient as possible on the reference IEMOCAP audio dataset. We draw from previous work on deep neural networks for automatic speech recognition, and extend it to the speech emotion recognition task. We are therefore interested in End-to-End neural architectures to perform the classification task including an autonomous extraction of acoustic features from the audio signal. Traditionally, the audio signal is preprocessed using paralinguistic features, as part of an expert approach. We choose a naive approach for data preprocessing that does not rely on specialized paralinguistic knowledge, and compare it with the expert approach. In this approach, the raw audio signal is transformed into a time-frequency spectrogram by using a short-term Fourier transform. In order to apply a neural network to a prediction task, a number of aspects need to be considered. On the one hand, the best possible hyperparameters must be identified. On the other hand, biases present in the database should be minimized (non-discrimination), for example by adding data and taking into account the characteristics of the chosen dataset. We study these aspects in order to develop an End-to-End neural architecture that combines convolutional layers specialized in the modeling of visual information with recurrent layers specialized in the modeling of temporal information. We propose a deep supervised learning model, competitive with the current state-of-the-art when trained on the IEMOCAP dataset, justifying its use for the rest of the experiments. This classification model consists of a four-layer convolutional neural networks and a bidirectional long short-term memory recurrent neural network (BLSTM). Our model is evaluated on two English audio databases proposed by the scientific community: IEMOCAP and MSP-IMPROV. A first contribution is to show that, with a deep neural network, we obtain high performances on IEMOCAP, and that the results are promising on MSP-IMPROV. Another contribution of this thesis is a comparative study of the output values ​​of the layers of the convolutional module and the recurrent module according to the data preprocessing method used: spectrograms (naive approach) or paralinguistic indices (expert approach). We analyze the data according to their emotion class using the Euclidean distance, a deterministic proximity measure. We try to understand the characteristics of the emotional information extracted autonomously by the network. The idea is to contribute to research focused on the understanding of deep neural networks used in speech emotion recognition and to bring more transparency and explainability to these systems, whose decision-making mechanism is still largely misunderstood
9

Jouffroy, Guillaume. "Contrôle oscillatoire par réseau de neurones récurrents". Paris 8, 2008. http://www.theses.fr/2008PA082918.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans le domaine du contrôle, la plupart des applications nécessitent une commande continue non-périodique. Ce travail se focalise au contraire sur les contrôleurs à base de réseaux de neurones récurrents (RNR) générant une commande oscillatoire entretenue. L'objectif de ce travail est d'étudier les méthodes d'optimisation stochastiques continues permettant de déterminer les paramètres d'un réseau pour qu'il produise un comportement oscillatoire périodique. Nous dressons tout d'abord un bilan des connaissances sur les oscillateurs biologiques. Nous décrirons ensuite des outils mathématiques qui permettent de garantir la stabilité des oscillateurs. Le potentiel des RNR, particulièrement appliqués aux systèmes dynamiques, n'étant encore que très peu exploité, nous proposerons pour chaque méthode, une formalisation générale matricielle détaillée et préciserons la complexité des algorithmes. Nous validerons chacune de ces méthodes à l'aide d'un simple oscillateur, en démontrant analytiquement la stabilité du système résultant, et en montrant dans quelle mesure il est robuste face aux perturbations de ses paramètres. Nous comparerons les différentes méthodes sur ces critères ainsi que sur la vitesse de convergence. Nous terminerons cette thèse par une illustration, dans laquelle nous réaliserons toutes les étapes de la construction d'un contrôleurs oscillatoire neuronal, pour commander l'axe de direction d'un véhicule original. Ceci nous permettra de discuter de la viabilité des réseaux de neurones récurrents dans le domaine de contrôle oscillatoire, et de soulever des questions intéressantes
In the control field, most of the applications need a non-oscillatory continuous control. This work focuses instead on controllers with recurrent neural networks (RNN) which generate a periodic oscillatory control. The purpose of the present work is to study stochastic optimisation methods which can be used to discover the parameters of a network so that it generates a cyclic input. First we take a look at the knowledge about biological oscillators. Tthen we describe the mathematical tools to be able to guarantee the stability oscillators. The potential of RNN, especially applied to dynamical systems being still poorly used, we propose for each method, a general detailed matrix formalization and we precise the computational complexity of the methods. We validate each method using a simple example of oscillator, and we demonstrate analytically the stability of the resulting oscillator, but also how it is robust to parameters perturbations. We then compare these different methods with these criteria and the speed of convergence. We finish this thesis with an illustration, where we take all the steps of the construction of an oscillatory neural controller, to control the axis of direction of a particular vehicle. This will let us discuss how realistic is the use of recurrent neural networks in the field of control, and propose interesting questions
10

Jodouin, Jean-François. "Réseaux de neurones et traitement du langage naturel : étude des réseaux de neurones récurrents et de leurs représentations". Paris 11, 1993. http://www.theses.fr/1993PA112079.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le but de ce travail a été d'évaluer les possibilités d'application des réseaux connexionnistes aux taches de haut niveau comme le traitement du langage naturel (tln). Un travail de réflexion a permis de cerner les types de réseaux et les techniques de représentation propices à ce domaine d'application. Deux réseaux de la classe des réseaux récurrents à couches ont été sélectionnés pour des études approfondies: le simple récurrent network et le time-unfolding network (tun). Le perceptron multicouches a servi d'étalon. Un domaine d'application mettant à l'épreuve la mémoire et les capacités de représentation des réseaux a aussi été choisi: la prédiction de séquences non déterministes. Un outil de simulation graphique, Baptise Simon, a été crée pour l'étude. Le travail empirique a consisté en trois séries d'expériences qui ont pour but d'étudier les capacités de réseaux dans des conditions se rapprochant progressivement du traitement d'énoncés réels. Cette étude a été approfondie par l'analyse des représentations développées par les réseaux durant leur traitement. Cette recherche semble montrer que les réseaux récurrents ont le potentiel de développer des représentations complexes, ce qui leur permet de traiter de façon efficace les taches qui leur ont été données. En particulier, les performances des tuns dépassent, dans le meilleur des cas, celles de nos meilleurs outils de comparaison. En conclusion, les réseaux récurrents à couches ont une utilité immédiate à la frontière entre la parole (ou l'information est généralement bruitée et incomplète) et le langage (ou les représentations symboliques pures supportent mal ce type d'imprécision). De plus, si un important travail de recherche reste encore à faire, les résultats obtenus permettent d'espérer l'application future de ces réseaux à des taches plus évoluées du tln
11

Daucé, Emmanuel. "Adaptation dynamique et apprentissage dans les réseaux de neurones récurrents aléatoires". Toulouse, ENSAE, 2000. https://tel.archives-ouvertes.fr/tel-01394004.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Nous étudions un modèle de réseau de neurones récurrent, de grande taille et à temps discret. Les poids synaptiques sont déternminés aléatoirement. Du fait de l'asymétrie des connexions, nos réseaux sont capables d'entretenir une dynamique autonome, et présentent différents régimes, cycliques ou chaotiques. De tels réseaux admettent de plus une description théorique portant sur des variables d'état macroscopiques, nécessitant l'emploi de méthodes issues de la physique statistique (champ moyen à la limite thermodynamique). Par ailleurs, on s'intéresse au couplage entre la dynamique autonome et un signal statistique ou dynamique. On parle alors de dynamique contrainte. L'emploi de simulations numériques permet de mettre en œuvre un apprentissage de type Hebbien qui tend à reconstruire au sein de la dynamique du réseau les caractéristiques du signal d'entrée. L'adaptation dynamique, qui prend place dans le réseau après apprentissage, peut manifester à la fois un comportement de reconnaissance, un calcul et une mémoire de travail. La reconnaissance se manifeste par le fait que le système change qualitativement son régime dynamique lorsqu'un signal appris est présent en entrée. Le calcul repose sur la capacité à reconstruire un signal manquant à partir du signal disponible. Enfin, la mémoire de travail repose sur la structure de circuit qui se met en place dynamiquement dans le système et permet de maintenir au sein de l'activité des neurones la mémoire de plusieurs états, correspondant au nombre de relais du signal interne. De façon plus générale, ce travail pose le problème de la perception et de la reconnaissance. Ce que le système "perçoit" ne se réduit pas au simple signal sensoriel, mais plutôt une interprétation de ce signal par la dynamique interne. Ce que le système perçoit est donc intermédiaire entre ce que le système reçoit de ses entrées sensorielles et ce qu'il pense "percevoir".
12

Stuner, Bruno. "Cohorte de réseaux de neurones récurrents pour la reconnaissance de l'écriture". Thesis, Normandie, 2018. http://www.theses.fr/2018NORMR024.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les méthodes à l’état de l’art de la reconnaissance de l’écriture sont fondées sur des réseaux de neurones récurrents (RNN) à cellules LSTM ayant des performances remarquables. Dans cette thèse, nous proposons deux nouveaux principes la vérification lexicale et la génération de cohorte afin d’attaquer les problèmes de la reconnaissance de l’écriture : i) le problème des grands lexiques et des décodages dirigés par le lexique ii) la problématique de combinaison de modèles optiques pour une meilleure reconnaissance iii) la nécessité de constituer de très grands ensembles de données étiquetées dans un contexte d’apprentissage profond. La vérification lexicale est une alternative aux décodages dirigés par le lexique peu étudiée à cause des faibles performances des modèles optiques historiques (HMM). Nous montrons dans cette thèse qu’elle constitue une alternative intéressante aux approches dirigées par le lexique lorsqu’elles s’appuient sur des modèles optiques très performants comme les RNN LSTM. La génération de cohorte permet de générer facilement et rapidement un grand nombre de réseaux récurrents complémentaires en un seul apprentissage. De ces deux techniques nous construisons et proposons un nouveau schéma de cascade pour la reconnaissance de mots isolés, une nouvelle combinaison au niveau ligne LV-ROVER et une nouvelle stratégie d’auto-apprentissage de RNN LSTM pour la reconnaissance de mots isolés. La cascade proposée permet de combiner avec la vérification lexicale des milliers de réseaux et atteint des résultats à l’état de l’art pour les bases Rimes et IAM. LV-ROVER a une complexité réduite par rapport à l’algorithme original ROVER et permet de combiner des centaines de réseaux sans modèle de langage tout en dépassant l’état de l’art pour la reconnaissance de lignes sur le jeu de donnéesRimes. Notre stratégie d’auto-apprentissage permet d’apprendre à partir d’un seul réseau BLSTM et sans paramètres grâce à la cohorte et la vérification lexicale, elle montre d’excellents résultats sur les bases Rimes et IAM
State-of-the-art methods for handwriting recognition are based on LSTM recurrent neural networks (RNN) which achieve high performance recognition. In this thesis, we propose the lexicon verification and the cohort generation as two new building blocs to tackle the problem of handwriting recognition which are : i) the large vocabulary problem and the use of lexicon driven methods ii) the combination of multiple optical models iii) the need for large labeled dataset for training RNN. The lexicon verification is an alternative to the lexicon driven decoding process and can deal with lexicons of 3 millions words. The cohort generation is a method to get easily and quickly a large number of complementary recurrent neural networks extracted from a single training. From these two new techniques we build and propose a new cascade scheme for isolated word recognition, a new line level combination LV-ROVER and a new self-training strategy to train LSTM RNN for isolated handwritten words recognition. The proposed cascade combines thousands of LSTM RNN with lexicon verification and achieves state-of-the art word recognition performance on the Rimes and IAM datasets. The Lexicon Verified ROVER : LV-ROVER, has a reduce complexity compare to the original ROVER algorithm and combine hundreds of recognizers without language models while achieving state of the art for handwritten line text on the RIMES dataset. Our self-training strategy use both labeled and unlabeled data with the unlabeled data being self-labeled by its own lexicon verified predictions. The strategy enables self-training with a single BLSTM and show excellent results on the Rimes and Iam datasets
13

Abbasi, Mahdieh. "Toward robust deep neural networks". Doctoral thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67766.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans cette thèse, notre objectif est de développer des modèles d’apprentissage robustes et fiables mais précis, en particulier les Convolutional Neural Network (CNN), en présence des exemples anomalies, comme des exemples adversaires et d’échantillons hors distribution –Out-of-Distribution (OOD). Comme la première contribution, nous proposons d’estimer la confiance calibrée pour les exemples adversaires en encourageant la diversité dans un ensemble des CNNs. À cette fin, nous concevons un ensemble de spécialistes diversifiés avec un mécanisme de vote simple et efficace en termes de calcul pour prédire les exemples adversaires avec une faible confiance tout en maintenant la confiance prédicative des échantillons propres élevée. En présence de désaccord dans notre ensemble, nous prouvons qu’une borne supérieure de 0:5 + _0 peut être établie pour la confiance, conduisant à un seuil de détection global fixe de tau = 0; 5. Nous justifions analytiquement le rôle de la diversité dans notre ensemble sur l’atténuation du risque des exemples adversaires à la fois en boîte noire et en boîte blanche. Enfin, nous évaluons empiriquement la robustesse de notre ensemble aux attaques de la boîte noire et de la boîte blanche sur plusieurs données standards. La deuxième contribution vise à aborder la détection d’échantillons OOD à travers un modèle de bout en bout entraîné sur un ensemble OOD approprié. À cette fin, nous abordons la question centrale suivante : comment différencier des différents ensembles de données OOD disponibles par rapport à une tâche de distribution donnée pour sélectionner la plus appropriée, ce qui induit à son tour un modèle calibré avec un taux de détection des ensembles inaperçus de données OOD? Pour répondre à cette question, nous proposons de différencier les ensembles OOD par leur niveau de "protection" des sub-manifolds. Pour mesurer le niveau de protection, nous concevons ensuite trois nouvelles mesures efficaces en termes de calcul à l’aide d’un CNN vanille préformé. Dans une vaste série d’expériences sur les tâches de classification d’image et d’audio, nous démontrons empiriquement la capacité d’un CNN augmenté (A-CNN) et d’un CNN explicitement calibré pour détecter une portion significativement plus grande des exemples OOD. Fait intéressant, nous observons également qu’un tel A-CNN (nommé A-CNN) peut également détecter les adversaires exemples FGS en boîte noire avec des perturbations significatives. En tant que troisième contribution, nous étudions de plus près de la capacité de l’A-CNN sur la détection de types plus larges d’adversaires boîte noire (pas seulement ceux de type FGS). Pour augmenter la capacité d’A-CNN à détecter un plus grand nombre d’adversaires,nous augmentons l’ensemble d’entraînement OOD avec des échantillons interpolés inter-classes. Ensuite, nous démontrons que l’A-CNN, entraîné sur tous ces données, a un taux de détection cohérent sur tous les types des adversaires exemples invisibles. Alors que la entraînement d’un A-CNN sur des adversaires PGD ne conduit pas à un taux de détection stable sur tous les types d’adversaires, en particulier les types inaperçus. Nous évaluons également visuellement l’espace des fonctionnalités et les limites de décision dans l’espace d’entrée d’un CNN vanille et de son homologue augmenté en présence d’adversaires et de ceux qui sont propres. Par un A-CNN correctement formé, nous visons à faire un pas vers un modèle d’apprentissage debout en bout unifié et fiable avec de faibles taux de risque sur les échantillons propres et les échantillons inhabituels, par exemple, les échantillons adversaires et OOD. La dernière contribution est de présenter une application de A-CNN pour l’entraînement d’un détecteur d’objet robuste sur un ensemble de données partiellement étiquetées, en particulier un ensemble de données fusionné. La fusion de divers ensembles de données provenant de contextes similaires mais avec différents ensembles d’objets d’intérêt (OoI) est un moyen peu coûteux de créer un ensemble de données à grande échelle qui couvre un plus large spectre d’OoI. De plus, la fusion d’ensembles de données permet de réaliser un détecteur d’objet unifié, au lieu d’en avoir plusieurs séparés, ce qui entraîne une réduction des coûts de calcul et de temps. Cependant, la fusion d’ensembles de données, en particulier à partir d’un contexte similaire, entraîne de nombreuses instances d’étiquetées manquantes. Dans le but d’entraîner un détecteur d’objet robuste intégré sur un ensemble de données partiellement étiquetées mais à grande échelle, nous proposons un cadre d’entraînement auto-supervisé pour surmonter le problème des instances d’étiquettes manquantes dans les ensembles des données fusionnés. Notre cadre est évalué sur un ensemble de données fusionné avec un taux élevé d’étiquettes manquantes. Les résultats empiriques confirment la viabilité de nos pseudo-étiquettes générées pour améliorer les performances de YOLO, en tant que détecteur d’objet à la pointe de la technologie.
In this thesis, our goal is to develop robust and reliable yet accurate learning models, particularly Convolutional Neural Networks (CNNs), in the presence of adversarial examples and Out-of-Distribution (OOD) samples. As the first contribution, we propose to predict adversarial instances with high uncertainty through encouraging diversity in an ensemble of CNNs. To this end, we devise an ensemble of diverse specialists along with a simple and computationally efficient voting mechanism to predict the adversarial examples with low confidence while keeping the predictive confidence of the clean samples high. In the presence of high entropy in our ensemble, we prove that the predictive confidence can be upper-bounded, leading to have a globally fixed threshold over the predictive confidence for identifying adversaries. We analytically justify the role of diversity in our ensemble on mitigating the risk of both black-box and white-box adversarial examples. Finally, we empirically assess the robustness of our ensemble to the black-box and the white-box attacks on several benchmark datasets.The second contribution aims to address the detection of OOD samples through an end-to-end model trained on an appropriate OOD set. To this end, we address the following central question: how to differentiate many available OOD sets w.r.t. a given in distribution task to select the most appropriate one, which in turn induces a model with a high detection rate of unseen OOD sets? To answer this question, we hypothesize that the “protection” level of in-distribution sub-manifolds by each OOD set can be a good possible property to differentiate OOD sets. To measure the protection level, we then design three novel, simple, and cost-effective metrics using a pre-trained vanilla CNN. In an extensive series of experiments on image and audio classification tasks, we empirically demonstrate the abilityof an Augmented-CNN (A-CNN) and an explicitly-calibrated CNN for detecting a significantly larger portion of unseen OOD samples, if they are trained on the most protective OOD set. Interestingly, we also observe that the A-CNN trained on the most protective OOD set (calledA-CNN) can also detect the black-box Fast Gradient Sign (FGS) adversarial examples. As the third contribution, we investigate more closely the capacity of the A-CNN on the detection of wider types of black-box adversaries. To increase the capability of A-CNN to detect a larger number of adversaries, we augment its OOD training set with some inter-class interpolated samples. Then, we demonstrate that the A-CNN trained on the most protective OOD set along with the interpolated samples has a consistent detection rate on all types of unseen adversarial examples. Where as training an A-CNN on Projected Gradient Descent (PGD) adversaries does not lead to a stable detection rate on all types of adversaries, particularly the unseen types. We also visually assess the feature space and the decision boundaries in the input space of a vanilla CNN and its augmented counterpart in the presence of adversaries and the clean ones. By a properly trained A-CNN, we aim to take a step toward a unified and reliable end-to-end learning model with small risk rates on both clean samples and the unusual ones, e.g. adversarial and OOD samples.The last contribution is to show a use-case of A-CNN for training a robust object detector on a partially-labeled dataset, particularly a merged dataset. Merging various datasets from similar contexts but with different sets of Object of Interest (OoI) is an inexpensive way to craft a large-scale dataset which covers a larger spectrum of OoIs. Moreover, merging datasets allows achieving a unified object detector, instead of having several separate ones, resultingin the reduction of computational and time costs. However, merging datasets, especially from a similar context, causes many missing-label instances. With the goal of training an integrated robust object detector on a partially-labeled but large-scale dataset, we propose a self-supervised training framework to overcome the issue of missing-label instances in the merged datasets. Our framework is evaluated on a merged dataset with a high missing-label rate. The empirical results confirm the viability of our generated pseudo-labels to enhance the performance of YOLO, as the current (to date) state-of-the-art object detector.
14

Galtier, Mathieu. "Une approche mathématique de l'apprentissage non-supervisé dans les réseaux de neurones récurrents". Phd thesis, École Nationale Supérieure des Mines de Paris, 2011. http://pastel.archives-ouvertes.fr/pastel-00667368.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans cette thèse nous tentons de donner un sens mathématique à la proposition : le néocortex se construit un modèle de son environnement. Nous considérons que le néocortex est un réseau de neurones spikants dont la connectivité est soumise à une lente évolution appelée apprentissage. Dans le cas où le nombre de neurones est proche de l'infini, nous proposons une nouvelle méthode de champ-moyen afin de trouver une équation décrivant l'évolution du taux de décharge de populations de neurones. Nous étudions donc la dynamique de ce système moyennisé avec apprentissage. Dans le régime où l'apprentissage est beaucoup plus lent que l'activité du réseau nous pouvons utiliser des outils de moyennisation temporelle pour les systèmes lents/rapides. Dans ce cadre mathématique nous montrons que la connectivité du réseau converge toujours vers une unique valeur d'équilibre que nous pouvons calculer explicitement. Cette connectivité regroupe l'ensemble des connaissances du réseau à propos de son environnement. Nous comparons cette connectivité à l'équilibre avec les stimuli du réseau. Considérant que l'environnement est solution d'un système dynamique quelconque, il est possible de montrer que le réseau encode la totalité de l'information nécessaire à la définition de ce système dynamique. En effet nous montrons que la partie symétrique de la connectivité correspond à la variété sur laquelle est définie le système dynamique de l'environnement, alors que la partie anti-symétrique de la connectivité correspond au champ de vecteur définissant le système dynamique de l'environnement. Dans ce contexte il devient clair que le réseau agit comme un prédicteur de son environnement.
15

Fourure, Damien. "Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur". Thesis, Lyon, 2017. http://www.theses.fr/2017LYSES056/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La vision par ordinateur est un domaine interdisciplinaire étudiant la manière dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. En intelligence artificielle, et plus précisément en apprentissage automatique, domaine dans lequel se positionne cette thèse, la vision par ordinateur passe par l’extraction de caractéristiques présentes dans les images puis par la généralisation de concepts liés à ces caractéristiques. Ce domaine de recherche est devenu très populaire ces dernières années, notamment grâce aux résultats des réseaux de neurones convolutifs à la base des méthodes dites d’apprentissage profond. Aujourd’hui les réseaux de neurones permettent, entre autres, de reconnaître les différents objets présents dans une image, de générer des images très réalistes ou même de battre les champions au jeu de Go. Leurs performances ne s’arrêtent d’ailleurs pas au domaine de l’image puisqu’ils sont aussi utilisés dans d’autres domaines tels que le traitement du langage naturel (par exemple en traduction automatique) ou la reconnaissance de son. Dans cette thèse, nous étudions les réseaux de neurones convolutifs afin de développer des architectures et des fonctions de coûts spécialisées à des tâches aussi bien de bas niveau (la constance chromatique) que de haut niveau (la segmentation sémantique d’image). Une première contribution s’intéresse à la tâche de constance chromatique. En vision par ordinateur, l’approche principale consiste à estimer la couleur de l’illuminant puis à supprimer son impact sur la couleur perçue des objets. Les expériences que nous avons menées montrent que notre méthode permet d’obtenir des performances compétitives avec l’état de l’art. Néanmoins, notre architecture requiert une grande quantité de données d’entraînement. Afin de corriger en parti ce problème et d’améliorer l’entraînement des réseaux de neurones, nous présentons plusieurs techniques d’augmentation artificielle de données. Nous apportons également deux contributions sur une problématique de haut niveau : la segmentation sémantique d’image. Cette tâche, qui consiste à attribuer une classe sémantique à chacun des pixels d’une image, constitue un défi en vision par ordinateur de par sa complexité. D’une part, elle requiert de nombreux exemples d’entraînement dont les vérités terrains sont coûteuses à obtenir. D’autre part, elle nécessite l’adaptation des réseaux de neurones convolutifs traditionnels afin d’obtenir une prédiction dite dense, c’est-à-dire, une prédiction pour chacun pixel présent dans l’image d’entrée. Pour résoudre la difficulté liée à l’acquisition de données d’entrainements, nous proposons une approche qui exploite simultanément plusieurs bases de données annotées avec différentes étiquettes. Pour cela, nous définissons une fonction de coût sélective. Nous développons aussi une approche dites d’auto-contexte capturant d’avantage les corrélations existantes entre les étiquettes des différentes bases de données. Finalement, nous présentons notre troisième contribution : une nouvelle architecture de réseau de neurones convolutifs appelée GridNet spécialisée pour la segmentation sémantique d’image. Contrairement aux réseaux traditionnels, notre architecture est implémentée sous forme de grille 2D permettant à plusieurs flux interconnectés de fonctionner à différentes résolutions. Afin d’exploiter la totalité des chemins de la grille, nous proposons une technique d’entraînement inspirée du dropout. En outre, nous montrons empiriquement que notre architecture généralise de nombreux réseaux bien connus de l’état de l’art. Nous terminons par une analyse des résultats empiriques obtenus avec notre architecture qui, bien qu’entraînée avec une initialisation aléatoire des poids, révèle de très bonnes performances, dépassant les approches populaires souvent pré-entraînés
Computer vision is an interdisciplinary field that investigates how computers can gain a high level of understanding from digital images or videos. In artificial intelligence, and more precisely in machine learning, the field in which this thesis is positioned,computer vision involves extracting characteristics from images and then generalizing concepts related to these characteristics. This field of research has become very popular in recent years, particularly thanks to the results of the convolutional neural networks that form the basis of so-called deep learning methods. Today, neural networks make it possible, among other things, to recognize different objects present in an image, to generate very realistic images or even to beat the champions at the Go game. Their performance is not limited to the image domain, since they are also used in other fields such as natural language processing (e. g. machine translation) or sound recognition. In this thesis, we study convolutional neural networks in order to develop specialized architectures and loss functions for low-level tasks (color constancy) as well as high-level tasks (semantic segmentation). Color constancy, is the ability of the human visual system to perceive constant colours for a surface despite changes in the spectrum of illumination (lighting change). In computer vision, the main approach consists in estimating the color of the illuminant and then suppressing its impact on the perceived color of objects. We approach the task of color constancy with the use of neural networks by developing a new architecture composed of a subsampling operator inspired by traditional methods. Our experience shows that our method makes it possible to obtain competitive performances with the state of the art. Nevertheless, our architecture requires a large amount of training data. In order to partially correct this problem and improve the training of neural networks, we present several techniques for artificial data augmentation. We are also making two contributions on a high-level issue : semantic segmentation. This task, which consists of assigning a semantic class to each pixel of an image, is a challenge in computer vision because of its complexity. On the one hand, it requires many examples of training that are costly to obtain. On the other hand, it requires the adaptation of traditional convolutional neural networks in order to obtain a so-called dense prediction, i. e., a prediction for each pixel present in the input image. To solve the difficulty of acquiring training data, we propose an approach that uses several databases annotated with different labels at the same time. To do this, we define a selective loss function that has the advantage of allowing the training of a convolutional neural network from data from multiple databases. We also developed self-context approach that captures the correlations between labels in different databases. Finally, we present our third contribution : a new convolutional neural network architecture called GridNet specialized for semantic segmentation. Unlike traditional networks, implemented with a single path from the input (image) to the output (prediction), our architecture is implemented as a 2D grid allowing several interconnected streams to operate at different resolutions. In order to exploit all the paths of the grid, we propose a technique inspired by dropout. In addition, we empirically demonstrate that our architecture generalize many of well-known stateof- the-art networks. We conclude with an analysis of the empirical results obtained with our architecture which, although trained from scratch, reveals very good performances, exceeding popular approaches often pre-trained
16

Bouaziz, Mohamed. "Réseaux de neurones récurrents pour la classification de séquences dans des flux audiovisuels parallèles". Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0224/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les flux de contenus audiovisuels peuvent être représentés sous forme de séquences d’événements (par exemple, des suites d’émissions, de scènes, etc.). Ces données séquentielles se caractérisent par des relations chronologiques pouvant exister entre les événements successifs. Dans le contexte d’une chaîne TV, la programmation des émissions suit une cohérence définie par cette même chaîne, mais peut également être influencée par les programmations des chaînes concurrentes. Dans de telles conditions,les séquences d’événements des flux parallèles pourraient ainsi fournir des connaissances supplémentaires sur les événements d’un flux considéré.La modélisation de séquences est un sujet classique qui a été largement étudié, notamment dans le domaine de l’apprentissage automatique. Les réseaux de neurones récurrents de type Long Short-Term Memory (LSTM) ont notamment fait leur preuve dans de nombreuses applications incluant le traitement de ce type de données. Néanmoins,ces approches sont conçues pour traiter uniquement une seule séquence d’entrée à la fois. Notre contribution dans le cadre de cette thèse consiste à élaborer des approches capables d’intégrer conjointement des données séquentielles provenant de plusieurs flux parallèles.Le contexte applicatif de ce travail de thèse, réalisé en collaboration avec le Laboratoire Informatique d’Avignon et l’entreprise EDD, consiste en une tâche de prédiction du genre d’une émission télévisée. Cette prédiction peut s’appuyer sur les historiques de genres des émissions précédentes de la même chaîne mais également sur les historiques appartenant à des chaînes parallèles. Nous proposons une taxonomie de genres adaptée à de tels traitements automatiques ainsi qu’un corpus de données contenant les historiques parallèles pour 4 chaînes françaises.Deux méthodes originales sont proposées dans ce manuscrit, permettant d’intégrer les séquences des flux parallèles. La première, à savoir, l’architecture des LSTM parallèles(PLSTM) consiste en une extension du modèle LSTM. Les PLSTM traitent simultanément chaque séquence dans une couche récurrente indépendante et somment les sorties de chacune de ces couches pour produire la sortie finale. Pour ce qui est de la seconde proposition, dénommée MSE-SVM, elle permet de tirer profit des avantages des méthodes LSTM et SVM. D’abord, des vecteurs de caractéristiques latentes sont générés indépendamment, pour chaque flux en entrée, en prenant en sortie l’événement à prédire dans le flux principal. Ces nouvelles représentations sont ensuite fusionnées et données en entrée à un algorithme SVM. Les approches PLSTM et MSE-SVM ont prouvé leur efficacité dans l’intégration des séquences parallèles en surpassant respectivement les modèles LSTM et SVM prenant uniquement en compte les séquences du flux principal. Les deux approches proposées parviennent bien à tirer profit des informations contenues dans les longues séquences. En revanche, elles ont des difficultés à traiter des séquences courtes.L’approche MSE-SVM atteint globalement de meilleures performances que celles obtenues par l’approche PLSTM. Cependant, le problème rencontré avec les séquences courtes est plus prononcé pour le cas de l’approche MSE-SVM. Nous proposons enfin d’étendre cette approche en permettant d’intégrer des informations supplémentaires sur les événements des séquences en entrée (par exemple, le jour de la semaine des émissions de l’historique). Cette extension, dénommée AMSE-SVM améliore remarquablement la performance pour les séquences courtes sans les baisser lorsque des séquences longues sont présentées
In the same way as TV channels, data streams are represented as a sequence of successive events that can exhibit chronological relations (e.g. a series of programs, scenes, etc.). For a targeted channel, broadcast programming follows the rules defined by the channel itself, but can also be affected by the programming of competing ones. In such conditions, event sequences of parallel streams could provide additional knowledge about the events of a particular stream. In the sphere of machine learning, various methods that are suited for processing sequential data have been proposed. Long Short-Term Memory (LSTM) Recurrent Neural Networks have proven its worth in many applications dealing with this type of data. Nevertheless, these approaches are designed to handle only a single input sequence at a time. The main contribution of this thesis is about developing approaches that jointly process sequential data derived from multiple parallel streams. The application task of our work, carried out in collaboration with the computer science laboratory of Avignon (LIA) and the EDD company, seeks to predict the genre of a telecast. This prediction can be based on the histories of previous telecast genres in the same channel but also on those belonging to other parallel channels. We propose a telecast genre taxonomy adapted to such automatic processes as well as a dataset containing the parallel history sequences of 4 French TV channels. Two original methods are proposed in this work in order to take into account parallel stream sequences. The first one, namely the Parallel LSTM (PLSTM) architecture, is an extension of the LSTM model. PLSTM simultaneously processes each sequence in a separate recurrent layer and sums the outputs of each of these layers to produce the final output. The second approach, called MSE-SVM, takes advantage of both LSTM and Support Vector Machines (SVM) methods. Firstly, latent feature vectors are independently generated for each input stream, using the output event of the main one. These new representations are then merged and fed to an SVM algorithm. The PLSTM and MSE-SVM approaches proved their ability to integrate parallel sequences by outperforming, respectively, the LSTM and SVM models that only take into account the sequences of the main stream. The two proposed approaches take profit of the information contained in long sequences. However, they have difficulties to deal with short ones. Though MSE-SVM generally outperforms the PLSTM approach, the problem experienced with short sequences is more pronounced for MSE-SVM. Finally, we propose to extend this approach by feeding additional information related to each event in the input sequences (e.g. the weekday of a telecast). This extension, named AMSE-SVM, has a remarkably better behavior with short sequences without affecting the performance when processing long ones
17

Suzano, Massa Francisco Vitor. "Mise en relation d'images et de modèles 3D avec des réseaux de neurones convolutifs". Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1198/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La récente mise à disposition de grandes bases de données de modèles 3D permet de nouvelles possibilités pour un raisonnement à un niveau 3D sur les photographies. Cette thèse étudie l'utilisation des réseaux de neurones convolutifs (CNN) pour mettre en relation les modèles 3D et les images.Nous présentons tout d'abord deux contributions qui sont utilisées tout au long de cette thèse : une bibliothèque pour la réduction automatique de la mémoire pour les CNN profonds, et une étude des représentations internes apprises par les CNN pour la mise en correspondance d'images appartenant à des domaines différents. Dans un premier temps, nous présentons une bibliothèque basée sur Torch7 qui réduit automatiquement jusqu'à 91% des besoins en mémoire pour déployer un CNN profond. Dans un second temps, nous étudions l'efficacité des représentations internes des CNN extraites d'un réseau pré-entraîné lorsqu'il est appliqué à des images de modalités différentes (réelles ou synthétiques). Nous montrons que malgré la grande différence entre les images synthétiques et les images naturelles, il est possible d'utiliser certaines des représentations des CNN pour l'identification du modèle de l'objet, avec des applications possibles pour le rendu basé sur l'image.Récemment, les CNNs ont été utilisés pour l'estimation de point de vue des objets dans les images, parfois avec des choix de modélisation très différents. Nous présentons ces approches dans un cadre unifié et nous analysons les facteur clés qui ont une influence sur la performance. Nous proposons une méthode d'apprentissage jointe qui combine à la fois la détection et l'estimation du point de vue, qui fonctionne mieux que de considérer l'estimation de point de vue de manière indépendante.Nous étudions également l'impact de la formulation de l'estimation du point de vue comme une tâche discrète ou continue, nous quantifions les avantages des architectures de CNN plus profondes et nous montrons que l'utilisation des données synthétiques est bénéfique. Avec tous ces éléments combinés, nous améliorons l'état de l'art d'environ 5% pour la précision de point de vue moyenne sur l'ensemble des données Pascal3D+.Dans l'étude de recherche de modèle d'objet 3D dans une base de données, l'image de l'objet est fournie et l'objectif est d'identifier parmi un certain nombre d'objets 3D lequel correspond à l'image. Nous étendons ce travail à la détection d'objet, où cette fois-ci un modèle 3D est donné, et l'objectif consiste à localiser et à aligner le modèle 3D dans image. Nous montrons que l'application directe des représentations obtenues par un CNN ne suffit pas, et nous proposons d'apprendre une transformation qui rapproche les répresentations internes des images réelles vers les représentations des images synthétiques. Nous évaluons notre approche à la fois qualitativement et quantitativement sur deux jeux de données standard: le jeu de données IKEAobject, et le sous-ensemble du jeu de données Pascal VOC 2012 contenant des instances de chaises, et nous montrons des améliorations sur chacun des deux
The recent availability of large catalogs of 3D models enables new possibilities for a 3D reasoning on photographs. This thesis investigates the use of convolutional neural networks (CNNs) for relating 3D objects to 2D images.We first introduce two contributions that are used throughout this thesis: an automatic memory reduction library for deep CNNs, and a study of CNN features for cross-domain matching. In the first one, we develop a library built on top of Torch7 which automatically reduces up to 91% of the memory requirements for deploying a deep CNN. As a second point, we study the effectiveness of various CNN features extracted from a pre-trained network in the case of images from different modalities (real or synthetic images). We show that despite the large cross-domain difference between rendered views and photographs, it is possible to use some of these features for instance retrieval, with possible applications to image-based rendering.There has been a recent use of CNNs for the task of object viewpoint estimation, sometimes with very different design choices. We present these approaches in an unified framework and we analyse the key factors that affect performance. We propose a joint training method that combines both detection and viewpoint estimation, which performs better than considering the viewpoint estimation separately. We also study the impact of the formulation of viewpoint estimation either as a discrete or a continuous task, we quantify the benefits of deeper architectures and we demonstrate that using synthetic data is beneficial. With all these elements combined, we improve over previous state-of-the-art results on the Pascal3D+ dataset by a approximately 5% of mean average viewpoint precision.In the instance retrieval study, the image of the object is given and the goal is to identify among a number of 3D models which object it is. We extend this work to object detection, where instead we are given a 3D model (or a set of 3D models) and we are asked to locate and align the model in the image. We show that simply using CNN features are not enough for this task, and we propose to learn a transformation that brings the features from the real images close to the features from the rendered views. We evaluate our approach both qualitatively and quantitatively on two standard datasets: the IKEAobject dataset, and a subset of the Pascal VOC 2012 dataset of the chair category, and we show state-of-the-art results on both of them
18

Low, Kok Seng. "Approche de réseaux de neurones récurrents pour le problème de l'ordonnancement cyclique et sa variante". Artois, 2008. http://www.theses.fr/2008ARTO0408.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Un problème d’ordonnancement consiste à exécuter sur un horizon de temps donné un ensemble de taches au moyen de ressources en nombre limité. On rencontre ce problème dans divers domaines, comme l’industrie de production, dans les systèmes de transport ou encore dans les ordinateurs avec l’allocation des tâches. Dans cette thèse, nous nous concentrons sur le problème d’ordonnance cyclique, Les propriétés liées à l’ordonnancement en général, ainsi qu’à sa version cyclique seront étudiées. Le problème d’ordonnancement des tâches est un problème NP-complet, le temps nécessaire pour le résoudre peut être exponentiel dans le pire des scenarios. Ceci a motivé notre travail de recherche et nous a mené à développer une approche efficace utilisant les réseaux de neurones pour le résoudre. Cette thèse se concentre particulièrement sur le problème du Job Shop Cyclic et sur son utilisation dans le cadre des ateliers flexibles (FMS : Flexible Manufacturing System). Pour cela, nous avons développé deux modèles de résolutions basés sur les réseaux de neurones. Le premier a pour objectif de minimiser le temps de cycle et le second a pour objectif de minimiser les encours de production. On remarque une absence de travaux utilisant les réseaux de neurones sur ce type de problème dans la littérature scientifique. Ceci est dû à l’architecture complexe des réseaux de neurones, à la difficulté de définir les conditions initiales, au réglage de ses paramètres (taux d’apprentissage, condition d’arrêt, etc. ) ainsi que sa tendance à générer des solutions impossibles. Néanmoins, dans cette thèse, nous proposons 3 variations autour des réseaux de neurones : un réseau de neurones récurrents (RNN), une relaxation Lagrangienne pour un réseau de neurones récurrents (LRRNN) et un réseau Hopfield avancé. Plusieurs algorithmes ont été combinés avec ces réseaux de neurones pour assurer que les solutions générées sont toutes possibles et pour réduire l’effort de recherche des solutions optimales. Une phase prétraitement CDRP (Competitive Dispatch Rule Phase) a été développée pour générer des solutions initiales correctes avant que les 3 réseaux de neurones soient initialisés. Celle-ci permet de réduire l’espace de recherche du problème. Pour le problème du FMS cyclique, une phase modifiée (MCDRP) a été également développée. Pour s’échapper des optimums locaux, une phase de perturbation a été développée pour relancer la recherche dans une autre région de l’espace de recherche. Enfin, une phase de post traitement assure que les solutions finales sont toujours dans l’espace des solutions possibles. Dans une première partie, nous avons étendu nos travaux au problème du job shop cyclique avec des contraintes de précédence linéaire. Selon la littérature en ordonnancement cyclique, il est possible de transformer les contraintes linéaires en contraintes uniformes équivalentes, c’est pour cette raison qu’un algorithme de délinéarisation a été développé pour permettre de traiter ce problème avec notre approche lagrangienne précédente. Nous avons été capable de démontrer la conformité et l’applicabilité des approches utilisant des réseaux RNN, LRRNN et Advanced Hopfield à travers une évaluation comparative. Les résultats expérimentaux indiquent que les 3 approches proposées sont des alternatives attrayantes par rapport à d’autres approches heuristiques traditionnelles même si parfois celles-ci restent coûteuses en terme de calcul
Scheduling deals with the allocation of required tasks to limited resources over time, to be processed. The scheduling problems arise among others, in areas of product manufacturing, computer processing and transportation. In this thesis we focus on the cyclic version of the scheduling problem. We review the properties of both the general scheduling and cyclic scheduling problems. As the cyclic scheduling problem is NP-Hard complexity, the time to solve the problem requires exponential time in the worst case scenario. This factor has motivated this research work in developing an efficient neural network approach to solve the cyclic scheduling problem. This thesis focuses specifically on the cyclic job shop and cyclic flexible manufacturing system problems hence models that will solve the minimum cycle time or work in progress of the problems, were developed. These models are fundamental to which the neural network approach can be applied. From the literature, the absence of neural network research into solving the scheduling problem is due to its characteristics such as complex architecture, defining initial conditions, difficulty in tuning its parameters (i. E. Learning rate, stoppage conditions, etc) and tendency for infeasible solutions. However, in this thesis, we develop and study three variations of the neural network approaches. These are the Recurrent Neural Network (RNN) approach, the Lagrangian Relaxation Recurrent Neural Network (LRRNN) approach and the Advanced Hopfield network approach. Several algorithms were combined with these neural networks to ensure that feasible solutions are generated and to reduce the search effort for the optimum solutions. A Competitive Dispatch Rule Phase (CDRP) was developed to generate initial feasible solutions before the three neural network approaches are initiated. This is important as the search space of the problem can be reduced through this approach. For the cyclic flexible manufacturing system problem, a Modified Competitive Dispatch Rule Phase (MCDRP) is developed in response to having the best possible cyclic schedule with minimum work in progress, for the neural network approaches to work from. As the solutions may be trapped in local minimum energy state, a schedule perturbation phase was developed to ''kick-start'' the search effort. Finally using the developed schedule Postprocessing phase that contains the Adhere Conjunctive and Adhere Disjunctive algorithms, the subsequent final solutions are always feasible schedules. We also extended the review into the cyclic job shop problem with linear precedence constraints. From cyclic scheduling literature, it is possible to transform the linear constraints into the equivalent uniform forms, hence the Delinearization algorithm was developed. We were able to demonstrate the suitability and applicability of the RNN, LRRNN and Advanced Hopfield network approaches through computational and comparative testing. The experimental results indicate that the three approaches are attractive alternatives to traditional heuristics in solving the cyclic scheduling problems, even though in some cases, it is computational expensive
19

Nono, Wouafo Hugues Gérald. "Architectures matérielles numériques intégrées et réseaux de neurones à codage parcimonieux". Thesis, Lorient, 2016. http://www.theses.fr/2016LORIS394/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
De nos jours, les réseaux de neurones artificiels sont largement utilisés dans de nombreusesapplications telles que le traitement d’image ou du signal. Récemment, un nouveau modèlede réseau de neurones a été proposé pour concevoir des mémoires associatives, le GBNN(Gripon-Berrou Neural Network). Ce modèle offre une capacité de stockage supérieure àcelle des réseaux de Hopfield lorsque les informations à mémoriser ont une distributionuniforme. Des méthodes améliorant leur performance pour des distributions non-uniformesainsi que des architectures matérielles mettant en œuvre les réseaux GBNN ont étéproposés. Cependant, ces solutions restent très coûteuses en ressources matérielles, et lesarchitectures proposées sont restreintes à des réseaux de tailles fixes et sont incapables depasser à l’échelle.Les objectifs de cette thèse sont les suivants : (1) concevoir des modèles inspirés du modèle GBNN et plus performants que l’état de l’art, (2) proposer des architectures moins coûteusesque les solutions existantes et (3) concevoir une architecture générique configurable mettanten œuvre les modèles proposés et capable de manipuler des réseaux de tailles variables.Les résultats des travaux de thèse sont exposés en plusieurs parties. Le concept de réseaux àclones de neurone et ses différentes instanciations sont présentés dans un premier temps. Cesréseaux offrent de meilleures performances que l’état de l’art pour un coût mémoireidentique lorsqu’une distribution non-uniforme des informations à mémoriser estconsidérée. Des optimisations de l’architecture matérielle sont ensuite introduites afin defortement réduire le coût en termes de ressources. Enfin, une architecture générique capablede passer à l’échelle et capable de manipuler des réseaux de tailles variables est proposée
Nowadays, artificial neural networks are widely used in many applications such as image and signal processing. Recently, a new model of neural network was proposed to design associative memories, the GBNN (Gripon-Berrou Neural Network). This model offers a storage capacity exceeding those of Hopfield networks when the information to be stored has a uniform distribution. Methods improving performance for non-uniform distributions and hardware architectures implementing the GBNN networks were proposed. However, on one hand, these solutions are very expensive in terms of hardware resources and on the other hand, the proposed architectures can only implement fixed size networks and are not scalable. The objectives of this thesis are: (1) to design GBNN inspired models outperforming the state of the art, (2) to propose architectures cheaper than existing solutions and (3) to design a generic architecture implementing the proposed models and able to handle various sizes of networks. The results of these works are exposed in several parts. Initially, the concept of clone based neural networks and its variants are presented. These networks offer better performance than the state of the art for the same memory cost when a non-uniform distribution of the information to be stored is considered. The hardware architecture optimizations are then introduced to significantly reduce the cost in terms of resources. Finally, a generic scalable architecture able to handle various sizes of networks is proposed
20

Chabot, Florian. "Analyse fine 2D/3D de véhicules par réseaux de neurones profonds". Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAC018/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux développés dans cette thèse s’intéressent à l’analyse fine des véhicules à partir d’une image. Nous définissons le terme d’analyse fine comme un regroupement des concepts suivants : la détection des véhicules dans l’image, l’estimation de leur point de vue (ou orientation), la caractérisation de leur visibilité, leur localisation 3D dans la scène et la reconnaissance de leur marque et de leur modèle. La construction de solutions fiables d’analyse fine de véhicules laisse place à de nombreuses applications notamment dans le domaine du transport intelligent et de la vidéo surveillance.Dans ces travaux, nous proposons plusieurs contributions permettant de traiter partiellement ou complètement cette problématique. Les approches mises en oeuvre se basent sur l’utilisation conjointe de l’apprentissage profond et de modèles 3D de véhicule. Dans une première partie, nous traitons le problème de reconnaissance de marques et modèles en prenant en compte la difficulté de la création de bases d’apprentissage. Dans une seconde partie, nous investiguons une méthode de détection et d’estimation du point de vue précis en nous basant sur l’extraction de caractéristiques visuelles locales et de la cohérence géométrique. La méthode utilise des modèles mathématiques uniquement appris sur des données synthétiques. Enfin, dans une troisième partie, un système complet d’analyse fine de véhicules dans le contexte de la conduite autonome est proposé. Celui-ci se base sur le concept d’apprentissage profond multi-tâches. Des résultats quantitatifs et qualitatifs sont présentés tout au long de ce manuscrit. Sur certains aspects de l’analyse fine de véhicules à partir d’une image, ces recherches nous ont permis de dépasser l’état de l’art
In this thesis, we are interested in fine-grained analysis of vehicle from an image. We define fine-grained analysis as the following concepts : vehicle detection in the image, vehicle viewpoint (or orientation) estimation, vehicle visibility characterization, vehicle 3D localization and make and model recognition. The design of reliable solutions for fine-grained analysis of vehicle open the door to multiple applications in particular for intelligent transport systems as well as video surveillance systems. In this work, we propose several contributions allowing to address partially or wholly this issue. Proposed approaches are based on joint deep learning technologies and 3D models. In a first section, we deal with make and model classification keeping in mind the difficulty to create training data. In a second section, we investigate a novel method for both vehicle detection and fine-grained viewpoint estimation based on local apparence features and geometric spatial coherence. It uses models learned only on synthetic data. Finally, in a third section, a complete system for fine-grained analysis is proposed. It is based on the multi-task concept. Throughout this report, we provide quantitative and qualitative results. On several aspects related to vehicle fine-grained analysis, this work allowed to outperform state of the art methods
21

Assaad, Mohammad. "Un nouvel algorithme de boosting pour les réseaux de neurones récurrents : application au traitement des données sequentielles". Tours, 2006. http://www.theses.fr/2006TOUR4024.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux de cette thèse concernent la proposition d'un nouvel algorithme de boosting dédié au problème de l'apprentissage des dépendances temporelles pour la prévision de séries temporelles, en utilisant comme régresseurs des réseaux de neurones récurrents. Cet algorithme se base sur la méthode du boosting : il permet de concentrer l'apprentissage sur les exemples difficiles mais, à la différence de l'algorithme d'origine, en prenant en compte tous les exemples disponibles. Un nouveau paramètre est utilisé pour régler l'influence du boosting. Pour évaluer notre algorithme, des expérimentations systématiques ont été menées sur deux types de problèmes temporels : la prévision à un pas de temps et la prévision multipas. Les résultats obtenus sur plusieurs séries de référence sont parmi les plus performants présentés dans la littérature
The work of this thesis deals with the proposal of a new boosting algorithm dedicated to the problem of learning time-dependencies for the time series prediction, using recurrent neural networks as regressors. This algorithm is based on the boosting algorith and allows concentrating the training on difficult examples. A new parameter is introduced to regulate the influence of boosting. To evaluate our algorithm, systematic experiments were carried out on two types of problems of time series prediction : single-step ahead predicton and multi-step ahead prediction. The results obtained from several series of reference are close to the best results reported in the literature
22

Farabet, Clément. "Analyse sémantique des images en temps-réel avec des réseaux convolutifs". Phd thesis, Université Paris-Est, 2013. http://tel.archives-ouvertes.fr/tel-00965622.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Une des questions centrales de la vision informatique est celle de la conception et apprentissage de représentations du monde visuel. Quel type de représentation peut permettre à un système de vision artificielle de détecter et classifier les objects en catégories, indépendamment de leur pose, échelle, illumination, et obstruction. Plus intéressant encore, comment est-ce qu'un tel système peut apprendre cette représentation de façon automatisée, de la même manière que les animaux et humains parviennent à émerger une représentation du monde qui les entoure. Une question liée est celle de la faisabilité calculatoire, et plus précisément celle de l'efficacité calculatoire. Étant donné un modèle visuel, avec quelle efficacité peut-il être entrainé, et appliqué à de nouvelles données sensorielles. Cette efficacité a plusieurs dimensions: l'énergie consommée, la vitesse de calcul, et l'utilisation mémoire. Dans cette thèse je présente trois contributions à la vision informatique: (1) une nouvelle architecture de réseau convolutif profond multi-échelle, permettant de capturer des relations longue distance entre variables d'entrée dans des données type image, (2) un algorithme à base d'arbres permettant d'explorer de multiples candidats de segmentation, pour produire une segmentation sémantique avec confiance maximale, (3) une architecture de processeur dataflow optimisée pour le calcul de réseaux convolutifs profonds. Ces trois contributions ont été produites dans le but d'améliorer l'état de l'art dans le domain de l'analyse sémantique des images, avec une emphase sur l'efficacité calculatoire. L'analyse de scènes (scene parsing) consiste à étiqueter chaque pixel d'une image avec la catégorie de l'objet auquel il appartient. Dans la première partie de cette thèse, je propose une méthode qui utilise un réseau convolutif profond, entrainé à même les pixels, pour extraire des vecteurs de caractéristiques (features) qui encodent des régions de plusieurs résolutions, centrées sur chaque pixel. Cette méthode permet d'éviter l'usage de caractéristiques créées manuellement. Ces caractéristiques étant multi-échelle, elles permettent au modèle de capturer des relations locales et globales à la scène. En parallèle, un arbre de composants de segmentation est calculé à partir de graphe de dis-similarité des pixels. Les vecteurs de caractéristiques associés à chaque noeud de l'arbre sont agrégés, et utilisés pour entrainé un estimateur de la distribution des catégories d'objets présents dans ce segment. Un sous-ensemble des noeuds de l'arbre, couvrant l'image, est ensuite sélectionné de façon à maximiser la pureté moyenne des distributions de classes. En maximisant cette pureté, la probabilité que chaque composant ne contienne qu'un objet est maximisée. Le système global produit une précision record sur plusieurs benchmarks publics. Le calcul de réseaux convolutifs profonds ne dépend que de quelques opérateurs de base, qui sont particulièrement adaptés à une implémentation hardware dédiée. Dans la deuxième partie de cette thèse, je présente une architecture de processeur dataflow dédiée et optimisée pour le calcul de systèmes de vision à base de réseaux convolutifs--neuFlow--et un compilateur--luaFlow--dont le rôle est de compiler une description haut-niveau (type graphe) de réseaux convolutifs pour produire un flot de données et calculs optimal pour l'architecture. Ce système a été développé pour faire de la détection, catégorisation et localisation d'objets en temps réel, dans des scènes complexes, en ne consommant que 10 Watts, avec une implémentation FPGA standard.
23

Gelly, Grégory. "Réseaux de neurones récurrents pour le traitement automatique de la parole". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS295/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le domaine du traitement automatique de la parole regroupe un très grand nombre de tâches parmi lesquelles on trouve la reconnaissance de la parole, l'identification de la langue ou l'identification du locuteur. Ce domaine de recherche fait l'objet d'études depuis le milieu du vingtième siècle mais la dernière rupture technologique marquante est relativement récente et date du début des années 2010. C'est en effet à ce moment qu'apparaissent des systèmes hybrides utilisant des réseaux de neurones profonds (DNN) qui améliorent très notablement l'état de l'art. Inspirés par le gain de performance apporté par les DNN et par les travaux d'Alex Graves sur les réseaux de neurones récurrents (RNN), nous souhaitions explorer les capacités de ces derniers. En effet, les RNN nous semblaient plus adaptés que les DNN pour traiter au mieux les séquences temporelles du signal de parole. Dans cette thèse, nous nous intéressons tout particulièrement aux RNN à mémoire court-terme persistante (Long Short Term Memory (LSTM) qui permettent de s'affranchir d'un certain nombre de difficultés rencontrées avec des RNN standards. Nous augmentons ce modèle et nous proposons des processus d'optimisation permettant d'améliorer les performances obtenues en segmentation parole/non-parole et en identification de la langue. En particulier, nous introduisons des fonctions de coût dédiées à chacune des deux tâches: un simili-WER pour la segmentation parole/non-parole dans le but de diminuer le taux d'erreur d'un système de reconnaissance de la parole et une fonction de coût dite de proximité angulaire pour les problèmes de classification multi-classes tels que l'identification de la langue parlée
Automatic speech processing is an active field of research since the 1950s. Within this field the main area of research is automatic speech recognition but simpler tasks such as speech activity detection, language identification or speaker identification are also of great interest to the community. The most recent breakthrough in speech processing appeared around 2010 when speech recognition systems using deep neural networks drastically improved the state-of-the-art. Inspired by this gains and the work of Alex Graves on recurrent neural networks (RNN), we decided to explore the possibilities brought by these models on realistic data for two different tasks: speech activity detection and spoken language identification. In this work, we closely look at a specific model for the RNNs: the Long Short Term Memory (LSTM) which mitigates a lot of the difficulties that can arise when training an RNN. We augment this model and introduce optimization methods that lead to significant performance gains for speech activity detection and language identification. More specifically, we introduce a WER-like loss function to train a speech activity detection system so as to minimize the word error rate of a downstream speech recognition system. We also introduce two different methods to successfully train a multiclass classifier based on neural networks for tasks such as LID. The first one is based on a divide-and-conquer approach and the second one is based on an angular proximity loss function. Both yield performance gains but also speed up the training process
24

Thiaw, Lamine. "Identification de systèmes dynamiques non linéaires par réseaux de neurones et multimodèles". Phd thesis, Université Paris XII Val de Marne, 2008. http://tel.archives-ouvertes.fr/tel-00399469.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette étude traite de l'identification de système dynamique non-linéaire. Une architecture multimodèle capable de surmonter certaines difficultés de l'architecture neuronale de type MLP a été étudiée. L'approche multimodèle consiste à représenter un système complexe par un ensemble de modèles de structures simples à validité limitée dans des zones bien définies. A la place de la structure affine des modèles locaux généralement utilisée, cette étude propose une structure polynômiale plus générale, capable de mieux appréhender les non-linéarités locales, réduisant ainsi le nombre de modèles locaux. L'estimation paramétrique d'une telle architecture multimodèle peut se faire suivant une optimisation linéaire, moins coûteuse en temps de calcul que l'estimation paramétrique utilisée dans une architecture neuronale. L'implantation des multimodèles récurrents, avec un algorithme d'estimation paramétrique plus souple que l'algorithme de rétro-propagation du gradient à travers à travers le temps utilisé pour le MLP récurrent a également été effectuée. Cette architecture multimodèle permet de représenter plus facilement des modèles non-linéaires bouclés tels que les modèles NARMAX et NOE. La détermination du nombre de modèles locaux dans une architecture multimodèle nécessite la décomposition (le partitionnement) de l'espace de fonctionnement du système en plusieurs sous-espaces où sont définies les modèles locaux. Des modes de partitionnement du système en plusieurs sous-espaces où sont définies les modèles locaux. Des modes de partitionnement flou (basé sur les algorithmes de "fuzzy-c-means", de "Gustafson et Kessel" et du "substractive clustering") ont été présentés. L'utilisation de telles méthodes nécessite l'implantation d'une architecture multimodèle où les modèles locaux peuvent être de structures différentes : polynômiales de degrés différents, neuronale ou polynômiale et neuronale. Une architecture multimodèle hétérogène répondant à ses exigences a été proposée, des algorithmes d'identification structurelles et paramétriques ont été présentés. Une étude comparative entre les architectures MLP et multimodèle a été menée. Le principal atout de l'architecture mudltimodèle par rapport à l'architecture neuronale de type MLP est la simplicité de l'estimation paramétrique. Par ailleurs, l'utilisation dans une architecture multimodèle d'un mode de partitionnement basé sur la classification floue permet de déterminer facilement le nombre de modèles locaux, alors que la détermination du nombre de neurones cachés pour une architecture MLP reste une tâche difficile.
25

Morillot, Olivier. "Reconnaissance de textes manuscrits par modèles de Markov cachés et réseaux de neurones récurrents : application à l'écriture latine et arabe". Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0002.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La reconnaissance d’écriture manuscrite est une composante essentielle de l’analyse de document. Une tendance actuelle de ce domaine est de passer de la reconnaissance de mots isolés à celle d’une séquence de mots. Notre travail consiste donc à proposer un système de reconnaissance de lignes de texte sans segmentation explicite de la ligne en mots. Afin de construire un modèle performant, nous intervenons à plusieurs niveaux du système de reconnaissance. Tout d’abord, nous introduisons deux méthodes de prétraitement originales : un nettoyage des images de lignes de texte et une correction locale de la ligne de base. Ensuite, nous construisons un modèle de langage optimisé pour la reconnaissance de courriers manuscrits. Puis nous proposons deux systèmes de reconnaissance à l’état de l’art fondés sur les HMM (Hidden Markov Models) contextuels et les réseaux de neurones récurrents BLSTM (Bi-directional LongShort-Term Memory). Nous optimisons nos systèmes afin de proposer une comparaison de ces deux approches. Nos systèmes sont évalués sur l’écriture cursive latine et arabe et ont été soumis à deux compétitions internationales de reconnaissance d’écriture. Enfin, enperspective de notre travail, nous présentons une stratégie de reconnaissance pour certaines chaînes de caractères hors-vocabulaire
Handwriting recognition is an essential component of document analysis. One of the popular trends is to go from isolated word to word sequence recognition. Our work aims to propose a text-line recognition system without explicit word segmentation. In order to build an efficient model, we intervene at different levels of the recognition system. First of all, we introduce two new preprocessing techniques : a cleaning and a local baseline correction for text-lines. Then, a language model is built and optimized for handwritten mails. Afterwards, we propose two state-of-the-art recognition systems based on contextual HMMs (Hidden Markov Models) and recurrent neural networks BLSTM (Bi-directional Long Short-Term Memory). We optimize our systems in order to give a comparison of those two approaches. Our systems are evaluated on arabic and latin cursive handwritings and have been submitted to two international handwriting recognition competitions. At last, we introduce a strategy for some out-of-vocabulary character strings recognition, as a prospect of future work
26

Beltzung, Benjamin. "Utilisation de réseaux de neurones convolutifs pour mieux comprendre l’évolution et le développement du comportement de dessin chez les Hominidés". Electronic Thesis or Diss., Strasbourg, 2023. http://www.theses.fr/2023STRAJ114.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L’étude du comportement de dessin peut être très informative cognitivement et psychologiquement, tant chez les humains que chez les autres primates. Cette richesse d’information peut également être un frein à son analyse et à son interprétation, en particulier en l’absence d’explication ou verbalisation de son auteur. En effet, il est possible que l’interprétation donnée par un adulte d’un dessin ne soit pas en accord avec l’intention première du dessinateur. Durant ma thèse, j’ai montré que, bien que généralement considérés comme des boîtes noires, les réseaux de neurones convolutifs (CNNs) peuvent permettre de mieux comprendre le comportement de dessin. Dans un premier lieu, l’utilisation d’un CNN a permis de classifier des dessins d’une femelle orang-outan selon leur saison de production ainsi que de mettre en avant une variation de style et de contenu. De plus, une approche ontogénique a permis de quantifier la similarité entre des productions de différents groupes d’âges. Par la suite, des modèles plus interprétables ainsi que l’application de nouvelles méthodes d’interprétabilité pourraient permettre de mieux déchiffrer le comportement de dessin
The study of drawing behavior can be highly informative, both cognitively and psychologically, in humans and other primates. However, this wealth of information can also be a challenge to analysis and interpretation, particularly in the absence of explanation or verbalization by the author of the drawing. Indeed, an adult's interpretation of a drawing may not be in line with the artist's original intention. During my thesis, I showed that, although generally regarded as black boxes, convolutional neural networks (CNNs) can provide a better understanding of the drawing behavior. Firstly, by using a CNN to classify drawings of a female orangutan according to their season of production, and highlighting variation in style and content. In addition, an ontogenetic approach was considered to quantify the similarity between productions from different age groups. In the future, more interpretable models and the application of new interpretability methods could be applied to better decipher drawing behavior
27

Chraibi, Kaadoud Ikram. "apprentissage de séquences et extraction de règles de réseaux récurrents : application au traçage de schémas techniques". Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0032/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Deux aspects importants de la connaissance qu'un individu a pu acquérir par ses expériences correspondent à la mémoire sémantique (celle des connaissances explicites, comme par exemple l'apprentissage de concepts et de catégories décrivant les objets du monde) et la mémoire procédurale (connaissances relatives à l'apprentissage de règles ou de la syntaxe). Cette "mémoire syntaxique" se construit à partir de l'expérience et notamment de l'observation de séquences, suites d'objets dont l'organisation séquentielle obéit à des règles syntaxiques. Elle doit pouvoir être utilisée ultérieurement pour générer des séquences valides, c'est-à-dire respectant ces règles. Cette production de séquences valides peut se faire de façon explicite, c'est-à-dire en évoquant les règles sous-jacentes, ou de façon implicite, quand l'apprentissage a permis de capturer le principe d'organisation des séquences sans recours explicite aux règles. Bien que plus rapide, plus robuste et moins couteux en termes de charge cognitive que le raisonnement explicite, le processus implicite a pour inconvénient de ne pas donner accès aux règles et de ce fait, de devenir moins flexible et moins explicable. Ces mécanismes mnésiques s'appliquent aussi à l'expertise métier : la capitalisation des connaissances pour toute entreprise est un enjeu majeur et concerne aussi bien celles explicites que celles implicites. Au début, l'expert réalise un choix pour suivre explicitement les règles du métier. Mais ensuite, à force de répétition, le choix se fait automatiquement, sans évocation explicite des règles sous-jacentes. Ce changement d'encodage des règles chez un individu en général et particulièrement chez un expert métier peut se révéler problématique lorsqu'il faut expliquer ou transmettre ses connaissances. Si les concepts métiers peuvent être formalisés, il en va en général de tout autre façon pour l'expertise. Dans nos travaux, nous avons souhaité nous pencher sur les séquences de composants électriques et notamment la problématique d’extraction des règles cachées dans ces séquences, aspect important de l’extraction de l’expertise métier à partir des schémas techniques. Nous nous plaçons dans le domaine connexionniste, et nous avons en particulier considéré des modèles neuronaux capables de traiter des séquences. Nous avons implémenté deux réseaux de neurones récurrents : le modèle de Elman et un modèle doté d’unités LSTM (Long Short Term Memory). Nous avons évalué ces deux modèles sur différentes grammaires artificielles (grammaire de Reber et ses variations) au niveau de l’apprentissage, de leurs capacités de généralisation de celui-ci et leur gestion de dépendances séquentielles. Finalement, nous avons aussi montré qu’il était possible d’extraire les règles encodées (issues des séquences) dans le réseau récurrent doté de LSTM, sous la forme d’automate. Le domaine électrique est particulièrement pertinent pour cette problématique car il est plus contraint avec une combinatoire plus réduite que la planification de tâches dans des cas plus généraux comme la navigation par exemple, qui pourrait constituer une perspective de ce travail
There are two important aspects of the knowledge that an individual acquires through experience. One corresponds to the semantic memory (explicit knowledge, such as the learning of concepts and categories describing the objects of the world) and the other, the procedural or syntactic memory (knowledge relating to the learning of rules or syntax). This "syntactic memory" is built from experience and particularly from the observation of sequences of objects whose organization obeys syntactic rules.It must have the capability to aid recognizing as well as generating valid sequences in the future, i.e., sequences respecting the learnt rules. This production of valid sequences can be done either in an explicit way, that is, by evoking the underlying rules, or implicitly, when the learning phase has made it possible to capture the principle of organization of the sequences without explicit recourse to the rules. Although the latter is faster, more robust and less expensive in terms of cognitive load as compared to explicit reasoning, the implicit process has the disadvantage of not giving access to the rules and thus becoming less flexible and less explicable. These mnemonic mechanisms can also be applied to business expertise. The capitalization of information and knowledge in general, for any company is a major issue and concerns both the explicit and implicit knowledge. At first, the expert makes a choice to explicitly follow the rules of the trade. But then, by dint of repetition, the choice is made automatically, without explicit evocation of the underlying rules. This change in encoding rules in an individual in general and particularly in a business expert can be problematic when it is necessary to explain or transmit his or her knowledge. Indeed, if the business concepts can be formalized, it is usually in any other way for the expertise which is more difficult to extract and transmit.In our work, we endeavor to observe sequences of electrical components and in particular the problem of extracting rules hidden in these sequences, which are an important aspect of the extraction of business expertise from technical drawings. We place ourselves in the connectionist domain, and we have particularly considered neuronal models capable of processing sequences. We implemented two recurrent neural networks: the Elman model and a model with LSTM (Long Short Term Memory) units. We have evaluated these two models on different artificial grammars (Reber's grammar and its variations) in terms of learning, their generalization abilities and their management of sequential dependencies. Finally, we have also shown that it is possible to extract the encoded rules (from the sequences) in the recurrent network with LSTM units, in the form of an automaton. The electrical domain is particularly relevant for this problem. It is more constrained with a limited combinatorics than the planning of tasks in general cases like navigation for example, which could constitute a perspective of this work
28

Çinar, Yagmur Gizem. "Prédiction de séquences basée sur des réseaux de neurones récurrents dans le contexte des séries temporelles et des sessions de recherche d'information". Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM079.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse examine les défis de la prédiction de séquence dans différents scénarios, tels que la prédiction de séquence à l'aide de réseaux de neurones récurrents (RNN) dans le contexte des séries temporelles et des sessions de recherche d'informations (RI). Prédire les valeurs inconnues suivant certaines valeurs précédemment observées est appelée prédiction de séquence. Elle est largement applicable à de nombreux domaines où un comportement séquentiel est observé dans les données. Dans cette étude, nous nous concentrons sur deux tâches de prédiction de séquences: la prévision de séries temporelles et la prédiction de la requête suivante dans une session de recherche d'informations.Les séries temporelles comprennent souvent des pseudo-périodes, c'est-à-dire des intervalles de temps avec une forte corrélation entre les valeurs des séries temporelles. Les changements saisonniers dans les séries temporelles météorologiques ou la consommation d'électricité le jour et la nuit sont quelques exemples de pseudo-périodes. Dans un scénario de prévision, les pseudo-périodes correspondent à la différence entre les positions de la sortie prévue et les entrées spécifiques. Afin de capturer des périodes dans des RNN, une mémoire de la séquence d'entrée est requise. Les RNN séquence à séquence (avec mécanisme d'attention) réutilisent des (représentations des) valeurs d'entrée spécifiques pour prédire les valeurs de sortie. Les RNN séquence à séquence avec un mécanisme d'attention semblent convenir à la capture de périodes. Ainsi, nous explorons d’abord la capacité d’un mécanisme d’attention dans ce contexte. Cependant, selon notre analyse initiale, un mécanisme d’attention standard ne permet pas de capturer les périodes. Par conséquent, nous proposons un modèle RNN d’attention basé sur le contenu et sensible à la période. Ce modèle étend les RNN séquence à séquence de l'état de l'art avec un mécanisme d’attention. Il vise à capturer les périodes dans une série temporelle avec ou sans valeurs manquantes. Nos résultats expérimentaux avec des RNN contenant un mécanisme d'attention basé sur le contenu et sensible à la période montrent une amélioration significative des performances de prévision des séries temporelles univariées et multivariées sur plusieurs ensembles de données disponibles publiquement.La prédiction de la requête suivante est un autre défi de la prédiction de séquence. La prédiction de la requête suivante aide les utilisateurs à désambiguïser leur requête, à explorer différents aspects de leur besoin en information ou à former une requête précise et succincte qui permet d’optimiser les performances de la recherche. Une session de recherche est dynamique et les besoins en informations d'un utilisateur peuvent changer au cours d'une session de recherche à la suite des interactions de recherche. De plus, les interactions d'un utilisateur avec un moteur de recherche influencent les reformulations de requêtes de l'utilisateur. Considérant cette influence sur les formulations de requête, nous analysons d’abord l’origine des mots des requêtes suivantes. En utilisant l’analyse des sources des mots de requête, nous proposons deux approches de prédiction de requête: une vue d'ensemble et une vue de séquence. La vue d'ensemble adapte une approche de sac de mots en utilisant un nouvel ensemble de traits définis en fonction des sources d'analyse des mots des requêtes suivantes. Ici, la prochaine requête est prédite en utilisant un apprentissage de classification. La vue de séquence étend un modèle RNN hiérarchique en prenant en compte les sources des mots des requêtes suivantes dans la prédiction. Les sources des mots des requêtes suivantes sont incorporées à l'aide d'un mécanisme d'attention sur les mots d'interaction. Nous avons observé que l’utilisation de l’approche séquentielle, une formulation naturelle du problème, et l’exploitation de toutes les sources des mots permettent d’améliorer la prédiction des requêtes suivantes
This thesis investigates challenges of sequence prediction in different scenarios such as sequence prediction using recurrent neural networks (RNNs) in the context of time series and information retrieval (IR) search sessions. Predicting the unknown values that follow some previously observed values is basically called sequence prediction.It is widely applicable to many domains where a sequential behavior is observed in the data. In this study, we focus on two different types of sequence prediction tasks: time series forecasting and next query prediction in an information retrieval search session.Time series often display pseudo-periods, i.e. time intervals with strong correlation between values of time series. Seasonal changes in weather time series or electricity usage at day and night time are some examples of pseudo-periods. In a forecasting scenario, pseudo-periods correspond to the difference between the positions of the output being predicted and specific inputs.In order to capture periods in RNNs, one needs a memory of the input sequence. Sequence-to-sequence RNNs (with attention mechanism) reuse specific (representations of) input values to predict output values. Sequence-to-sequence RNNs with an attention mechanism seem to be adequate for capturing periods. In this manner, we first explore the capability of an attention mechanism in that context. However, according to our initial analysis, a standard attention mechanism did not perform well to capture the periods. Therefore, we propose a period-aware content-based attention RNN model. This model is an extension of state-of-the-art sequence-to-sequence RNNs with attention mechanism and it is aimed to capture the periods in time series with or without missing values.Our experimental results with period-aware content-based attention RNNs show significant improvement on univariate and multivariate time series forecasting performance on several publicly available data sets.Another challenge in sequence prediction is the next query prediction. The next query prediction helps users to disambiguate their search query, to explore different aspects of the information they need or to form a precise and succint query that leads to higher retrieval performance. A search session is dynamic, and the information need of a user might change over a search session as a result of the search interactions. Furthermore, interactions of a user with a search engine influence the user's query reformulations. Considering this influence on the query formulations, we first analyze where the next query words come from? Using the analysis of the sources of query words, we propose two next query prediction approaches: a set view and a sequence view.The set view adapts a bag-of-words approach using a novel feature set defined based on the sources of next query words analysis. Here, the next query is predicted using learning to rank. The sequence view extends a hierarchical RNN model by considering the sources of next query words in the prediction. The sources of next query words are incorporated by using an attention mechanism on the interaction words. We have observed using sequence approach, a natural formulation of the problem, and exploiting all sources of evidence lead to better next query prediction
29

Aussem, Alexandre. "Théorie et applications des réseaux de neurones récurrents et dynamiques à la prédiction, à la modélisation et au contrôle adaptif des processus dynamiques". Paris 5, 1995. http://www.theses.fr/1995PA05S002.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse traite des réseaux de neurones dynamiques et récurrents (DRNN) obtenus en modélisant les connexions par des filtres autorégressifs. En vertu de leur dynamique interne, ces réseaux à récurrence spatiale et temporelle approximent les lois sous-jacentes qui régissent les séries chronologiques par un système d'équations aux différences non linéaires. Un algorithme d'apprentissage local à propagation d'erreur est présente, lequel réduit substanciellement la complexité d'un algorithme à propagation avant. La procédure doit son efficacité à la décroissance exponentielle du gradient dans le réseau adjoint. Ce résultat est démontré. Le potentiel du modèle DRNN est illustré par des simulations intensives sur des séries chronologiques. Des prédictions sont effectuées sur des données astro-climatiques, des processus chaotiques générés par ordinateur et la série des sunspots. Une analyse théorique est présentée, visant à unifier la prédiction, la modélisation et le contrôle adaptatif sous un même formalisme mathématique. La gestion des ressources d'un réseau ATM est aussi explorée par l'entremise de plusieurs réseaux de neurones distribués sur les commutateurs.
30

ZEMOURI, RYAD. "Contribution à la surveillance des systèmes de production à l'aide des réseaux de neurones dynamiques : Application à la e-maintenance". Phd thesis, Université de Franche-Comté, 2003. http://tel.archives-ouvertes.fr/tel-00006003.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les méthodes de surveillance industrielle sont divisées en deux catégories : méthodes de surveillance avec modèle formel de l'équipement, et méthodes de surveillance sans modèle de l'équipement. Les modèles mathématiques formels des équipements industriels sont souvent entachés d'incertitudes et surtout difficiles à obtenir. Cette thèse présente l'application des réseaux de neurones artificiels pour la surveillance d'équipements industriels. Nous proposons une architecture de Réseaux à Fonctions de base Radiales qui exploite les propriétés dynamiques des architectures localement récurrentes pour la prise en compte de l'aspect temporel des données d'entrée. En effet, la prise en compte de l'aspect dynamique nécessite des architectures de réseaux de neurones particulières avec des algorithmes d'apprentissage souvent compliqués. Dans cette optique, nous proposons une version améliorée de l'algorithme des k-moyennes qui permet de déterminer aisément les paramètres du réseau de neurones. Des tests de validation montrent qu'à la convergence de l'algorithme d'apprentissage, le réseau de neurones se situe dans la zone appelée « zone de bonne généralisation ». Le réseau de neurones a été ensuite décomposé en fonctions élémentaires facilement interprétables en langage automate. La partie applicative de cette thèse montre qu'un traitement de surveillance en temps réel est possible grâce aux architectures à automates programmables industriels. Le réseau de neurones chargé dans l'automate est entièrement configurable à distance par le protocole de communication TCP/IP. Une connexion Internet permet alors à un expert distant de suivre l'évolution de son équipement et également de valider l'apprentissage du réseau de neurones artificiel.
31

Bourdoukan, Ralph. "Le rôle de la balance entre excitation et inhibition dans l'apprentissage dans les réseaux de neurones à spikes". Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066712/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Lorsqu'on effectue une tâche, les circuits neuronaux doivent représenter et manipuler des stimuli continus à l'aide de potentiels d'action discrets. On suppose communément que les neurones représentent les quantités continues à l'aide de leur fréquence de décharge et ceci indépendamment les un des autres. Cependant, un tel codage indépendant est inefficace puisqu'il exige la génération d'un très grand nombre de potentiels d'action pour atteindre un certain niveau de précision. Dans ces travaux, on montre que les neurones d'un réseau récurrent peuvent apprendre - à l'aide d'une règle de plasticité locale - à coordonner leurs potentiels d'actions afin de représenter l'information avec une très haute précision tout en déchargeant de façon minimale. La règle d'apprentissage qui agit sur les connexions récurrentes, conduit à un codage efficace en imposant au niveau de chaque neurone un équilibre précis entre excitation et inhibition. Cet équilibre est un phénomène fréquemment observer dans le cerveau et c'est un principe central de notre théorie. On dérive également deux autres règles d'apprentissages biologiquement plausibles qui permettent respectivement au réseau de s'adapter aux statistiques de ses entrées et d'effectuer des transformations complexes et dynamiques sur elles. Finalement, dans ces réseaux, le stochasticité du temps de décharge d'un neurone n'est pas la signature d'un bruit mais au contraire de précision et d'efficacité. Le caractère aléatoire du temps de décharge résulte de la dégénérescence de la représentation. Ceci constitue donc une interprétation radicalement différente et nouvelle de l'irrégularité trouvée dans des trains de potentiels d'actions
When performing a task, neural circuits must represent and manipulate continuous stimuli using discrete action potentials. It is commonly assumed that neurons represent continuous quantities with their firing rate and this independently from one another. However, such independent coding is very inefficient because it requires the generation of a large number of action potentials in order to achieve a certain level of accuracy. We show that neurons in a spiking recurrent network can learn - using a local plasticity rule - to coordinate their action potentials in order to represent information with high accuracy while discharging minimally. The learning rule that acts on recurrent connections leads to such an efficient coding by imposing a precise balance between excitation and inhibition at the level of each neuron. This balance is a frequently observed phenomenon in the brain and is central in our work. We also derive two biologically plausible learning rules that respectively allows the network to adapt to the statistics of its inputs and to perform complex and dynamic transformations on them. Finally, in these networks, the stochasticity of the spike timing is not a signature of noise but rather of precision and efficiency. In fact, the random nature of the spike times results from the degeneracy of the representation. This constitutes a new and a radically different interpretation of the irregularity found in spike trains
32

Boitard, Constance. "Identification des réseaux neurobiologiques gouvernant les apprentissages ambigus chez l'abeille Apis mellifera". Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30125/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'apprentissage associatif recouvre des niveaux variables de complexité, des tâches cognitives simples jusqu'à des tâches complexes qui nécessitent la résolution de discriminations ambigües. Cette thèse traite de deux protocoles présentant des ambigüités chez l'abeille, au cours desquels le blocage de la signalisation GABAergique des neurones récurrents sur les corps pédonculés, structures cérébrales majeures de l'apprentissage, est à l'origine de la perte de capacité de résolution ambigüe. Ces neurones, non requis pour les apprentissages simples, semblent donc indispensables à la résolution des ambigüités propres aux discriminations cognitives complexes et élaborées chez l'abeille
Associative learning spans different levels of complexity, from simple tasks involving simple causal relationships between events, to ambiguous tasks, in which animals have to solve complex discriminations based on non-linear associative links. We focused on two protocols presenting a temporal or configural ambiguity at the level of stimulus contingencies in honey bees (\textit{Apis mellifera}). We performed selective blockades of GABAergic signalisation from recurrent feedback neurons in the mushroom bodies (MBs), higher-order insect brain structures associated with memory storage and retrieval, and found that this blockade within the MB calyces impaired both ambiguous learning tasks, although if did not affect simple conditioning counterparts. We suggest that the A3v cluster of the GABA feedback neurons innervating the MBs calyces are thus dispensable for simple learning, but are required for counteracting stimulus ambiguity in complex discriminations in honey bees
33

Rodriguez, Guillaume. "Modélisation des bases neuronales de la mémoire de travail paramétrique dans le cortex préfrontal". Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066340/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La mémoire de travail paramétrique - la capacité fondamentale à maintenir et à manipuler des informations quantitatives de façon transitoire - est essentielle à de nombreuses fonctions centrales (perception, action, décision, contrôle comportemental, cognition). À l'échelle des neurones du cortex préfrontal, la mémoire de travail paramétrique s'exprime au travers d'activités persistantes de fréquence gradée (multistabilité) codant l'amplitude d'informations quantitatives passées (p.ex. une quantité psychophysique, un nombre d'items), dont l'origine causale demeure incomprise. En simulant des modèles biophysiques détaillés et en analysant formellement leur version simplifiée, j'ai 1) étudié les propriétés de mémoire cellulaire de neurones de couche V du cortex préfrontal, munis de courants supraliminaires, et 2) évalué le rôle possible de ces propriétés dans les processus de maintien gradé de l'activité persistante au sein des réseaux récurrents préfrontaux. Ces modèles réalistes m'ont permis de proposer 1) l'existence d'une forme particulière de bistabilité cellulaire flexible, dont l'expression est conditionnée à l'historique de régulation des propriétés intrinsèques et à la nature de la stimulation perçue (présent) et 2) que cette bistabilité cellulaire peut, par son interaction avec la réverbération d'activité synaptique, participer à l'émergence des dynamiques collectives persistantes gradées des réseaux préfrontaux, le corrélât neuronal de la mémoire de travail paramétrique
Parametric working memory – the fundamental ability to maintain and manipulate quantitative information transiently – is critical to many core brain functions (perception, action, decision, behavioral control, cognition). Across neurons of the prefrontal cortex, parametric working memory is expressed through persistent graded activities (multistability) encoding the amplitude of past quantitative information (e.g. a psychophysical quantity, a number of items). The causal origin of this multistability remains unclear. Using biophysical and analytical models, I first studied the mnemonic properties of individual neurons endowed with supraliminar conductances. I then evaluated the possible role of these properties in maintaining persistent graded activities in prefrontal recurrent networks. These realistic models suggest 1) the existence of a flexible form of cellular bistability, conditioned to the historical regulation of the intrinsic properties and the nature of the stimulation and 2) that this cellular bistability could participate, in interaction with synaptic reverberation, to the emergence of persistent graded collective dynamics in prefrontal networks, the neural correlate of parametric working memory
34

Biasutto-Lervat, Théo. "Modélisation de la coarticulation multimodale : vers l'animation d'une tête parlante intelligible". Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0019.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Nous traitons dans cette thèse la modélisation de la coarticulation par les réseaux de neurones, dans l’objectif de synchroniser l’animation d’un visage virtuel 3D à de la parole. La prédiction de ces mouvements articulatoires n’est pas une tâche triviale, en effet, il est bien établi en production de parole que la réalisation d’un phonème est largement influencée par son contexte phonétique, phénomène appelé coarticulation. Nous proposons dans cette thèse un modèle de coarticulation, c’est-à-dire un modèle qui prédit les trajectoires spatiales des articulateurs à partir de la parole. Nous exploiterons pour cela un modèle séquentiel, les réseaux de neurones récurrents (RNN), et plus particulièrement les Gated Recurrent Units, capables de considérer la dynamique de l’articulation au cœur de leur modélisation. Malheureusement, la quantité de données classiquement disponible dans les corpus articulatoires et audiovisuels semblent de prime-abord faibles pour une approche deep learning. Pour pallier cette difficulté, nous proposons une stratégie permettant de fournir au modèle des connaissances sur les gestes articulatoires du locuteur dès son initialisation. La robustesse des RNNs nous a permis d’implémenter notre modèle de coarticulation pour prédire les mouvements des lèvres pour le français et l’allemand, et de la langue pour l’anglais et l’allemand. L’évaluation du modèle fut réalisée par le biais de mesures objectives de la qualité des trajectoires et par des expériences permettant de valider la bonne réalisation des cibles articulatoires critiques. Nous avons également réalisé une évaluation perceptive de la qualité de l’animation des lèvres du visage parlant. Enfin, nous avons conduit une analyse permettant d’explorer les connaissances phonétiques acquises par le modèle après apprentissage
This thesis deals with neural network based coarticulation modeling, and aims to synchronize facial animation of a 3D talking head with speech. Predicting articulatory movements is not a trivial task, as it is well known that production of a phoneme is greatly affected by its phonetic context, a phoneme called coarticulation. We propose in this work a coarticulation model, i.e. a model able to predict spatial trajectories of articulators from speech. We rely on a sequential model, the recurrent neural networks, and more specifically the Gated Recurrent Units, which are able to consider the articulation dynamic as a central component of its modeling. Unfortunately, the typical amount of data in articulatory and audiovisual databases seems to be quite low for a deep learning approach. To overcome this difficulty, we propose to integrate articulatory knowledge into the networks during its initialization. The RNNs robustness allow uw to apply our coarticulation model to predict both face and tongue movements, in french and german for the face, and in english and german for the tongue. Evaluation has been conducted through objective measures of the trajectories, and through experiments to ensure a complete reach of critical articulatory targets. We also conducted a subjective evaluation to attest the perceptual quality of the predicted articulation once applied to our facial animation system. Finally, we analyzed the model after training to explore phonetic knowledges learned
35

Helson, Pascal. "Étude de la plasticité pour des neurones à décharge en interaction". Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4013.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans cette thèse nous étudions un phénomène susceptible d’être responsable de notre capacité de mémoire: la plasticité synaptique. C’est le changement des liens entre les neurones au cours du temps. Ce phénomène est stochastique: c’est le résultat d’une suite de divers et nombreux mécanismes chimiques. Le but de la thèse est de proposer un modèle de plasticité pour des neurones à décharge en interaction. La principale difficulté consiste à trouver un modèle qui satisfait les conditions suivantes: ce modèle doit être à la fois cohérent avec les résultats biologiques dans le domaine et assez simple pour être étudié mathématiquement et simulé avec un grand nombre de neurones.Dans un premier temps, à partir d’un modèle assez simple de plasticité, on étudie l’apprentissage de signaux extérieurs par un réseau de neurones ainsi que le temps d’oubli de ce signal lorsque le réseau est soumis à d’autres signaux (bruit). L’analyse mathématique nous permet de contrôler la probabilité d’une mauvaise évaluation du signal. On en déduit un minorant du temps de mémoire du signal en fonction des paramètres.Ensuite, nous proposons un modèle basé sur des règles stochastiques de plasticité fonction du temps d’occurrence des décharges électriques neurales (STDP en anglais). Ce modèle est décrit par un Processus de Markov Déterministe par Morceaux (PDMP en anglais). On étudie le comportement en temps long d’un tel réseau de neurones grâce à une analyse lent-rapide. En particulier, on trouve des conditions suffisantes pour lesquelles le processus associé aux poids synaptiques est ergodique.Enfin, nous faisons le lien entre deux niveaux de modélisation: l’approche microscopique et celle macroscopique. À partir des dynamiques présentées d’un point de vu microscopique (modèle du neurone et son interaction avec les autres neurones), on détermine une dynamique limite qui représente l’évolution d’un neurone typique et de ses poids synaptiques entrant: c’est l’analyse champ moyen du modèle. On condense ainsi l’information sur la dynamique des poids et celle des neurones dans une seule équation, celle d’un neurone typique
In this thesis, we study a phenomenon that may be responsible for our memory capacity: the synaptic plasticity. It modifies the links between neurons over time. This phenomenon is stochastic: it is the result of a series of diverse and numerous chemical processes. The aim of the thesis is to propose a model of plasticity for interacting spiking neurons. The main difficulty is to find a model that satisfies the following conditions: it must be both consistent with the biological results of the field and simple enough to be studied mathematically and simulated with a large number of neurons.In a first step, from a rather simple model of plasticity, we study the learning of external signals by a neural network as well as the forgetting time of this signal when the network is subjected to other signals (noise). The mathematical analysis allows us to control the probability to misevaluate the signal. From this, we deduce explicit bounds on the time during which a given signal is kept in memory.Next, we propose a model based on stochastic rules of plasticity as a function of the occurrence time of the neural electrical discharges (Spike Timing Dependent Plasticity, STDP). This model is described by a Piecewise Deterministic Markov Process (PDMP). The long time behaviour of such a neural network is studied using a slow-fast analysis. In particular, sufficient conditions are established under which the process associated with synaptic weights is ergodic. Finally, we make the link between two levels of modelling: the microscopic and the macroscopic approaches. Starting from the dynamics presented at a microscopic level (neuron model and its interaction with other neurons), we derive an asymptotic dynamics which represents the evolution of a typical neuron and its incoming synaptic weights: this is the mean field analysis of the model. We thus condense the information on the dynamics of the weights and that of the neurons into a single equation, that of a typical neuron
36

Moinnereau, Marc-Antoine. "Encodage d'un signal audio dans un électroencéphalogramme". Mémoire, Université de Sherbrooke, 2017. http://hdl.handle.net/11143/10554.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les interfaces cerveau-machine visent à établir un lien de communication entre le cerveau et un système externe à ce dernier. Les électroencéphalogrammes (EEG), dans ce contexte, ont l’avantage d’être non invasifs. Par contre, l’information sensorielle qui se retrouve dans un signal EEG est beaucoup moins ciblée que dans un signal neuronal acquis par une méthode invasive. De plus, étant donné que le cortex auditif est situé dans des repliements du tissu cortical, les neurones qui déchargent, suite à un stimulus auditif, sont parallèles à la surface corticale sur laquelle les EEG sont enregistrés. Par conséquent, l’information auditive qui se retrouve dans le canal EEG situé vis-à-vis du cortex auditif est faible. L’objectif principal de ce projet de recherche consiste donc à étudier la répartition de l’information auditive dans l’ensemble des canaux EEG. Pour ce faire, nous utilisons deux approches. Dans la première, nous tenterons d’estimer l’activité corticale sous-jacente à partir des signaux EEG en utilisant un modèle de couplage bande fréquence. En effet, certaines bandes de fréquences sont des bons prédicteurs des décharges neuronales. Cependant, cette approche n’a pas été validée pour le système auditif, nous confronterons donc l’estimation obtenue à une autre estimation en ayant recours à un modèle spécialisé pour l’encodage du signal de parole faisant appel aux processus ponctuels. Ce modèle prend en compte les dynamiques intrasèques des neurones et également des propriétés spectrotemporelles du stimulus d’entrée. Dans la seconde approche, nous étudierons la possibilité de classifier 3 voyelles (a, i et u) en fonction du nombre de canaux EEG utilisés ainsi que leur répartition sur le cuir chevelu. Nous aurons recours, pour cela, à un réservoir de neurone à décharge récurrent activé en entrée par les données EEG. Les résultats démontrent que l’information auditive se retrouve en fait dans l’ensemble des canaux EEG et qu’elle n’est pas confinée à un nombre restreint d’électrodes. Il est également montré que lorsque l’on utilise les 64 électrodes que comporte l’EEG pour classifier les 3 voyelles, on obtient une classification de l’ordre de 80%, mais aussi qu’un nombre limité de 10 électrodes suffit pour obtenir une classification satisfaisante et, qu’en plus, la position de ces électrodes sur le cuir chevelu est peu importante.
37

Cabana, Tanguy. "Large deviations for the dynamics of heterogeneous neural networks". Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066551/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse porte sur l'obtention rigoureuse de limites de champ moyen pour la dynamique continue de grands réseaux de neurones hétérogènes. Nous considérons des neurones à taux de décharge, et sujets à un bruit Brownien additif. Le réseau est entièrement connecté, avec des poids de connections dont la variance décroît comme l'inverse du nombre de neurones conservant un effet non trivial dans la limite thermodynamique. Un second type d'hétérogénéité, interprété comme une position spatiale, est considéré au niveau de chaque cellule. Pour la pertinence biologique, nos modèles incluent ou bien des délais, ainsi que des moyennes et variances de connections, dépendants de la distance entre les cellules, ou bien des synapses dépendantes de l'état des deux neurones post- et présynaptique. Ce dernier cas s'applique au modèle de Kuramoto pour les oscillateurs couplés. Quand les poids synaptiques sont Gaussiens et indépendants, nous prouvons un principe de grandes déviations pour la mesure empirique de l'état des neurones. La bonne fonction de taux associée atteint son minimum en une unique mesure de probabilité, impliquant convergence et propagation du chaos sous la loi "averaged". Dans certains cas, des résultats "quenched" sont obtenus. La limite est solution d'une équation implicite, non Markovienne, dans laquelle le terme d'interactions est remplacé par un processus Gaussien qui dépend de la loi de la solution du réseau entier. Une universalité de cette limite est prouvée, dans le cas de poids synaptiques non-Gaussiens avec queues sous-Gaussiennes. Enfin, quelques résultats numérique sur les réseau aléatoires sont présentés, et des perspectives discutées
This thesis addresses the rigorous derivation of mean-field results for the continuous time dynamics of heterogeneous large neural networks. In our models, we consider firing-rate neurons subject to additive noise. The network is fully connected, with highly random connectivity weights. Their variance scales as the inverse of the network size, and thus conserves a non-trivial role in the thermodynamic limit. Moreover, another heterogeneity is considered at the level of each neuron. It is interpreted as a spatial location. For biological relevance, a model considered includes delays, mean and variance of connections depending on the distance between cells. A second model considers interactions depending on the states of both neurons at play. This last case notably applies to Kuramoto's model of coupled oscillators. When the weights are independent Gaussian random variables, we show that the empirical measure of the neurons' states satisfies a large deviations principle, with a good rate function achieving its minimum at a unique probability measure, implying averaged convergence of the empirical measure and propagation of chaos. In certain cases, we also obtained quenched results. The limit is characterized through a complex non Markovian implicit equation in which the network interaction term is replaced by a non-local Gaussian process whose statistics depend on the solution over the whole neural field. We further demonstrate the universality of this limit, in the sense that neuronal networks with non-Gaussian interconnections but sub-Gaussian tails converge towards it. Moreover, we present a few numerical applications, and discuss possible perspectives
38

Buniet, Laurent. "Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques". Phd thesis, Université Henri Poincaré - Nancy I, 1997. http://tel.archives-ouvertes.fr/tel-00629285.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les recherches effectuées dans le domaine de la reconnaissance automatique de la parole (RAP) permettent d'envisager un éventail toujours plus large d'applications industrielles ou grand public. Cependant, la compréhension des mécanismes de production et de reconnaissance de la parole par l'Homme ne suffit pas en elle-même pour élaborer effectivement les dites applications. Les conditions de laboratoire qui ont prévalues lors de l'enregistrement des premiers corpus de parole utilisés à des fins de recherches sont en effet très différentes des conditions réelles que l'on rencontre généralement dans les lieux de travail ou de vie. Ayant le plus souvent été enregistrés en chambre anéchoïde, ces corpus ne permettaient pas plus d'appréhender les dégradations que le milieu peut engendrer sur le signal de parole que de constater quelles pouvaient être les modifications provoquées sur ce signal par un locuteur essayant de s'adapter à son milieu. Certaines des recherches actuelles en RAP essaient donc d'améliorer les capacités de résistance au bruit des systèmes existants. Pour ce faire, il est possible d'utiliser un système d'abord défini pour la reconnaissance de la parole non bruitée en lui ajoutant un mécanisme lui permettant de s'adapter à certaines conditions de bruit. Il est également possible de définir un système ab-nihilo qui soit tout aussi bien adapté aux conditions non bruitées qu'aux conditions bruitées. Le sujet de cette thèse porte sur la reconnaissance de petits vocabulaires, tels que les lettres ou les chiffres, prononcés de manière continue en milieu bruité. Pour mener à bien cette étude, différentes architectures connexionnistes ont été étudiées. L'utilisation de modèles connexionnistes nous a permis de mettre au point, grâce au mécanisme d'apprentissage, des systèmes qui sont immédiatement adaptés à différentes conditions de bruit. Un premier système a été mis en place qui permet, en trois étapes, de reconnaître les mots du vocabulaire étudié. Une première étape identifie des points d'ancrage dans le signal, ces points d'ancrage correspondant à une segmentation des parties vocaliques du signal. Une deuxième étape permet de reconnaître les voyelles contenues dans les segments retenus alors qu'une troisième étape permet de distinguer les différents mots du vocabulaire qui possèdent les mêmes voyelles. Cette architecture, basée sur des perceptrons multicouches, a prouvé être de bonne qualité mais l'étape de segmentation s'est révélée être de moindre qualité à des rapports signal sur bruit faible c'est à dire de l'ordre de 6 décibels ou moins. Ceci nous a poussé à étudier des modèles connexionnistes dynamiques, à l'opposé des perceptrons multicouches qui sont des modèles statiques. Les modèles dynamiques ont la particularité de mettre en place des mécanismes de récurrence qui permettent de mieux appréhender les phénomènes temporels tel que peut l'être un problème de segmentation de la parole. Le modèle gamma, un modèle connexionniste à récurrence locale, a ainsi été choisi tout autant pour ses capacités à modéliser les évènements temporels que pour la facilité avec laquelle il peut être analysé. Il a été appliqué à des problèmes de reconnaissance de séquences, ce qui a permis d'explorer ses capacités, ainsi qu'à des tâches de segmentation, pour tenter de résoudre les problèmes posés par les perceptrons multicouches lors de l'utilisation de notre premier système.
39

Abdelouahab, Kamel. "Reconfigurable hardware acceleration of CNNs on FPGA-based smart cameras". Thesis, Université Clermont Auvergne‎ (2017-2020), 2018. http://www.theses.fr/2018CLFAC042/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les Réseaux de Neurones Convolutifs profonds (CNNs) ont connu un large succès au cours de la dernière décennie, devenant un standard de la vision par ordinateur. Ce succès s’est fait au détriment d’un large coût de calcul, où le déploiement des CNNs reste une tâche ardue surtout sous des contraintes de temps réel.Afin de rendre ce déploiement possible, la littérature exploite le parallélisme important de ces algorithmes, ce qui nécessite l’utilisation de plate-formes matérielles dédiées. Dans les environnements soumis à des contraintes de consommations énergétiques, tels que les nœuds des caméras intelligentes, les cœurs de traitement à base de FPGAs sont reconnus comme des solutions de choix pour accélérer les applications de vision par ordinateur. Ceci est d’autant plus vrai pour les CNNs, où les traitements se font naturellement sur un flot de données, rendant les architectures matérielles à base de FPGA d’autant plus pertinentes. Dans ce contexte, cette thèse aborde les problématiques liées à l’implémentation des CNNs sur FPGAs. En particulier, ces travaux visent à améliorer l’efficacité des implantations grâce à deux principales stratégies d’optimisation; la première explore le modèle et les paramètres des CNNs, tandis que la seconde se concentre sur les architectures matérielles adaptées au FPGA
Deep Convolutional Neural Networks (CNNs) have become a de-facto standard in computer vision. This success came at the price of a high computational cost, making the implementation of CNNs, under real-time constraints, a challenging task.To address this challenge, the literature exploits the large amount of parallelism exhibited by these algorithms, motivating the use of dedicated hardware platforms. In power-constrained environments, such as smart camera nodes, FPGA-based processing cores are known to be adequate solutions in accelerating computer vision applications. This is especially true for CNN workloads, which have a streaming nature that suits well to reconfigurable hardware architectures.In this context, the following thesis addresses the problems of CNN mapping on FPGAs. In Particular, it aims at improving the efficiency of CNN implementations through two main optimization strategies; The first one focuses on the CNN model and parameters while the second one considers the hardware architecture and the fine-grain building blocks
40

Adam, Chloé. "Pattern Recognition in the Usage Sequences of Medical Apps". Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLC027/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les radiologues utilisent au quotidien des solutions d'imagerie médicale pour le diagnostic. L'amélioration de l'expérience utilisateur est toujours un axe majeur de l'effort continu visant à améliorer la qualité globale et l'ergonomie des produits logiciels. Les applications de monitoring permettent en particulier d'enregistrer les actions successives effectuées par les utilisateurs dans l'interface du logiciel. Ces interactions peuvent être représentées sous forme de séquences d'actions. Sur la base de ces données, ce travail traite de deux sujets industriels : les pannes logicielles et l'ergonomie des logiciels. Ces deux thèmes impliquent d'une part la compréhension des modes d'utilisation, et d'autre part le développement d'outils de prédiction permettant soit d'anticiper les pannes, soit d'adapter dynamiquement l'interface logicielle en fonction des besoins des utilisateurs. Tout d'abord, nous visons à identifier les origines des crashes du logiciel qui sont essentielles afin de pouvoir les corriger. Pour ce faire, nous proposons d'utiliser un test binomial afin de déterminer quel type de pattern est le plus approprié pour représenter les signatures de crash. L'amélioration de l'expérience utilisateur par la personnalisation et l'adaptation des systèmes aux besoins spécifiques de l'utilisateur exige une très bonne connaissance de la façon dont les utilisateurs utilisent le logiciel. Afin de mettre en évidence les tendances d'utilisation, nous proposons de regrouper les sessions similaires. Nous comparons trois types de représentation de session dans différents algorithmes de clustering. La deuxième contribution de cette thèse concerne le suivi dynamique de l'utilisation du logiciel. Nous proposons deux méthodes -- basées sur des représentations différentes des actions d'entrée -- pour répondre à deux problématiques industrielles distinctes : la prédiction de la prochaine action et la détection du risque de crash logiciel. Les deux méthodologies tirent parti de la structure récurrente des réseaux LSTM pour capturer les dépendances entre nos données séquentielles ainsi que leur capacité à traiter potentiellement différents types de représentations d'entrée pour les mêmes données
Radiologists use medical imaging solutions on a daily basis for diagnosis. Improving user experience is a major line of the continuous effort to enhance the global quality and usability of software products. Monitoring applications enable to record the evolution of various software and system parameters during their use and in particular the successive actions performed by the users in the software interface. These interactions may be represented as sequences of actions. Based on this data, this work deals with two industrial topics: software crashes and software usability. Both topics imply on one hand understanding the patterns of use, and on the other developing prediction tools either to anticipate crashes or to dynamically adapt software interface according to users' needs. First, we aim at identifying crash root causes. It is essential in order to fix the original defects. For this purpose, we propose to use a binomial test to determine which type of patterns is the most appropriate to represent crash signatures. The improvement of software usability through customization and adaptation of systems to each user's specific needs requires a very good knowledge of how users use the software. In order to highlight the trends of use, we propose to group similar sessions into clusters. We compare 3 session representations as inputs of different clustering algorithms. The second contribution of our thesis concerns the dynamical monitoring of software use. We propose two methods -- based on different representations of input actions -- to address two distinct industrial issues: next action prediction and software crash risk detection. Both methodologies take advantage of the recurrent structure of LSTM neural networks to capture dependencies among our sequential data as well as their capacity to potentially handle different types of input representations for the same data
41

Dridi, Aicha. "A novel efficient time series deep learning approach using classification, prediction and reinforcement : energy and telecom use case". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS010.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La croissance massive des capteurs (température, humidité, accéléromètre, capteur de position) et des appareils mobiles (smartphones, tablettes, smartwatch …) fait que la quantité de données générées augmente de manière explosive. Cette immense quantité de données peut être collectée et gérée. Le travail réalisé durant cette thèse vise à proposer en un premier temps une approche qui traite un type de données spécifique qui sont les séries temporelles. Pour ce faire nous avons utilisé des méthodes de classification basées sur des réseaux de neurones convolutifs ainsi que des multi layer perceptron afin d'extraire les informations pertinentes. Nous avons par la suite eu recours à l'utilisation des réseaux de neurones récurrents pour réaliser les prédictions. Les données utilisées provenaient de plusieurs sources : Données de consommation énergétique, données de production d'énergies renouvelables, données cellulaires, données de trace GPS de taxi. Nous avons également investigué plusieurs autres méthodes telles que la compression sémantique ainsi que le transfer learning. Les deux méthodes décrites précédemment nous permettent pour la première de ne transmettre que les poids des réseaux de neurones ou en cas d'anomalie détectée d'envoyer les données la constituant. Le transfer learning nous permet quant à lui de réaliser de bonnes prédictions même si les données traitées souffrent d'un manque ou d'un bruit. Ces traitements nous ont permis par la suite de mettre en place des mécanismes dynamiques de détection d'anomalie. L'objectif du dernier volet de la thèse est le développement et l'implémentation d'une solution de management des ressources ayant comme entrée le résultat des phases précédentes. Pour mettre en place cette solution de gestion des ressources nous avons utilisé plusieurs approches tel que l'apprentissage par renforcement, la résolution exacte ou encore des réseaux de neurones récurrents. Une première application est la mise en place d'un système de management de l'énergie et la seconde est la gestion du déploiement des drones pour assister les réseaux cellulaires en cas d'anomalies
The massive growth of sensors (temperature, humidity, accelerometer, position sensor) and mobile devices (smartphones, tablets, smartwatches) increases the amount of data generated explosively. This immense amount of data can be collected and managed. The work carried out during this thesis aims first to propose an approach that deals with a specific type of data, which are time series. First, we used classification methods based on convolutional neural networks and multilayer perceptrons to extract the relevant information. We then used recurrent neural networks to make the predictions. We treated several time series data: energy, cellular, and GPS taxi track data. We also investigated several other methods like as semantic compression and transfer learning. The two described methods above allow us for the first to transmit only the weight of the neural networks, or if an anomaly is detected, send the anomalous data. Transfer learning allows us to make good predictions even if the data is missing or noisy. These methods allowed us to set up dynamic anomaly detection mechanisms. The objective of the last part of the thesis is to develop and implement a resource management solution having as input the result of the previous phases. We used several methods to implement this resource management solution, such as reinforcement learning, exact resolution, or recurrent neural networks. The first application is the implementation of an energy management system. The second application is the management of the deployment of drones to assist cellular networks when an anomaly occurs
42

Chen, Dexiong. "Modélisation de données structurées avec des machines profondes à noyaux et des applications en biologie computationnelle". Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM070.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le développement d'algorithmes efficaces pour apprendre des représentations appropriées des données structurées, telles des sequences ou des graphes, est un défi majeur et central de l'apprentissage automatique. Pour atteindre cet objectif, l'apprentissage profond est devenu populaire pour modéliser des données structurées. Les réseaux de neurones profonds ont attiré une attention particulière dans divers domaines scientifiques tels que la vision par ordinateur, la compréhension du langage naturel ou la biologie. Par exemple, ils fournissent aux biologistes des outils de calcul qui leur permettent de comprendre et de découvrir les propriétés biologiques ou les relations entre les macromolécules des organismes vivants. Toutefois, leur succès dans ces domaines repose essentiellement sur des connaissances empiriques ainsi que d'énormes quantités de données annotées. Exploiter des modèles plus efficaces est nécessaire car les données annotées sont souvent rares.Un autre axe de recherche est celui des méthodes à noyaux, qui fournissent une approche systématique et fondée sur des principes théoriquement solides pour l'apprentissage de modèles non linéaires à partir de données de structure arbitraire. Outre leur simplicité, elles présentent une manière naturelle de contrôler la régularisation et ainsi d'éviter le surapprentissage.Cependant, les représentations de données fournies par les méthodes à noyaux ne sont définies que par des caractéristiques artisanales simplement conçues, ce qui les rend moins performantes que les réseaux de neurones lorsque suffisamment de données étiquetées sont disponibles. Des noyaux plus complexes, inspirés des connaissances préalables utilisées dans les réseaux de neurones, ont ainsi été développés pour construire des représentations plus riches et ainsi combler cette lacune. Pourtant, ils sont moins adaptatifs. Par comparaison, les réseaux de neurones sont capables d'apprendre une représentation compacte pour une tâche d'apprentissage spécifique, ce qui leur permet de conserver l'expressivité de la représentation tout en s'adaptant à une grande taille d'échantillon.Il est donc utile d'intégrer les vues complémentaires des méthodes à noyaux et des réseaux de neurones profonds pour construire de nouveaux cadres afin de bénéficier du meilleur des deux mondes.Dans cette thèse, nous construisons un cadre général basé sur les noyaux pour la modélisation des données structurées en tirant parti des connaissances préalables des méthodes à noyaux classiques et des réseaux profonds. Notre cadre fournit des outils algorithmiques efficaces pour l'apprentissage de représentations sans annotations ainsi que pour l'apprentissage de représentations plus compactes de manière supervisée par les tâches. Notre cadre peut être utilisé pour modéliser efficacement des séquences et des graphes avec une interprétation simple. Il offre également de nouvelles perspectives sur la construction des noyaux et de réseaux de neurones plus expressifs pour les séquences et les graphes
Developing efficient algorithms to learn appropriate representations of structured data, including sequences or graphs, is a major and central challenge in machine learning. To this end, deep learning has become popular in structured data modeling. Deep neural networks have drawn particular attention in various scientific fields such as computer vision, natural language understanding or biology. For instance, they provide computational tools for biologists to possibly understand and uncover biological properties or relationships among macromolecules within living organisms. However, most of the success of deep learning methods in these fields essentially relies on the guidance of empirical insights as well as huge amounts of annotated data. Exploiting more data-efficient models is necessary as labeled data is often scarce.Another line of research is kernel methods, which provide a systematic and principled approach for learning non-linear models from data of arbitrary structure. In addition to their simplicity, they exhibit a natural way to control regularization and thus to avoid overfitting.However, the data representations provided by traditional kernel methods are only defined by simply designed hand-crafted features, which makes them perform worse than neural networks when enough labeled data are available. More complex kernels inspired by prior knowledge used in neural networks have thus been developed to build richer representations and thus bridge this gap. Yet, they are less scalable. By contrast, neural networks are able to learn a compact representation for a specific learning task, which allows them to retain the expressivity of the representation while scaling to large sample size.Incorporating complementary views of kernel methods and deep neural networks to build new frameworks is therefore useful to benefit from both worlds.In this thesis, we build a general kernel-based framework for modeling structured data by leveraging prior knowledge from classical kernel methods and deep networks. Our framework provides efficient algorithmic tools for learning representations without annotations as well as for learning more compact representations in a task-driven way. Our framework can be used to efficiently model sequences and graphs with simple interpretation of predictions. It also offers new insights about designing more expressive kernels and neural networks for sequences and graphs
43

Caye, Daudt Rodrigo. "Convolutional neural networks for change analysis in earth observation images with noisy labels and domain shifts". Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT033.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'analyse de l'imagerie satellitaire et aérienne d'observation de la Terre nous permet d'obtenir des informations précises sur de vastes zones. Une analyse multitemporelle de telles images est nécessaire pour comprendre l'évolution de ces zones. Dans cette thèse, les réseaux de neurones convolutifs sont utilisés pour détecter et comprendre les changements en utilisant des images de télédétection provenant de diverses sources de manière supervisée et faiblement supervisée. Des architectures siamoises sont utilisées pour comparer des paires d'images recalées et identifier les pixels correspondant à des changements. La méthode proposée est ensuite étendue à une architecture de réseau multitâche qui est utilisée pour détecter les changements et effectuer une cartographie automatique simultanément, ce qui permet une compréhension sémantique des changements détectés. Ensuite, un filtrage de classification et un nouvel algorithme de diffusion anisotrope guidée sont utilisés pour réduire l'effet du bruit d'annotation, un défaut récurrent pour les ensembles de données à grande échelle générés automatiquement. Un apprentissage faiblement supervisé est également réalisé pour effectuer une détection de changement au niveau des pixels en utilisant uniquement une supervision au niveau de l'image grâce à l'utilisation de cartes d'activation de classe et d'une nouvelle couche d'attention spatiale. Enfin, une méthode d'adaptation de domaine fondée sur un entraînement adverse est proposée. Cette méthode permet de projeter des images de différents domaines dans un espace latent commun où une tâche donnée peut être effectuée. Cette méthode est testée non seulement pour l'adaptation de domaine pour la détection de changement, mais aussi pour la classification d'images et la segmentation sémantique, ce qui prouve sa polyvalence
The analysis of satellite and aerial Earth observation images allows us to obtain precise information over large areas. A multitemporal analysis of such images is necessary to understand the evolution of such areas. In this thesis, convolutional neural networks are used to detect and understand changes using remote sensing images from various sources in supervised and weakly supervised settings. Siamese architectures are used to compare coregistered image pairs and to identify changed pixels. The proposed method is then extended into a multitask network architecture that is used to detect changes and perform land cover mapping simultaneously, which permits a semantic understanding of the detected changes. Then, classification filtering and a novel guided anisotropic diffusion algorithm are used to reduce the effect of biased label noise, which is a concern for automatically generated large-scale datasets. Weakly supervised learning is also achieved to perform pixel-level change detection using only image-level supervision through the usage of class activation maps and a novel spatial attention layer. Finally, a domain adaptation method based on adversarial training is proposed, which succeeds in projecting images from different domains into a common latent space where a given task can be performed. This method is tested not only for domain adaptation for change detection, but also for image classification and semantic segmentation, which proves its versatility
44

Pham, Huy-Hieu. "Architectures d'apprentissage profond pour la reconnaissance d'actions humaines dans des séquences vidéo RGB-D monoculaires : application à la surveillance dans les transports publics". Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30145.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse porte sur la reconnaissance d'actions humaines dans des séquences vidéo RGB-D monoculaires. La question principale est, à partir d'une vidéo ou d'une séquence d'images donnée, de savoir comment reconnaître des actions particulières qui se produisent. Cette tâche est importante et est un défi majeur à cause d'un certain nombre de verrous scientifiques induits par la variabilité des conditions d'acquisition, comme l'éclairage, la position, l'orientation et le champ de vue de la caméra, ainsi que par la variabilité de la réalisation des actions, notamment de leur vitesse d'exécution. Pour surmonter certaines de ces difficultés, dans un premier temps, nous examinons et évaluons les techniques les plus récentes pour la reconnaissance d'actions dans des vidéos. Nous proposons ensuite une nouvelle approche basée sur des réseaux de neurones profonds pour la reconnaissance d'actions humaines à partir de séquences de squelettes 3D. Deux questions clés ont été traitées. Tout d'abord, comment représenter la dynamique spatio-temporelle d'une séquence de squelettes pour exploiter efficacement la capacité d'apprentissage des représentations de haut niveau des réseaux de neurones convolutifs (CNNs ou ConvNets). Ensuite, comment concevoir une architecture de CNN capable d'apprendre des caractéristiques spatio-temporelles discriminantes à partir de la représentation proposée dans un objectif de classification. Pour cela, nous introduisons deux nouvelles représentations du mouvement 3D basées sur des squelettes, appelées SPMF (Skeleton Posture-Motion Feature) et Enhanced-SPMF, qui encodent les postures et les mouvements humains extraits des séquences de squelettes sous la forme d'images couleur RGB. Pour les tâches d'apprentissage et de classification, nous proposons différentes architectures de CNNs, qui sont basées sur les modèles Residual Network (ResNet), Inception-ResNet-v2, Densely Connected Convolutional Network (DenseNet) et Efficient Neural Architecture Search (ENAS), pour extraire des caractéristiques robustes de la représentation sous forme d'image que nous proposons et pour les classer. Les résultats expérimentaux sur des bases de données publiques (MSR Action3D, Kinect Activity Recognition Dataset, SBU Kinect Interaction, et NTU-RGB+D) montrent que notre approche surpasse les méthodes de l'état de l'art. Nous proposons également une nouvelle technique pour l'estimation de postures humaines à partir d'une vidéo RGB. Pour cela, le modèle d'apprentissage profond appelé OpenPose est utilisé pour détecter les personnes et extraire leur posture en 2D. Un réseau de neurones profond est ensuite proposé pour apprendre la transformation permettant de reconstruire ces postures en trois dimensions. Les résultats expérimentaux sur la base de données Human3.6M montrent l'efficacité de la méthode proposée. Ces résultats ouvrent des perspectives pour une approche de la reconnaissance d'actions humaines à partir des séquences de squelettes 3D sans utiliser des capteurs de profondeur comme la Kinect. Nous avons également constitué la base CEMEST, une nouvelle base de données RGB-D illustrant des comportements de passagers dans les transports publics. Elle contient 203 vidéos de surveillance collectées dans une station du métro incluant des événements "normaux" et "anormaux". Nous avons obtenu des résultats prometteurs sur cette base en utilisant des techniques d'augmentation de données et de transfert d'apprentissage. Notre approche permet de concevoir des applications basées sur des techniques de l'apprentissage profond pour renforcer la qualité des services de transport en commun
This thesis is dealing with automatic recognition of human actions from monocular RGB-D video sequences. Our main goal is to recognize which human actions occur in unknown videos. This problem is a challenging task due to a number of obstacles caused by the variability of the acquisition conditions, including the lighting, the position, the orientation and the field of view of the camera, as well as the variability of actions which can be performed differently, notably in terms of speed. To tackle these problems, we first review and evaluate the most prominent state-of-the-art techniques to identify the current state of human action recognition in videos. We then propose a new approach for skeleton-based action recognition using Deep Neural Networks (DNNs). Two key questions have been addressed. First, how to efficiently represent the spatio-temporal patterns of skeletal data for fully exploiting the capacity in learning high-level representations of Deep Convolutional Neural Networks (D-CNNs). Second, how to design a powerful D-CNN architecture that is able to learn discriminative features from the proposed representation for classification task. As a result, we introduce two new 3D motion representations called SPMF (Skeleton Posture-Motion Feature) and Enhanced-SPMF that encode skeleton poses and their motions into color images. For learning and classification tasks, we design and train different D-CNN architectures based on the Residual Network (ResNet), Inception-ResNet-v2, Densely Connected Convolutional Network (DenseNet) and Efficient Neural Architecture Search (ENAS) to extract robust features from color-coded images and classify them. Experimental results on various public and challenging human action recognition datasets (MSR Action3D, Kinect Activity Recognition Dataset, SBU Kinect Interaction, and NTU-RGB+D) show that the proposed approach outperforms current state-of-the-art. We also conducted research on the problem of 3D human pose estimation from monocular RGB video sequences and exploited the estimated 3D poses for recognition task. Specifically, a deep learning-based model called OpenPose is deployed to detect 2D human poses. A DNN is then proposed and trained for learning a 2D-to-3D mapping in order to map the detected 2D keypoints into 3D poses. Our experiments on the Human3.6M dataset verified the effectiveness of the proposed method. These obtained results allow opening a new research direction for human action recognition from 3D skeletal data, when the depth cameras are failing. In addition, we collect and introduce in this thesis, CEMEST database, a new RGB-D dataset depicting passengers' behaviors in public transport. It consists of 203 untrimmed real-world surveillance videos of realistic "normal" and "abnormal" events. We achieve promising results on CEMEST with the support of data augmentation and transfer learning techniques. This enables the construction of real-world applications based on deep learning for enhancing public transportation management services
45

Al, Chami Zahi. "Estimation de la qualité des données multimedia en temps réel". Thesis, Pau, 2021. http://www.theses.fr/2021PAUU3066.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Au cours de la dernière décennie, les fournisseurs de données ont généré et diffusé une grande quantité de données, notamment des images, des vidéos, de l'audio, etc. Dans cette thèse, nous nous concentrerons sur le traitement des images puisqu'elles sont les plus communément partagées entre les utilisateurs sur l'inter-réseau mondial. En particulier, le traitement des images contenant des visages a reçu une grande attention en raison de ses nombreuses applications, telles que les applications de divertissement et de médias sociaux. Cependant, plusieurs défis pourraient survenir au cours de la phase de traitement et de transmission : d'une part, le nombre énorme d'images partagées et produites à un rythme rapide nécessite un temps de traitement et de livraison considérable; d’autre part, les images sont soumises à un très grand nombre de distorsions lors du traitement, de la transmission ou de la combinaison de nombreux facteurs qui pourraient endommager le contenu des images. Deux contributions principales sont développées. Tout d'abord, nous présentons un framework d'évaluation de la qualité d'image ayant une référence complète en temps réel, capable de : 1) préserver le contenu des images en s'assurant que certaines informations visuelles utiles peuvent toujours être extraites de l'image résultante, et 2) fournir un moyen de traiter les images en temps réel afin de faire face à l'énorme quantité d'images reçues à un rythme rapide. Le framework décrit ici est limité au traitement des images qui ont accès à leur image de référence (connu sous le nom référence complète). Dans notre second chapitre, nous présentons un framework d'évaluation de la qualité d'image sans référence en temps réel. Il a les capacités suivantes : a) évaluer l'image déformée sans avoir recours à son image originale, b) préserver les informations visuelles les plus utiles dans les images avant de les publier, et c) traiter les images en temps réel, bien que les modèles d'évaluation de la qualité des images sans référence sont considérés très complexes. Notre framework offre plusieurs avantages par rapport aux approches existantes, en particulier : i. il localise la distorsion dans une image afin d'évaluer directement les parties déformées au lieu de traiter l'image entière, ii. il a un compromis acceptable entre la précision de la prédiction de qualité et le temps d’exécution, et iii. il pourrait être utilisé dans plusieurs applications, en particulier celles qui fonctionnent en temps réel. L'architecture de chaque framework est présentée dans les chapitres tout en détaillant les modules et composants du framework. Ensuite, un certain nombre de simulations sont faites pour montrer l'efficacité de nos approches pour résoudre nos défis par rapport aux approches existantes
Over the past decade, data providers have been generating and streaming a large amount of data, including images, videos, audio, etc. In this thesis, we will be focusing on processing images since they are the most commonly shared between the users on the global inter-network. In particular, treating images containing faces has received great attention due to its numerous applications, such as entertainment and social media apps. However, several challenges could arise during the processing and transmission phase: firstly, the enormous number of images shared and produced at a rapid pace requires a significant amount of time to be processed and delivered; secondly, images are subject to a wide range of distortions during the processing, transmission, or combination of many factors that could damage the images’content. Two main contributions are developed. First, we introduce a Full-Reference Image Quality Assessment Framework in Real-Time, capable of:1) preserving the images’content by ensuring that some useful visual information can still be extracted from the output, and 2) providing a way to process the images in real-time in order to cope with the huge amount of images that are being received at a rapid pace. The framework described here is limited to processing those images that have access to their reference version (a.k.a Full-Reference). Secondly, we present a No-Reference Image Quality Assessment Framework in Real-Time. It has the following abilities: a) assessing the distorted image without having its distortion-free image, b) preserving the most useful visual information in the images before publishing, and c) processing the images in real-time, even though the No-Reference image quality assessment models are considered very complex. Our framework offers several advantages over the existing approaches, in particular: i. it locates the distortion in an image in order to directly assess the distorted parts instead of processing the whole image, ii. it has an acceptable trade-off between quality prediction accuracy and execution latency, andiii. it could be used in several applications, especially these that work in real-time. The architecture of each framework is presented in the chapters while detailing the modules and components of the framework. Then, a number of simulations are made to show the effectiveness of our approaches to solve our challenges in relation to the existing approaches
46

Haykal, Vanessa. "Modélisation des séries temporelles par apprentissage profond". Thesis, Tours, 2019. http://www.theses.fr/2019TOUR4019.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La prévision des séries temporelles est un problème qui est traité depuis de nombreuses années. Dans cette thèse, on s’est intéressé aux méthodes issues de l’apprentissage profond. Il est bien connu que si les relations entre les données sont temporelles, il est difficile de les analyser et de les prévoir avec précision en raison des tendances non linéaires et du bruit présent, spécifiquement pour les séries financières et électriques. A partir de ce contexte, nous proposons une nouvelle architecture de réduction de bruit qui modélise des séries d’erreurs récursives pour améliorer les prévisions. L’apprentissage hybride fusionne simultanément un réseau de neurones convolutifs (CNN) et un réseau récurrent à mémoire long et court termes (LSTM). Ce modèle se distingue par sa capacité à capturer globalement différentes propriétés telles que les caractéristiques locales du signal, d’apprendre les dépendances non linéaires à long terme et de s’adapter également à une résistance élevée au bruit. La seconde contribution concerne les limitations des approches globales en raison des changements de régimes dynamiques dans le signal. Nous présentons donc une modification locale non-supervisée de notre architecture précédente afin d’ajuster les résultats en pilotant le modèle par un modèle de Markov caché (HMM). Enfin, on s’est également intéressé aux techniques de multi-résolutions pour améliorer les performances des couches convolutives, notamment par la méthode de décomposition en mode variationnel (VMD)
Time series prediction is a problem that has been addressed for many years. In this thesis, we have been interested in methods resulting from deep learning. It is well known that if the relationships between the data are temporal, it is difficult to analyze and predict accurately due to non-linear trends and the existence of noise specifically in the financial and electrical series. From this context, we propose a new hybrid noise reduction architecture that models the recursive error series to improve predictions. The learning process fusessimultaneouslyaconvolutionalneuralnetwork(CNN)andarecurrentlongshort-term memory network (LSTM). This model is distinguished by its ability to capture globally a variety of hybrid properties, where it is able to extract local signal features, to learn long-term and non-linear dependencies, and to have a high noise resistance. The second contribution concerns the limitations of the global approaches because of the dynamic switching regimes in the signal. We present a local unsupervised modification with our previous architecture in order to adjust the results by adapting the Hidden Markov Model (HMM). Finally, we were also interested in multi-resolution techniques to improve the performance of the convolutional layers, notably by using the variational mode decomposition method (VMD)
47

Firmo, Drumond Thalita. "Apports croisées de l'apprentissage hiérarchique et la modélisation du système visuel : catégorisation d'images sur des petits corpus de données". Thesis, Bordeaux, 2020. https://tel.archives-ouvertes.fr/tel-03129189.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les réseaux neuronaux convolutifs profonds ("deep convolutional neural networks" ou DCNN) ont récemment révolutionné la reconnaissance d'objets à grande échelle, modifiant les pratiques en vision par ordinateur, consistant à définir des caractéristiques représentatives "à la main", désormais apprises de façon hiérarchique à partir des données, tout en les classifiant. Fort de la progression des performances matérielles, on exploite efficacement des quantités toujours croissantes d'images recueillies en ligne. Mais, dans des domaines spécifiques, comme en santé ou pour certaines applications, les données sont moins abondantes, et les coûts d'étiquetage par des experts sont plus élevés. Cette rareté conduit à la question centrale de cette thèse : Ces domaines à données limitées peuvent-ils bénéficier des avantages des DCNN pour la classification des images ? Ce travail repose sur une étude approfondie de la littérature, divisée en deux parties principales, avant de proposer des modèles et des mécanismes originaux, expérimentés.La première partie couvre la reconnaissance des objets d'un double point de vue. Tout d'abord, la fonction visuelle biologique, est comparée et contrastée avec la structure, la fonction et les capacités des modèles DCNN. Puis, une revue de l'état-de-l'art identifie les principales catégories d'architectures et les innovations dans les DCNN récents. Cette base interdisciplinaire favorise l'identification des mécanismes — biologiquement et artificiellement inspirés — qui améliorent la reconnaissance d'images dans des situations difficiles. Le traitement récurrent en est un exemple clair : peu présent au niveau de la vision profonde, sauf le traitement aux vidéos — en raison du caractère naturellement séquentiel. Mais la biologie montre clairement qu'un tel traitement joue aussi un rôle dans l'affinement de notre perception d'une scène fixe. Ce thème est approfondi à travers une revue de la littérature consacrée aux architectures convolutionnelles récurrentes utilisées en catégorisation d'images.La deuxième partie se concentre sur notre question centrale~: l'apprentissage profond sur de petits corpus de données. Tout d'abord, le travail propose une discussion plus précise et détaillée de ce problème et de sa relation avec l'apprentissage hiérarchique des caractéristiques réalisé par des modèles profonds. Cette discussion est suivie d'une revue structurée du domaine, organisant et discutant les différentes voies possibles vers l'adaptation des modèles profonds à des données limitées. Plus qu'une simple liste, ce travail vise à trouver du sens dans la myriade d'approches du domaine, en regroupant les méthodes ayant un objectif ou un mécanisme d'action similaire, pour guider le développement d'application particulières, à petits corpus. Cette étude est complétée par une analyse expérimentale, explorant l'apprentissage de petits jeux de données avec des modèles et mécanismes originaux (précédemment publié comme papier de journal).En conclusion, l'apprentissage profond sur des petits corpus de données peut donner de bons résultats, si cela se fait de manière réfléchie. Au niveau des données, il faut essayer de recueillir plus d'informations à partir de sources de données supplémentaires connexes. Au niveau de la complexité, l'architecture et les méthodes d'entraînement peuvent être calibrées afin de tirer le meilleur parti de toute connaissance spécifique au domaine. Des propositions sont discutées en détail au fil du document. Il existe de multiples façons de réduire la complexité de l'apprentissage profond avec de petits échantillons de données, mais il n'y a pas de solution universelle. Chaque méthode a ses propres inconvénients et difficultés pratiques, devant toujours être adaptée spécifiquement à l'application, c'est-à-dire à la tâche perceptive à accomplir
Deep convolutional neural networks (DCNN) have recently protagonized a revolution in large-scale object recognition. They have changed the usual computer vision practices of hand-engineered features, with their ability to hierarchically learn representative features from data with a pertinent classifier. Together with hardware advances, they have made it possible to effectively exploit the ever-growing amounts of image data gathered online. However, in specific domains like healthcare and industrial applications, data is much less abundant, and expert labeling costs higher than those of general purpose image datasets. This scarcity scenario leads to this thesis' core question: can these limited-data domains profit from the advantages of DCNNs for image classification? This question has been addressed throughout this work, based on an extensive study of literature, divided in two main parts, followed by proposal of original models and mechanisms.The first part reviews object recognition from an interdisciplinary double-viewpoint. First, it resorts to understanding the function of vision from a biological stance, comparing and contrasting to DCNN models in terms of structure, function and capabilities. Second, a state-of-the-art review is established aiming to identify the main architectural categories and innovations in modern day DCNNs. This interdisciplinary basis fosters the identification of potential mechanisms - inspired both from biological and artificial structures — that could improve image recognition under difficult situations. Recurrent processing is a clear example: while not completely absent from the "deep vision" literature, it has mostly been applied to videos — due to their inherently sequential nature. From biology however it is clear such processing plays a role in refining our perception of a still scene. This theme is further explored through a dedicated literature review focused on recurrent convolutional architectures used in image classification.The second part carries on in the spirit of improving DCNNs, this time focusing more specifically on our central question: deep learning over small datasets. First, the work proposes a more detailed and precise discussion of the small sample problem and its relation to learning hierarchical features with deep models. This discussion is followed up by a structured view of the field, organizing and discussing the different possible paths towards adapting deep models to limited data settings. Rather than a raw listing, this review work aims to make sense out of the myriad of approaches in the field, grouping methods with similar intent or mechanism of action, in order to guide the development of custom solutions for small-data applications. Second, this study is complemented by an experimental analysis, exploring small data learning with the proposition of original models and mechanisms (previously published as a journal paper).In conclusion, it is possible to apply deep learning to small datasets and obtain good results, if done in a thoughtful fashion. On the data path, one shall try gather more information from additional related data sources if available. On the complexity path, architecture and training methods can be calibrated in order to profit the most from any available domain-specific side-information. Proposals concerning both of these paths get discussed in detail throughout this document. Overall, while there are multiple ways of reducing the complexity of deep learning with small data samples, there is no universal solution. Each method has its own drawbacks and practical difficulties and needs to be tailored specifically to the target perceptual task at hand
48

Swaileh, Wassim. "Des modèles de langage pour la reconnaissance de l'écriture manuscrite". Thesis, Normandie, 2017. http://www.theses.fr/2017NORMR024/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse porte sur le développement d'une chaîne de traitement complète pour réaliser des tâches de reconnaissance d'écriture manuscrite non contrainte. Trois difficultés majeures sont à résoudre: l'étape du prétraitement, l'étape de la modélisation optique et l'étape de la modélisation du langage. Au stade des prétraitements il faut extraire correctement les lignes de texte à partir de l'image du document. Une méthode de segmentation itérative en lignes utilisant des filtres orientables a été développée à cette fin. La difficulté dans l’étape de la modélisation optique vient de la diversité stylistique des scripts d'écriture manuscrite. Les modèles optiques statistiques développés sont des modèles de Markov cachés (HMM-GMM) et les modèles de réseaux de neurones récurrents (BLSTM-CTC). Les réseaux récurrents permettent d’atteindre les performances de l’état de l’art sur les deux bases de référence RIMES (pour le Français) et IAM (pour l’anglais). L'étape de modélisation du langage implique l'intégration d’un lexique et d’un modèle de langage statistique afin de rechercher parmi les hypothèses proposées par le modèle optique, la séquence de mots (phrase) la plus probable du point de vue linguistique. La difficulté à ce stade est liée à l’obtention d’un modèle de couverture lexicale optimale avec un minimum de mots hors vocabulaire (OOV). Pour cela nous introduisons une modélisation en sous-unités lexicales composée soit de syllabes soit de multigrammes. Ces modèles couvrent efficacement une partie importante des mots hors vocabulaire. Les performances du système de reconnaissance avec les unités sous-lexicales dépassent les performances des systèmes de reconnaissance traditionnelles de mots ou de caractères en présence d’un fort taux de mots hors lexique. Elles sont équivalentes aux modèles traditionnels en présence d’un faible taux de mots hors lexique. Grâce à la taille compacte du modèle de langage reposant sur des unités sous-lexicales, un système de reconnaissance multilingue unifié a été réalisé. Le système multilingue unifié améliore les performances de reconnaissance par rapport aux systèmes spécialisés dans chaque langue, notamment lorsque le modèle optique unifié est utilisé
This thesis is about the design of a complete processing chain dedicated to unconstrained handwriting recognition. Three main difficulties are adressed: pre-processing, optical modeling and language modeling. The pre-processing stage is related to extracting properly the text lines to be recognized from the document image. An iterative text line segmentation method using oriented steerable filters was developed for this purpose. The difficulty in the optical modeling stage lies in style diversity of the handwriting scripts. Statistical optical models are traditionally used to tackle this problem such as Hidden Markov models (HMM-GMM) and more recently recurrent neural networks (BLSTM-CTC). Using BLSTM we achieve state of the art performance on the RIMES (for French) and IAM (for English) datasets. The language modeling stage implies the integration of a lexicon and a statistical language model to the recognition processing chain in order to constrain the recognition hypotheses to the most probable sequence of words (sentence) from the language point of view. The difficulty at this stage is related to the finding the optimal vocabulary with minimum Out-Of-Vocabulary words rate (OOV). Enhanced language modeling approaches has been introduced by using sub-lexical units made of syllables or multigrams. The sub-lexical units cover an important portion of the OOV words. Then the language coverage depends on the domain of the language model training corpus, thus the need to train the language model with in domain data. The recognition system performance with the sub-lexical units outperformes the traditional recognition systems that use words or characters language models, in case of high OOV rates. Otherwise equivalent performances are obtained with a compact sub-lexical language model. Thanks to the compact lexicon size of the sub-lexical units, a unified multilingual recognition system has been designed. The unified system performance have been evaluated on the RIMES and IAM datasets. The unified multilingual system shows enhanced recognition performance over the specialized systems, especially when a unified optical model is used
49

Eickenberg, Michael. "Évaluation de modèles computationnels de la vision humaine en imagerie par résonance magnétique fonctionnelle". Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112206/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'imagerie par résonance magnétique fonctionnelle (IRMf) permet de mesurer l'activité cérébrale à travers le flux sanguin apporté aux neurones. Dans cette thèse nous évaluons la capacité de modèles biologiquement plausibles et issus de la vision par ordinateur à représenter le contenu d'une image de façon similaire au cerveau. Les principaux modèles de vision évalués sont les réseaux convolutionnels.Les réseaux de neurones profonds ont connu un progrès bouleversant pendant les dernières années dans divers domaines. Des travaux antérieurs ont identifié des similarités entre le traitement de l'information visuelle à la première et dernière couche entre un réseau de neurones et le cerveau. Nous avons généralisé ces similarités en identifiant des régions cérébrales correspondante à chaque étape du réseau de neurones. Le résultat consiste en une progression des niveaux de complexité représentés dans le cerveau qui correspondent à l'architecture connue des aires visuelles: Plus la couche convolutionnelle est profonde, plus abstraits sont ses calculs et plus haut niveau sera la fonction cérébrale qu'elle sait modéliser au mieux. Entre la détection de contours en V1 et la spécificité à l'objet en cortex inférotemporal, fonctions assez bien comprises, nous montrons pour la première fois que les réseaux de neurones convolutionnels de détection d'objet fournissent un outil pour l'étude de toutes les étapes intermédiaires du traitement visuel effectué par le cerveau.Un résultat préliminaire à celui-ci est aussi inclus dans le manuscrit: L'étude de la réponse cérébrale aux textures visuelles et sa modélisation avec les réseaux convolutionnels de scattering.L'autre aspect global de cette thèse sont modèles de “décodage”: Dans la partie précédente, nous prédisions l'activité cérébrale à partir d'un stimulus (modèles dits d’”encodage”). La prédiction du stimulus à partir de l'activité cérébrale est le méchanisme d'inférence inverse et peut servir comme preuve que cette information est présente dans le signal. Le plus souvent, des modèles linéaires généralisés tels que la régression linéaire ou logistique ou les SVM sont utilisés, donnant ainsi accès à une interprétation des coefficients du modèle en tant que carte cérébrale. Leur interprétation visuelle est cependant difficile car le problème linéaire sous-jacent est soit mal posé et mal conditionné ou bien non adéquatement régularisé, résultant en des cartes non-informatives. En supposant une organisation contigüe en espace et parcimonieuse, nous nous appuyons sur la pénalité convexe d'une somme de variation totale et la norme L1 (TV+L1) pour développer une pénalité regroupant un terme d'activation et un terme de dérivée spatiale. Cette pénalité a la propriété de mettre à zéro la plupart des coefficients tout en permettant une variation libre des coefficients dans une zone d'activation, contrairement à TV+L1 qui impose des zones d’activation plates. Cette méthode améliore l'interprétabilité des cartes obtenues dans un schéma de validation croisée basé sur la précision du modèle prédictif.Dans le contexte des modèles d’encodage et décodage nous tâchons à améliorer les prétraitements des données. Nous étudions le comportement du signal IRMf par rapport à la stimulation ponctuelle : la réponse impulsionnelle hémodynamique. Pour générer des cartes d'activation, au lieu d’un modèle linéaire classique qui impose une réponse impulsionnelle canonique fixe, nous utilisons un modèle bilinéaire à réponse hémodynamique variable spatialement mais fixe à travers les événements de stimulation. Nous proposons un algorithme efficace pour l'estimation et montrons un gain en capacité prédictive sur les analyses menées, en encodage et décodage
Blood-oxygen-level dependent (BOLD) functional magnetic resonance imaging (fMRI) makes it possible to measure brain activity through blood flow to areas with metabolically active neurons. In this thesis we use these measurements to evaluate the capacity of biologically inspired models of vision coming from computer vision to represent image content in a similar way as the human brain. The main vision models used are convolutional networks.Deep neural networks have made unprecedented progress in many fields in recent years. Even strongholds of biological systems such as scene analysis and object detection have been addressed with enormous success. A body of prior work has been able to establish firm links between the first and last layers of deep convolutional nets and brain regions: The first layer and V1 essentially perform edge detection and the last layer as well as inferotemporal cortex permit a linear read-out of object category. In this work we have generalized this correspondence to all intermediate layers of a convolutional net. We found that each layer of a convnet maps to a stage of processing along the ventral stream, following the hierarchy of biological processing: Along the ventral stream we observe a stage-by-stage increase in complexity. Between edge detection and object detection, for the first time we are given a toolbox to study the intermediate processing steps.A preliminary result to this was obtained by studying the response of the visual areas to presentation of visual textures and analysing it using convolutional scattering networks.The other global aspect of this thesis is “decoding” models: In the preceding part, we predicted brain activity from the stimulus presented (this is called “encoding”). Predicting a stimulus from brain activity is the inverse inference mechanism and can be used as an omnibus test for presence of this information in brain signal. Most often generalized linear models such as linear or logistic regression or SVMs are used for this task, giving access to a coefficient vector the same size as a brain sample, which can thus be visualized as a brain map. However, interpretation of these maps is difficult, because the underlying linear system is either ill-defined and ill-conditioned or non-adequately regularized, resulting in non-informative maps. Supposing a sparse and spatially contiguous organization of coefficient maps, we build on the convex penalty consisting of the sum of total variation (TV) seminorm and L1 norm (“TV+L1”) to develop a penalty grouping an activation term with a spatial derivative. This penalty sets most coefficients to zero but permits free smooth variations in active zones, as opposed to TV+L1 which creates flat active zones. This method improves interpretability of brain maps obtained through cross-validation to determine the best hyperparameter.In the context of encoding and decoding models, we also work on improving data preprocessing in order to obtain the best performance. We study the impulse response of the BOLD signal: the hemodynamic response function. To generate activation maps, instead of using a classical linear model with fixed canonical response function, we use a bilinear model with spatially variable hemodynamic response (but fixed across events). We propose an efficient optimization algorithm and show a gain in predictive capacity for encoding and decoding models on different datasets
50

Botella, Christophe. "Méthodes statistiques pour la modélisation de la distribution spatiale des espèces végétales à partir de grandes masses d’observations incertaines issues de programmes de sciences citoyennes". Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS135.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'expertise botanique humaine devient trop rare pour fournir les données de terrain nécessaires à la surveillance de la biodiversité végétale. L'utilisation d'observations botaniques géolocalisées des grands projets de sciences citoyennes, comme Pl@ntNet, ouvre des portes intéressantes pour le suivi temporel de la distribution des espèces de plantes. Pl@ntNet fourni des observations de flore identifiées automatiquement, un score de confiance, et peuvent être ainsi utilisées pour les modèles de distribution des espèces (SDM). Elles devraient permettre de surveiller les plantes envahissantes ou rares, ainsi que les effets des changements globaux sur les espèces, si nous parvenons à (i) prendre en compte de l'incertitude d'identification, (ii) correction les biais d'échantillonnage spatiaux, et (iii) prédire précisément les espèces à un grain spatial fin.Nous nous demandons d'abord si nous pouvons estimer des distributions réalistes d'espèces végétales envahissantes sur des occurrences automatiquement identifiées de Pl@ntNet, et quel est l'effet du filtrage avec un seuil de score de confiance. Le filtrage améliore les prédictions lorsque le niveau de confiance augmente jusqu'à ce que la taille de l'échantillon soit limitante. Les distributions prédites sont généralement cohérentes avec les données d'expertes, mais indiquent aussi des zones urbaines d'abondance dues à la culture ornementale et des nouvelles zones de présence.Ensuite, nous avons étudié la correction du biais d'échantillonnage spatial dans les SDM basés sur des présences seules. Nous avons d'abord analysé mathématiquement le biais lorsque les occurrences d'un groupe cible d'espèces (Target Group Background, TGB) sont utilisées comme points de fond, et comparé ce biais avec celui d'une sélection spatialement uniforme de points de base. Nous montrons alors que le biais de TGB est dû à la variation de l'abondance cumulée des espèces du groupe cible dans l'espace environnemental, qu'il est difficile de contrôler. Nous pouvons alternativement modéliser conjointement l'effort global d'observation avec les abondances de plusieurs espèces. Nous modélisons l'effort d'observation comme une fonction spatiale étagée définie sur un maillage de cellules géographiques. L'ajout d'espèces massivement observées au modèle réduit alors la variance d'estimation de l'effort d'observation et donc des modèles des autres espèces. Enfin, nous proposons un nouveau type de SDM basé sur des réseaux neuronaux convolutifs utilisant des images environnementales comme variables d'entrée. Ces modèles peuvent capturer des motifs spatiaux complexes de plusieurs variables environnementales. Nous proposons de partager l'architecture du réseau neuronal entre plusieurs espèces afin d'extraire des prédicteurs communs de haut niveau et de régulariser le modèle. Nos résultats montrent que ce modèle surpasse les SDM existants, et que la performance est améliorée en prédisant simultanément de nombreuses espèces, et sont confirmés par des campagnes d'évaluation coopérative de SDM menées sur des jeux de données indépendants. Cela supporte l'hypothèse selon laquelle il existe des modèles environnementaux communs décrivant la répartition de nombreuses espèces. Nos résultats supportent l'utilisation des occurrences Pl@ntnet pour la surveillance des invasions végétales. La modélisation conjointe de multiples espèces et de l'effort d'observation est une stratégie prometteuse qui transforme le problème des biais en un problème de variance d'estimation plus facile à contrôler. Cependant, l'effet de certains facteurs, comme le niveau d'anthropisation, sur l'abondance des espèces est difficile à séparer de celui sur l'effort d'observation avec les données d'occurrence. Ceci peut être résolu par une collecte complémentaire protocollée de données. Les méthodes d'apprentissage profond mises au point montrent de bonnes performances et pourraient être utilisées pour déployer des services de prédiction spatiale des espèces
Human botanical expertise is becoming too scarce to provide the field data needed to monitor plant biodiversity. The use of geolocated botanical observations from major citizen science projects, such as Pl@ntNet, opens interesting paths for a temporal monitoring of plant species distribution. Pl@ntNet provides automatically identified flora observations, a confidence score, and can thus be used for species distribution models (SDM). They enable to monitor the distribution of invasive or rare plants, as well as the effects of global changes on species, if we can (i) take into account identification uncertainty, (ii) correct for spatial sampling bias, and (iii) predict species abundances accurately at a fine spatial grain.First, we ask ourselves if we can estimate realistic distributions of invasive plant species on automatically identified occurrences of Pl@ntNet, and what is the effect of filtering with a confidence score threshold. Filtering improves predictions when the confidence level increases until the sample size is limiting. The predicted distributions are generally consistent with expert data, but also indicate urban areas of abundance due to ornamental cultivation and new areas of presence.Next, we studied the correction of spatial sampling bias in SDMs based on presences only. We first mathematically analyzed the bias when the occurrences of a target group of species (Target Group Background, TGB) are used as background points, and compared this bias with that of a spatially uniform selection of base points. We then show that the bias of TGB is due to the variation in the cumulative abundance of target group species in the environmental space, which is difficult to control. We can alternatively jointly model the global observation effort with the abundances of several species. We model the observation effort as a step spatial function defined on a mesh of geographical cells. The addition of massively observed species to the model then reduces the variance in the estimation of the observation effort and thus on the models of the other species.Finally, we propose a new type of SDM based on convolutional neural networks using environmental images as input variables. These models can capture complex spatial patterns of several environmental variables. We propose to share the architecture of the neural network between several species in order to extract common high-level predictors and regularize the model. Our results show that this model outperforms existing SDMs, that performance is improved by simultaneously predicting many species, and this is confirmed by two cooperative SDM evaluation campaigns conducted on independent data sets. This supports the hypothesis that there are common environmental models describing the distribution of many species.Our results support the use of Pl@ntnet occurrences for monitoring plant invasions. Joint modelling of multiple species and observation effort is a promising strategy that transforms the bias problem into a more controllable estimation variance problem. However, the effect of certain factors, such as the level of anthropization, on species abundance is difficult to separate from the effect on observation effort with occurrence data. This can be solved by additional protocolled data collection. The deep learning methods developed show good performance and could be used to deploy spatial species prediction services

Vai alla bibliografia