To see the other types of publications on this topic, follow the link: Réseaux de neuronnes à convolution.

Dissertations / Theses on the topic 'Réseaux de neuronnes à convolution'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Réseaux de neuronnes à convolution.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Khalfaoui, Hassani Ismail. "Convolution dilatée avec espacements apprenables." Electronic Thesis or Diss., Université de Toulouse (2023-....), 2024. http://www.theses.fr/2024TLSES017.

Full text
Abstract:
Dans cette thèse, nous avons développé et étudié la méthode de convolution dilatée avec espacements apprenables (Dilated Convolution with Learnable Spacings en anglais, qu'on abrégera par le sigle DCLS). La méthode DCLS peut être considérée comme une extension de la méthode de convolution dilatée standard, mais dans laquelle les positions des poids d'un réseau de neurones sont apprises grâce à l'algorithme de rétropropagation du gradient, et ce, à l'aide d'une technique d'interpolation. Par suite, nous avons démontré empiriquement l'efficacité de la méthode DCLS en fournissant des preuves concrètes, issues de nombreuses expériences en apprentissage supervisé. Ces expériences sont issues des domaines de la vision par ordinateur, de l'audio et du traitement de la parole et toutes montrent que la méthode DCLS a un avantage compétitif sur les techniques standards de convolution ainsi que sur plusieurs méthodes de convolution avancées. Notre approche s'est faite en plusieurs étapes, en commençant par une analyse de la littérature et des techniques de convolution existantes qui ont précédé le développement de la méthode DCLS. Nous nous sommes particulièrement intéressés aux méthodes étroitement liées à la nôtre et qui demeurent essentielles pour saisir les nuances ainsi que le caractère unique de notre approche. La pierre angulaire de notre étude repose sur l'introduction et l'application de la méthode DCLS aux réseaux neuronaux convolutifs (CNN), mais aussi aux architectures hybrides qui se basent à la fois sur des méthodes convolutives et des méthodes d'attention visuelle. La méthode DCLS est particulièrement remarquable pour ses capacités dans les tâches supervisées de vision par ordinateur telles que la classification, la segmentation et la détection d'objets, qui sont toutes des tâches essentielles dans ce domaine. Ayant développé la méthode DCLS à l'origine avec une interpolation bilinéaire, nous avons entrepris l'exploration d'autres méthodes d'interpolation susceptibles de remplacer l'interpolation bilinéaire, traditionnellement utilisée dans DCLS, ainsi que d'autres méthodes de convolution, et qui visent à rendre différentiables les paramètres de positions des poids dans le noyau de convolution. L'interpolation gaussienne s'est avérée être légèrement meilleure en termes de performances. Notre recherche nous a amené par la suite à appliquer la méthode DCLS dans le domaine des réseaux de neurones à spikes (SNN) afin de permettre l'apprentissage des délais synaptiques à l'intérieur d'un réseau de neurones qui pourrait être éventuellement transféré à des puces dites neuromorphiques. Les résultats montrent que la méthode DCLS se tient comme nouvel état de l'art des SNNs en classification audio pour certaines tâches de référence dans ce domaine. Ces dernières tâches portent sur des ensembles de données connus pour avoir une composante temporelle importante. En outre, nous montrons aussi que DCLS permet d'améliorer de manière significative la précision des réseaux neuronaux artificiels pour la tâche de classification audio multi-label, un aboutissement clé dans l'un des benchmarks de classification audio les plus importants. Enfin, nous concluons par une discussion sur le dispositif expérimental choisi, ses limites, les limites de notre méthode et nos résultats
In this thesis, we develop and study the Dilated Convolution with Learnable Spacings (DCLS) method. The DCLS method can be considered as an extension of the standard dilated convolution method, but in which the positions of the weights of a neural network are learned during training by the gradient backpropagation algorithm, thanks to an interpolation technique. We empirically demonstrate the effectiveness of the DCLS method by providing concrete evidence from numerous supervised learning experiments. These experiments are drawn from the fields of computer vision, audio, and speech processing, and all show that the DCLS method has a competitive advantage over standard convolution techniques, as well as over several advanced convolution methods. Our approach is structured in several steps, starting with an analysis of the literature and existing convolution techniques that preceded the development of the DCLS method. We were particularly interested in the methods that are closely related to our own and that remain essential to capture the nuances and uniqueness of our approach. The cornerstone of our study is the introduction and application of the DCLS method to convolutional neural networks (CNNs), as well as to hybrid architectures that rely on both convolutional and visual attention approaches. The DCLS method is particularly noteworthy for its capabilities in supervised computer vision tasks such as classification, semantic segmentation, and object detection, all of which are essential tasks in the field. Having originally developed the DCLS method with bilinear interpolation, we explored other interpolation methods that could replace the bilinear interpolation conventionally used in DCLS, and which aim to make the position parameters of the weights in the convolution kernel differentiable. Gaussian interpolation proved to be slightly better in terms of performance. Our research then led us to apply the DCLS method in the field of spiking neural networks (SNNs) to enable synaptic delay learning within a neural network that could eventually be transferred to so-called neuromorphic chips. The results show that the DCLS method stands out as a new state-of-the-art technique in SNN audio classification for certain benchmark tasks in this field. These tasks involve datasets with a high temporal component. In addition, we show that DCLS can significantly improve the accuracy of artificial neural networks for the multi-label audio classification task, a key achievement in one of the most important audio classification benchmarks. We conclude with a discussion of the chosen experimental setup, its limitations, the limitations of our method, and our results
APA, Harvard, Vancouver, ISO, and other styles
2

Mamalet, Franck. "Adéquation algorithme-architecture pour les réseaux de neurones à convolution : application à l'analyse de visages embarquée." Thesis, Lyon, INSA, 2011. http://www.theses.fr/2011ISAL0068.

Full text
Abstract:
La prolifération des capteurs d'images dans de nombreux appareils électroniques, et l'évolution des capacités de traitements à proximité de ces capteurs ouvrent un champ d'exploration pour l'implantation et l'optimisation d'algorithmes complexes de traitement d'images afin de proposer des systèmes de vision artificielle embarquée. Ces travaux s'inscrivent dans la problématique dite d'adéquation algorithme-architecture (A3). Ils portent sur une classe d'algorithmes appelée réseau de neurones à convolutions (ConvNet) et ses applications en analyse de visages embarquée. La chaîne d'analyse de visages, introduite par Garcia et al., a été choisie d'une part pour ses performances en taux de détection/reconnaissance au niveau de l'état de l'art, et d'autre part pour son caractère homogène reposant sur des ConvNets. La première contribution de ces travaux porte sur une étude d'adéquation de cette chaîne d'analyse de visages aux processeurs embarqués. Nous proposons plusieurs adaptations algorithmiques des ConvNets, et montrons que celles-ci permettent d'obtenir des facteurs d'accélération importants (jusqu'à 700) sur un processeur embarqué pour mobile, sans dégradation des performances en taux de détection/reconnaissance. Nous présentons ensuite une étude des capacités de parallélisation des ConvNets, au travers des travaux de thèse de N. Farrugia. Une exploration "gros-grain" du parallélisme des ConvNets, suivie d'une étude de l'ordonnancement interne des processeurs élémentaires, conduisent à une architecture parallèle paramétrable, capable de détecter des visages à plus de 10 images VGA par seconde sur FPGA. Nous proposons enfin une extension de ces études à la phase d'apprentissage de ces réseaux de neurones. Nous étudions des restrictions de l'espace des hypothèses d'apprentissage, et montrons, sur un cas d'application, que les capacités d'apprentissage des ConvNets ne sont pas dégradées, et que le temps d'apprentissage peut être réduit jusqu'à un facteur cinq
Proliferation of image sensors in many electronic devices, and increasing processing capabilities of such sensors, open a field of exploration for the implementation and optimization of complex image processing algorithms in order to provide embedded vision systems. This work is a contribution in the research domain of algorithm-architecture matching. It focuses on a class of algorithms called convolution neural network (ConvNet) and its applications in embedded facial analysis. The facial analysis framework, introduced by Garcia et al., was chosen for its state of the art performances in detection/recognition, and also for its homogeneity based on ConvNets. The first contribution of this work deals with an adequacy study of this facial analysis framework with embedded processors. We propose several algorithmic adaptations of ConvNets, and show that they can lead to significant speedup factors (up to 700) on an embedded processor for mobile phone, without performance degradation. We then present a study of ConvNets parallelization capabilities, through N. Farrugia's PhD work. A coarse-grain parallelism exploration of ConvNets, followed by study of internal scheduling of elementary processors, lead to a parameterized parallel architecture on FPGA, able to detect faces at more than 10 VGA frames per second. Finally, we propose an extension of these studies to the learning phase of neural networks. We analyze several hypothesis space restrictions for ConvNets, and show, on a case study, that classification rate performances are almost the same with a training time divided by up to five
APA, Harvard, Vancouver, ISO, and other styles
3

Zossou, Vincent-Béni Sèna. "Détection du carcinome hépatocellulaire et des métastases hépatiques basée sur les images tomodensitométriques et l'apprentissage automatique." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASR034.

Full text
Abstract:
Les médecins radiologues utilisent des séries d’images issues de la tomodensitométrie (TDM) abdominale pour examiner le foie et diagnostiquer les éventuelles pathologies. Cependant, ce processus est souvent long, complexe et sujet à des risques d’erreurs humaines. Les études des récentes années démontrent que l’intelligence artificielle (IA) a ouvert de nouvelles perspectives en imagerie médicale, permettant de détecter plus tôt les cancers du foie et d’optimiser l’ensemble du processus diagnostique. En Afrique, et particulièrement au Bénin, peu d’études ont été menées sur l’utilisation de ces techniques, notamment en raison du manque d’équipements et de données locales. Cette thèse s’inscrit dans cette perspective en proposant des techniques d’IA pour détecter et classifier automatiquement les lésions du foie à partir de la TDM. Plus précisément, elle présente un outil qui inclut : (i) un modèle de segmentation du foie et des lésions basé sur un réseau de neurones, (ii) une signature radiomique pour mieux caractériser l’état du foie, (iii) un modèle de classification des lésions utilisant des réseaux neuronaux convolutifs, et (iv) une plateforme d’aide au diagnostic pour améliorer la prise en charge des patients. Les résultats obtenus montrent des améliorations par rapport aux solutions existantes, ouvrant la voie à une adoption plus large de ces technologies, avec l’objectif d’améliorer la qualité des soins et de réduire les erreurs médicales
Radiologists use a series of images from abdominal computed tomography (CT) scans to examine the liver and diagnose potential pathologies. However, this process is often lengthy, complex, and prone to human error. Recent studies have shown that artificial intelligence (AI) has opened new horizons in medical imaging, allowing for earlier detection of liver cancers and optimizing the entire diagnostic process. In Africa, particularly in Benin, few studies have been conducted on the use of these techniques, largely due to a lack of equipment and local data. This thesis addresses this gap by proposing AI techniques for automatically detecting and classifying liver lesions from CT scans. Specifically, it presents a tool that includes: (i) a liver and lesion segmentation model based on a neural network, (ii) a radiomic signature to better characterize liver conditions, (iii) a lesion classification model using convolutional neural networks, and (iv) a diagnostic assistance platform to improve patient care. The results demonstrate improvements over existing solutions, paving the way for broader adoption of these technologies, with the aim of improving healthcare quality and reducing medical errors
APA, Harvard, Vancouver, ISO, and other styles
4

Martin, Pierre-Etienne. "Détection et classification fines d'actions à partir de vidéos par réseaux de neurones à convolutions spatio-temporelles : Application au tennis de table." Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0313.

Full text
Abstract:
La reconnaissance des actions à partir de vidéos est l'un des principaux problèmes de vision par ordinateur. Malgré des recherches intensives, la différenciation et la reconnaissance d'actions similaires restent un défi. Cette thèse porte sur la classification des gestes sportifs à partir de vidéos, avec comme cadre applicatif le tennis de table.Nous proposons une méthode d’apprentissage profond pour segmenter et classifier automatiquement les différents coup de Tennis de Table. Notre objectif est de concevoir un système intelligent permettant d'analyser les performances des élèves pongistes, et de donner la possibilité à l’entraîneur d'adapter ses séances d'entraînement pour améliorer leurs performances.Dans ce but, nous avons élaboré la base de données “TTStroke-21”, constituée de clips vidéo d'exercices de tennis de table, enregistrés par les étudiants de la faculté de sport de l'Université de Bordeaux – STAPS. Cette base de données a ensuite été annotée par des professionnels du domaine à l'aide d'une plateforme crowdsourcing. Les annotations consistent en une description des coups effectués (début, fin et type de coup). Au total, 20 différents coups de tennis de table sont considérés plus une classe de rejet.La reconnaissance des actions similaires présente des différences avec la reconnaissance d’actions classique. En effet, dans les bases de données classiques, le contexte de l’arrière plan fournit souvent des informations discriminantes que les méthodes peuvent utiliser pour classer l'action plutôt que de se concentrer sur l'action elle-même. Dans notre cas, la similarité entre classes est élevée, les caractéristiques visuelles discriminantes sont donc plus difficiles à extraire et le mouvement joue un rôle clef dans la caractérisation de l’action.Dans cette thèse, nous introduisons un réseau de neurones spatio-temporel convolutif avec une architecture Jumelle. Ce réseau d'apprentissage profond prend comme entrées une séquence d'images RVB et son flot optique estimé. Les données RVB permettent à notre modèle de capturer les caractéristiques d'apparence tandis que le flot optique capture les caractéristiques de mouvement. Ces deux flux sont traités en parallèle à l'aide de convolutions 3D, et sont fusionnés à la dernière étape du réseau. Les caractéristiques spatio-temporelles extraites dans le réseau permettent une classification efficace des clips vidéo de TTStroke-21. Notre méthode obtient une performance de classification de 93.2% sur l'ensemble des données tests. Appliquée à la tâche jointe de détection et de classification, notre méthode atteint une précision de 82.6%.Nous étudions les performances en fonction des types de données utilisés en entrée et la manière de les fusionner. Différents estimateurs de flot optique ainsi que leur normalisation sont testés afin d’améliorer la précision. Les caractéristiques de chaque branche de notre architecture sont également analysées afin de comprendre le chemin de décision de notre modèle. Enfin, nous introduisons un mécanisme d'attention pour aider le modèle à se concentrer sur des caractéristiques discriminantes et aussi pour accélérer le processus d’entraînement. Nous comparons notre modèle avec d'autres méthodes sur TTStroke-21 et le testons sur d'autres ensembles de données. Nous constatons que les modèles fonctionnant bien sur des bases de données d’actions classiques ne fonctionnent pas toujours aussi bien sur notre base de données d'actions similaires.Les travaux présentés dans cette thèse ont été validés par des publications dans une revue internationale, cinq papiers de conférences internationales, deux papiers d’un workshop international et une tâche reconductible dans le workshop MediaEval où les participants peuvent appliquer leurs méthodes de reconnaissance d'actions à notre base de données TTStroke-21. Deux autres papiers de workshop internationaux sont en cours de préparation, ainsi qu'un chapitre de livre
Action recognition in videos is one of the key problems in visual data interpretation. Despite intensive research, differencing and recognizing similar actions remains a challenge. This thesis deals with fine-grained classification of sport gestures from videos, with an application to table tennis.In this manuscript, we propose a method based on deep learning for automatically segmenting and classifying table tennis strokes in videos. Our aim is to design a smart system for students and teachers for analyzing their performances. By profiling the players, a teacher can therefore tailor the training sessions more efficiently in order to improve their skills. Players can also have an instant feedback on their performances.For developing such a system with fine-grained classification, a very specific dataset is needed to supervise the learning process. To that aim, we built the “TTStroke-21” dataset, which is composed of 20 stroke classes plus a rejection class. The TTStroke-21 dataset comprises video clips of recorded table tennis exercises performed by students at the sport faculty of the University of Bordeaux - STAPS. These recorded sessions were annotated by professional players or teachers using a crowdsourced annotation platform. The annotations consist in a description of the handedness of the player and information for each stroke performed (starting and ending frames, class of the stroke).Fine-grained action recognition has some notable differences with coarse-grained action recognition. In general, datasets used for coarse-grained action recognition, the background context often provides discriminative information that methods can use to classify the action, rather than focusing on the action itself. In fine-grained classification, where the inter-class similarity is high, discriminative visual features are harder to extract and the motion plays a key role for characterizing an action.In this thesis, we introduce a Twin Spatio-Temporal Convolutional Neural Network. This deep learning network takes as inputs an RGB image sequence and its computed Optical Flow. The RGB image sequence allows our model to capture appearance features while the optical flow captures motion features. Those two streams are processed in parallel using 3D convolutions, and fused at the last stage of the network. Spatio-temporal features extracted in the network allow efficient classification of video clips from TTStroke-21. Our method gets an average classification performance of 87.3% with a best run of 93.2% accuracy on the test set. When applied on joint detection and classification task, the proposed method reaches an accuracy of 82.6%.A systematic study of the influence of each stream and fusion types on classification accuracy has been performed, giving clues on how to obtain the best performances. A comparison of different optical flow methods and the role of their normalization on the classification score is also done. The extracted features are also analyzed by back-tracing strong features from the last convolutional layer to understand the decision path of the trained model. Finally, we introduce an attention mechanism to help the model focusing on particular characteristic features and also to speed up the training process. For comparison purposes, we provide performances of other methods on TTStroke-21 and test our model on other datasets. We notice that models performing well on coarse-grained action datasets do not always perform well on our fine-grained action dataset.The research presented in this manuscript was validated with publications in one international journal, five international conference papers, two international workshop papers and a reconductible task in MediaEval workshop in which participants can apply their action recognition methods to TTStroke-21. Two additional international workshop papers are in process along with one book chapter
APA, Harvard, Vancouver, ISO, and other styles
5

Pothier, Dominique. "Réseaux convolutifs à politiques." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69184.

Full text
Abstract:
Malgré leurs excellentes performances, les exigences élevées des réseaux de neurones artificiels en terme de volume de données et de puissance de calcul limitent leur adoption dans plusieurs domaines. C'est pourquoi il reste important de développer de nouvelles architectures moins voraces. Ce mémoire cherche à produire une architecture plus flexible et moins vorace en s'appuyant sur la théorie de l'apprentissage par renforcement. En considérant le réseau comme un agent suivant une politique, on réalise que cette politique est beaucoup plus rigide que celle suivie habituellement par les agents d'apprentissage par renforcement. Nous posons l'hypothèse qu'une architecture capable de formuler une politique plus flexible pourrait atteindre des performances similaires tout en limitant son utilisation de ressources. L'architecture que nous proposons s'inspire de la recherche faite en prédiction de paramètres, particulièrement de l'architecture hypernetwork, que nous utilisons comme base de référence. Nos résultats montrent que l'apprentissage d'une politique dynamique aussi performante que les politiques statiques suivies par les réseaux conventionnels n'est pas une tâche triviale. Nos meilleurs résultats indiquent une diminution du nombre de paramètres de 33%, une diminution des calculs de 12% au prix d'une baisse de l'exactitude des prédictions de 2%. Malgré ces résultats, nous croyons que notre architecture est un point de départ pouvant être amélioré de plusieurs manières que nous explorons rapidement en conclusion.
Despite their excellent performances, artificial neural networks high demand of both data and computational power limit their adoption in many domains. Developing less demanding architecture thus remain an important endeavor. This thesis seeks to produce a more flexible and less resource-intensive architecture by using reinforcement learning theory. When considering a network as an agent instead of a function approximator, one realize that the implicit policy followed by popular feed forward networks is extremely simple. We hypothesize that an architecture able to learn a more flexible policy could reach similar performances while reducing its resource footprint. The architecture we propose is inspired by research done in weight prediction, particularly by the hypernetwork architecture, which we use as a baseline model.Our results show that learning a dynamic policy achieving similar results to the static policies of conventional networks is not a trivial task. Our proposed architecture succeeds in limiting its parameter space by 20%, but does so at the cost of a 24% computation increase and loss of5% accuracy. Despite those results, we believe that this architecture provides a baseline that can be improved in multiple ways that we describe in the conclusion.
APA, Harvard, Vancouver, ISO, and other styles
6

Li, Xuhong. "Regularization schemes for transfer learning with convolutional networks." Thesis, Compiègne, 2019. http://www.theses.fr/2019COMP2497/document.

Full text
Abstract:
L’apprentissage par transfert de réseaux profonds réduit considérablement les coûts en temps de calcul et en données du processus d’entraînement des réseaux et améliore largement les performances de la tâche cible par rapport à l’apprentissage à partir de zéro. Cependant, l’apprentissage par transfert d’un réseau profond peut provoquer un oubli des connaissances acquises lors de l’apprentissage de la tâche source. Puisque l’efficacité de l’apprentissage par transfert vient des connaissances acquises sur la tâche source, ces connaissances doivent être préservées pendant le transfert. Cette thèse résout ce problème d’oubli en proposant deux schémas de régularisation préservant les connaissances pendant l’apprentissage par transfert. Nous examinons d’abord plusieurs formes de régularisation des paramètres qui favorisent toutes explicitement la similarité de la solution finale avec le modèle initial, par exemple, L1, L2, et Group-Lasso. Nous proposons également les variantes qui utilisent l’information de Fisher comme métrique pour mesurer l’importance des paramètres. Nous validons ces approches de régularisation des paramètres sur différentes tâches de segmentation sémantique d’image ou de calcul de flot optique. Le second schéma de régularisation est basé sur la théorie du transport optimal qui permet d’estimer la dissimilarité entre deux distributions. Nous nous appuyons sur la théorie du transport optimal pour pénaliser les déviations des représentations de haut niveau entre la tâche source et la tâche cible, avec le même objectif de préserver les connaissances pendant l’apprentissage par transfert. Au prix d’une légère augmentation du temps de calcul pendant l’apprentissage, cette nouvelle approche de régularisation améliore les performances des tâches cibles et offre une plus grande précision dans les tâches de classification d’images par rapport aux approches de régularisation des paramètres
Transfer learning with deep convolutional neural networks significantly reduces the computation and data overhead of the training process and boosts the performance on the target task, compared to training from scratch. However, transfer learning with a deep network may cause the model to forget the knowledge acquired when learning the source task, leading to the so-called catastrophic forgetting. Since the efficiency of transfer learning derives from the knowledge acquired on the source task, this knowledge should be preserved during transfer. This thesis solves this problem of forgetting by proposing two regularization schemes that preserve the knowledge during transfer. First we investigate several forms of parameter regularization, all of which explicitly promote the similarity of the final solution with the initial model, based on the L1, L2, and Group-Lasso penalties. We also propose the variants that use Fisher information as a metric for measuring the importance of parameters. We validate these parameter regularization approaches on various tasks. The second regularization scheme is based on the theory of optimal transport, which enables to estimate the dissimilarity between two distributions. We benefit from optimal transport to penalize the deviations of high-level representations between the source and target task, with the same objective of preserving knowledge during transfer learning. With a mild increase in computation time during training, this novel regularization approach improves the performance of the target tasks, and yields higher accuracy on image classification tasks compared to parameter regularization approaches
APA, Harvard, Vancouver, ISO, and other styles
7

Carpentier, Mathieu. "Classification fine par réseau de neurones à convolution." Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/35835.

Full text
Abstract:
L’intelligence artificielle est un domaine de recherche relativement récent. Grâce à lui, plusieurs percées ont été faites sur une série de problèmes qui étaient autrefois considérés comme très difficiles. La classification fine est l’un de ces problèmes. Cependant, même si résoudre cette tâche pourrait représenter des avancées tant au niveau scientifique qu’au niveau industriel, peu de recherche y a été effectué. Dans ce mémoire, nous abordons la problématique de l’application de la classification fine sur des problèmes concrets, soit la classification d’essence d’arbres uniquement grâce à des images de l’écorce et la classification visuelle des moisissures en culture. Nous commençons par présenter plusieurs concepts sur lesquels se basent l’apprentissage profond, à la base de notre solution ainsi que plusieurs expériences qui ont été menées afin de tenter de résoudre le problème de classification d’essence d’arbres à partir d’images de l’écorce. Par la suite, nous détaillons le jeu de données nommé BarkNet 1. 0 que nous avons construit dans le cadre de ce projet. Grâce à celui-ci, nous avons été en mesure de développer une méthode permettant d’obtenir une précision de 93,88% en utilisant une seule crop aléatoire dans une image et une précision de 97,81% en utilisant un vote de majorité sur toutes les images d’un arbre. Finalement, nous concluons en démontrant la faisabilité d’appliquer notre méthode dans d’autres contextes en montrant quelques applications concrètes sur lesquelles nous l’avons essayée, soit la classification d’essence d’arbres en industrie et la classification de moisissures.
Artificial intelligence is a relatively recent research domain. With it, many breakthroughs were made on a number of problems that were considered very hard. Fine-grained classification is one of those problems. However, a relatively small amount of research has been done on this task even though itcould represent progress on a scientific, commercial and industrial level. In this work, we talk about applying fine-grained classification on concrete problems such as tree bark classification and mould classification in culture. We start by presenting fundamental deep learning concepts at the root of our solution. Then, we present multiple experiments made in order to try to solve the tree bark classification problem and we detail the novel dataset BarkNet 1.0 that we made for this project. With it, we were able to develop a method that obtains an accuracy of 93.88% on singlecrop in a single image, and an accuracy of 97.81% using a majority voting approach on all the images of a tree. We conclude by demonstrating the feasibility of applying our method on new problems by showing two concrete applications on which we tried our approach, industrial tree classification and mould classification.
APA, Harvard, Vancouver, ISO, and other styles
8

Chabot, Florian. "Analyse fine 2D/3D de véhicules par réseaux de neurones profonds." Thesis, Université Clermont Auvergne‎ (2017-2020), 2017. http://www.theses.fr/2017CLFAC018/document.

Full text
Abstract:
Les travaux développés dans cette thèse s’intéressent à l’analyse fine des véhicules à partir d’une image. Nous définissons le terme d’analyse fine comme un regroupement des concepts suivants : la détection des véhicules dans l’image, l’estimation de leur point de vue (ou orientation), la caractérisation de leur visibilité, leur localisation 3D dans la scène et la reconnaissance de leur marque et de leur modèle. La construction de solutions fiables d’analyse fine de véhicules laisse place à de nombreuses applications notamment dans le domaine du transport intelligent et de la vidéo surveillance.Dans ces travaux, nous proposons plusieurs contributions permettant de traiter partiellement ou complètement cette problématique. Les approches mises en oeuvre se basent sur l’utilisation conjointe de l’apprentissage profond et de modèles 3D de véhicule. Dans une première partie, nous traitons le problème de reconnaissance de marques et modèles en prenant en compte la difficulté de la création de bases d’apprentissage. Dans une seconde partie, nous investiguons une méthode de détection et d’estimation du point de vue précis en nous basant sur l’extraction de caractéristiques visuelles locales et de la cohérence géométrique. La méthode utilise des modèles mathématiques uniquement appris sur des données synthétiques. Enfin, dans une troisième partie, un système complet d’analyse fine de véhicules dans le contexte de la conduite autonome est proposé. Celui-ci se base sur le concept d’apprentissage profond multi-tâches. Des résultats quantitatifs et qualitatifs sont présentés tout au long de ce manuscrit. Sur certains aspects de l’analyse fine de véhicules à partir d’une image, ces recherches nous ont permis de dépasser l’état de l’art
In this thesis, we are interested in fine-grained analysis of vehicle from an image. We define fine-grained analysis as the following concepts : vehicle detection in the image, vehicle viewpoint (or orientation) estimation, vehicle visibility characterization, vehicle 3D localization and make and model recognition. The design of reliable solutions for fine-grained analysis of vehicle open the door to multiple applications in particular for intelligent transport systems as well as video surveillance systems. In this work, we propose several contributions allowing to address partially or wholly this issue. Proposed approaches are based on joint deep learning technologies and 3D models. In a first section, we deal with make and model classification keeping in mind the difficulty to create training data. In a second section, we investigate a novel method for both vehicle detection and fine-grained viewpoint estimation based on local apparence features and geometric spatial coherence. It uses models learned only on synthetic data. Finally, in a third section, a complete system for fine-grained analysis is proposed. It is based on the multi-task concept. Throughout this report, we provide quantitative and qualitative results. On several aspects related to vehicle fine-grained analysis, this work allowed to outperform state of the art methods
APA, Harvard, Vancouver, ISO, and other styles
9

Haj, Hassan Hawraa. "Détection et classification temps réel de biocellules anormales par technique de segmentation d’images." Electronic Thesis or Diss., Université de Lorraine, 2018. http://www.theses.fr/2018LORR0043.

Full text
Abstract:
Le développement de méthodes de la détection en temps réel de cellules anormales (pouvant être considérées comme des cellules cancéreuses) par captures et traitements bio-images sont des axes de recherche importants dans le domaine biomédical car cela contribue à diagnostiquer un cancer. C’est dans ce contexte que se situe ces travaux de thèse. Plus précisément, les travaux présentés dans ce manuscrit, se focalise sur le développement de procédures de lecture, de détection et de classification automatiques de bio-images de cellules anormales considérées comme des cellules cancéreuses. Par conséquent, une première étape du travail à consister à déterminer une solution de détection, à partir d’images microscopiques multispectrales permettant une répétitivité d’images sur une gamme de longueurs d'ondes de certains types de bio-images anormales associées à différents stades ou évolutions de cellules cancéreuses. L’approche développée dans ces travaux repose sur l’exploitation d’une nouvelle méthode de segmentation basée sur l'intensité de la couleur et pouvant être appliquée sur des séquences d'objets dans une image en reformant de manière adaptative et itérative la localisation et la couverture de contours réels de cellules. Cette étape préalable de segmentation est primordiale et permet une classification des tissus anormaux en utilisant la méthode de réseau de neurones à convolution (CNN) appliqué sur les images microscopiques segmenté de type snake. L’approche permet d’obtenir de bas résultats comparativement à une approche basée sur d’autres méthodes de segmentation de la littérature. En effet, cette méthode de classification atteint des valeurs de performance de 100% pour la phase d’apprentissage et de 99.168 % pour les phases de test. Cette méthode est comparée à différents travaux antérieurs et basée sur différentes fonctionnalités d'extraction, et a prouvé son efficacité par rapport à ces autres méthodes. En terme de perspectives, les travaux futurs visent à valider notre approche sur des ensembles de données plus larges, et à explorer différentes architectures CNN selon différents critères d’optimisation
Development of methods for help diagnosis of the real time detection of abnormal cells (which can be considered as cancer cells) through bio-image processing and detection are most important research directions in information science and technology. Our work has been concerned by developing automatic reading procedures of the normal and abnormal bio-images tissues. Therefore, the first step of our work is to detect a certain type of abnormal bio-images associated to many types evolution of cancer within a Microscopic multispectral image, which is an image, repeated in many wavelengths. And using a new segmentation method that reforms itself in an iterative adaptive way to localize and cover the real cell contour, using some segmentation techniques. It is based on color intensity and can be applied on sequences of objects in the image. This work presents a classification of the abnormal tissues using the Convolution neural network (CNN), where it was applied on the microscopic images segmented using the snake method, which gives a high performance result with respect to the other segmentation methods. This classification method reaches high performance values, where it reaches 100% for training and 99.168% for testing. This method was compared to different papers that uses different feature extraction, and proved its high performance with respect to other methods. As a future work, we will aim to validate our approach on a larger datasets, and to explore different CNN architectures and the optimization of the hyper-parameters, in order to increase its performance, and it will be applied to relevant medical imaging tasks including computer-aided diagnosis
APA, Harvard, Vancouver, ISO, and other styles
10

Paillassa, Maxime. "Détection robuste de sources astronomiques par réseaux de neurones à convolutions." Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0147.

Full text
Abstract:
L'extraction de catalogues de sources fiables à partir des images est cruciale pour un large éventail de recherches en astronomie.Cependant, l'efficacité des méthodes de détection de source actuelles est sérieusement limitée dans les champs encombrés, ou lorsque les images sont contaminées par des défauts optiques, électroniques et environnementaux.Les performances en termes de fiabilité et de complétude sont aujourd'hui souvent insuffisantes au regard des exigences scientifiques des grands relevés d'imagerie.Dans cette thèse, nous développons de nouvelles méthodes pour produire des catalogues sources plus robustes et fiables.Nous tirons parti des progrès récents en apprentissage supervisé profond pour concevoir des modèles génériques et fiables basés sur des réseaux de neurones à convolutions (CNNs).Nous présentons MaxiMask et MaxiTrack, deux réseaux de neurones à convolutions que nous avons entrainés pour identifier automatiquement 13 types différents de défauts d'image dans des expositions astronomiques.Nous présentons également un prototype de détecteur de sources multi-échelle et robuste vis-à-vis des défauts d'image, dont nous montrons qu'il surpasse largement les algorithmes existants en terme de performances.Nous discutons des limites actuelles et des améliorations potentielles de notre approche dans le cadre des prochains grands relevés tels que Euclid
Extracting reliable source catalogs from images is crucial for a broad range of astronomical research topics.However, the efficiency of current source detection methods becomes severely limited in crowded fields, or when images are contaminated by optical, electronic and environmental defects.Performance in terms of reliability and completeness is now often insufficient with regard to the scientific requirements of large imaging surveys.In this thesis, we develop new methods to produce more robust and reliable source catalogs.We leverage recent advances in deep supervised learning to design generic and reliable models based on convolutional neural networks (CNNs).We present MaxiMask and MaxiTrack, two convolutional neural networks that we trained to automatically identify 13 different types of image defects in astronomical exposures.We also introduce a prototype of a multi-scale CNN-based source detector robust to image defects, which we show to significantly outperform existing algorithms.We discuss the current limitations and potential improvements of our approach in the scope of forthcoming large scale surveys such as Euclid
APA, Harvard, Vancouver, ISO, and other styles
11

Oquab, Maxime. "Convolutional neural networks : towards less supervision for visual recognition." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE061.

Full text
Abstract:
Les réseaux de neurones à convolution sont des algorithmes d’apprentissage flexibles qui tirent efficacement parti des importantes masses de données qui leur sont fournies pour l’entraînement. Malgré leur utilisation dans des applications industrielles dès les années 90, ces algorithmes n’ont pas été utilisés pour la reconnaissance d’image à cause de leurs faibles performances avec les images naturelles. C’est finalement grâce a l’apparition d’importantes quantités de données et de puissance de calcul que ces algorithmes ont pu révéler leur réel potentiel lors de la compétition ImageNet, menant à un changement de paradigme en reconnaissance d’image. La première contribution de cette thèse est une méthode de transfert d’apprentissage dans les réseaux à convolution pour la classification d’image. À l’aide d’une procédure de pré-entraînement, nous montrons que les représentations internes d’un réseau à convolution sont assez générales pour être utilisées sur d’autres tâches, et meilleures lorsque le pré-entraînement est réalisé avec plus de données. La deuxième contribution de cette thèse est un système faiblement supervisé pour la classification d’images, pouvant prédire la localisation des objets dans des scènes complexes, en utilisant, lors de l’entraînement, seulement l’indication de la présence ou l’absence des objets dans les images. La troisième contribution de cette thèse est une recherche de pistes de progression en apprentissage non-supervisé. Nous étudions l’algorithme récent des réseaux génératifs adversariaux et proposons l’utilisation d’un test statistique pour l’évaluation de ces modèles. Nous étudions ensuite les liens avec le problème de la causalité, et proposons un test statistique pour la découverte causale. Finalement, grâce a un lien établi récemment avec les problèmes de transport optimal, nous étudions ce que ces réseaux apprennent des données dans le cas non-supervisé
Convolutional Neural Networks are flexible learning algorithms for computer vision that scale particularly well with the amount of data that is provided for training them. Although these methods had successful applications already in the ’90s, they were not used in visual recognition pipelines because of their lesser performance on realistic natural images. It is only after the amount of data and the computational power both reached a critical point that these algorithms revealed their potential during the ImageNet challenge of 2012, leading to a paradigm shift in visual recogntion. The first contribution of this thesis is a transfer learning setup with a Convolutional Neural Network for image classification. Using a pre-training procedure, we show that image representations learned in a network generalize to other recognition tasks, and their performance scales up with the amount of data used in pre-training. The second contribution of this thesis is a weakly supervised setup for image classification that can predict the location of objects in complex cluttered scenes, based on a dataset indicating only with the presence or absence of objects in training images. The third contribution of this thesis aims at finding possible paths for progress in unsupervised learning with neural networks. We study the recent trend of Generative Adversarial Networks and propose two-sample tests for evaluating models. We investigate possible links with concepts related to causality, and propose a two-sample test method for the task of causal discovery. Finally, building on a recent connection with optimal transport, we investigate what these generative algorithms are learning from unlabeled data
APA, Harvard, Vancouver, ISO, and other styles
12

Fernandez, Brillet Lucas. "Réseaux de neurones CNN pour la vision embarquée." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM043.

Full text
Abstract:
Pour obtenir des hauts taux de détection, les CNNs requièrent d'un grand nombre de paramètres à stocker, et en fonction de l'application, aussi un grand nombre d'opérations. Cela complique gravement le déploiement de ce type de solutions dans les systèmes embarqués. Ce manuscrit propose plusieurs solutions à ce problème en visant une coadaptation entre l'algorithme, l'application et le matériel.Dans ce manuscrit, les principaux leviers permettant de fixer la complexité computationnelle d'un détecteur d'objets basé sur les CNNs sont identifiés et étudies. Lorsqu'un CNN est employé pour détecter des objets dans une scène, celui-ci doit être appliqué à travers toutes les positions et échelles possibles. Cela devient très coûteux lorsque des petits objets doivent être trouvés dans des images en haute résolution. Pour rendre la solution efficiente et ajustable, le processus est divisé en deux étapes. Un premier CNN s'especialise à trouver des régions d'intérêt de manière efficiente, ce qui permet d'obtenir des compromis flexibles entre le taux de détection et le nombre d’opérations. La deuxième étape comporte un CNN qui classifie l’ensemble des propositions, ce qui réduit la complexité de la tâche, et par conséquent la complexité computationnelle.De plus, les CNN exhibent plusieurs propriétés qui confirment leur surdimensionnement. Ce surdimensionnement est une des raisons du succès des CNN, puisque cela facilite le processus d’optimisation en permettant un ample nombre de solutions équivalentes. Cependant, cela complique leur implémentation dans des systèmes avec fortes contraintes computationnelles. Dans ce sens, une méthode de compression de CNN basé sur une Analyse en Composantes Principales (ACP) est proposé. L’ACP permet de trouver, pour chaque couche du réseau, une nouvelle représentation de l’ensemble de filtres appris par le réseau en les exprimant à travers d’une base ACP plus adéquate. Cette base ACP est hiérarchique, ce qui veut dire que les termes de la base sont ordonnés par importance, et en supprimant les termes moins importants, il est possible de trouver des compromis optimales entre l’erreur d’approximation et le nombre de paramètres. À travers de cette méthode il es possible d’obtenir, par exemple, une réduction x2 sur le nombre de paramètres et opérations d’un réseau du type ResNet-32, avec une perte en accuracy <2%. Il est aussi démontré que cette méthode est compatible avec d’autres méthodes connues de l’état de l’art, notamment le pruning, winograd et la quantification. En les combinant toutes, il est possible de réduire la taille d’un ResNet-110 de 6.88 Mbytes à 370kBytes (gain mémoire x19) avec une dégradation d’accuracy de 3.9%.Toutes ces techniques sont ensuite misses en pratique dans un cadre applicatif de détection de vissages. La solution obtenue comporte une taille de modèle de 29.3kBytes, ce qui représente une réduction x65 par rapport à l’état de l’art, à égal taux de détection. La solution est aussi comparé a une méthode classique telle que Viola-Jones, ce qui confirme autour d’un ordre de magnitude moins de calculs, au même temps que l’habilité d’obtenir des taux de détection plus hauts, sans des hauts surcoûts computationnels Les deux réseaux sont en suite évalues sur un multiprocesseur embarqué, ce qui permet de vérifier que les taux de compression théoriques obtenues restent cohérents avec les chiffres mesurées. Dans le cas de la détection de vissages, la parallélisation du réseau comprimé par ACP sûr 8 processeurs incrémente la vitesse de calcul d’un facteur x11.68 par rapport au réseau original sûr un seul processeur
Recently, Convolutional Neural Networks have become the state-of-the-art soluion(SOA) to most computer vision problems. In order to achieve high accuracy rates, CNNs require a high parameter count, as well as a high number of operations. This greatly complicates the deployment of such solutions in embedded systems, which strive to reduce memory size. Indeed, while most embedded systems are typically in the range of a few KBytes of memory, CNN models from the SOA usually account for multiple MBytes, or even GBytes in model size. Throughout this thesis, multiple novel ideas allowing to ease this issue are proposed. This requires to jointly design the solution across three main axes: Application, Algorithm and Hardware.In this manuscript, the main levers allowing to tailor computational complexity of a generic CNN-based object detector are identified and studied. Since object detection requires scanning every possible location and scale across an image through a fixed-input CNN classifier, the number of operations quickly grows for high-resolution images. In order to perform object detection in an efficient way, the detection process is divided into two stages. The first stage involves a region proposal network which allows to trade-off recall for the number of operations required to perform the search, as well as the number of regions passed on to the next stage. Techniques such as bounding box regression also greatly help reduce the dimension of the search space. This in turn simplifies the second stage, since it allows to reduce the task’s complexity to the set of possible proposals. Therefore, parameter counts can greatly be reduced.Furthermore, CNNs also exhibit properties that confirm their over-dimensionment. This over-dimensionement is one of the key success factors of CNNs in practice, since it eases the optimization process by allowing a large set of equivalent solutions. However, this also greatly increases computational complexity, and therefore complicates deploying the inference stage of these algorithms on embedded systems. In order to ease this problem, we propose a CNN compression method which is based on Principal Component Analysis (PCA). PCA allows to find, for each layer of the network independently, a new representation of the set of learned filters by expressing them in a more appropriate PCA basis. This PCA basis is hierarchical, meaning that basis terms are ordered by importance, and by removing the least important basis terms, it is possible to optimally trade-off approximation error for parameter count. Through this method, it is possible to compress, for example, a ResNet-32 network by a factor of ×2 both in the number of parameters and operations with a loss of accuracy <2%. It is also shown that the proposed method is compatible with other SOA methods which exploit other CNN properties in order to reduce computational complexity, mainly pruning, winograd and quantization. Through this method, we have been able to reduce the size of a ResNet-110 from 6.88Mbytes to 370kbytes, i.e. a x19 memory gain with a 3.9 % accuracy loss.All this knowledge, is applied in order to achieve an efficient CNN-based solution for a consumer face detection scenario. The proposed solution consists of just 29.3kBytes model size. This is x65 smaller than other SOA CNN face detectors, while providing equal detection performance and lower number of operations. Our face detector is also compared to a more traditional Viola-Jones face detector, exhibiting approximately an order of magnitude faster computation, as well as the ability to scale to higher detection rates by slightly increasing computational complexity.Both networks are finally implemented in a custom embedded multiprocessor, verifying that theorical and measured gains from PCA are consistent. Furthermore, parallelizing the PCA compressed network over 8 PEs achieves a x11.68 speed-up with respect to the original network running on a single PE
APA, Harvard, Vancouver, ISO, and other styles
13

Côté, Marc-Alexandre. "Réseaux de neurones génératifs avec structure." Thèse, Université de Sherbrooke, 2017. http://hdl.handle.net/11143/10489.

Full text
Abstract:
Cette thèse porte sur les modèles génératifs en apprentissage automatique. Deux nouveaux modèles basés sur les réseaux de neurones y sont proposés. Le premier modèle possède une représentation interne où une certaine structure a été imposée afin d’ordonner les caractéristiques apprises. Le deuxième modèle parvient à exploiter la structure topologique des données observées, et d’en tenir compte lors de la phase générative. Cette thèse présente également une des premières applications de l’apprentissage automatique au problème de la tractographie du cerveau. Pour ce faire, un réseau de neurones récurrent est appliqué à des données de diffusion afin d’obtenir une représentation des fibres de la matière blanche sous forme de séquences de points en trois dimensions.
APA, Harvard, Vancouver, ISO, and other styles
14

Etienne, Caroline. "Apprentissage profond appliqué à la reconnaissance des émotions dans la voix." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS517.

Full text
Abstract:
Mes travaux de thèse s'intéressent à l'utilisation de nouvelles technologies d'intelligence artificielle appliquées à la problématique de la classification automatique des séquences audios selon l'état émotionnel du client au cours d'une conversation avec un téléconseiller. En 2016, l'idée est de se démarquer des prétraitements de données et modèles d'apprentissage automatique existant au sein du laboratoire, et de proposer un modèle qui soit le plus performant possible sur la base de données audios IEMOCAP. Nous nous appuyons sur des travaux existants sur les modèles de réseaux de neurones profonds pour la reconnaissance de la parole, et nous étudions leur extension au cas de la reconnaissance des émotions dans la voix. Nous nous intéressons ainsi à l'architecture neuronale bout-en-bout qui permet d'extraire de manière autonome les caractéristiques acoustiques du signal audio en vue de la tâche de classification à réaliser. Pendant longtemps, le signal audio est prétraité avec des indices paralinguistiques dans le cadre d'une approche experte. Nous choisissons une approche naïve pour le prétraitement des données qui ne fait pas appel à des connaissances paralinguistiques spécialisées afin de comparer avec l'approche experte. Ainsi le signal audio brut est transformé en spectrogramme temps-fréquence à l'aide d'une transformée de Fourier à court-terme. Exploiter un réseau neuronal pour une tâche de prédiction précise implique de devoir s'interroger sur plusieurs aspects. D'une part, il convient de choisir les meilleurs hyperparamètres possibles. D'autre part, il faut minimiser les biais présents dans la base de données (non discrimination) en ajoutant des données par exemple et prendre en compte les caractéristiques de la base de données choisie. Le but est d'optimiser le mieux possible l'algorithme de classification. Nous étudions ces aspects pour une architecture neuronale bout-en-bout qui associe des couches convolutives spécialisées dans le traitement de l'information visuelle, et des couches récurrentes spécialisées dans le traitement de l'information temporelle. Nous proposons un modèle d'apprentissage supervisé profond compétitif avec l'état de l'art sur la base de données IEMOCAP et cela justifie son utilisation pour le reste des expérimentations. Ce modèle de classification est constitué de quatre couches de réseaux de neurones à convolution et un réseau de neurones récurrent bidirectionnel à mémoire court-terme et long-terme (BLSTM). Notre modèle est évalué sur deux bases de données audios anglophones proposées par la communauté scientifique : IEMOCAP et MSP-IMPROV. Une première contribution est de montrer qu'avec un réseau neuronal profond, nous obtenons de hautes performances avec IEMOCAP et que les résultats sont prometteurs avec MSP-IMPROV. Une autre contribution de cette thèse est une étude comparative des valeurs de sortie des couches du module convolutif et du module récurrent selon le prétraitement de la voix opéré en amont : spectrogrammes (approche naïve) ou indices paralinguistiques (approche experte). À l'aide de la distance euclidienne, une mesure de proximité déterministe, nous analysons les données selon l'émotion qui leur est associée. Nous tentons de comprendre les caractéristiques de l'information émotionnelle extraite de manière autonome par le réseau. L'idée est de contribuer à une recherche centrée sur la compréhension des réseaux de neurones profonds utilisés en reconnaissance des émotions dans la voix et d'apporter plus de transparence et d'explicabilité à ces systèmes dont le mécanisme décisionnel est encore largement incompris
This thesis deals with the application of artificial intelligence to the automatic classification of audio sequences according to the emotional state of the customer during a commercial phone call. The goal is to improve on existing data preprocessing and machine learning models, and to suggest a model that is as efficient as possible on the reference IEMOCAP audio dataset. We draw from previous work on deep neural networks for automatic speech recognition, and extend it to the speech emotion recognition task. We are therefore interested in End-to-End neural architectures to perform the classification task including an autonomous extraction of acoustic features from the audio signal. Traditionally, the audio signal is preprocessed using paralinguistic features, as part of an expert approach. We choose a naive approach for data preprocessing that does not rely on specialized paralinguistic knowledge, and compare it with the expert approach. In this approach, the raw audio signal is transformed into a time-frequency spectrogram by using a short-term Fourier transform. In order to apply a neural network to a prediction task, a number of aspects need to be considered. On the one hand, the best possible hyperparameters must be identified. On the other hand, biases present in the database should be minimized (non-discrimination), for example by adding data and taking into account the characteristics of the chosen dataset. We study these aspects in order to develop an End-to-End neural architecture that combines convolutional layers specialized in the modeling of visual information with recurrent layers specialized in the modeling of temporal information. We propose a deep supervised learning model, competitive with the current state-of-the-art when trained on the IEMOCAP dataset, justifying its use for the rest of the experiments. This classification model consists of a four-layer convolutional neural networks and a bidirectional long short-term memory recurrent neural network (BLSTM). Our model is evaluated on two English audio databases proposed by the scientific community: IEMOCAP and MSP-IMPROV. A first contribution is to show that, with a deep neural network, we obtain high performances on IEMOCAP, and that the results are promising on MSP-IMPROV. Another contribution of this thesis is a comparative study of the output values ​​of the layers of the convolutional module and the recurrent module according to the data preprocessing method used: spectrograms (naive approach) or paralinguistic indices (expert approach). We analyze the data according to their emotion class using the Euclidean distance, a deterministic proximity measure. We try to understand the characteristics of the emotional information extracted autonomously by the network. The idea is to contribute to research focused on the understanding of deep neural networks used in speech emotion recognition and to bring more transparency and explainability to these systems, whose decision-making mechanism is still largely misunderstood
APA, Harvard, Vancouver, ISO, and other styles
15

Abbasi, Mahdieh. "Toward robust deep neural networks." Doctoral thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/67766.

Full text
Abstract:
Dans cette thèse, notre objectif est de développer des modèles d’apprentissage robustes et fiables mais précis, en particulier les Convolutional Neural Network (CNN), en présence des exemples anomalies, comme des exemples adversaires et d’échantillons hors distribution –Out-of-Distribution (OOD). Comme la première contribution, nous proposons d’estimer la confiance calibrée pour les exemples adversaires en encourageant la diversité dans un ensemble des CNNs. À cette fin, nous concevons un ensemble de spécialistes diversifiés avec un mécanisme de vote simple et efficace en termes de calcul pour prédire les exemples adversaires avec une faible confiance tout en maintenant la confiance prédicative des échantillons propres élevée. En présence de désaccord dans notre ensemble, nous prouvons qu’une borne supérieure de 0:5 + _0 peut être établie pour la confiance, conduisant à un seuil de détection global fixe de tau = 0; 5. Nous justifions analytiquement le rôle de la diversité dans notre ensemble sur l’atténuation du risque des exemples adversaires à la fois en boîte noire et en boîte blanche. Enfin, nous évaluons empiriquement la robustesse de notre ensemble aux attaques de la boîte noire et de la boîte blanche sur plusieurs données standards. La deuxième contribution vise à aborder la détection d’échantillons OOD à travers un modèle de bout en bout entraîné sur un ensemble OOD approprié. À cette fin, nous abordons la question centrale suivante : comment différencier des différents ensembles de données OOD disponibles par rapport à une tâche de distribution donnée pour sélectionner la plus appropriée, ce qui induit à son tour un modèle calibré avec un taux de détection des ensembles inaperçus de données OOD? Pour répondre à cette question, nous proposons de différencier les ensembles OOD par leur niveau de "protection" des sub-manifolds. Pour mesurer le niveau de protection, nous concevons ensuite trois nouvelles mesures efficaces en termes de calcul à l’aide d’un CNN vanille préformé. Dans une vaste série d’expériences sur les tâches de classification d’image et d’audio, nous démontrons empiriquement la capacité d’un CNN augmenté (A-CNN) et d’un CNN explicitement calibré pour détecter une portion significativement plus grande des exemples OOD. Fait intéressant, nous observons également qu’un tel A-CNN (nommé A-CNN) peut également détecter les adversaires exemples FGS en boîte noire avec des perturbations significatives. En tant que troisième contribution, nous étudions de plus près de la capacité de l’A-CNN sur la détection de types plus larges d’adversaires boîte noire (pas seulement ceux de type FGS). Pour augmenter la capacité d’A-CNN à détecter un plus grand nombre d’adversaires,nous augmentons l’ensemble d’entraînement OOD avec des échantillons interpolés inter-classes. Ensuite, nous démontrons que l’A-CNN, entraîné sur tous ces données, a un taux de détection cohérent sur tous les types des adversaires exemples invisibles. Alors que la entraînement d’un A-CNN sur des adversaires PGD ne conduit pas à un taux de détection stable sur tous les types d’adversaires, en particulier les types inaperçus. Nous évaluons également visuellement l’espace des fonctionnalités et les limites de décision dans l’espace d’entrée d’un CNN vanille et de son homologue augmenté en présence d’adversaires et de ceux qui sont propres. Par un A-CNN correctement formé, nous visons à faire un pas vers un modèle d’apprentissage debout en bout unifié et fiable avec de faibles taux de risque sur les échantillons propres et les échantillons inhabituels, par exemple, les échantillons adversaires et OOD. La dernière contribution est de présenter une application de A-CNN pour l’entraînement d’un détecteur d’objet robuste sur un ensemble de données partiellement étiquetées, en particulier un ensemble de données fusionné. La fusion de divers ensembles de données provenant de contextes similaires mais avec différents ensembles d’objets d’intérêt (OoI) est un moyen peu coûteux de créer un ensemble de données à grande échelle qui couvre un plus large spectre d’OoI. De plus, la fusion d’ensembles de données permet de réaliser un détecteur d’objet unifié, au lieu d’en avoir plusieurs séparés, ce qui entraîne une réduction des coûts de calcul et de temps. Cependant, la fusion d’ensembles de données, en particulier à partir d’un contexte similaire, entraîne de nombreuses instances d’étiquetées manquantes. Dans le but d’entraîner un détecteur d’objet robuste intégré sur un ensemble de données partiellement étiquetées mais à grande échelle, nous proposons un cadre d’entraînement auto-supervisé pour surmonter le problème des instances d’étiquettes manquantes dans les ensembles des données fusionnés. Notre cadre est évalué sur un ensemble de données fusionné avec un taux élevé d’étiquettes manquantes. Les résultats empiriques confirment la viabilité de nos pseudo-étiquettes générées pour améliorer les performances de YOLO, en tant que détecteur d’objet à la pointe de la technologie.
In this thesis, our goal is to develop robust and reliable yet accurate learning models, particularly Convolutional Neural Networks (CNNs), in the presence of adversarial examples and Out-of-Distribution (OOD) samples. As the first contribution, we propose to predict adversarial instances with high uncertainty through encouraging diversity in an ensemble of CNNs. To this end, we devise an ensemble of diverse specialists along with a simple and computationally efficient voting mechanism to predict the adversarial examples with low confidence while keeping the predictive confidence of the clean samples high. In the presence of high entropy in our ensemble, we prove that the predictive confidence can be upper-bounded, leading to have a globally fixed threshold over the predictive confidence for identifying adversaries. We analytically justify the role of diversity in our ensemble on mitigating the risk of both black-box and white-box adversarial examples. Finally, we empirically assess the robustness of our ensemble to the black-box and the white-box attacks on several benchmark datasets.The second contribution aims to address the detection of OOD samples through an end-to-end model trained on an appropriate OOD set. To this end, we address the following central question: how to differentiate many available OOD sets w.r.t. a given in distribution task to select the most appropriate one, which in turn induces a model with a high detection rate of unseen OOD sets? To answer this question, we hypothesize that the “protection” level of in-distribution sub-manifolds by each OOD set can be a good possible property to differentiate OOD sets. To measure the protection level, we then design three novel, simple, and cost-effective metrics using a pre-trained vanilla CNN. In an extensive series of experiments on image and audio classification tasks, we empirically demonstrate the abilityof an Augmented-CNN (A-CNN) and an explicitly-calibrated CNN for detecting a significantly larger portion of unseen OOD samples, if they are trained on the most protective OOD set. Interestingly, we also observe that the A-CNN trained on the most protective OOD set (calledA-CNN) can also detect the black-box Fast Gradient Sign (FGS) adversarial examples. As the third contribution, we investigate more closely the capacity of the A-CNN on the detection of wider types of black-box adversaries. To increase the capability of A-CNN to detect a larger number of adversaries, we augment its OOD training set with some inter-class interpolated samples. Then, we demonstrate that the A-CNN trained on the most protective OOD set along with the interpolated samples has a consistent detection rate on all types of unseen adversarial examples. Where as training an A-CNN on Projected Gradient Descent (PGD) adversaries does not lead to a stable detection rate on all types of adversaries, particularly the unseen types. We also visually assess the feature space and the decision boundaries in the input space of a vanilla CNN and its augmented counterpart in the presence of adversaries and the clean ones. By a properly trained A-CNN, we aim to take a step toward a unified and reliable end-to-end learning model with small risk rates on both clean samples and the unusual ones, e.g. adversarial and OOD samples.The last contribution is to show a use-case of A-CNN for training a robust object detector on a partially-labeled dataset, particularly a merged dataset. Merging various datasets from similar contexts but with different sets of Object of Interest (OoI) is an inexpensive way to craft a large-scale dataset which covers a larger spectrum of OoIs. Moreover, merging datasets allows achieving a unified object detector, instead of having several separate ones, resultingin the reduction of computational and time costs. However, merging datasets, especially from a similar context, causes many missing-label instances. With the goal of training an integrated robust object detector on a partially-labeled but large-scale dataset, we propose a self-supervised training framework to overcome the issue of missing-label instances in the merged datasets. Our framework is evaluated on a merged dataset with a high missing-label rate. The empirical results confirm the viability of our generated pseudo-labels to enhance the performance of YOLO, as the current (to date) state-of-the-art object detector.
APA, Harvard, Vancouver, ISO, and other styles
16

Haj, Hassan Hawraa. "Détection et classification temps réel de biocellules anormales par technique de segmentation d’images." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0043.

Full text
Abstract:
Le développement de méthodes de la détection en temps réel de cellules anormales (pouvant être considérées comme des cellules cancéreuses) par captures et traitements bio-images sont des axes de recherche importants dans le domaine biomédical car cela contribue à diagnostiquer un cancer. C’est dans ce contexte que se situe ces travaux de thèse. Plus précisément, les travaux présentés dans ce manuscrit, se focalise sur le développement de procédures de lecture, de détection et de classification automatiques de bio-images de cellules anormales considérées comme des cellules cancéreuses. Par conséquent, une première étape du travail à consister à déterminer une solution de détection, à partir d’images microscopiques multispectrales permettant une répétitivité d’images sur une gamme de longueurs d'ondes de certains types de bio-images anormales associées à différents stades ou évolutions de cellules cancéreuses. L’approche développée dans ces travaux repose sur l’exploitation d’une nouvelle méthode de segmentation basée sur l'intensité de la couleur et pouvant être appliquée sur des séquences d'objets dans une image en reformant de manière adaptative et itérative la localisation et la couverture de contours réels de cellules. Cette étape préalable de segmentation est primordiale et permet une classification des tissus anormaux en utilisant la méthode de réseau de neurones à convolution (CNN) appliqué sur les images microscopiques segmenté de type snake. L’approche permet d’obtenir de bas résultats comparativement à une approche basée sur d’autres méthodes de segmentation de la littérature. En effet, cette méthode de classification atteint des valeurs de performance de 100% pour la phase d’apprentissage et de 99.168 % pour les phases de test. Cette méthode est comparée à différents travaux antérieurs et basée sur différentes fonctionnalités d'extraction, et a prouvé son efficacité par rapport à ces autres méthodes. En terme de perspectives, les travaux futurs visent à valider notre approche sur des ensembles de données plus larges, et à explorer différentes architectures CNN selon différents critères d’optimisation
Development of methods for help diagnosis of the real time detection of abnormal cells (which can be considered as cancer cells) through bio-image processing and detection are most important research directions in information science and technology. Our work has been concerned by developing automatic reading procedures of the normal and abnormal bio-images tissues. Therefore, the first step of our work is to detect a certain type of abnormal bio-images associated to many types evolution of cancer within a Microscopic multispectral image, which is an image, repeated in many wavelengths. And using a new segmentation method that reforms itself in an iterative adaptive way to localize and cover the real cell contour, using some segmentation techniques. It is based on color intensity and can be applied on sequences of objects in the image. This work presents a classification of the abnormal tissues using the Convolution neural network (CNN), where it was applied on the microscopic images segmented using the snake method, which gives a high performance result with respect to the other segmentation methods. This classification method reaches high performance values, where it reaches 100% for training and 99.168% for testing. This method was compared to different papers that uses different feature extraction, and proved its high performance with respect to other methods. As a future work, we will aim to validate our approach on a larger datasets, and to explore different CNN architectures and the optimization of the hyper-parameters, in order to increase its performance, and it will be applied to relevant medical imaging tasks including computer-aided diagnosis
APA, Harvard, Vancouver, ISO, and other styles
17

Fourure, Damien. "Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSES056/document.

Full text
Abstract:
La vision par ordinateur est un domaine interdisciplinaire étudiant la manière dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. En intelligence artificielle, et plus précisément en apprentissage automatique, domaine dans lequel se positionne cette thèse, la vision par ordinateur passe par l’extraction de caractéristiques présentes dans les images puis par la généralisation de concepts liés à ces caractéristiques. Ce domaine de recherche est devenu très populaire ces dernières années, notamment grâce aux résultats des réseaux de neurones convolutifs à la base des méthodes dites d’apprentissage profond. Aujourd’hui les réseaux de neurones permettent, entre autres, de reconnaître les différents objets présents dans une image, de générer des images très réalistes ou même de battre les champions au jeu de Go. Leurs performances ne s’arrêtent d’ailleurs pas au domaine de l’image puisqu’ils sont aussi utilisés dans d’autres domaines tels que le traitement du langage naturel (par exemple en traduction automatique) ou la reconnaissance de son. Dans cette thèse, nous étudions les réseaux de neurones convolutifs afin de développer des architectures et des fonctions de coûts spécialisées à des tâches aussi bien de bas niveau (la constance chromatique) que de haut niveau (la segmentation sémantique d’image). Une première contribution s’intéresse à la tâche de constance chromatique. En vision par ordinateur, l’approche principale consiste à estimer la couleur de l’illuminant puis à supprimer son impact sur la couleur perçue des objets. Les expériences que nous avons menées montrent que notre méthode permet d’obtenir des performances compétitives avec l’état de l’art. Néanmoins, notre architecture requiert une grande quantité de données d’entraînement. Afin de corriger en parti ce problème et d’améliorer l’entraînement des réseaux de neurones, nous présentons plusieurs techniques d’augmentation artificielle de données. Nous apportons également deux contributions sur une problématique de haut niveau : la segmentation sémantique d’image. Cette tâche, qui consiste à attribuer une classe sémantique à chacun des pixels d’une image, constitue un défi en vision par ordinateur de par sa complexité. D’une part, elle requiert de nombreux exemples d’entraînement dont les vérités terrains sont coûteuses à obtenir. D’autre part, elle nécessite l’adaptation des réseaux de neurones convolutifs traditionnels afin d’obtenir une prédiction dite dense, c’est-à-dire, une prédiction pour chacun pixel présent dans l’image d’entrée. Pour résoudre la difficulté liée à l’acquisition de données d’entrainements, nous proposons une approche qui exploite simultanément plusieurs bases de données annotées avec différentes étiquettes. Pour cela, nous définissons une fonction de coût sélective. Nous développons aussi une approche dites d’auto-contexte capturant d’avantage les corrélations existantes entre les étiquettes des différentes bases de données. Finalement, nous présentons notre troisième contribution : une nouvelle architecture de réseau de neurones convolutifs appelée GridNet spécialisée pour la segmentation sémantique d’image. Contrairement aux réseaux traditionnels, notre architecture est implémentée sous forme de grille 2D permettant à plusieurs flux interconnectés de fonctionner à différentes résolutions. Afin d’exploiter la totalité des chemins de la grille, nous proposons une technique d’entraînement inspirée du dropout. En outre, nous montrons empiriquement que notre architecture généralise de nombreux réseaux bien connus de l’état de l’art. Nous terminons par une analyse des résultats empiriques obtenus avec notre architecture qui, bien qu’entraînée avec une initialisation aléatoire des poids, révèle de très bonnes performances, dépassant les approches populaires souvent pré-entraînés
Computer vision is an interdisciplinary field that investigates how computers can gain a high level of understanding from digital images or videos. In artificial intelligence, and more precisely in machine learning, the field in which this thesis is positioned,computer vision involves extracting characteristics from images and then generalizing concepts related to these characteristics. This field of research has become very popular in recent years, particularly thanks to the results of the convolutional neural networks that form the basis of so-called deep learning methods. Today, neural networks make it possible, among other things, to recognize different objects present in an image, to generate very realistic images or even to beat the champions at the Go game. Their performance is not limited to the image domain, since they are also used in other fields such as natural language processing (e. g. machine translation) or sound recognition. In this thesis, we study convolutional neural networks in order to develop specialized architectures and loss functions for low-level tasks (color constancy) as well as high-level tasks (semantic segmentation). Color constancy, is the ability of the human visual system to perceive constant colours for a surface despite changes in the spectrum of illumination (lighting change). In computer vision, the main approach consists in estimating the color of the illuminant and then suppressing its impact on the perceived color of objects. We approach the task of color constancy with the use of neural networks by developing a new architecture composed of a subsampling operator inspired by traditional methods. Our experience shows that our method makes it possible to obtain competitive performances with the state of the art. Nevertheless, our architecture requires a large amount of training data. In order to partially correct this problem and improve the training of neural networks, we present several techniques for artificial data augmentation. We are also making two contributions on a high-level issue : semantic segmentation. This task, which consists of assigning a semantic class to each pixel of an image, is a challenge in computer vision because of its complexity. On the one hand, it requires many examples of training that are costly to obtain. On the other hand, it requires the adaptation of traditional convolutional neural networks in order to obtain a so-called dense prediction, i. e., a prediction for each pixel present in the input image. To solve the difficulty of acquiring training data, we propose an approach that uses several databases annotated with different labels at the same time. To do this, we define a selective loss function that has the advantage of allowing the training of a convolutional neural network from data from multiple databases. We also developed self-context approach that captures the correlations between labels in different databases. Finally, we present our third contribution : a new convolutional neural network architecture called GridNet specialized for semantic segmentation. Unlike traditional networks, implemented with a single path from the input (image) to the output (prediction), our architecture is implemented as a 2D grid allowing several interconnected streams to operate at different resolutions. In order to exploit all the paths of the grid, we propose a technique inspired by dropout. In addition, we empirically demonstrate that our architecture generalize many of well-known stateof- the-art networks. We conclude with an analysis of the empirical results obtained with our architecture which, although trained from scratch, reveals very good performances, exceeding popular approaches often pre-trained
APA, Harvard, Vancouver, ISO, and other styles
18

Gonthier, Nicolas. "Transfer learning of convolutional neural networks for texture synthesis and visual recognition in artistic images." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG024.

Full text
Abstract:
Dans cette thèse, nous étudions le transfert de réseaux de neurones à convolution (abrégés CNN en anglais) pré-entrainés sur des images naturelles, vers des tâches différentes de celles pour lesquelles ils ont été entraînés. Nous avons travaillé sur deux axes de recherche : la synthèse de texture et la reconnaissance visuelle dans les images d'œuvres d'art. Le premier axe consiste à synthétiser une nouvelle image à partir d'une image de référence. La plupart des méthodes récentes sont basées sur l'utilisation des matrices Gram des cartes de caractéristiques issues de CNNs entrainés sur ImageNet. Nous avons développé une stratégie multirésolution pour prendre en compte les structures à grande échelle. Cette stratégie peut être couplée à des contraintes à grande distance, soit par une contrainte basée sur le spectre de Fourier, soit par l'utilisation de l'autocorrélation des cartes de caractéristiques. Elle permet d'obtenir d'excellentes synthèses en haute résolution, tout particulièrement pour les textures régulières. Ces méthodes ont été évaluées de manière quantitatives et perceptuelles. Dans un second temps, nous nous sommes intéressés au transfert d'apprentissage pour la classification des images d'art. Les CNNs peuvent être utilisés comme des extracteurs de caractéristiques ou comme initialisation pour un nouvel entrainement. Nous avons mis en avant la supériorité de cette seconde solution. De plus, nous avons étudié le processus d'apprentissage à l'aide de visualisation de caractéristiques, d'indices de similarité ainsi que des métriques quantitatives. Nous avons aussi étudié le transfert de CNN entrainé pour de la détection d'objets. Nous avons proposé une méthode simple de détection faiblement supervisée (cad uniquement des annotations au niveau de l'image). Elle est basée sur un apprentissage à instances multiples, l'utilisation de caractéristiques figées et de propositions de boîtes issues d'un CNN pré-entrainés. Nous avons expérimentalement montré l'intérêt de nos modèles sur six jeux de données non photoréalistes
In this thesis, we study the transfer of Convolutional Neural Networks (CNN) trained on natural images to related tasks. We follow two axes: texture synthesis and visual recognition in artworks. The first one consists in synthesizing a new image given a reference sample. Most methods are based on enforcing the Gram matrices of ImageNet-trained CNN features. We develop a multi-resolution strategy to take into account large scale structures. This strategy can be coupled with long-range constraints either through a Fourier frequency constraint, or the use of feature maps autocorrelation. This scheme allows excellent high-resolution synthesis especially for regular textures. We compare our methods to alternatives ones with quantitative and perceptual evaluations. In a second axis, we focus on transfer learning of CNN for artistic image classification. CNNs can be used as off-the-shelf feature extractors or fine-tuned. We illustrate the advantage of the last solution. Second, we use feature visualization techniques, CNNs similarity indexes and quantitative metrics to highlight some characteristics of the fine-tuning process. Another possibility is to transfer a CNN trained for object detection. We propose a simple multiple instance method using off-the-shelf deep features and box proposals, for weakly supervised object detection. At training time, only image-level annotations are needed. We experimentally show the interest of our models on six non-photorealistic
APA, Harvard, Vancouver, ISO, and other styles
19

Zotti, Clément. "Réseaux de neurones à convolutions pour la segmentation multi structures d'images par résonance magnétique cardiaque." Mémoire, Université de Sherbrooke, 2018. http://hdl.handle.net/11143/11817.

Full text
Abstract:
L'imagerie par résonance magnétique (IRM) est une technique d'acquisition d'images qui permet de visualiser les différents tissus du corps humain. Son principe se base sur le moment magnétique des protons des atomes d'hydrogène. Le corps étant principalement composé d'eau et donc d'hydrogène, cela en fait une méthode de choix pour faire de l'imagerie cardiaque. L'IRM est très utilisée en clinique pour observer et diagnostiquer les différentes maladies cardiaques, comme l'infarctus du myocarde, la cardiomyopathie dilatée ou la cardiomyopathie hypertrophique. Dans le cas du coeur, principalement trois structures anatomiques sont étudiées: la cavité du ventricule gauche, la cavité du ventricule droit et le myocarde. Dans ce but, il est nécessaire de faire une segmentation manuelle, semi-automatique ou automatique de l'image IRM. Une fois ces structures segmentées, différents paramètres physiologiques peuvent être calculés pour évaluer la maladie d'un patient. Souvent, les méthodes de segmentation se concentrent sur la segmentation de la cavité du ventricule gauche. Pour les autres structures, la segmentation est principalement faite à la main par un médecin ce qui demande un temps non négligeable (environ 10 à 15 minutes par coeur). Ce mémoire présente une base de données anonymisée d'images cardiaque contenant 150 patients avec différentes maladies cardiaques. Il présente aussi une nouvelle méthode de segmentation automatique des trois structures sans aucune intervention humaine. La méthode se base sur l'apprentissage profond, ce qui en fait une méthode très rapide (180 millisecondes par volume). Pour rendre les segmentations plus fidèles, elle incorpore un terme de contours qui permet d'avoir une segmentation plus précise des contours des structures et une forme a priori qui permet de rendre la segmentation plus près de celle d'un vrai coeur (sans trous ou anatomie impossible). Cette recherche est faite en collaboration avec l'Université de Bourgogne et l'Université de Lyon en France qui ont permis la mise en place de cette base de données cardiaque et la validation des résultats.
APA, Harvard, Vancouver, ISO, and other styles
20

Suzano, Massa Francisco Vitor. "Mise en relation d'images et de modèles 3D avec des réseaux de neurones convolutifs." Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1198/document.

Full text
Abstract:
La récente mise à disposition de grandes bases de données de modèles 3D permet de nouvelles possibilités pour un raisonnement à un niveau 3D sur les photographies. Cette thèse étudie l'utilisation des réseaux de neurones convolutifs (CNN) pour mettre en relation les modèles 3D et les images.Nous présentons tout d'abord deux contributions qui sont utilisées tout au long de cette thèse : une bibliothèque pour la réduction automatique de la mémoire pour les CNN profonds, et une étude des représentations internes apprises par les CNN pour la mise en correspondance d'images appartenant à des domaines différents. Dans un premier temps, nous présentons une bibliothèque basée sur Torch7 qui réduit automatiquement jusqu'à 91% des besoins en mémoire pour déployer un CNN profond. Dans un second temps, nous étudions l'efficacité des représentations internes des CNN extraites d'un réseau pré-entraîné lorsqu'il est appliqué à des images de modalités différentes (réelles ou synthétiques). Nous montrons que malgré la grande différence entre les images synthétiques et les images naturelles, il est possible d'utiliser certaines des représentations des CNN pour l'identification du modèle de l'objet, avec des applications possibles pour le rendu basé sur l'image.Récemment, les CNNs ont été utilisés pour l'estimation de point de vue des objets dans les images, parfois avec des choix de modélisation très différents. Nous présentons ces approches dans un cadre unifié et nous analysons les facteur clés qui ont une influence sur la performance. Nous proposons une méthode d'apprentissage jointe qui combine à la fois la détection et l'estimation du point de vue, qui fonctionne mieux que de considérer l'estimation de point de vue de manière indépendante.Nous étudions également l'impact de la formulation de l'estimation du point de vue comme une tâche discrète ou continue, nous quantifions les avantages des architectures de CNN plus profondes et nous montrons que l'utilisation des données synthétiques est bénéfique. Avec tous ces éléments combinés, nous améliorons l'état de l'art d'environ 5% pour la précision de point de vue moyenne sur l'ensemble des données Pascal3D+.Dans l'étude de recherche de modèle d'objet 3D dans une base de données, l'image de l'objet est fournie et l'objectif est d'identifier parmi un certain nombre d'objets 3D lequel correspond à l'image. Nous étendons ce travail à la détection d'objet, où cette fois-ci un modèle 3D est donné, et l'objectif consiste à localiser et à aligner le modèle 3D dans image. Nous montrons que l'application directe des représentations obtenues par un CNN ne suffit pas, et nous proposons d'apprendre une transformation qui rapproche les répresentations internes des images réelles vers les représentations des images synthétiques. Nous évaluons notre approche à la fois qualitativement et quantitativement sur deux jeux de données standard: le jeu de données IKEAobject, et le sous-ensemble du jeu de données Pascal VOC 2012 contenant des instances de chaises, et nous montrons des améliorations sur chacun des deux
The recent availability of large catalogs of 3D models enables new possibilities for a 3D reasoning on photographs. This thesis investigates the use of convolutional neural networks (CNNs) for relating 3D objects to 2D images.We first introduce two contributions that are used throughout this thesis: an automatic memory reduction library for deep CNNs, and a study of CNN features for cross-domain matching. In the first one, we develop a library built on top of Torch7 which automatically reduces up to 91% of the memory requirements for deploying a deep CNN. As a second point, we study the effectiveness of various CNN features extracted from a pre-trained network in the case of images from different modalities (real or synthetic images). We show that despite the large cross-domain difference between rendered views and photographs, it is possible to use some of these features for instance retrieval, with possible applications to image-based rendering.There has been a recent use of CNNs for the task of object viewpoint estimation, sometimes with very different design choices. We present these approaches in an unified framework and we analyse the key factors that affect performance. We propose a joint training method that combines both detection and viewpoint estimation, which performs better than considering the viewpoint estimation separately. We also study the impact of the formulation of viewpoint estimation either as a discrete or a continuous task, we quantify the benefits of deeper architectures and we demonstrate that using synthetic data is beneficial. With all these elements combined, we improve over previous state-of-the-art results on the Pascal3D+ dataset by a approximately 5% of mean average viewpoint precision.In the instance retrieval study, the image of the object is given and the goal is to identify among a number of 3D models which object it is. We extend this work to object detection, where instead we are given a 3D model (or a set of 3D models) and we are asked to locate and align the model in the image. We show that simply using CNN features are not enough for this task, and we propose to learn a transformation that brings the features from the real images close to the features from the rendered views. We evaluate our approach both qualitatively and quantitatively on two standard datasets: the IKEAobject dataset, and a subset of the Pascal VOC 2012 dataset of the chair category, and we show state-of-the-art results on both of them
APA, Harvard, Vancouver, ISO, and other styles
21

Plouet, Erwan. "Convolutional and dynamical spintronic neural networks." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASP120.

Full text
Abstract:
Cette thèse aborde le développement de composants spintroniques pour le calcul neuromorphique, une approche novatrice visant à réduire la consommation énergétique significative des applications d'intelligence artificielle (IA). L'adoption généralisée de l'IA, y compris des très grands modèles de langage tels que ChatGPT, a entraîné une augmentation des besoins énergétiques, les centres de données consommant environ 1 à 2 de l'énergie mondiale, avec une projection de doublement d'ici 2030. Les architectures hardware traditionnelles, qui séparent la mémoire et les unités de traitement, ne sont pas adaptées aux tâches d'IA, car les réseaux de neurones nécessitent un accès fréquent à de nombreux paramètres stockés en mémoire, entraînant une dissipation excessive d'énergie. Le calcul neuromorphique, inspiré par le cerveau humain, fusionne les capacités de mémoire et de traitement dans un même dispositif, réduisant potentiellement la consommation d'énergie. La spintronique, qui manipule le spin des électrons plutôt que la charge, offre des composants capables de fonctionner à moindre puissance et de fournir des solutions de traitement efficaces. Cette thèse est divisée en deux parties principales. La première partie se concentre sur la réalisation expérimentale d'un réseau de neurones convolutif hybride hardware-software (CNN) utilisant des composants spintroniques. Les synapses spintroniques, qui fonctionnent avec des signaux radiofréquences, permettent un multiplexage en fréquence pour réduire le besoin de nombreuses connexions physiques dans les réseaux de neurones. Ce travail de recherche explore divers designs de synapses basées sur des spin diodes AMR, chacune avec des spécificités différentes, et démontre l'intégration de ces synapses dans un CNN matériel. Une réalisation importante a été l'implémentation d'une couche convolutive spintronique au sein d'un CNN qui, combinée à une couche entièrement connectée en software, a réussi à classifier des images du dataset FashionMNIST avec une précision de 88 %, se rapprochant des performances d'un réseau purement software. Les principaux résultats incluent le développement et le contrôle précis des synapses spintroniques, la fabrication de chaînes synaptiques pour la somme pondérée dans les réseaux de neurones, et la mise en œuvre expérimentale réussie d'un CNN hybride avec des composants spintroniques sur une tâche complexe. La deuxième partie de la thèse explore l'utilisation des nano-oscillateurs spintroniques (STNOs) pour traiter des signaux dépendants du temps à travers leurs dynamiques transitoires. Les STNOs présentent des comportements non linéaires qui peuvent être exploités pour des tâches complexes comme la classification de séries temporelles. Un réseau de STNOs simulés a été entraîné pour discriminer entre différents types de séries temporelles, démontrant des performances supérieures par rapport aux méthodes de calcul par réservoir standards. Nous avons également proposé et évalué une architecture de réseau multicouche de STNOs pour des tâches plus complexes, telles que la classification de chiffres manuscrits présentés pixel par pixel. Cette architecture a atteint une précision moyenne de 89,83%, similaire à un réseau de neurones récurrents à temps continu (CTRNN) standard équivalent, indiquant le potentiel de ces réseaux à s'adapter à diverses tâches dynamiques. De plus, des méthodes ont été établies pour faire correspondre la dynamique des dispositifs avec les échelles de temps des entrées, cruciales pour optimiser les performances des réseaux de neurones dynamiques. Nous avons démontré qu'un réseau multicouche de STNOs couplés peut être entraîné via la rétropropagation de l'erreur dans le temps, soulignant l'efficacité et le passage à l'échelle possible du calcul neuromorphique spintronique. Cette recherche a démontré que les réseaux spintroniques peuvent être utilisés pour mettre en œuvre des architectures spécifiques et résoudre des tâches complexes
This thesis addresses the development of spintronic components for neuromorphic computing, a novel approach aimed at reducing the significant energy consumption of AI applications. The widespread adoption of AI, including very large scale langage models like ChatGPT, has led to increased energy demands, with data centers consuming about 1-2% of global power, and projected to double by 2030. Traditional hardware architectures, which separate memory and processing units, are not well-suited for AI tasks, as neural networks require frequent access to large in-memory parameters, resulting in excessive energy dissipation. Neuromorphic computing, inspired by the human brain, merges memory and processing capabilities in the same device, potentially reducing energy use. Spintronics, which manipulates electron spin rather than charge, offers components that can operate at lower power and provide efficient processing solutions. The thesis is divided into two main parts. The first part focuses on the experimental implementation of a hybrid hardware-software convolutional neural network (CNN) using spintronic components. Spintronic synapses, which operate with radio frequency signals, enable frequency multiplexing to reduce the need for numerous physical connections in neural networks. This research work explores various designs of AMR spin diode-based synapses, each with different specificities, and demonstrates the integration of these synapses into a hardware CNN. A significant achievement was the implementation of a spintronic convolutional layer within a CNN that, when combined with a software fully-connected layer, successfully classified images from the FashionMNIST dataset with an accuracy of 88%, closely matching the performance of the pure software equivalent network. Key findings include the development and precise control of spintronic synapses, the fabrication of synaptic chains for weighted summation in neural networks, and the successful implementation of a hybrid CNN with experimental spintronic components on a complex task. The second part of the thesis explores the use of spintronic nano oscillators (STNOs) for processing time-dependent signals through their transient dynamics. STNOs exhibit nonlinear behaviors that can be utilized for complex tasks like time series classification. A network of simulated STNOs was trained to discriminate between different types of time series, demonstrating superior performance compared to standard reservoir computing methods. We also proposed and evaluated a multilayer network architecture of STNOs for more complex tasks, such as classifying handwritten digits presented pixel-by-pixel. This architecture achieved an average accuracy of 89.83% similar to an equivalent standard continuous time recurrent neural network (CTRNN), indicating the potential of these networks to adapt to various dynamic tasks. Additionally, guidelines were established for matching device dynamics with input timescales, crucial for optimizing performance in networks of dynamic neurons. We demonstrated that multilayer networks of coupled STNOs can be effectively trained via backpropagation through time, highlighting the efficiency and scalability of spintronic neuromorphic computing. This research demonstrated that spintronic networks can be used to implement specific architectures and solve complex tasks. This paves the way for the creation of compact, low-power spintronic neural networks that could be an alternative to AI hardware, offering a sustainable solution to the growing energy demands of AI technologies
APA, Harvard, Vancouver, ISO, and other styles
22

Saidane, Zohra. "Reconnaissance de texte dans les images et les vidéos en utilisant les réseaux de neurones à convolutions." Phd thesis, Télécom ParisTech, 2008. http://pastel.archives-ouvertes.fr/pastel-00004685.

Full text
APA, Harvard, Vancouver, ISO, and other styles
23

Jiu, Mingyuan. "Spatial information and end-to-end learning for visual recognition." Thesis, Lyon, INSA, 2014. http://www.theses.fr/2014ISAL0038/document.

Full text
Abstract:
Dans cette thèse nous étudions les algorithmes d'apprentissage automatique pour la reconnaissance visuelle. Un accent particulier est mis sur l'apprentissage automatique de représentations, c.à.d. l'apprentissage automatique d'extracteurs de caractéristiques; nous insistons également sur l'apprentissage conjoint de ces dernières avec le modèle de prédiction des problèmes traités, tels que la reconnaissance d'objets, la reconnaissance d'activités humaines, ou la segmentation d'objets. Dans ce contexte, nous proposons plusieurs contributions : Une première contribution concerne les modèles de type bags of words (BoW), où le dictionnaire est classiquement appris de manière non supervisée et de manière autonome. Nous proposons d'apprendre le dictionnaire de manière supervisée, c.à.d. en intégrant les étiquettes de classes issues de la base d'apprentissage. Pour cela, l'extraction de caractéristiques et la prédiction de la classe sont formulées en un seul modèle global de type réseau de neurones (end-to-end training). Deux algorithmes d'apprentissage différents sont proposés pour ce modèle : le premier est basé sur la retro-propagation du gradient de l'erreur, et le second procède par des mises à jour dans le diagramme de Voronoi calculé dans l'espace des caractéristiques. Une deuxième contribution concerne l'intégration d'informations géométriques dans l'apprentissage supervisé et non-supervisé. Elle se place dans le cadre d'applications nécessitant une segmentation d'un objet en un ensemble de régions avec des relations de voisinage définies a priori. Un exemple est la segmentation du corps humain en parties ou la segmentation d'objets spécifiques. Nous proposons une nouvelle approche intégrant les relations spatiales dans l'algorithme d'apprentissage du modèle de prédication. Contrairement aux méthodes existantes, les relations spatiales sont uniquement utilisées lors de la phase d'apprentissage. Les algorithmes de classification restent inchangés, ce qui permet d'obtenir une amélioration du taux de classification sans augmentation de la complexité de calcul lors de la phase de test. Nous proposons trois algorithmes différents intégrant ce principe dans trois modèles : - l'apprentissage du modèle de prédiction des forêts aléatoires, - l'apprentissage du modèle de prédiction des réseaux de neurones (et de la régression logistique), - l'apprentissage faiblement supervisé de caractéristiques visuelles à l'aide de réseaux de neurones convolutionnels
In this thesis, we present our research on visual recognition and machine learning. Two types of visual recognition problems are investigated: action recognition and human body part segmentation problem. Our objective is to combine spatial information such as label configuration in feature space, or spatial layout of labels into an end-to-end framework to improve recognition performance. For human action recognition, we apply the bag-of-words model and reformulate it as a neural network for end-to-end learning. We propose two algorithms to make use of label configuration in feature space to optimize the codebook. One is based on classical error backpropagation. The codewords are adjusted by using gradient descent algorithm. The other is based on cluster reassignments, where the cluster labels are reassigned for all the feature vectors in a Voronoi diagram. As a result, the codebook is learned in a supervised way. We demonstrate the effectiveness of the proposed algorithms on the standard KTH human action dataset. For human body part segmentation, we treat the segmentation problem as classification problem, where a classifier acts on each pixel. Two machine learning frameworks are adopted: randomized decision forests and convolutional neural networks. We integrate a priori information on the spatial part layout in terms of pairs of labels or pairs of pixels into both frameworks in the training procedure to make the classifier more discriminative, but pixelwise classification is still performed in the testing stage. Three algorithms are proposed: (i) Spatial part layout is integrated into randomized decision forest training procedure; (ii) Spatial pre-training is proposed for the feature learning in the ConvNets; (iii) Spatial learning is proposed in the logistical regression (LR) or multilayer perceptron (MLP) for classification
APA, Harvard, Vancouver, ISO, and other styles
24

Farabet, Clément. "Analyse sémantique des images en temps-réel avec des réseaux convolutifs." Phd thesis, Université Paris-Est, 2013. http://tel.archives-ouvertes.fr/tel-00965622.

Full text
Abstract:
Une des questions centrales de la vision informatique est celle de la conception et apprentissage de représentations du monde visuel. Quel type de représentation peut permettre à un système de vision artificielle de détecter et classifier les objects en catégories, indépendamment de leur pose, échelle, illumination, et obstruction. Plus intéressant encore, comment est-ce qu'un tel système peut apprendre cette représentation de façon automatisée, de la même manière que les animaux et humains parviennent à émerger une représentation du monde qui les entoure. Une question liée est celle de la faisabilité calculatoire, et plus précisément celle de l'efficacité calculatoire. Étant donné un modèle visuel, avec quelle efficacité peut-il être entrainé, et appliqué à de nouvelles données sensorielles. Cette efficacité a plusieurs dimensions: l'énergie consommée, la vitesse de calcul, et l'utilisation mémoire. Dans cette thèse je présente trois contributions à la vision informatique: (1) une nouvelle architecture de réseau convolutif profond multi-échelle, permettant de capturer des relations longue distance entre variables d'entrée dans des données type image, (2) un algorithme à base d'arbres permettant d'explorer de multiples candidats de segmentation, pour produire une segmentation sémantique avec confiance maximale, (3) une architecture de processeur dataflow optimisée pour le calcul de réseaux convolutifs profonds. Ces trois contributions ont été produites dans le but d'améliorer l'état de l'art dans le domain de l'analyse sémantique des images, avec une emphase sur l'efficacité calculatoire. L'analyse de scènes (scene parsing) consiste à étiqueter chaque pixel d'une image avec la catégorie de l'objet auquel il appartient. Dans la première partie de cette thèse, je propose une méthode qui utilise un réseau convolutif profond, entrainé à même les pixels, pour extraire des vecteurs de caractéristiques (features) qui encodent des régions de plusieurs résolutions, centrées sur chaque pixel. Cette méthode permet d'éviter l'usage de caractéristiques créées manuellement. Ces caractéristiques étant multi-échelle, elles permettent au modèle de capturer des relations locales et globales à la scène. En parallèle, un arbre de composants de segmentation est calculé à partir de graphe de dis-similarité des pixels. Les vecteurs de caractéristiques associés à chaque noeud de l'arbre sont agrégés, et utilisés pour entrainé un estimateur de la distribution des catégories d'objets présents dans ce segment. Un sous-ensemble des noeuds de l'arbre, couvrant l'image, est ensuite sélectionné de façon à maximiser la pureté moyenne des distributions de classes. En maximisant cette pureté, la probabilité que chaque composant ne contienne qu'un objet est maximisée. Le système global produit une précision record sur plusieurs benchmarks publics. Le calcul de réseaux convolutifs profonds ne dépend que de quelques opérateurs de base, qui sont particulièrement adaptés à une implémentation hardware dédiée. Dans la deuxième partie de cette thèse, je présente une architecture de processeur dataflow dédiée et optimisée pour le calcul de systèmes de vision à base de réseaux convolutifs--neuFlow--et un compilateur--luaFlow--dont le rôle est de compiler une description haut-niveau (type graphe) de réseaux convolutifs pour produire un flot de données et calculs optimal pour l'architecture. Ce système a été développé pour faire de la détection, catégorisation et localisation d'objets en temps réel, dans des scènes complexes, en ne consommant que 10 Watts, avec une implémentation FPGA standard.
APA, Harvard, Vancouver, ISO, and other styles
25

Lecomte-Denis, François. "Amélioration des procédures guidées par fluoroscopie à l'aide d'un réseau de neurones pour le recalage déformable des organes." Electronic Thesis or Diss., Strasbourg, 2024. http://www.theses.fr/2024STRAD062.

Full text
Abstract:
Dans les interventions guidées par fluoroscopie, le manque de contraste empêche la visualisation directe des structures anatomiques essentielles.Les solutions existantes présentent des inconvénients significatifs: l'utilisation de CBCT augmente l'exposition aux radiations,tandis que les agents de contraste présentent des risques de toxicité pour les patients.Les techniques de recalage fluoroscopie-CT pourraient résoudre ces problèmes,mais la littérature existante s'est principalement concentrée sur la compensation du mouvement respiratoire.Or, pendant les interventions, l'action des cliniciens sur les organes est également source de déformations,rendant ces approches de recalage inefficaces.Pour répondre à ces défis, nous présentons une méthode de recalage déformable 2D-3D en temps réel adaptée aux interventions guidées par fluoroscopie.Notre approche par apprentissage profond s'intègre dans la pratique clinique courante, avec un temps d'entraînement minimal après l'acquisition du scanner préopératoire.Grâce à notre processus de génération de données agnostique, le réseau de neurones entraîné est capable de compenser des déformations arbitraires,en exploitant les informations de pose avec son module de rétroprojection 2D-3D.Les expériences sur des images fluoroscopiques simulées ont montré la capacité de notre méthode à apporter une visualisation en temps réel des vaisseaux sans agents de contraste.Sur des images fluoroscopiques réelles, notre méthode permet de compenser le mouvement respiratoire avec une précision médiane de 2,4 mm.Ces résultats démontrent le potentiel de la méthode proposée, établissant une base pour de futurs développements tout en motivant la conduite d'une validation clinique plus aboutie
In fluoroscopy-guided interventions, the lack of contrast prevents direct visualization of essential anatomical structures.Existing solutions have significant drawbacks: the use of CBCT increases radiation exposure, while contrast agents present toxicity risks for patients.Fluoroscopy to CT registration has the potential to alleviate these issues, but existing literature has primarily focused on respiratory motion compensation.Yet, during interventions, clinicians' actions on organs are an additional source of deformation, rendering these registration approaches ineffective.To address these challenges, we present a real-time 2D-3D deformable registration method tailored to fluoroscopy-guided interventions.Our proposed deep learning approach seamlessly integrates into existing clinical workflows, with minimal training time after preoperative CT scan acquisition.Thanks to our novel domain-agnostic data generation framework, the trained neural network can recover arbitrary deformations, leveraging pose information through its 2D-3D feature backprojection module.Experiments on simulated fluoroscopic images demonstrated our method's ability to provide real-time vessel visualization without contrast agents.On real fluoroscopic images, our method compensates for respiratory motion with a median accuracy of 2.4 mm.These results demonstrate the potential of the proposed method, establishing a foundation for future developments while motivating more comprehensive clinical validation
APA, Harvard, Vancouver, ISO, and other styles
26

Yang, Lixuan. "Structuring of image databases for the suggestion of products for online advertising." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1102/document.

Full text
Abstract:
Le sujet de la thèse est l'extraction et la segmentation des vêtements à partir d'images en utilisant des techniques de la vision par ordinateur, de l'apprentissage par ordinateur et de la description d'image, pour la recommandation de manière non intrusive aux utilisateurs des produits similaires provenant d'une base de données de vente. Nous proposons tout d'abord un extracteur d'objets dédié à la segmentation de la robe en combinant les informations locales avec un apprentissage préalable. Un détecteur de personne localises des sites dans l'image qui est probable de contenir l'objet. Ensuite, un processus d'apprentissage intra-image en deux étapes est est développé pour séparer les pixels de l'objet de fond. L'objet est finalement segmenté en utilisant un algorithme de contour actif qui prend en compte la segmentation précédente et injecte des connaissances spécifiques sur la courbure locale dans la fonction énergie. Nous proposons ensuite un nouveau framework pour l'extraction des vêtements généraux en utilisant une procédure d'ajustement globale et locale à trois étapes. Un ensemble de modèles initialises un processus d'extraction d'objet par un alignement global du modèle, suivi d'une recherche locale en minimisant une mesure de l'inadéquation par rapport aux limites potentielles dans le voisinage. Les résultats fournis par chaque modèle sont agrégés, mesuré par un critère d'ajustement globale, pour choisir la segmentation finale. Dans notre dernier travail, nous étendons la sortie d'un réseau de neurones Fully Convolutional Network pour inférer le contexte à partir d'unités locales (superpixels). Pour ce faire, nous optimisons une fonction énergie, qui combine la structure à grande échelle de l'image avec le local structure superpixels, en recherchant dans l'espace de toutes les possibilité d'étiquetage. De plus, nous introduisons une nouvelle base de données RichPicture, constituée de 1000 images pour l'extraction de vêtements à partir d'images de mode. Les méthodes sont validées sur la base de données publiques et se comparent favorablement aux autres méthodes selon toutes les mesures de performance considérées
The topic of the thesis is the extraction and segmentation of clothing items from still images using techniques from computer vision, machine learning and image description, in view of suggesting non intrusively to the users similar items from a database of retail products. We firstly propose a dedicated object extractor for dress segmentation by combining local information with a prior learning. A person detector is applied to localize sites in the image that are likely to contain the object. Then, an intra-image two-stage learning process is developed to roughly separate foreground pixels from the background. Finally, the object is finely segmented by employing an active contour algorithm that takes into account the previous segmentation and injects specific knowledge about local curvature in the energy function.We then propose a new framework for extracting general deformable clothing items by using a three stage global-local fitting procedure. A set of template initiates an object extraction process by a global alignment of the model, followed by a local search minimizing a measure of the misfit with respect to the potential boundaries in the neighborhood. The results provided by each template are aggregated, with a global fitting criterion, to obtain the final segmentation.In our latest work, we extend the output of a Fully Convolution Neural Network to infer context from local units(superpixels). To achieve this we optimize an energy function,that combines the large scale structure of the image with the locallow-level visual descriptions of superpixels, over the space of all possiblepixel labellings. In addition, we introduce a novel dataset called RichPicture, consisting of 1000 images for clothing extraction from fashion images.The methods are validated on the public database and compares favorably to the other methods according to all the performance measures considered
APA, Harvard, Vancouver, ISO, and other styles
27

Caillault, Emilie. "Architecture et Apprentissage d'un Système Hybride Neuro-Markovien pour la Reconnaissance de l'Écriture Manuscrite En-Ligne." Phd thesis, Université de Nantes, 2005. http://tel.archives-ouvertes.fr/tel-00084061.

Full text
Abstract:
Les travaux présentés dans le cadre de cette thèse portent sur l'étude, la conception, le développement et le test d'un système de reconnaissance de mots manuscrits non contraints en-ligne pour une application omni-scripteurs. Le système proposé repose sur une architecture hybride neuro-markovienne comportant d'une part, un réseau de neurones à convolution (TDNN et/ou SDNN), et d'autre part des modèles de Markov à états cachés (MMC). Le réseau de neurones a une vision globale et travaille au niveau caractère, tandis que le MMC s'appuie sur une description plus locale et permet le passage du caractère au niveau mot. Nous avons d'abord étudié le système de reconnaissance au niveau caractère isolé (digits, majuscules, minuscules) et optimisé les architectures des réseaux en termes de performances et de taille. La seconde partie du travail a porté sur le passage au niveau mot. Ici, l'effort a consisté avant tout à la définition d'un schéma d'apprentissage global au niveau mot qui permet d'assurer la convergence globale du système, en définissant une fonction d'objectif qui mixe des critères basés modèle générateur (typiquement par maximum de vraisemblance) et des critères discriminants (de type maximum d'information mutuelle). Les différentes résultats présentés (sur les bases MNIST, IRONOFF, UNIPEN) montrent l'influence des principaux paramètres du système, soit en termes de topologie, de sources d'information, de modèles d'apprentissage (nombre d'états, pondération des critères, durée).
APA, Harvard, Vancouver, ISO, and other styles
28

Beltzung, Benjamin. "Utilisation de réseaux de neurones convolutifs pour mieux comprendre l’évolution et le développement du comportement de dessin chez les Hominidés." Electronic Thesis or Diss., Strasbourg, 2023. http://www.theses.fr/2023STRAJ114.

Full text
Abstract:
L’étude du comportement de dessin peut être très informative cognitivement et psychologiquement, tant chez les humains que chez les autres primates. Cette richesse d’information peut également être un frein à son analyse et à son interprétation, en particulier en l’absence d’explication ou verbalisation de son auteur. En effet, il est possible que l’interprétation donnée par un adulte d’un dessin ne soit pas en accord avec l’intention première du dessinateur. Durant ma thèse, j’ai montré que, bien que généralement considérés comme des boîtes noires, les réseaux de neurones convolutifs (CNNs) peuvent permettre de mieux comprendre le comportement de dessin. Dans un premier lieu, l’utilisation d’un CNN a permis de classifier des dessins d’une femelle orang-outan selon leur saison de production ainsi que de mettre en avant une variation de style et de contenu. De plus, une approche ontogénique a permis de quantifier la similarité entre des productions de différents groupes d’âges. Par la suite, des modèles plus interprétables ainsi que l’application de nouvelles méthodes d’interprétabilité pourraient permettre de mieux déchiffrer le comportement de dessin
The study of drawing behavior can be highly informative, both cognitively and psychologically, in humans and other primates. However, this wealth of information can also be a challenge to analysis and interpretation, particularly in the absence of explanation or verbalization by the author of the drawing. Indeed, an adult's interpretation of a drawing may not be in line with the artist's original intention. During my thesis, I showed that, although generally regarded as black boxes, convolutional neural networks (CNNs) can provide a better understanding of the drawing behavior. Firstly, by using a CNN to classify drawings of a female orangutan according to their season of production, and highlighting variation in style and content. In addition, an ontogenetic approach was considered to quantify the similarity between productions from different age groups. In the future, more interpretable models and the application of new interpretability methods could be applied to better decipher drawing behavior
APA, Harvard, Vancouver, ISO, and other styles
29

Oyallon, Edouard. "Analyzing and introducing structures in deep convolutional neural networks." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLEE060.

Full text
Abstract:
Cette thèse étudie des propriétés empiriques des réseaux de neurones convolutifs profonds, et en particulier de la transformée en Scattering. En effet, l’analyse théorique de ces derniers est difficile et représente jusqu’à ce jour un défi : les couches successives de neurones ont la capacité de réaliser des opérations complexes, dont la nature est encore inconnue, via des algorithmes d’apprentissages dont les garanties de convergences ne sont pas bien comprises. Pourtant, ces réseaux de neurones sont de formidables outils pour s’attaquer à une grande variété de tâches difficiles telles la classification d’images, ou plus simplement effectuer des prédictions. La transformée de Scattering est un opérateur mathématique, non-linéaire dont les spécifications sont inspirées par les réseaux convolutifs. Dans ce travail, elle est appliquée sur des images naturelles et obtient des résultats compétitifs avec les architectures non-supervisées. En plaçant un réseau de neurones convolutifs supervisés à la suite du Scattering, on obtient des performances compétitives sur ImageNet2012, qui est le plus grand jeux de donnée d’images étiquetées accessibles aux chercheurs. Cela nécessite d’implémenter un algorithme efficace sur carte graphique. Dans un second temps, cette thèse s’intéresse aux propriétés des couches à différentes profondeurs. On montre qu’un phénomène de réduction de dimensionnalité progressif à lieu et on s’intéresse aux propriétés de classifications supervisées lorsqu’on varie des hyper paramètres de ces réseaux. Finalement, on introduit une nouvelle classe de réseaux convolutifs, dont les opérateurs sont structurés par des groupes de symétries du problème de classification
This thesis studies empirical properties of deep convolutional neural networks, and in particular the Scattering Transform. Indeed, the theoretical analysis of the latter is hard and until now remains a challenge: successive layers of neurons have the ability to produce complex computations, whose nature is still unknown, thanks to learning algorithms whose convergence guarantees are not well understood. However, those neural networks are outstanding tools to tackle a wide variety of difficult tasks, like image classification or more formally statistical prediction. The Scattering Transform is a non-linear mathematical operator whose properties are inspired by convolutional networks. In this work, we apply it to natural images, and obtain competitive accuracies with unsupervised architectures. Cascading a supervised neural networks after the Scattering permits to compete on ImageNet2012, which is the largest dataset of labeled images available. An efficient GPU implementation is provided. Then, this thesis focuses on the properties of layers of neurons at various depths. We show that a progressive dimensionality reduction occurs and we study the numerical properties of the supervised classification when we vary the hyper parameters of the network. Finally, we introduce a new class of convolutional networks, whose linear operators are structured by the symmetry groups of the classification task
APA, Harvard, Vancouver, ISO, and other styles
30

Yedroudj, Mehdi. "Steganalysis and steganography by deep learning." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS095.

Full text
Abstract:
La stéganographie d'image est l'art de la communication secrète dans le but d'échanger un message de manière furtive. La stéganalyse d'image a elle pour objectif de détecter la présence d'un message caché en recherchant les artefacts présent dans l'image. Pendant une dizaine d'années, l'approche classique en stéganalyse a été d'utiliser un ensemble classifieur alimenté par des caractéristiques extraites "à la main". Au cours des dernières années, plusieurs études ont montré que les réseaux de neurones convolutionnels peuvent atteindre des performances supérieures à celles des approches conventionnelles d'apprentissage machine.Le sujet de cette thèse traite des techniques d'apprentissage profond utilisées pour la stéganographie d'images et la stéganalyse dans le domaine spatial.La première contribution est un réseau de neurones convolutionnel rapide et efficace pour la stéganalyse, nommé Yedroudj-Net. Comparé aux méthodes modernes de steganalyse basées sur l'apprentissage profond, Yedroudj-Net permet d'obtenir des résultats de détection performants, mais prend également moins de temps à converger, ce qui permet l'utilisation des bases d'apprentissage de grandes dimensions. De plus, Yedroudj-Net peut facilement être amélioré en ajoutant des compléments ou des modules bien connus. Parmi les amélioration possibles, nous avons évalué l'augmentation de la base de données d'entraînement, et l'utilisation d'un ensemble de CNN. Les deux modules complémentaires permettent d'améliorer les performances de notre réseau.La deuxième contribution est l'application des techniques d'apprentissage profond à des fins stéganographiques i.e pour l'insertion. Parmi les techniques existantes, nous nous concentrons sur l'approche du "jeu-à-3-joueurs". Nous proposons un algorithme d'insertion qui apprend automatiquement à insérer un message secrètement. Le système de stéganographie que nous proposons est basé sur l'utilisation de réseaux adverses génératifs. L'entraînement de ce système stéganographique se fait à l'aide de trois réseaux de neurones qui se font concurrence : le stéganographeur, l'extracteur et le stéganalyseur. Pour le stéganalyseur nous utilisons Yedroudj-Net, pour sa petite taille, et le faite que son entraînement ne nécessite pas l'utilisation d'astuces qui pourrait augmenter le temps de calcul.Cette deuxième contribution donne des premiers éléments de réflexion tout en donnant des résultats prometteurs, et pose ainsi les bases pour de futurs recherches
Image steganography is the art of secret communication in order to exchange a secret message. In the other hand, image steganalysis attempts to detect the presence of a hidden message by searching artefacts within an image. For about ten years, the classic approach for steganalysis was to use an Ensemble Classifier fed by hand-crafted features. In recent years, studies have shown that well-designed convolutional neural networks (CNNs) can achieve superior performance compared to conventional machine-learning approaches.The subject of this thesis deals with the use of deep learning techniques for image steganography and steganalysis in the spatialdomain.The first contribution is a fast and very effective convolutional neural network for steganalysis, named Yedroudj-Net. Compared tomodern deep learning based steganalysis methods, Yedroudj-Net can achieve state-of-the-art detection results, but also takes less time to converge, allowing the use of a large training set. Moreover,Yedroudj-Net can easily be improved by using well known add-ons. Among these add-ons, we have evaluated the data augmentation, and the the use of an ensemble of CNN; Both increase our CNN performances.The second contribution is the application of deep learning techniques for steganography i.e the embedding. Among the existing techniques, we focus on the 3-player game approach.We propose an embedding algorithm that automatically learns how to hide a message secretly. Our proposed steganography system is based on the use of generative adversarial networks. The training of this steganographic system is conducted using three neural networks that compete against each other: the embedder, the extractor, and the steganalyzer. For the steganalyzer we use Yedroudj-Net, this for its affordable size, and for the fact that its training does not require the use of any tricks that could increase the computational time.This second contribution defines a research direction, by giving first reflection elements while giving promising first results
APA, Harvard, Vancouver, ISO, and other styles
31

Faula, Yannick. "Extraction de caractéristiques sur des images acquises en contexte mobile : Application à la reconnaissance de défauts sur ouvrages d’art." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI077.

Full text
Abstract:
Le réseau ferroviaire français dispose d’une infrastructure de grande ampleur qui se compose de nombreux ouvrages d’art. Ces derniers subissent les dégradations du temps et du trafic et font donc l’objet d’une surveillance périodique pour détecter l’apparition de défauts. Aujourd’hui, cette inspection se fait en grande partie, visuellement par des opérateurs experts. Plusieurs entreprises testent de nouveaux vecteurs d’acquisition photo comme le drone, destinés à la surveillance des ouvrages de génie civil. Dans cette thèse, l’objectif principal est de développer un système capable de détecter, localiser et enregistrer d’éventuels défauts de l’ouvrage. Un grand défi est de détecter des défauts sous-pixels comme les fissures en temps réel pour améliorer l’acquisition. Pour cela, une analyse par seuillage local a été conçue pour traiter de grandes images. Cette analyse permet d’extraire des points d’intérêts (Points FLASH: Fast Local Analysis by threSHolding) où une ligne droite peut se faufiler. La mise en relation intelligente de ces points permet de détecter et localiser les fissures fines. Les résultats de détection de fissures de surfaces altérées issues d'images d'ouvrages d'art démontrent de meilleures performances en temps de calcul et robustesse que les algorithmes existants. En amont de l'étape de détection, il est nécessaire de s’assurer que les images acquises soient de bonne qualité pour réaliser le traitement. Une mauvaise mise au point ou un flou de bougé sont à bannir. Nous avons développé une méthode réutilisant les calculs de la détection en extrayant des mesures de Local Binary Patterns (LBP) afin de vérifier la qualité en temps réel. Enfin, pour réaliser une acquisition permettant une reconstruction photogrammétrique, les images doivent avoir un recouvrement suffisant. Notre algorithme, réutilisant les points d’intérêts de la détection, permet un appariement simple entre deux images sans passer par des algorithmes de type RANSAC. Notre méthode est invariante en rotation, translation et à une certaine plage de changements d’échelle. Après l’acquisition, sur les images de qualité optimale, il est possible d'employer des méthodes plus coûteuses en temps comme les réseaux de neurones à convolution. Ces derniers bien qu'incapables d’assurer une détection de fissures en temps réel peuvent être utilisés pour détecter certains types d’avaries. Cependant, le manque de données impose la constitution de notre propre jeu de données. A l'aide d'approches de classification indépendante (classifieurs SVM one-class), nous avons développé un système flexible capable d’évoluer dans le temps, de détecter puis de classifier les différents types de défauts. Aucun système de ce type n’apparaît dans la littérature. Les travaux réalisés sur l’extraction de caractéristiques sur des images pour la détection de défauts pourront être utiles dans d’autres applications telles que la navigation de véhicules intelligents ou le word-spotting
The french railway network has a huge infrastructure which is composed of many civil engineering structures. These suffer from degradation of time and traffic and they are subject to a periodic monitoring in order to detect appearance of defects. At the moment, this inspection is mainly done visually by monitoring operators. Several companies test new vectors of photo acquisition like the drone, designed for civil engineering monitoring. In this thesis, the main goal is to develop a system able to detect, localize and save potential defects of the infrastructure. A huge issue is to detect sub-pixel defects like cracks in real time for improving the acquisition. For this task, a local analysis by thresholding is designed for treating large images. This analysis can extract some points of interest (FLASH points: Fast Local Analysis by threSHolding) where a straight line can sneak in. The smart spatial relationship of these points allows to detect and localise fine cracks. The results of the crack detection on concrete degraded surfaces coming from images of infrastructure show better performances in time and robustness than the state-of-art algorithms. Before the detection step, we have to ensure the acquired images have a sufficient quality to make the process. A bad focus or a movement blur are prohibited. We developed a method reusing the preceding computations to assess the quality in real time by extracting Local Binary Pattern (LBP) values. Then, in order to make an acquisition for photogrammetric reconstruction, images have to get a sufficient overlapping. Our algorithm, reusing points of interest of the detection, can make a simple matching between two images without using algorithms as type RANSAC. Our method has invariance in rotation, translation and scale range. After the acquisition, with images with optimal quality, it is possible to exploit methods more expensive in time like convolution neural networks. These are not able to detect cracks in real time but can detect other kinds of damages. However, the lack of data requires the constitution of our database. With approaches of independent classification (classifier SVM one-class), we developed a dynamic system able to evolve in time, detect and then classify the different kinds of damages. No system like ours appears in the literature for the defect detection on civil engineering structure. The implemented works on feature extraction on images for damage detection will be used in other applications as smart vehicle navigation or word spotting
APA, Harvard, Vancouver, ISO, and other styles
32

Yang, Lixuan. "Structuring of image databases for the suggestion of products for online advertising." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1102.

Full text
Abstract:
Le sujet de la thèse est l'extraction et la segmentation des vêtements à partir d'images en utilisant des techniques de la vision par ordinateur, de l'apprentissage par ordinateur et de la description d'image, pour la recommandation de manière non intrusive aux utilisateurs des produits similaires provenant d'une base de données de vente. Nous proposons tout d'abord un extracteur d'objets dédié à la segmentation de la robe en combinant les informations locales avec un apprentissage préalable. Un détecteur de personne localises des sites dans l'image qui est probable de contenir l'objet. Ensuite, un processus d'apprentissage intra-image en deux étapes est est développé pour séparer les pixels de l'objet de fond. L'objet est finalement segmenté en utilisant un algorithme de contour actif qui prend en compte la segmentation précédente et injecte des connaissances spécifiques sur la courbure locale dans la fonction énergie. Nous proposons ensuite un nouveau framework pour l'extraction des vêtements généraux en utilisant une procédure d'ajustement globale et locale à trois étapes. Un ensemble de modèles initialises un processus d'extraction d'objet par un alignement global du modèle, suivi d'une recherche locale en minimisant une mesure de l'inadéquation par rapport aux limites potentielles dans le voisinage. Les résultats fournis par chaque modèle sont agrégés, mesuré par un critère d'ajustement globale, pour choisir la segmentation finale. Dans notre dernier travail, nous étendons la sortie d'un réseau de neurones Fully Convolutional Network pour inférer le contexte à partir d'unités locales (superpixels). Pour ce faire, nous optimisons une fonction énergie, qui combine la structure à grande échelle de l'image avec le local structure superpixels, en recherchant dans l'espace de toutes les possibilité d'étiquetage. De plus, nous introduisons une nouvelle base de données RichPicture, constituée de 1000 images pour l'extraction de vêtements à partir d'images de mode. Les méthodes sont validées sur la base de données publiques et se comparent favorablement aux autres méthodes selon toutes les mesures de performance considérées
The topic of the thesis is the extraction and segmentation of clothing items from still images using techniques from computer vision, machine learning and image description, in view of suggesting non intrusively to the users similar items from a database of retail products. We firstly propose a dedicated object extractor for dress segmentation by combining local information with a prior learning. A person detector is applied to localize sites in the image that are likely to contain the object. Then, an intra-image two-stage learning process is developed to roughly separate foreground pixels from the background. Finally, the object is finely segmented by employing an active contour algorithm that takes into account the previous segmentation and injects specific knowledge about local curvature in the energy function.We then propose a new framework for extracting general deformable clothing items by using a three stage global-local fitting procedure. A set of template initiates an object extraction process by a global alignment of the model, followed by a local search minimizing a measure of the misfit with respect to the potential boundaries in the neighborhood. The results provided by each template are aggregated, with a global fitting criterion, to obtain the final segmentation.In our latest work, we extend the output of a Fully Convolution Neural Network to infer context from local units(superpixels). To achieve this we optimize an energy function,that combines the large scale structure of the image with the locallow-level visual descriptions of superpixels, over the space of all possiblepixel labellings. In addition, we introduce a novel dataset called RichPicture, consisting of 1000 images for clothing extraction from fashion images.The methods are validated on the public database and compares favorably to the other methods according to all the performance measures considered
APA, Harvard, Vancouver, ISO, and other styles
33

Mabon, Jules. "Apprentissage de modèles de géométrie stochastique et réseaux de neurones convolutifs. Application à la détection d'objets multiples dans des jeux de données aérospatiales." Electronic Thesis or Diss., Université Côte d'Azur, 2023. http://www.theses.fr/2023COAZ4116.

Full text
Abstract:
Les drones et les satellites en orbite basse, dont les CubeSats, sont de plus en plus utilisés pour la surveillance, générant d'importantes masses de données à traiter. L'acquisition d'images satellitaires est sujette aux perturbations atmosphériques, aux occlusions et à une résolution limitée. Pour détecter de petits objets, l'information visuelle est limitée. Cependant, les objets d'intérêt (comme les petits véhicules) ne sont pas uniformément répartis dans l'image, présentant des configurations spécifiques.Ces dernières années, les Réseaux de Neurones Convolutifs (CNN) ont montré des compétences remarquables pour extraire des informations, en particulier les textures. Cependant, modéliser les interactions entre objets nécessite une complexité accrue. Les CNN considèrent généralement les interactions lors d'une étape de post-traitement.En revanche, les processus ponctuels permettent de modéliser la vraisemblance des points par rapport à l'image et leurs interactions simultanément. La plupart des modèles stochastiques utilisent des mesures de contraste pour la correspondance à l'image ; elles sont adaptées aux objets à contraste fort et faible complexité du fond. Cependant, les petits véhicules sur les images satellitaires présentent divers niveaux de contraste et une grande variété d'objets de fond et de fausses alarmes.Cette thèse de doctorat propose d'utiliser les CNN pour l'extraction d'informations, combinées aux processus ponctuels pour modéliser les interactions, en utilisant les sorties CNN comme données. De plus, nous introduisons une méthode unifiée pour estimer les paramètres du modèle de processus ponctuel. Nos résultats montrent l'efficacité de ce modèle sur plusieurs jeux de données de télédétection, avec régularisation géométrique et robustesse accrue pour un nombre limité de paramètres
Unmanned aerial vehicles and low-orbit satellites, including CubeSats, are increasingly used for wide-area surveillance, generating substantial data for processing. Satellite imagery acquisition is susceptible to atmospheric disruptions, occlusions, and limited resolution, resulting in limited visual data for small object detection. However, the objects of interest (e.g., small vehicles) are unevenly distributed in the image: there are some priors on the structure of the configurations.In recent years, convolutional neural network (CNN) models have excelled at extracting information from images, especially texture details. Yet, modeling object interactions requires a significant increase in model complexity and parameters. CNN models generally treat interaction as a post-processing step.In contrast, point processes aim to simultaneously model each point's likelihood in relation to the image (data term) and their interactions (prior term). Most point process models rely on contrast measures (foreground vs. background) for their data terms, which work well with clearly contrasted objects and minimal background clutter. However, small vehicles in satellite images exhibit varying contrast levels and a diverse range of background and false alarm objects.In this PhD thesis, we propose harnessing CNN models information extraction abilities in combination with point process interaction models, using CNN outputs as data terms. Additionally, we introduce a unified method for estimating point process model parameters. Our model demonstrates excellent performance on multiple remote sensing datasets, providing geometric regularization and enhanced noise robustness, all with a minimal parameter footprint
APA, Harvard, Vancouver, ISO, and other styles
34

Shahkarami, Abtin. "Complexity reduction over bi-RNN-based Kerr nonlinearity equalization in dual-polarization fiber-optic communications via a CRNN-based approach." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT034.

Full text
Abstract:
Les dégradations dues à la non-linéarité de Kerr dans les fibres optiques limitent les débits d’information des systèmes de communications. Les effets linéaires, tels que la dispersion chromatique et la dispersion modale de polarisation, peuvent être compensés par égalisation linéaire, de mise en oeuvre relativement simple, au niveau du récepteur. A l’inverse, la complexité de calcul des techniques classiques de réduction de la non-linéarité, telles que la rétro-propagation numérique, peut être considérable. Les réseaux neuronaux ont récemment attiré l’attention, dans ce contexte, pour la mise en oeuvre d’égaliseurs non-linéaires à faible complexité. Cette thèse porte sur l’étude des réseaux neuronaux récurrents pour compenser efficacement les dégradations des canaux dans les transmissions à longue distance multiplexés en polarisation. Nous présentons une architecture hybride de réseaux neuronaux récurrents convolutifs (CRNN), comprenant un encodeur basé sur un réseau neuronal convolutif (CNN) suivie d’une couche récurrente travaillant en tandem. L’encodeur basé sur CNN représente efficacement la mémoire de canal à court terme résultant de la dispersion chromatique, tout en faisant passer le signal vers un espace latent avec moins de caractéristiques pertinentes. La couche récurrente suivante est implémentée sous la forme d’un RNN unidirectionnel de type vanille, chargé de capturer les interactions à longue portée négligées par l’encodeur CNN. Nous démontrons que le CRNN proposé atteint la performance des égaliseurs actuels dans la communication par fibre optique, avec une complexité de calcul significativement plus faible selon le modèle du système. Enfin, le compromis performance-complexité est établi pour un certain nombre de modèles, y compris les réseaux neuronaux multicouches entièrement connectés, les CNN, les réseaux neuronaux récurrents bidirectionnels, les réseaux long short-term memory bidirectionnels (bi-LSTM), les réseaux gated recurrent units bidirectionnels, les modèles bi-LSTM convolutifs et le modèle hybride proposé
The impairments arising from the Kerr nonlinearity in optical fibers limit the achievable information rates in fiber-optic communication. Unlike linear effects, such as chromatic dispersion and polarization-mode dispersion, which can be compensated via relatively simple linear equalization at the receiver, the computational complexity of the conventional nonlinearity mitigation techniques, such as the digital backpropagation, can be substantial. Neural networks have recently attracted attention, in this context, for low-complexity nonlinearity mitigation in fiber-optic communications. This Ph.D. dissertation deals with investigating the recurrent neural networks to efficiently compensate for the nonlinear channel impairments in dual-polarization long-haul fiber-optic transmission. We present a hybrid convolutional recurrent neural network (CRNN) architecture, comprising a convolutional neural network (CNN) -based encoder followed by a recurrent layer working in tandem. The CNN-based encoder represents the shortterm channel memory arising from the chromatic dispersion efficiently, while transitioning the signal to a latent space with fewer relevant features. The subsequent recurrent layer is implemented in the form of a unidirectional vanilla RNN, responsible for capturing the long-range interactions neglected by the CNN encoder. We demonstrate that the proposed CRNN achieves the performance of the state-of-theart equalizers in optical fiber communication, with significantly lower computational complexity depending on the system model. Finally, the performance complexity trade-off is established for a number of models, including multi-layer fully-connected neural networks, CNNs, bidirectional recurrent neural networks, bidirectional long short-term memory (bi-LSTM), bidirectional gated recurrent units, convolutional bi-LSTM models, and the suggested hybrid model
APA, Harvard, Vancouver, ISO, and other styles
35

Barhoumi, Amira. "Une approche neuronale pour l’analyse d’opinions en arabe." Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1022.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre de l’analyse d’opinions en arabe. Son objectif consiste à déterminer la polarité globale d’un énoncé textuel donné écrit en Arabe standard moderne (ASM) ou dialectes arabes. Cette thématique est un domaine de recherche en plein essor et a fait l’objet de nombreuses études avec une majorité de travaux actuels traitant des langues indo-européennes, en particulier la langue anglaise. Une des difficultés à laquelle se confronte cette thèse est le traitement de la langue arabe qui est une langue morphologiquement riche avec une grande variabilité des formes de surface observables dans les données d’apprentissage. Nous souhaitons pallier ce problème en produisant, de manière totalement automatique et contrôlée, de nouvelles représentations vectorielles continues (en anglais embeddings) spécifiques à la langue arabe. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection de polarité, en exploitant la puissance des embeddings. En effet, ceux-ci se sont révélés un atout fondamental dans différentes tâches de traitement automatique des langues naturelles (TALN). Notre contribution dans le cadre de cette thèse porte plusieurs axes. Nous commençons, d’abord, par une étude préliminaire des différentes ressources d’embeddings de mots pré-entraînés existants en langue arabe. Ces embeddings considèrent les mots comme étant des unités séparées par des espaces afin de capturer, dans l'espace de projection, des similarités sémantiques et syntaxiques. Ensuite, nous nous focalisons sur les spécificités de la langue arabe en proposant des embeddings spécifiques pour cette langue. Les phénomènes comme l’agglutination et la richesse morphologique de l’arabe sont alors pris en compte. Ces embeddings spécifiques ont été utilisés, seuls et combinés, comme entrée à deux réseaux neuronaux (l’un convolutif et l’autre récurrent) apportant une amélioration des performances dans la détection de polarité sur un corpus de revues. Nous proposons une analyse poussée des embeddings proposées. Dans une évaluation intrinsèque, nous proposons un nouveau protocole introduisant la notion de la stabilité de polarités (sentiment stability) dans l’espace d'embeddings. Puis, nous proposons une analyse qualitative extrinsèque de nos embeddings en utilisant des méthodes de projection et de visualisation
My thesis is part of Arabic sentiment analysis. Its aim is to determine the global polarity of a given textual statement written in MSA or dialectal arabic. This research area has been subject of numerous studies dealing with Indo-European languages, in particular English. One of difficulties confronting this thesis is the processing of Arabic. In fact, Arabic is a morphologically rich language which implies a greater sparsity : we want to overcome this problem by producing, in a completely automatic way, new arabic specific embeddings. Our study focuses on the use of a neural approach to improve polarity detection, using embeddings. These embeddings have revealed fundamental in various natural languages processing tasks (NLP). Our contribution in this thesis concerns several axis. First, we begin with a preliminary study of the various existing pre-trained word embeddings resources in arabic. These embeddings consider words as space separated units in order to capture semantic and syntactic similarities in the embedding space. Second, we focus on the specifity of Arabic language. We propose arabic specific embeddings that take into account agglutination and morphological richness of Arabic. These specific embeddings have been used, alone and in combined way, as input to neural networks providing an improvement in terms of classification performance. Finally, we evaluate embeddings with intrinsic and extrinsic methods specific to sentiment analysis task. For intrinsic embeddings evaluation, we propose a new protocol introducing the notion of sentiment stability in the embeddings space. We propose also a qualitaive extrinsic analysis of our embeddings by using visualisation methods
APA, Harvard, Vancouver, ISO, and other styles
36

Yousef, Yaser. "Routage pour la gestion de l'énergie dans les réseaux de capteurs sans fil." Phd thesis, Université de Haute Alsace - Mulhouse, 2010. http://tel.archives-ouvertes.fr/tel-00590407.

Full text
Abstract:
Avec l'émergence des nouvelles technologies, les communications sans fil n'ont cessé de croître afin de permettre aux utilisateurs un accès à l'information et aux services électroniques, et ceci indépendamment de leur position géographique. Les réseaux sans fil ont aussi trouvé leur place pour des applications spécifiques telles que les transmissions radio utilisées pour l'interconnexion de capteurs. Ce type de réseau peut être considéré comme un sous-ensemble des réseaux ad hoc. Des contraintes spécifiques s'appliquent alors aux utilisateurs de ces réseaux, telles que la difficulté d'accès pour la maintenance, les problèmes liés à la miniaturisation et au nombre élevé de capteurs. L'objectif de cette thèse est d'étudier les contraintes énergétiques liées à l'utilisation des batteries à capacité limitée pour l'alimentation des capteurs. Pour atteindre cet objectif, nous avons proposé de représenter les réseaux de capteurs à travers une image à échelle de gris : les zones claires correspondant aux zones riches en énergie, alors que les zones sombres représentent des régions avec une capacité énergétique faible. Des filtres issus du monde de traitement d'image sont alors appliqués à cette image représentant l'énergie. Ainsi, nous proposons des filtres de convolution de type Sobel ou de type filtre moyen pour nos algorithmes de routage et nous construisons une matrice énergétique pour chaque capteur. Cette matrice est alors utilisée avec le produit de convolution pour guider le routage. Les différents algorithmes proposés font ensuite l'objet de simulations avec le simulateur de réseaux OMNeT++.
APA, Harvard, Vancouver, ISO, and other styles
37

Pasdeloup, Bastien. "Extending convolutional neural networks to irregular domains through graph inference." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0048/document.

Full text
Abstract:
Tout d'abord, nous présentons des méthodes permettant d'inférer un graphe à partir de signaux, afin de modéliser le support des données à classifier. Ensuite, des translations préservant les voisinages des sommets sont identifiées sur le graphe inféré. Enfin, ces translations sont utilisées pour déplacer un noyau convolutif sur le graphe, afin dedéfinir un réseau de neurones convolutif adapté aux données d'entrée.Nous avons illustré notre méthodologie sur une base de données d'images. Sans utiliser de connaissances sur les signaux, nous avons pu inférer un graphe proche d'une grille. Les translations sur ce graphe sont proches des translations Euclidiennes, ce qui nous a permis de définir un réseau de neurones convolutif très similaire à ce que l'on aurait pu obtenir en utilisant l'information que les signaux sont des images. Ce réseau, entraîné sur les données initiales, a dépassé lesperformances des méthodes de l'état de l'art de plus de 13 points, tout en étant simple et facilement améliorable.La méthode que nous avons introduite est une généralisation des réseaux de neurones convolutifs, car ceux-ci sont des cas particuliers de notre approche quand le graphe est une grille. Nos travaux ouvrent donc de nombreuses perspectives, car ils fournissent une méthode efficace pour construire des réseaux adaptés aux données
This manuscript sums up our work on extending convolutional neuralnetworks to irregular domains through graph inference. It consists of three main chapters, each giving the details of a part of a methodology allowing the definition of such networks to process signals evolving on graphs with unknown structures.First, graph inference from data is explored, in order to provide a graph modeling the support of the signals to classify. Second, translation operators that preserve neighborhood properties of the vertices are identified on the inferred graph. Third, these translations are used to shift a convolutional kernel on the graph in order to define a convolutional neural network that is adapted to the input data.We have illustrated our methodology on a dataset of images. While not using any particular knowledge on the signals, we have been able to infer a graph that is close to a grid. Translations on this graph resemble Euclidean translations. Therefore, this has allowed us to define an adapted convolutional neural network that is very close what one would obtain when using the information that signals are images. This network, trained on the initial data, has out performed state of the art methods by more than 13 points, while using a very simple and easily improvable architecture.The method we have introduced is a generalization of convolutional neural networks. As a matter of fact, they can be seen as aparticularization of our approach in the case where the graph is a grid. Our work thus opens the way to numerous perspectives, as it provides an efficient way to build networks that are adapted to the data
APA, Harvard, Vancouver, ISO, and other styles
38

Vialatte, Jean-Charles. "Convolution et apprentissage profond sur graphes." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0118/document.

Full text
Abstract:
Pour l’apprentissage automatisé de données régulières comme des images ou des signaux sonores, les réseaux convolutifs profonds s’imposent comme le modèle de deep learning le plus performant. En revanche, lorsque les jeux de données sont irréguliers (par example : réseaux de capteurs, de citations, IRMs), ces réseaux ne peuvent pas être utilisés. Dans cette thèse, nous développons une théorie algébrique permettant de définir des convolutions sur des domaines irréguliers, à l’aide d’actions de groupe (ou, plus généralement, de groupoïde) agissant sur les sommets d’un graphe, et possédant des propriétés liées aux arrêtes. A l’aide de ces convolutions, nous proposons des extensions des réseaux convolutifs à des structures de graphes. Nos recherches nous conduisent à proposer une formulation générique de la propagation entre deux couches de neurones que nous appelons la contraction neurale. De cette formule, nous dérivons plusieurs nouveaux modèles de réseaux de neurones, applicables sur des domaines irréguliers, et qui font preuve de résultats au même niveau que l’état de l’art voire meilleurs pour certains
Convolutional neural networks have proven to be the deep learning model that performs best on regularly structured datasets like images or sounds. However, they cannot be applied on datasets with an irregular structure (e.g. sensor networks, citation networks, MRIs). In this thesis, we develop an algebraic theory of convolutions on irregular domains. We construct a family of convolutions that are based on group actions (or, more generally, groupoid actions) that acts on the vertex domain and that have properties that depend on the edges. With the help of these convolutions, we propose extensions of convolutional neural netowrks to graph domains. Our researches lead us to propose a generic formulation of the propagation between layers, that we call the neural contraction. From this formulation, we derive many novel neural network models that can be applied on irregular domains. Through benchmarks and experiments, we show that they attain state-of-the-art performances, and beat them in some cases
APA, Harvard, Vancouver, ISO, and other styles
39

Pirovano, Antoine. "Computer-aided diagnosis methods for cervical cancer screening on liquid-based Pap smears using convolutional neural networks : design, optimization and interpretability." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT011.

Full text
Abstract:
Le cancer du col de l’utérus est le deuxième cancer le plus important pour les femmes après le cancer du sein. En 2012, le nombre de cas recensés dépasse 500,000 à travers le monde, dont la moitié se sont révélés mortels. Jusqu'à maintenant, le dépistage primaire du cancer du col de l’utérus est réalisé par l’inspection visuelle de cellules, prélevées par frottis vaginal, par des cytopathologistes utilisant la microscopie en fond clair dans des laboratoires de pathologie. En France, environ 5 millions de dépistage sont réalisés chaque année et environ 90% mènent à un diagnostic négatifs (i.e. pas de changements précancereux détectés). Pourtant, ces analyses au microscope sont extrêmement fastidieuses et coûteuses en temps pour le cytotechniciens et peut nécessiter l’avis conjoint de plusieurs experts. Ce processus impacte la capacité à traiter cette immense quantité de cas et à éviter les faux négatifs qui sont la cause principale des retards de traitements médicaux. Le manque d’automatisation et de traçabilité des dépistage deviennent ainsi de plus en plus critique à mesure que le nombre d’experts diminue. En ce sens, l’intégration d’outils numériques dans les laboratoires de pathologie devient une réelle problématique de santé publique et la voie privilégiée pour l’amélioration de ces laboratoires. Depuis 2012, l’apprentissage profond a révolutionné le domaine de la vision par ordinateur, en particulier grâce aux réseaux de neurones convolutionnels qui se sont montrés fructueux sur un large panel d’applications parmi lesquelles plusieurs en imagerie biomédicale. Parallèlement, le processus de digitalisation de lames entières a ouvert l’opportunité pour de nouveaux outils et de nouvelles méthodes de diagnostic assisté par ordinateur. Dans cette thèse, après avoir motivé le besoin médical et introduit l’état de l’art en terme de méthodes d’apprentissage profond pour le traitement de l’image, nous présentons nos contributions au domaine de la vision par ordinateur traitant le dépistage du cancer du col de l’utérus dans un contexte de cytologie en milieu liquide. Notre première contribution consiste à proposer une méthode simple de régularisation pour l’entrainement de modèles dans le contexte d’une classification ordinale (i.e. classes suivant un ordre). Nous démontrons l’avantage de notre méthode pour la classification de cellules utérines en utilisant sur le jeu de données Herlev. De plus, nous proposons de nous appuyer sur des explications basées sur le gradient pour réaliser une localisation faiblement supervisée et plus généralement une détection d’anormalité. Finalement, nous montrons comment nous intégrons ces méthodes pour créer un outil assisté par ordinateur qui pourrait être utilisé afin de réduire la charge de travail des cytopathologistes. La seconde contribution se concentre sur la classification de lames entières et l’interprétabilité de ces approches. Nous présentons en détails les méthodes de classification de lames entières s’appuyant sur l’apprentissage multi-instances, et améliorons l’interprétabilité dans un contexte d’apprentissage faiblement supervisé via des visualizations de caractéristiques au niveau de la tuile et une nouvelle manière de calculer des cartes de chaleur explicatives. Finalement, nous appliquons ces méthodes pour le dépistage du cancer du col de l’utérus en utilisant un detecteur d’ “anormalité” qui guide l’entrainement pour l’échantillonnages de régions d’intérêt
Cervical cancer is the second most important cancer for women after breast cancer. In 2012, the number of cases exceeded 500,000 worldwide, among which half turned to be deadly.Until today, primary cervical cancer screening is performed by a regular visual analysis of cells, sampled by pap-smear by cytopathologists under brightfield microscopy in pathology laboratories. In France, about 5 millions of cervical screening are performed each year and about 90% lead to a negative diagnosis (i.e. no pre-cancerous changes detected). Yet, these analyses under microscope are extremely tedious and time-consuming for cytotechnicians and can require the joint opinion of several experts. This process has an impact on the capacity to tackle this huge amount of cases and to avoid false negatives that are the main cause of treatment delay. The lack of automation and traceability of screening is thus becoming more critical as the number of cyto-pathologists decreases. In that respect, the integration of digital tools in pathology laboratories is becoming a real public health stake for patients and the privileged path for the improvement of these laboratories. Since 2012, deep learning methods have revolutionized the computer vision field, in particular thanks to convolutional neural networks that have been applied successfully to a wide range of applications among which biomedical imaging. Along with it, the whole slide imaging digitization process has opened the opportunity for new efficient computer-aided diagnosis methods and tools. In this thesis, after motivating the medical needs and introducing the state-of-the-art deep learning methods for image processing and understanding, we present our contribution to the field of computer vision tackling cervical cancer screening in the context of liquid-based cytology. Our first contribution consists in proposing a simple regularization constraint for classification model training in the context of ordinal regression tasks (i.e. ordered classes). We prove the advantage of our method on cervical cells classification using Herlev dataset. Furthermore, we propose to rely on explanations from gradient-based explanations to perform weakly-supervised localization and detection of abnormality. Finally, we show how we integrate these methods as a computer-aided tool that could be used to reduce the workload of cytopathologists.The second contribution focuses on whole slide classification and the interpretability of these pipelines. We present in detail the most popular approaches for whole slide classification relying on multiple instance learning, and improve the interpretability in a context of weakly-supervised learning through tile-level feature visualizations and a novel manner of computing explanations of heat-maps. Finally, we apply these methods for cervical cancer screening by using a weakly trained “abnormality” detector for region of interest sampling that guides the training
APA, Harvard, Vancouver, ISO, and other styles
40

Strock, Anthony. "Mémoire de travail dans les réseaux de neurones récurrents aléatoires." Thesis, Bordeaux, 2020. http://www.theses.fr/2020BORD0195.

Full text
Abstract:
La mémoire de travail peut être définie comme la capacité à stocker temporairement et à manipuler des informations de toute nature.Par exemple, imaginez que l'on vous demande d'additionner mentalement une série de nombres. Afin de réaliser cette tâche, vous devez garder une trace de la somme partielle qui doit être mise à jour à chaque fois qu'un nouveau nombre est donné. La mémoire de travail est précisément ce qui permettrait de maintenir (i.e. stocker temporairement) la somme partielle et de la mettre à jour (i.e. manipuler). Dans cette thèse, nous proposons d'explorer les implémentations neuronales de cette mémoire de travail en utilisant un nombre restreint d'hypothèses.Pour ce faire, nous nous plaçons dans le contexte général des réseaux de neurones récurrents et nous proposons d'utiliser en particulier le paradigme du reservoir computing.Ce type de modèle très simple permet néanmoins de produire des dynamiques dont l'apprentissage peut tirer parti pour résoudre une tâche donnée.Dans ce travail, la tâche à réaliser est une mémoire de travail à porte (gated working memory).Le modèle reçoit en entrée un signal qui contrôle la mise à jour de la mémoire.Lorsque la porte est fermée, le modèle doit maintenir son état de mémoire actuel, alors que lorsqu'elle est ouverte, il doit la mettre à jour en fonction d'une entrée.Dans notre approche, cette entrée supplémentaire est présente à tout instant, même lorsqu'il n'y a pas de mise à jour à faire.En d'autres termes, nous exigeons que notre modèle soit un système ouvert, i.e. un système qui est toujours perturbé par ses entrées mais qui doit néanmoins apprendre à conserver une mémoire stable.Dans la première partie de ce travail, nous présentons l'architecture du modèle et ses propriétés, puis nous montrons sa robustesse au travers d'une étude de sensibilité aux paramètres.Celle-ci montre que le modèle est extrêmement robuste pour une large gamme de paramètres.Peu ou prou, toute population aléatoire de neurones peut être utilisée pour effectuer le gating.Par ailleurs, après apprentissage, nous mettons en évidence une propriété intéressante du modèle, à savoir qu'une information peut être maintenue de manière entièrement distribuée, i.e. sans être corrélée à aucun des neurones mais seulement à la dynamique du groupe.Plus précisément, la mémoire de travail n'est pas corrélée avec l'activité soutenue des neurones ce qui a pourtant longtemps été observé dans la littérature et remis en cause récemment de façon expérimentale.Ce modèle vient confirmer ces résultats au niveau théorique.Dans la deuxième partie de ce travail, nous montrons comment ces modèles obtenus par apprentissage peuvent être étendus afin de manipuler l'information qui se trouve dans l'espace latent.Nous proposons pour cela de considérer les conceptors qui peuvent être conceptualisé comme un jeu de poids synaptiques venant contraindre la dynamique du réservoir et la diriger vers des sous-espaces particuliers; par exemple des sous-espaces correspondants au maintien d'une valeur particulière.Plus généralement, nous montrons que ces conceptors peuvent non seulement maintenir des informations, ils peuvent aussi maintenir des fonctions.Dans le cas du calcul mental évoqué précédemment, ces conceptors permettent alors de se rappeler et d'appliquer l'opération à effectuer sur les différentes entrées données au système.Ces conceptors permettent donc d'instancier une mémoire de type procédural en complément de la mémoire de travail de type déclaratif.Nous concluons ce travail en remettant en perspective ce modèle théorique vis à vis de la biologie et des neurosciences
Working memory can be defined as the ability to temporarily store and manipulate information of any kind.For example, imagine that you are asked to mentally add a series of numbers.In order to accomplish this task, you need to keep track of the partial sum that needs to be updated every time a new number is given.The working memory is precisely what would make it possible to maintain (i.e. temporarily store) the partial sum and to update it (i.e. manipulate).In this thesis, we propose to explore the neuronal implementations of this working memory using a limited number of hypotheses.To do this, we place ourselves in the general context of recurrent neural networks and we propose to use in particular the reservoir computing paradigm.This type of very simple model nevertheless makes it possible to produce dynamics that learning can take advantage of to solve a given task.In this job, the task to be performed is a gated working memory task.The model receives as input a signal which controls the update of the memory.When the door is closed, the model should maintain its current memory state, while when open, it should update it based on an input.In our approach, this additional input is present at all times, even when there is no update to do.In other words, we require our model to be an open system, i.e. a system which is always disturbed by its inputs but which must nevertheless learn to keep a stable memory.In the first part of this work, we present the architecture of the model and its properties, then we show its robustness through a parameter sensitivity study.This shows that the model is extremely robust for a wide range of parameters.More or less, any random population of neurons can be used to perform gating.Furthermore, after learning, we highlight an interesting property of the model, namely that information can be maintained in a fully distributed manner, i.e. without being correlated to any of the neurons but only to the dynamics of the group.More precisely, working memory is not correlated with the sustained activity of neurons, which has nevertheless been observed for a long time in the literature and recently questioned experimentally.This model confirms these results at the theoretical level.In the second part of this work, we show how these models obtained by learning can be extended in order to manipulate the information which is in the latent space.We therefore propose to consider conceptors which can be conceptualized as a set of synaptic weights which constrain the dynamics of the reservoir and direct it towards particular subspaces; for example subspaces corresponding to the maintenance of a particular value.More generally, we show that these conceptors can not only maintain information, they can also maintain functions.In the case of mental arithmetic mentioned previously, these conceptors then make it possible to remember and apply the operation to be carried out on the various inputs given to the system.These conceptors therefore make it possible to instantiate a procedural working memory in addition to the declarative working memory.We conclude this work by putting this theoretical model into perspective with respect to biology and neurosciences
APA, Harvard, Vancouver, ISO, and other styles
41

Tang, Yuxing. "Weakly supervised learning of deformable part models and convolutional neural networks for object detection." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEC062/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons au problème de la détection d’objets faiblement supervisée. Le but est de reconnaître et de localiser des objets dans les images, n’ayant à notre disposition durant la phase d’apprentissage que des images partiellement annotées au niveau des objets. Pour cela, nous avons proposé deux méthodes basées sur des modèles différents. Pour la première méthode, nous avons proposé une amélioration de l’approche ”Deformable Part-based Models” (DPM) faiblement supervisée, en insistant sur l’importance de la position et de la taille du filtre racine initial spécifique à la classe. Tout d’abord, un ensemble de candidats est calculé, ceux-ci représentant les positions possibles de l’objet pour le filtre racine initial, en se basant sur une mesure générique d’objectness (par region proposals) pour combiner les régions les plus saillantes et potentiellement de bonne qualité. Ensuite, nous avons proposé l’apprentissage du label des classes latentes de chaque candidat comme un problème de classification binaire, en entrainant des classifieurs spécifiques pour chaque catégorie afin de prédire si les candidats sont potentiellement des objets cible ou non. De plus, nous avons amélioré la détection en incorporant l’information contextuelle à partir des scores de classification de l’image. Enfin, nous avons élaboré une procédure de post-traitement permettant d’élargir et de contracter les régions fournies par le DPM afin de les adapter efficacement à la taille de l’objet, augmentant ainsi la précision finale de la détection. Pour la seconde approche, nous avons étudié dans quelle mesure l’information tirée des objets similaires d’un point de vue visuel et sémantique pouvait être utilisée pour transformer un classifieur d’images en détecteur d’objets d’une manière semi-supervisée sur un large ensemble de données, pour lequel seul un sous-ensemble des catégories d’objets est annoté avec des boîtes englobantes nécessaires pour l’apprentissage des détecteurs. Nous avons proposé de transformer des classifieurs d’images basés sur des réseaux convolutionnels profonds (Deep CNN) en détecteurs d’objets en modélisant les différences entre les deux en considérant des catégories disposant à la fois de l’annotation au niveau de l’image globale et l’annotation au niveau des boîtes englobantes. Cette information de différence est ensuite transférée aux catégories sans annotation au niveau des boîtes englobantes, permettant ainsi la conversion de classifieurs d’images en détecteurs d’objets. Nos approches ont été évaluées sur plusieurs jeux de données tels que PASCAL VOC, ImageNet ILSVRC et Microsoft COCO. Ces expérimentations ont démontré que nos approches permettent d’obtenir des résultats comparables à ceux de l’état de l’art et qu’une amélioration significative a pu être obtenue par rapport à des méthodes récentes de détection d’objets faiblement supervisées
In this dissertation we address the problem of weakly supervised object detection, wherein the goal is to recognize and localize objects in weakly-labeled images where object-level annotations are incomplete during training. To this end, we propose two methods which learn two different models for the objects of interest. In our first method, we propose a model enhancing the weakly supervised Deformable Part-based Models (DPMs) by emphasizing the importance of location and size of the initial class-specific root filter. We first compute a candidate pool that represents the potential locations of the object as this root filter estimate, by exploring the generic objectness measurement (region proposals) to combine the most salient regions and “good” region proposals. We then propose learning of the latent class label of each candidate window as a binary classification problem, by training category-specific classifiers used to coarsely classify a candidate window into either a target object or a non-target class. Furthermore, we improve detection by incorporating the contextual information from image classification scores. Finally, we design a flexible enlarging-and-shrinking post-processing procedure to modify the DPMs outputs, which can effectively match the approximate object aspect ratios and further improve final accuracy. Second, we investigate how knowledge about object similarities from both visual and semantic domains can be transferred to adapt an image classifier to an object detector in a semi-supervised setting on a large-scale database, where a subset of object categories are annotated with bounding boxes. We propose to transform deep Convolutional Neural Networks (CNN)-based image-level classifiers into object detectors by modeling the differences between the two on categories with both image-level and bounding box annotations, and transferring this information to convert classifiers to detectors for categories without bounding box annotations. We have evaluated both our approaches extensively on several challenging detection benchmarks, e.g. , PASCAL VOC, ImageNet ILSVRC and Microsoft COCO. Both our approaches compare favorably to the state-of-the-art and show significant improvement over several other recent weakly supervised detection methods
APA, Harvard, Vancouver, ISO, and other styles
42

Estienne, Théo. "Deep learning-based methods for 3D medical image registration." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG055.

Full text
Abstract:
Cette thèse se concentre sur des nouvelles approches d'apprentissage profond (aussi appelé deep learning) pour trouver le meilleur déplacement entre deux images médicales différentes. Ce domaine de recherche, appelé recalage d'images, a de nombreuses applications dans la prise en charge clinique, notamment la fusion de différents types d'imagerie ou le suivi temporel d'un patient. Ce domaine est étudié depuis de nombreuses années avec diverses méthodes, telles que les méthodes basées sur des difféomorphismes, sur des graphes ou sur des équations physiques. Récemment, des méthodes basées sur l'apprentissage profond ont été proposées en utilisant des réseaux de neurones convolutifs.Les méthodes utilisant l’apprentissage profond ont obtenu des résultats similaires aux méthodes classiques tout en réduisant considérablement le temps de calcul et en permettant une prédiction en temps réel. Cette amélioration provient de l'utilisation de processeurs graphiques (GPU) et d'une phase de prédiction où aucune optimisation n'est requise. Cependant, les méthodes utilisant l'apprentissage profond ont plusieurs limites, telles que le besoin de grandes bases de données pour entraîner le réseau ou le choix des bons hyperparamètres pour éviter des transformations trop irrégulières.Dans ce manuscrit, nous proposons diverses modifications apportées aux algorithmes de recalage à l’aide de deep learning, en travaillant sur différentes types d'imagerie et de parties du corps. Nous étudions dans un premier temps la combinaison des tâches de segmentation et de recalage proposant une nouvelle architecture conjointe. Nous nous appliquons à des jeux de données d'IRM cérébrales, en explorant différents cas : des cerveaux sans et avec tumeurs. Notre architecture comprend un encodeur et deux décodeurs et le couplage est renforcé par l'introduction d’une fonction de coût supplémentaire. Dans le cas de la présence d’une tumeur, la fonction de similarité est modifiée tel que l’entraînement se concentre uniquement sur la partie saine du cerveau, ignorant ainsi la tumeur. Ensuite, nous passons au scanner abdominal, une localisation plus difficile, à cause des mouvements et des déformations naturelles des organes. Nous améliorons les performances d’apprentissage grâce à l'utilisation de pré-apprentissage et de pseudo segmentations, l'ajout de nouvelles fonction de coût pour permettre une meilleure régularisation et une stratégie multi-étapes. Enfin, nous analysons l'explicabilité des réseaux d'enregistrement en utilisant une décomposition linéaire et en s'appliquant à l'IRM pulmonaire et l’hippocampe cérébrale. Grâce à notre stratégie de fusion tardive, nous projetons des images dans l'espace latent et calculons une nouvelle base. Cette base correspond à la transformation élémentaire que nous étudions qualitativement
This thesis focuses on new deep learning approaches to find the best displacement between two different medical images. This research area, called image registration, have many applications in the clinical pipeline, including the fusion of different imaging types or the temporal follow-up of a patient. This field is studied for many years with various methods, such as diffeomorphic, graph-based or physical-based methods. Recently, deep learning-based methods were proposed using convolutional neural networks.These methods obtained similar results to non-deep learning methods while greatly reducing the computation time and enabling real-time prediction. This improvement comes from the use of graphics processing units (GPU) and a prediction phase where no optimisation is required. However, deep learning-based registration has several limitations, such as the need for large databases to train the network or tuning regularisation hyperparameters to prevent too noisy transformations.In this manuscript, we investigate diverse modifications to deep learning algorithms, working on various imaging types and body parts. We study first the combination of segmentation and registration tasks proposing a new joint architecture. We apply to brain MRI datasets, exploring different cases : brain without and with tumours. Our architecture comprises one encoder and two decoders and the coupling is reinforced by the introduction of a supplementary loss. In the presence of tumour, the similarity loss is modified such as the registration focus only on healthy part ignoring the tumour. Then, we shift to abdominal CT, a more challenging localisation, as there are natural organ's movement and deformation. We improve registration performances thanks to the use of pre-training and pseudo segmentations, the addition of new losses to provide a better regularisation and a multi-steps strategy. Finally, we analyse the explainability of registration networks using a linear decomposition and applying to lung and hippocampus MR. Thanks to our late fusion strategy, we project images to the latent space and calculate a new basis. This basis correspond to elementary transformation witch we study qualitatively
APA, Harvard, Vancouver, ISO, and other styles
43

Papadopoulos, Georgios. "Towards a 3D building reconstruction using spatial multisource data and computational intelligence techniques." Thesis, Limoges, 2019. http://www.theses.fr/2019LIMO0084/document.

Full text
Abstract:
La reconstruction de bâtiments à partir de photographies aériennes et d’autres données spatiales urbaines multi-sources est une tâche qui utilise une multitude de méthodes automatisées et semi-automatisées allant des processus ponctuels au traitement classique des images et au balayage laser. Dans cette thèse, un système de relaxation itératif est développé sur la base de l'examen du contexte local de chaque bord en fonction de multiples sources d'entrée spatiales (masques optiques, d'élévation, d'ombre et de feuillage ainsi que d'autres données prétraitées, décrites au chapitre 6). Toutes ces données multisource et multirésolution sont fusionnées de manière à extraire les segments de ligne probables ou les arêtes correspondant aux limites des bâtiments. Deux nouveaux sous-systèmes ont également été développés dans cette thèse. Ils ont été conçus dans le but de fournir des informations supplémentaires, plus fiables, sur les contours des bâtiments dans une future version du système de relaxation proposé. La première est une méthode de réseau de neurones à convolution profonde (CNN) pour la détection de frontières de construction. Le réseau est notamment basé sur le modèle SRCNN (Dong C. L., 2015) de super-résolution à la pointe de la technologie. Il accepte des photographies aériennes illustrant des données de zones urbaines densément peuplées ainsi que leurs cartes d'altitude numériques (DEM) correspondantes. La formation utilise trois variantes de cet ensemble de données urbaines et vise à détecter les contours des bâtiments grâce à une nouvelle cartographie hétéroassociative super-résolue. Une autre innovation de cette approche est la conception d'une couche de perte personnalisée modifiée appelée Top-N. Dans cette variante, l'erreur quadratique moyenne (MSE) entre l'image de sortie reconstruite et l'image de vérité de sol (GT) fournie des contours de bâtiment est calculée sur les 2N pixels de l'image avec les valeurs les plus élevées. En supposant que la plupart des N pixels de contour de l’image GT figurent également dans les 2N pixels supérieurs de la reconstruction, cette modification équilibre les deux catégories de pixels et améliore le comportement de généralisation du modèle CNN. Les expériences ont montré que la fonction de coût Top-N offre des gains de performance par rapport à une MSE standard. Une amélioration supplémentaire de la capacité de généralisation du réseau est obtenue en utilisant le décrochage. Le deuxième sous-système est un réseau de convolution profonde à super-résolution, qui effectue un mappage associatif à entrée améliorée entre les images d'entrée à basse résolution et à haute résolution. Ce réseau a été formé aux données d’altitude à basse résolution et aux photographies urbaines optiques à haute résolution correspondantes. Une telle différence de résolution entre les images optiques / satellites optiques et les données d'élévation est souvent le cas dans les applications du monde réel
Building reconstruction from aerial photographs and other multi-source urban spatial data is a task endeavored using a plethora of automated and semi-automated methods ranging from point processes, classic image processing and laser scanning. In this thesis, an iterative relaxation system is developed based on the examination of the local context of each edge according to multiple spatial input sources (optical, elevation, shadow & foliage masks as well as other pre-processed data as elaborated in Chapter 6). All these multisource and multiresolution data are fused so that probable line segments or edges are extracted that correspond to prominent building boundaries.Two novel sub-systems have also been developed in this thesis. They were designed with the purpose to provide additional, more reliable, information regarding building contours in a future version of the proposed relaxation system. The first is a deep convolutional neural network (CNN) method for the detection of building borders. In particular, the network is based on the state of the art super-resolution model SRCNN (Dong C. L., 2015). It accepts aerial photographs depicting densely populated urban area data as well as their corresponding digital elevation maps (DEM). Training is performed using three variations of this urban data set and aims at detecting building contours through a novel super-resolved heteroassociative mapping. Another innovation of this approach is the design of a modified custom loss layer named Top-N. In this variation, the mean square error (MSE) between the reconstructed output image and the provided ground truth (GT) image of building contours is computed on the 2N image pixels with highest values . Assuming that most of the N contour pixels of the GT image are also in the top 2N pixels of the re-construction, this modification balances the two pixel categories and improves the generalization behavior of the CNN model. It is shown in the experiments, that the Top-N cost function offers performance gains in comparison to standard MSE. Further improvement in generalization ability of the network is achieved by using dropout.The second sub-system is a super-resolution deep convolutional network, which performs an enhanced-input associative mapping between input low-resolution and high-resolution images. This network has been trained with low-resolution elevation data and the corresponding high-resolution optical urban photographs. Such a resolution discrepancy between optical aerial/satellite images and elevation data is often the case in real world applications. More specifically, low-resolution elevation data augmented by high-resolution optical aerial photographs are used with the aim of augmenting the resolution of the elevation data. This is a unique super-resolution problem where it was found that many of -the proposed general-image SR propositions do not perform as well. The network aptly named building super resolution CNN (BSRCNN) is trained using patches extracted from the aforementioned data. Results show that in comparison with a classic bicubic upscale of the elevation data the proposed implementation offers important improvement as attested by a modified PSNR and SSIM metric. In comparison, other proposed general-image SR methods performed poorer than a standard bicubic up-scaler.Finally, the relaxation system fuses together all these multisource data sources comprising of pre-processed optical data, elevation data, foliage masks, shadow masks and other pre-processed data in an attempt to assign confidence values to each pixel belonging to a building contour. Confidence is augmented or decremented iteratively until the MSE error fails below a specified threshold or a maximum number of iterations have been executed. The confidence matrix can then be used to extract the true building contours via thresholding
APA, Harvard, Vancouver, ISO, and other styles
44

Caye, Daudt Rodrigo. "Convolutional neural networks for change analysis in earth observation images with noisy labels and domain shifts." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT033.

Full text
Abstract:
L'analyse de l'imagerie satellitaire et aérienne d'observation de la Terre nous permet d'obtenir des informations précises sur de vastes zones. Une analyse multitemporelle de telles images est nécessaire pour comprendre l'évolution de ces zones. Dans cette thèse, les réseaux de neurones convolutifs sont utilisés pour détecter et comprendre les changements en utilisant des images de télédétection provenant de diverses sources de manière supervisée et faiblement supervisée. Des architectures siamoises sont utilisées pour comparer des paires d'images recalées et identifier les pixels correspondant à des changements. La méthode proposée est ensuite étendue à une architecture de réseau multitâche qui est utilisée pour détecter les changements et effectuer une cartographie automatique simultanément, ce qui permet une compréhension sémantique des changements détectés. Ensuite, un filtrage de classification et un nouvel algorithme de diffusion anisotrope guidée sont utilisés pour réduire l'effet du bruit d'annotation, un défaut récurrent pour les ensembles de données à grande échelle générés automatiquement. Un apprentissage faiblement supervisé est également réalisé pour effectuer une détection de changement au niveau des pixels en utilisant uniquement une supervision au niveau de l'image grâce à l'utilisation de cartes d'activation de classe et d'une nouvelle couche d'attention spatiale. Enfin, une méthode d'adaptation de domaine fondée sur un entraînement adverse est proposée. Cette méthode permet de projeter des images de différents domaines dans un espace latent commun où une tâche donnée peut être effectuée. Cette méthode est testée non seulement pour l'adaptation de domaine pour la détection de changement, mais aussi pour la classification d'images et la segmentation sémantique, ce qui prouve sa polyvalence
The analysis of satellite and aerial Earth observation images allows us to obtain precise information over large areas. A multitemporal analysis of such images is necessary to understand the evolution of such areas. In this thesis, convolutional neural networks are used to detect and understand changes using remote sensing images from various sources in supervised and weakly supervised settings. Siamese architectures are used to compare coregistered image pairs and to identify changed pixels. The proposed method is then extended into a multitask network architecture that is used to detect changes and perform land cover mapping simultaneously, which permits a semantic understanding of the detected changes. Then, classification filtering and a novel guided anisotropic diffusion algorithm are used to reduce the effect of biased label noise, which is a concern for automatically generated large-scale datasets. Weakly supervised learning is also achieved to perform pixel-level change detection using only image-level supervision through the usage of class activation maps and a novel spatial attention layer. Finally, a domain adaptation method based on adversarial training is proposed, which succeeds in projecting images from different domains into a common latent space where a given task can be performed. This method is tested not only for domain adaptation for change detection, but also for image classification and semantic segmentation, which proves its versatility
APA, Harvard, Vancouver, ISO, and other styles
45

Al, Hajj Hassan. "Video analysis for augmented cataract surgery." Thesis, Brest, 2018. http://www.theses.fr/2018BRES0041/document.

Full text
Abstract:
L’ère numérique change de plus en plus le monde en raison de la quantité de données récoltées chaque jour. Le domaine médical est fortement affecté par cette explosion, car l’exploitation de ces données est un véritable atout pour l’aide à la pratique médicale. Dans cette thèse, nous proposons d’utiliser les vidéos chirurgicales dans le but de créer un système de chirurgie assistée par ordinateur. Nous nous intéressons principalement à reconnaître les gestes chirurgicaux à chaque instant afin de fournir aux chirurgiens des recommandations et des informations pertinentes. Pour ce faire, l’objectif principal de cette thèse est de reconnaître les outils chirurgicaux dans les vidéos de chirurgie de la cataracte. Dans le flux vidéo du microscope, ces outils sont partiellement visibles et certains se ressemblent beaucoup. Pour relever ces défis, nous proposons d'ajouter une caméra supplémentaire filmant la table opératoire. Notre objectif est donc de détecter la présence des outils dans les deux types de flux vidéo : les vidéos du microscope et les vidéos de la table opératoire. Le premier enregistre l'oeil du patient et le second enregistre les activités de la table opératoire. Deux tâches sont proposées pour détecter les outils dans les vidéos de la table : la détection des changements et la détection de présence d'outil. Dans un premier temps, nous proposons un système similaire pour ces deux tâches. Il est basé sur l’extraction des caractéristiques visuelles avec des méthodes de classification classique. Il fournit des résultats satisfaisants pour la détection de changement, cependant, il fonctionne insuffisamment bien pour la tâche de détection de présence des outils sur la table. Dans un second temps, afin de résoudre le problème du choix des caractéristiques, nous utilisons des architectures d’apprentissage profond pour la détection d'outils chirurgicaux sur les deux types de vidéo. Pour surmonter les défis rencontrés dans les vidéos de la table, nous proposons de générer des vidéos artificielles imitant la scène de la table opératoire et d’utiliser un réseau de neurones à convolutions (CNN) à base de patch. Enfin, nous exploitons l'information temporelle en utilisant un réseau de neurones récurrent analysant les résultats de CNNs. Contrairement à notre hypothèse, les expérimentations montrent des résultats insuffisants pour la détection de présence des outils sur la table, mais de très bons résultats dans les vidéos du microscope. Nous obtenons des résultats encore meilleurs dans les vidéos du microscope après avoir fusionné l’information issue de la détection des changements sur la table et la présence des outils dans l’oeil
The digital era is increasingly changing the world due to the sheer volume of data produced every day. The medical domain is highly affected by this revolution, because analysing this data can be a source of education/support for the clinicians. In this thesis, we propose to reuse the surgery videos recorded in the operating rooms for computer-assisted surgery system. We are chiefly interested in recognizing the surgical gesture being performed at each instant in order to provide relevant information. To achieve this goal, this thesis addresses the surgical tool recognition problem, with applications in cataract surgery. The main objective of this thesis is to address the surgical tool recognition problem in cataract surgery videos.In the surgical field, those tools are partially visible in videos and highly similar to one another. To address the visual challenges in the cataract surgical field, we propose to add an additional camera filming the surgical tray. Our goal is to detect the tool presence in the two complementary types of videos: tool-tissue interaction and surgical tray videos. The former records the patient's eye and the latter records the surgical tray activities.Two tasks are proposed to perform the task on the surgical tray videos: tools change detection and tool presence detection.First, we establish a similar pipeline for both tasks. It is based on standard classification methods on top of visual learning features. It yields satisfactory results for the tools change task, howev-lateer, it badly performs the surgical tool presence task on the tray. Second, we design deep learning architectures for the surgical tool detection on both video types in order to address the difficulties in manually designing the visual features.To alleviate the inherent challenges on the surgical tray videos, we propose to generate simulated surgical tray scenes along with a patch-based convolutional neural network (CNN).Ultimately, we study the temporal information using RNN processing the CNN results. Contrary to our primary hypothesis, the experimental results show deficient results for surgical tool presence on the tray but very good results on the tool-tissue interaction videos. We achieve even better results in the surgical field after fusing the tool change information coming from the tray and tool presence signals on the tool-tissue interaction videos
APA, Harvard, Vancouver, ISO, and other styles
46

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains." Thesis, Paris, ENST, 2017. http://www.theses.fr/2017ENST0071/document.

Full text
Abstract:
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
APA, Harvard, Vancouver, ISO, and other styles
47

Chen, Dexiong. "Modélisation de données structurées avec des machines profondes à noyaux et des applications en biologie computationnelle." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM070.

Full text
Abstract:
Le développement d'algorithmes efficaces pour apprendre des représentations appropriées des données structurées, telles des sequences ou des graphes, est un défi majeur et central de l'apprentissage automatique. Pour atteindre cet objectif, l'apprentissage profond est devenu populaire pour modéliser des données structurées. Les réseaux de neurones profonds ont attiré une attention particulière dans divers domaines scientifiques tels que la vision par ordinateur, la compréhension du langage naturel ou la biologie. Par exemple, ils fournissent aux biologistes des outils de calcul qui leur permettent de comprendre et de découvrir les propriétés biologiques ou les relations entre les macromolécules des organismes vivants. Toutefois, leur succès dans ces domaines repose essentiellement sur des connaissances empiriques ainsi que d'énormes quantités de données annotées. Exploiter des modèles plus efficaces est nécessaire car les données annotées sont souvent rares.Un autre axe de recherche est celui des méthodes à noyaux, qui fournissent une approche systématique et fondée sur des principes théoriquement solides pour l'apprentissage de modèles non linéaires à partir de données de structure arbitraire. Outre leur simplicité, elles présentent une manière naturelle de contrôler la régularisation et ainsi d'éviter le surapprentissage.Cependant, les représentations de données fournies par les méthodes à noyaux ne sont définies que par des caractéristiques artisanales simplement conçues, ce qui les rend moins performantes que les réseaux de neurones lorsque suffisamment de données étiquetées sont disponibles. Des noyaux plus complexes, inspirés des connaissances préalables utilisées dans les réseaux de neurones, ont ainsi été développés pour construire des représentations plus riches et ainsi combler cette lacune. Pourtant, ils sont moins adaptatifs. Par comparaison, les réseaux de neurones sont capables d'apprendre une représentation compacte pour une tâche d'apprentissage spécifique, ce qui leur permet de conserver l'expressivité de la représentation tout en s'adaptant à une grande taille d'échantillon.Il est donc utile d'intégrer les vues complémentaires des méthodes à noyaux et des réseaux de neurones profonds pour construire de nouveaux cadres afin de bénéficier du meilleur des deux mondes.Dans cette thèse, nous construisons un cadre général basé sur les noyaux pour la modélisation des données structurées en tirant parti des connaissances préalables des méthodes à noyaux classiques et des réseaux profonds. Notre cadre fournit des outils algorithmiques efficaces pour l'apprentissage de représentations sans annotations ainsi que pour l'apprentissage de représentations plus compactes de manière supervisée par les tâches. Notre cadre peut être utilisé pour modéliser efficacement des séquences et des graphes avec une interprétation simple. Il offre également de nouvelles perspectives sur la construction des noyaux et de réseaux de neurones plus expressifs pour les séquences et les graphes
Developing efficient algorithms to learn appropriate representations of structured data, including sequences or graphs, is a major and central challenge in machine learning. To this end, deep learning has become popular in structured data modeling. Deep neural networks have drawn particular attention in various scientific fields such as computer vision, natural language understanding or biology. For instance, they provide computational tools for biologists to possibly understand and uncover biological properties or relationships among macromolecules within living organisms. However, most of the success of deep learning methods in these fields essentially relies on the guidance of empirical insights as well as huge amounts of annotated data. Exploiting more data-efficient models is necessary as labeled data is often scarce.Another line of research is kernel methods, which provide a systematic and principled approach for learning non-linear models from data of arbitrary structure. In addition to their simplicity, they exhibit a natural way to control regularization and thus to avoid overfitting.However, the data representations provided by traditional kernel methods are only defined by simply designed hand-crafted features, which makes them perform worse than neural networks when enough labeled data are available. More complex kernels inspired by prior knowledge used in neural networks have thus been developed to build richer representations and thus bridge this gap. Yet, they are less scalable. By contrast, neural networks are able to learn a compact representation for a specific learning task, which allows them to retain the expressivity of the representation while scaling to large sample size.Incorporating complementary views of kernel methods and deep neural networks to build new frameworks is therefore useful to benefit from both worlds.In this thesis, we build a general kernel-based framework for modeling structured data by leveraging prior knowledge from classical kernel methods and deep networks. Our framework provides efficient algorithmic tools for learning representations without annotations as well as for learning more compact representations in a task-driven way. Our framework can be used to efficiently model sequences and graphs with simple interpretation of predictions. It also offers new insights about designing more expressive kernels and neural networks for sequences and graphs
APA, Harvard, Vancouver, ISO, and other styles
48

Monjoly, Stéphanie. "Outils de prédiction pour la production d’électricité d’origine éolienne : application à l’optimisation du couplage aux réseaux de distributions d’électricité." Thesis, Antilles-Guyane, 2013. http://www.theses.fr/2013AGUY0679/document.

Full text
Abstract:
La forte variabilité de la vitesse du vent fait que l'énergie produite par un parc éolien n'est pas constante dans le temps. Le gestionnaire ne peut donc pas dimensionner son réseau électrique en prenant intégralement ce type de production en compte. L' une des solutions préconisées pour permettre le développement de l' éolien et son intégration avec une plus grande sureté aux réseaux, est de développer et d'améliorer les outils de prévisions. Le travail de thèse consiste à améliorer les performances d'un outil de prédiction basé sur les réseaux de neurones bayesiens, permettant la prédiction de la puissance à très court terme . Le prédicteur fonctionne notamment par J'ajustement de paramètres, certain se détermine « automatiquement » via le mécanisme des réseaux de neurones bayesiens d' autres, que nous nommerons paramètres temporels, sont à l' appréciation de l'utilisateur. Le travail mené consiste à établir un protocole pour la fixation de ces paramètres tout en améliorant les performances du prédicteur . Nous avons donc décidé de conditionner leurs valeurs en fonction de la variabilité des séquences de puissance précédent l'instant de prévision. Tout d'abord nous avons classifié des séquences de puissance en fonction de leurs coefficients de variation en appliquant la méthode des C-moyennes floues. Puis, chaque classe formée a été testée sur plusieurs valeurs de paramètres, les valeurs associées aux meilleures prédictions ont été retenues. Enfin, ces résultats couplés au formalisme des Chaines de Markov, par le biais de la matrice de transition , ont perm is d'obtenir des taux d'amélioration par rapport à la persistance allant de 7,73 à 23,22 % selon l'horizon de prédiction considéré
The high variability of the wind speed has for conse quences that the energy produced by a wind farm is not constant over time. Therefore, the manager can't size the electrical network by takin g into account this type of production. One solution advocated for the development of wind energy and its integrati on with greater security at network, is to develop and improve fore casting tools. The thesi s objective is to improve the performance of a predi ction tool based on Bayesian neural networks, allowing the predi ction of wind power for short timescales. The predictor works, in part icular by the adjustment of parameters, sorne is determined "automatically" through the mechan ism of neural networks Bayesian other , which we cali temporal parameters are at the discretion of the user. The work involves establishing a protocol for the determination of these parameters and improving the performance of the predictor. So, we decided to condition their values depending on the sequence variability of wind power previous the moment of the forecast. First we classified sequences of power according to their coefficients of variation using the method of fuzzy C-means. Then, each formed class was tested for several parameters values, the values associated with the best predictions were selected. Finally , these result s coupled with the formalism of Markov chains , through the transition matrix allowed to obtain rates of improvement over the persistence ranging from 7.73 to 23.22 % depending on the prediction horizon considered
APA, Harvard, Vancouver, ISO, and other styles
49

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains." Electronic Thesis or Diss., Paris, ENST, 2017. http://www.theses.fr/2017ENST0071.

Full text
Abstract:
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
APA, Harvard, Vancouver, ISO, and other styles
50

Guerre, Alexandre. "Champ visuel augmenté pour l'exploration vidéo de la rétine." Thesis, Brest, 2019. http://www.theses.fr/2019BRES0110.

Full text
Abstract:
L’objectif de cette thèse est d’augmenter le confort visuel de l’ophtalmologue au cours d’examens ou de chirurgies de la rétine. Pour ce faire, nous décidons d’augmenter artificiellement et en temps réel le champ visuel dans le cas de vidéos d’exploration acquises à la lampe à fente et à l’endoscope oculaire. L’augmentation passe par la mise en place de cartes dynamiques en 3D de la rétine. A notre connaissance, il n’existe pas de telle méthode dans la littérature. Notre solution passe par l’étude de différentes méthodes d’estimation de déplacements entre deux images. Nous les regroupons en méthodes « classiques » d’une part, comptant notamment des méthodes basées sur les algorithmes SIFT ou SURF. D’autre part, nous rassemblons des méthodes utilisant l’apprentissage profond (ou méthodes « CNN » pour Convolutional Neural Network). Certaines de ces méthodes, comme celles utilisant les réseaux FlowNet, nécessitent une annotation vérité terrain des déplacements entre images. Comme de telles bases de données n’existent pas en ophtalmologie, des bases généralistes ont été utilisées. De plus, nous avons construit deux bases de données de déplacements artificiels ayant pour fond des images de rétines. Enfin, pour contourner le problème d’annotation, une approche utilisant l’apprentissage auto-supervisé a été étudiée. Après comparaisons des résultats, il apparaît que les méthodes « CNN » surpassent les méthodes classiques. De plus, seule une supervision forte de l’apprentissage permet des résultats satisfaisants. A l’avenir, nous espérons que ces travaux pourront permettre aux chirurgiens d’être plus confiants et efficaces dans des environnements où il peut être compliqué de se repérer
The main objective of this thesis is toincrease the visual comfort of theophthalmologists during examinations orsurgeries. To do so, we decided toartificially increase in real time the field ofview in videos of retinal exploration. Thetools used for the acquisition of thesevideos are the slit lamp and theendoscope. The increase of the field ofview passes by the establishment ofdynamic 3D maps of the retina.To our knowledge, there is still no suchmethod in the state of the art.In order to implement our solution, westudied the different methods of motionestimations between two images. Wegrouped them into "classical" methods, onthe one hand, including methods based onSIFT or SURF algorithms. On the otherhand, we grouped deep learning methods(or "CNN" methods for ConvolutionalNeural Network).Some of these methods, such as thoseusing FlowNet networks, required groundtruth annotation of movement betweenimages.Since such bases are very difficult to set upin the medical field and do not exist inophthalmology, general databases havebeen used. In addition, we built twodatabases of artificial displacements whichbackgrounds are composed of images ofretinas. Finally, to get around this problemof annotations, a self-supervised deeplearning approach was studied.After comparing the results, it appears thatmethods using convolutional neuralnetworks outperform conventional methodsfor estimating movements in retinal videos.Moreover, only a strong supervision allowsacceptable results. In the future, we hopethat this work will enable surgeons to bemore confident and effective inenvironments where it is sometimesdifficult to find their bearings
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography