Dissertations / Theses on the topic 'L'apprentissage profond'

To see the other types of publications on this topic, follow the link: L'apprentissage profond.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 24 dissertations / theses for your research on the topic 'L'apprentissage profond.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Millan, Mégane. "L'apprentissage profond pour l'évaluation et le retour d'information lors de l'apprentissage de gestes." Thesis, Sorbonne université, 2020. http://www.theses.fr/2020SORUS057.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Apprendre un nouveau sport, ou un métier manuel est complexe. En effet, de nombreux gestes doivent être assimilés afin d’atteindre un bon niveau de compétences. Cependant, l’apprentissage de ces gestes ne peut se faire seul. En effet, il est nécessaire de voir la réalisation du geste d’un œil expert afin d’indiquer les corrections pour s’améliorer. Or les experts, que ce soit en sport ou dans les métiers manuels, sont peu disponibles pour analyser et évaluer les gestes d’un novice. Afin d’aider les experts dans cette tâche d’analyse, il est possible de développer des coachs virtuels. Selon les domaines, le coach va posséder plus ou moins de compétences, mais une évaluation selon des critères précis est toujours à privilégier. Fournir un retour sur les erreurs commises est également essentiel pour l’apprentissage d’un novice. Dans cette thèse, différentes solutions pour développer des coachs virtuels les plus efficaces possibles sont proposées. Dans un premier temps, et comme évoqué précédemment, il est nécessaire d’évaluer les gestes. Dans cette optique, un premier travail a consisté à comprendre les enjeux de l’analyse de gestes automatique, afin de développer un algorithme d’évaluation automatique qui soit le plus performant possible. Par la suite, deux algorithmes d’évaluation automatique de la qualité de gestes sont proposés. Ces deux algorithmes fondés sur l’apprentissage profond, ont par la suite été testés sur deux bases de données de gestes différentes afin d’évaluer leur généricité. Une fois l’évaluation réalisée, il est nécessaire de fournir un retour d’information pertinent à l’apprenant sur ses erreurs. Afin de garder une continuité dans les travaux réalisés, ce retour est également fondé sur les réseaux de neurones et l’apprentissage profond. En s’inspirant des méthodes d’explicabilité de réseaux de neurones, une méthode a été développée. Elle permet de remonter aux instants du geste où des erreurs ont été commises selon le modèle d’évaluation. Enfin coupler cette méthode à de la segmentation sémantique, permet d’indiquer aux apprenants quelle partie du geste a été mal réalisée, mais également de lui fournir des statistiques et une courbe d’apprentissage
Learning a new sport or manual work is complex. Indeed, many gestures have to be assimilated in order to reach a good level of skill. However, learning these gestures cannot be done alone. Indeed, it is necessary to see the gesture execution with an expert eye in order to indicate corrections for improvement. However, experts, whether in sports or in manual works, are not always available to analyze and evaluate a novice’s gesture. In order to help experts in this task of analysis, it is possible to develop virtual coaches. Depending on the field, the virtual coach will have more or less skills, but an evaluation according to precise criteria is always mandatory. Providing feedback on mistakes is also essential for the learning of a novice. In this thesis, different solutions for developing the most effective virtual coaches are proposed. First of all, and as mentioned above, it is necessary to evaluate the gestures. From this point of view, a first part consisted in understanding the stakes of automatic gesture analysis, in order to develop an automatic evaluation algorithm that is as efficient as possible. Subsequently, two algorithms for automatic quality evaluation are proposed. These two algorithms, based on deep learning, were then tested on two different gestures databases in order to evaluate their genericity. Once the evaluation has been carried out, it is necessary to provide relevant feedback to the learner on his errors. In order to maintain continuity in the work carried out, this feedback is also based on neural networks and deep learning. A method has been developed based on neural network explanability methods. It allows to go back to the moments of the gestures when errors were made according to the evaluation model. Finally, coupled with semantic segmentation, this method makes it possible to indicate to learners which part of the gesture was badly performed, and to provide them with statistics and a learning curve
2

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent
Early classification (EC) of time series is a recent research topic in the field of sequential data analysis. It consists in assigning a label to some data that is sequentially collected with new data points arriving over time, and the prediction of a label has to be made using as few data points as possible in the sequence. The EC problem is of paramount importance for supporting decision makers in many real-world applications, ranging from process control to fraud detection. It is particularly interesting for applications concerned with the costs induced by the acquisition of data points, or for applications which seek for rapid label prediction in order to take early actions. This is for example the case in the field of health, where it is necessary to provide a medical diagnosis as soon as possible from the sequence of medical observations collected over time. Another example is predictive maintenance with the objective to anticipate the breakdown of a machine from its sensor signals. In this doctoral work, we developed a new approach for this problem, based on the formulation of a sequential decision making problem, that is the EC model has to decide between classifying an incomplete sequence or delaying the prediction to collect additional data points. Specifically, we described this problem as a Partially Observable Markov Decision Process noted EC-POMDP. The approach consists in training an EC agent with Deep Reinforcement Learning (DRL) in an environment characterized by the EC-POMDP. The main motivation for this approach was to offer an end-to-end model for EC which is able to simultaneously learn optimal patterns in the sequences for classification and optimal strategic decisions for the time of prediction. Also, the method allows to set the importance of time against accuracy of the classification in the definition of rewards, according to the application and its willingness to make this compromise. In order to solve the EC-POMDP and model the policy of the EC agent, we applied an existing DRL algorithm, the Double Deep-Q-Network algorithm, whose general principle is to update the policy of the agent during training episodes, using a replay memory of past experiences. We showed that the application of the original algorithm to the EC problem lead to imbalanced memory issues which can weaken the training of the agent. Consequently, to cope with those issues and offer a more robust training of the agent, we adapted the algorithm to the EC-POMDP specificities and we introduced strategies of memory management and episode management. In experiments, we showed that these contributions improved the performance of the agent over the original algorithm, and that we were able to train an EC agent which compromised between speed and accuracy, on each sequence individually. We were also able to train EC agents on public datasets for which we have no expertise, showing that the method is applicable to various domains. Finally, we proposed some strategies to interpret the decisions of the agent, validate or reject them. In experiments, we showed how these solutions can help gain insight in the choice of action made by the agent
3

Lelong, Thibault. "Reconnaissance des documents avec de l'apprentissage profond pour la réalité augmentée." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS017.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce projet doctoral se focalise sur les problématiques associées à l'identification d'images et de documents dans les applications de réalité augmentée utilisant des marqueurs, en particulier lors de l'utilisation d'appareils photo. La recherche s'inscrit dans un contexte technologique où l'interaction via la réalité augmentée est essentielle dans plusieurs domaines, y compris l'industrie, qui requièrent des méthodologies d'identification fiables.Dans une première phase, le projet évalue diverses méthodologies d'identification et de traitement d'image au moyen d'une base de données spécialement conçue pour refléter les défis du contexte industriel. Cette recherche permet une analyse approfondie des méthodologies existantes, révélant ainsi leurs potentiels et leurs limites dans divers scénarios d'application.Par la suite, le projet propose un système de détection de documents visant à améliorer les solutions existantes, optimisé pour des environnements tels que les navigateurs web. Ensuite, une méthodologie innovante pour la recherche d'images est introduite, s'appuyant sur une analyse de l'image en sous-parties afin d'accroître la précision de l'identification et d'éviter les confusions d'images. Cette approche permet une identification plus précise et adaptative, notamment en ce qui concerne les variations de la mise en page de l'image cible.Enfin, dans le cadre de travaux en collaboration avec la société ARGO, un moteur de suivi d'image en temps réel a été développé, optimisé pour des appareils à basse puissance et pour les environnements web. Ceci assure le déploiement d'applications web en réalité augmentée et leur fonctionnement sur un large éventail de dispositifs, y compris ceux dotés de capacités de traitement limitées.Il est à noter que les travaux issus de ce projet doctoral ont été appliqués et valorisés concrètement par la société Argo à des fins commerciales, confirmant ainsi la pertinence et la viabilité des méthodologies et solutions développées, et attestant de leur contribution significative au domaine technologique et industriel de la réalité augmentée
This doctoral project focuses on issues related to the identification of images and documents in augmented reality applications using markers, particularly when using cameras. The research is set in a technological context where interaction through augmented reality is essential in several domains, including industry, which require reliable identification methodologies.In an initial phase, the project assesses various identification and image processing methodologies using a database specially designed to reflect the challenges of the industrial context. This research allows an in-depth analysis of existing methodologies, thus revealing their potentials and limitations in various application scenarios.Subsequently, the project proposes a document detection system aimed at enhancing existing solutions, optimized for environments such as web browsers. Then, an innovative image research methodology is introduced, relying on an analysis of the image in sub-parts to increase the accuracy of identification and avoid image confusions. This approach allows for more precise and adaptive identification, particularly with respect to variations in the layout of the target image.Finally, in the context of collaborative work with ARGO company, a real-time image tracking engine was developed, optimized for low-power devices and web environments. This ensures the deployment of augmented reality web applications and their operation on a wide range of devices, including those with limited processing capabilities.It is noteworthy that the works resulting from this doctoral project have been concretely applied and valorized by the Argo company for commercial purposes, thereby confirming the relevance and viability of the developed methodologies and solutions, and attesting to their significant contribution to the technological and industrial field of augmented reality
4

Moreau, Thomas. "Représentations Convolutives Parcimonieuses -- application aux signaux physiologiques et interpétabilité de l'apprentissage profond." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLN054/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les représentations convolutives extraient des motifs récurrents qui aident à comprendre la structure locale dans un jeu de signaux. Elles sont adaptées pour l’analyse des signaux physiologiques, qui nécessite des visualisations mettant en avant les informations pertinentes. Ces représentations sont aussi liées aux modèles d’apprentissage profond. Dans ce manuscrit, nous décrivons des avancées algorithmiques et théoriques autour de ces modèles. Nous montrons d’abord que l’Analyse du Spectre Singulier permet de calculer efficacement une représentation convolutive. Cette représentation est dense et nous décrivons une procédure automatisée pour la rendre plus interprétable. Nous proposons ensuite un algorithme asynchrone, pour accélérer le codage parcimonieux convolutif. Notre algorithme présente une accélération super-linéaire. Dans une seconde partie, nous analysons les liens entre représentations et réseaux de neurones. Nous proposons une étape d’apprentissage supplémentaire, appelée post-entraînement, qui permet d’améliorer les performances du réseau entraîné, en s’assurant que la dernière couche soit optimale. Puis nous étudions les mécanismes qui rendent possible l’accélération du codage parcimonieux avec des réseaux de neurones. Nous montrons que cela est lié à une factorisation de la matrice de Gram du dictionnaire. Finalement, nous illustrons l’intérêt de l’utilisation des représentations convolutives pour les signaux physiologiques. L’apprentissage de dictionnaire convolutif est utilisé pour résumer des signaux de marche et le mouvement du regard est soustrait de signaux oculométriques avec l’Analyse du Spectre Singulier
Convolutional representations extract recurrent patterns which lead to the discovery of local structures in a set of signals. They are well suited to analyze physiological signals which requires interpretable representations in order to understand the relevant information. Moreover, these representations can be linked to deep learning models, as a way to bring interpretability intheir internal representations. In this disserta tion, we describe recent advances on both computational and theoretical aspects of these models.First, we show that the Singular Spectrum Analysis can be used to compute convolutional representations. This representation is dense and we describe an automatized procedure to improve its interpretability. Also, we propose an asynchronous algorithm, called DICOD, based on greedy coordinate descent, to solve convolutional sparse coding for long signals. Our algorithm has super-linear acceleration.In a second part, we focus on the link between representations and neural networks. An extra training step for deep learning, called post-training, is introduced to boost the performances of the trained network by making sure the last layer is optimal. Then, we study the mechanisms which allow to accelerate sparse coding algorithms with neural networks. We show that it is linked to afactorization of the Gram matrix of the dictionary.Finally, we illustrate the relevance of convolutional representations for physiological signals. Convolutional dictionary learning is used to summarize human walk signals and Singular Spectrum Analysis is used to remove the gaze movement in young infant’s oculometric recordings
5

Phan, Thi Hai Hong. "Reconnaissance d'actions humaines dans des vidéos avec l'apprentissage automatique." Thesis, Cergy-Pontoise, 2019. http://www.theses.fr/2019CERG1038.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ces dernières années, la reconnaissance d’action humaine (HAR) a attiré l’attention de la recherche grâce à ses diverses applications telles que les systèmes de surveillance intelligents, l’indexation vidéo, l’analyse des activités humaines, les interactions homme-machine, et ainsi de suite. Les problèmes typiques que les chercheurs envisagent sont la complexité des mouvements humains, les variations spatio-temporelles, l'encombrement, l'occlusion et le changement des conditions d'éclairage. Cette thèse porte sur la reconnaissance automatique des actions humaines en cours dans une vidéo. Nous abordons ce problème de recherche en utilisant à la fois des approches d'apprentissage traditionnel peu profond et d'apprentissage profond.Premièrement, nous avons commencé les travaux de recherche avec des méthodes d’apprentissage traditionnelles peu profondes, fondées sur des caractéristiques créées manuellement, en introduisant un nouveau fonctionnalité appelée descripteur MOMP (Motion of Oriented Magnitudes Patterns). Nous avons ensuite intégré ce descripteur discriminant aux techniques de représentation simples mais puissantes telles que le sac de mots visuels, le vecteur de descripteurs agrégés localement (VLAD) et le vecteur de Fisher pour mieux représenter les actions. En suite l'PCA (Principal Component Analysis) et la sélection des caractéristiques (la dépendance statistique, l'information mutuelle) sont appliquées pour rechercher le meilleur sous-ensemble des caractéristiques afin d'améliorer les performances et de réduire les coûts de calcul. La méthode proposée a permis d'obtenir les résultats d'état de l'art sur plusieurs bases de données communes.Les approches d'apprentissage profond récentes nécessitent des calculs intensifs et une utilisation importante de la mémoire. Ils sont donc difficiles à utiliser et à déployer sur des systèmes aux ressources limitées. Dans la deuxième partie de cette thèse, nous présentons un nouvel algorithme efficace pour compresser les modèles de réseau de neurones convolutionnels afin de réduire à la fois le coût de calcul et l’empreinte mémoire au moment de l’exécution. Nous mesurons la redondance des paramètres en fonction de leurs relations à l'aide des critères basés sur la théorie de l'information, puis nous éliminons les moins importants. La méthode proposée réduit considérablement la taille des modèles de différents réseaux tels qu'AlexNet, ResNet jusqu'à 70% sans perte de performance pour la tâche de classification des images à grande échelle.L'approche traditionnelle avec le descripteur proposé a permis d'obtenir d'excellentes performances pour la reconnaissance de l'action humaine mais seulement sur de petits bases de données. Afin d'améliorer les performances de la reconnaissance sur les bases de données de grande échelle, dans la dernière partie de cette thèse, nous exploitons des techniques d'apprentissage profond pour classifier les actions. Nous introduisons les concepts de l'image MOMP en tant que couche d'entrée de CNN et incorporons l'image MOMP dans des réseaux de neurones profonds. Nous appliquons ensuite notre algorithme de compression réseau pour accélérer et améliorer les performances du système. La méthode proposée réduit la taille du modèle, diminue le sur-apprentissage et augmente ainsi la performance globale de CNN sur les bases de données d'action à grande échelle.Tout au long de la thèse, nous avons montré que nos algorithmes obtenaient de bonnes performances sur bases de données d'action complexes (Weizmann, KTH, UCF Sports, UCF-101 et HMDB51) avec des ressources limitées
In recent years, human action recognition (HAR) has attracted the research attention thanks to its various applications such as intelligent surveillance systems, video indexing, human activities analysis, human-computer interactions and so on. The typical issues that the researchers are envisaging can be listed as the complexity of human motions, the spatial and temporal variations, cluttering, occlusion and change of lighting condition. This thesis focuses on automatic recognizing of the ongoing human actions in a given video. We address this research problem by using both shallow learning and deep learning approaches.First, we began the research work with traditional shallow learning approaches based on hand-scrafted features by introducing a novel feature named Motion of Oriented Magnitudes Patterns (MOMP) descriptor. We then incorporated this discriminative descriptor into simple yet powerful representation techniques such as Bag of Visual Words, Vector of locally aggregated descriptors (VLAD) and Fisher Vector to better represent actions. Also, PCA (Principal Component Analysis) and feature selection (statistical dependency, mutual information) are applied to find out the best subset of features in order to improve the performance and decrease the computational expense. The proposed method obtained the state-of-the-art results on several common benchmarks.Recent deep learning approaches require an intensive computations and large memory usage. They are therefore difficult to be used and deployed on the systems with limited resources. In the second part of this thesis, we present a novel efficient algorithm to compress Convolutional Neural Network models in order to decrease both the computational cost and the run-time memory footprint. We measure the redundancy of parameters based on their relationship using the information theory based criteria, and we then prune the less important ones. The proposed method significantly reduces the model sizes of different networks such as AlexNet, ResNet up to 70% without performance loss on the large-scale image classification task.Traditional approach with the proposed descriptor achieved the great performance for human action recognition but only on small datasets. In order to improve the performance on the large-scale datasets, in the last part of this thesis, we therefore exploit deep learning techniques to classify actions. We introduce the concepts of MOMP Image as an input layer of CNNs as well as incorporate MOMP image into deep neural networks. We then apply our network compression algorithm to accelerate and improve the performance of system. The proposed method reduces the model size, decreases the over-fitting, and thus increases the overall performance of CNN on the large-scale action datasets.Throughout the thesis, we have showed that our algorithms obtain good performance in comparison to the state-of-the-art on challenging action datasets (Weizmann, KTH, UCF Sports, UCF-101 and HMDB51) with low resource required
6

Poirier, Jasmine. "Segmentation de neurones pour imagerie calcique du poisson zèbre : des méthodes classiques à l'apprentissage profond." Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/36452.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’étude expérimentale de la résilience d’un réseau complexe repose sur la capacité à reproduire l’organisation structurelle et fonctionnelle du réseau à l’étude. Ayant choisi le réseau neuronal du poisson-zèbre larvaire comme modèle animal pour sa transparence, on peut utiliser des techniques telles que l’imagerie calcique par feuillet de lumière pour imager son cerveau complet plus de deux fois par seconde à une résolution spatiale cellulaire. De par les bonnes résolutions spatiale et temporelle, les données à segmenter représentent par le fait même un gros volume de données qui ne peuvent être traitées manuellement. On doit donc avoir recours à des techniques numériques pour segmenter les neurones et extraire leur activité.Trois techniques de segmentation ont été comparées, soit le seuil adaptatif (AT), la forêtd’arbres décisionnels (ML), ainsi qu’un réseau de neurones à convolution (CNN) déjà entrainé. Alors que la technique du seuil adaptatif permet l’identification rapide et presque sans erreurdes neurones les plus actifs, elle génère beaucoup plus de faux négatifs que les deux autres méthodes. Au contraire, la méthode de réseaux de neurones à convolution identifie plus deneurones, mais en effectuant plus de faux positifs qui pourront, dans tous les cas, être filtrés parla suite. En utilisant le score F1 comme métrique de comparaison, les performances moyennes de la technique de réseau de neurones (F1= 59,2%) surpassent celles du seuil adaptatif (F1= 25,4%) et de forêt d’arbres de décisions (F1= 48,8%). Bien que les performances semblent faibles comparativement aux performances généralement présentées pour les réseauxde neurones profonds, il s’agit ici d’une performance similaire à celle de la meilleure techniquede segmentation connue à ce jour, soit celle du 3dCNN, présentée dans le cadre du concours neurofinder (F1= 65.9%).
The experimental study of the resilience of a complex network lies on our capacity to reproduceits structural and functional organization. Having chosen the neuronal network of the larvalzebrafish as our animal model for its transparency, we can use techniques such as light-sheet microscopy combined with calcium imaging to image its whole brain more than twice every second, with a cellular spatial resolution. Having both those spatial and temporal resolutions, we have to process and segment a great quantity of data, which can’t be done manually. Wethus have to resort to numerical techniques to segment the neurons and extract their activity. Three segmentation techniques have been compared : adaptive threshold (AT), random deci-sion forests (ML), and a pretrained deep convolutional neural network. While the adaptive threshold technique allow rapid identification and with almost no error of the more active neurons, it generates many more false negatives than the two other methods. On the contrary, the deep convolutional neural network method identify more neurons, but generates more false positives which can be filtered later in the proces. Using the F1 score as our comparison metrics, the neural network (F1= 59,2%) out performs the adaptive threshold (F1= 25,4%) and random decision forests (F1= 48,8%). Even though the performances seem lower compared to results generally shown for deep neural network, we are competitive with the best technique known to this day for neurons segmentation, which is 3dCNN (F1= 65.9%), an algorithm presented in the neurofinder challenge.
7

Droniou, Alain. "Apprentissage de représentations et robotique développementale : quelques apports de l'apprentissage profond pour la robotique autonome." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066056/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Afin de pouvoir évoluer de manière autonome et sûre dans leur environnement, les robots doivent être capables d'en construire un modèle fiable et pertinent. Pour des tâches variées dans des environnements complexes, il est difficile de prévoir de manière exhaustive les capacités nécessaires au robot. Il est alors intéressant de doter les robots de mécanismes d'apprentissage leur donnant la possibilité de construire eux-mêmes des représentations adaptées à leur environnement. Se posent alors deux questions : quelle doit être la nature des représentations utilisées et par quels mécanismes peuvent-elles être apprises ? Nous proposons pour cela l'utilisation de l'hypothèse des sous-variétés afin de développer des architectures permettant de faire émerger une représentation symbolique de flux sensorimoteurs bruts. Nous montrons que le paradigme de l'apprentissage profond fournit des mécanismes appropriés à l'apprentissage autonome de telles représentations. Nous démontrons que l'exploitation de la nature multimodale des flux sensorimoteurs permet d'en obtenir une représentation symbolique pertinente. Dans un second temps, nous étudions le problème de l'évolution temporelle des stimuli. Nous discutons les défauts de la plupart des approches aujourd'hui utilisées et nous esquissons une approche à partir de laquelle nous approfondissons deux sous-problèmes. Dans une troisième partie, nous proposons des pistes de recherche pour permettre le passage des expériences de laboratoire à des environnements naturels. Nous explorons plus particulièrement la problématique de la curiosité artificielle dans des réseaux de neurones non supervisés
This thesis studies the use of deep neural networks to learn high level representations from raw inputs on robots, based on the "manifold hypothesis"
8

Droniou, Alain. "Apprentissage de représentations et robotique développementale : quelques apports de l'apprentissage profond pour la robotique autonome." Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066056.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Afin de pouvoir évoluer de manière autonome et sûre dans leur environnement, les robots doivent être capables d'en construire un modèle fiable et pertinent. Pour des tâches variées dans des environnements complexes, il est difficile de prévoir de manière exhaustive les capacités nécessaires au robot. Il est alors intéressant de doter les robots de mécanismes d'apprentissage leur donnant la possibilité de construire eux-mêmes des représentations adaptées à leur environnement. Se posent alors deux questions : quelle doit être la nature des représentations utilisées et par quels mécanismes peuvent-elles être apprises ? Nous proposons pour cela l'utilisation de l'hypothèse des sous-variétés afin de développer des architectures permettant de faire émerger une représentation symbolique de flux sensorimoteurs bruts. Nous montrons que le paradigme de l'apprentissage profond fournit des mécanismes appropriés à l'apprentissage autonome de telles représentations. Nous démontrons que l'exploitation de la nature multimodale des flux sensorimoteurs permet d'en obtenir une représentation symbolique pertinente. Dans un second temps, nous étudions le problème de l'évolution temporelle des stimuli. Nous discutons les défauts de la plupart des approches aujourd'hui utilisées et nous esquissons une approche à partir de laquelle nous approfondissons deux sous-problèmes. Dans une troisième partie, nous proposons des pistes de recherche pour permettre le passage des expériences de laboratoire à des environnements naturels. Nous explorons plus particulièrement la problématique de la curiosité artificielle dans des réseaux de neurones non supervisés
This thesis studies the use of deep neural networks to learn high level representations from raw inputs on robots, based on the "manifold hypothesis"
9

Harbaoui, Nesrine. "Diagnostic adaptatif à l'environnement de navigation : apport de l'apprentissage profond pour une localisation sûre et précise." Electronic Thesis or Diss., Université de Lille (2022-....), 2022. http://www.theses.fr/2022ULILB041.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Pour un système de transport terrestre autonome, la capacité de déterminer sa position est essentielle afin de permettre à d'autres fonctions, telles que le contrôle ou la planification de trajectoire, d'être exécutées sans danger. Ainsi, la criticité de ces fonctions génère des exigences importantes en termes de sûreté (intégrité), de disponibilité, de justesse et de précision. Pour les véhicules terrestres, la satisfaction de ces exigences est liée à divers paramètres tels que la dynamique du véhicule, les conditions météorologiques, ou encore le contexte de navigation, qui comprend à la fois l'environnement de fonctionnement et le comportement du véhicule ou de l'utilisateur. Toutes ces circonstances peuvent constituer un obstacle à la réception des signaux des systèmes mondial de positionnement par satellite GNSS Global Navigation Satellite System étant donné que l'environnement détermine le type et la qualité des signaux électromagnétiques disponibles pour le positionnement. Bien que de nombreuses techniques de navigation et de positionnement ont été développées, aucune n'est capable de fournir une position fiable et précise dans tous les contextes. Par conséquent, afin de déployer une fonction de localisation capable de fonctionner dans différents types de contextes, basée sur des capteurs à faible coût, principalement le GNSS et le système de navigation inertielle (IMU), il est nécessaire, dès la phase de conception, de développer des stratégies permettant de résoudre à la fois l'antagonisme de certaines exigences, et l'adaptation au changement d'environnement dynamique. Dans ce contexte, cette thése propose une couche de diagnostique qui s'adapte par des méthodes d'apprentissage profond aux changements du contexte et ajuste le compromis entre les exigences fonctionnelles. Cette couche est integrée dans un formalisme de fusion de données tolérant aux fautes par l'intermédiaire d'une divergence informationnelle, α-Rényi Divergence, connue par sa généralisation d'autres divergences notamment la divergence de Kullback-Leibler, Bhattacharyya distance, .... Dans l'optique de détecter et isoler les défauts des capteurs, cette divergence basée sur la génération des résidus, nous offre la solution de sélectionner le résidu adéquat à chaque situation par la fixation de la valeur du paramètre α par l'apport des technologies d'intelligence artificielle afin d'augmenter la détectabilité des défauts.En vue d'augmenter la disponibilité du système tout en gardant un niveau acceptable de sûreté de fonctionnement, un seuil adapatatif au contexte qui ajuste le compromis entre la probabilité de fausse alarme et la probabilité de détection manquée est proposée. Pour tester et valider les approches proposées deux sortes de données ont été fournies; réelles par la plateforme PRETIL du laboratoire CRIStAL et simulées/emulées par le logiciel Stella NGC dans la cadre du projet ANR LOCSP
For an autonomous terrestrial transport system, the ability to determine its position is essential in order to allow other functions, such as control or perception, to be safely controlled or perceived. Thus, the criticality of these functions generates important requirements in terms of safety (integrity), availability, accuracy and precision. For land vehicles, meeting these requirements is related to various parameters such as vehicle dynamics, weather conditions, or the navigation context, which includes both the operational environment and the behavior of the host vehicle or user. All of these circumstances can be an obstacle to the reception of Global Navigation Satellite System (GNSS) signals since the environment determines the type and quality of electromagnetic signals available for positioning.Although many navigation and positioning techniques have been developed, none is capable of providing a reliable and accurate position in all contexts. Therefore, in order to deploy a localization function capable of operating in different contexts, based on low cost sensors, mainly GNSS and Inertial Navigation system (IMU), it is necessary, from the design phase, to develop strategies that solve both the antagonism of certain requirements and the adaptation to changing environment/dynamics. In this context, this thesis proposes a diagnostic layer that adapts by deep learning methods to changes in the context and adjusts the trade-off between functional requirements. This layer is integrated in a fault-tolerant data fusion framework through an informational divergence, the α-Rényi divergence, known by its generalization of other divergences such as the Kullback-Leibler divergence, the Bhattacharyya distance. In order to detect and isolate the divergence faults based on the generation of residuals, we offer the solution of selecting the appropriate residual for each situation by fixing the value of the parameter α using artificial intelligence technologies in order to increase the detectability of the defects. In order to increase the availability of the system while maintaining an acceptable level of operational safety, a context-sensitive threshold that adjusts the trade-off between the probability of false alarm and the probability of missed detection is proposed. To test and validate the proposed approaches, two types of data have been provided; real by the PRETIL platform of the CRIStAL laboratory and simulated by the Stella NGC simulator as a part of the ANR LOCSP project
10

Bourgeais, Victoria. "Interprétation de l'apprentissage profond pour la prédiction de phénotypes à partir de données d'expression de gènes." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG069.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage profond est une avancée majeure de l'intelligence artificielle de ces dernières années. Ses domaines de prédilection sont principalement l'analyse d'image et le traitement du langage naturel. Un des futurs enjeux majeurs de cette approche est son application à la médecine de précision. Cette nouvelle forme de médecine permettra de personnaliser chaque étape du parcours de soin d'un patient en fonction de ses caractéristiques, notamment moléculaires telles que les données d'expression de gènes qui informent de l'état cellulaire d'un patient. Les modèles d'apprentissage profond sont néanmoins considérés comme des boîtes noires où aucune explication n'est fournie à la prédiction calculée. L'Union Européenne a adopté récemment un texte imposant aux algorithmes d'apprentissage automatique d'être capables d'expliquer leurs décisions aux utilisateurs. Il y a donc un réel besoin de rendre les réseaux de neurones plus interprétables et cela est particulièrement vrai dans le domaine médical pour différentes raisons. D'une part, pour s'assurer que le modèle se base sur des représentations fiables des patients et ne se concentre pas sur des artefacts non pertinents présents dans les données d'apprentissage. Ensuite, cela permettrait de rendre les différents utilisateurs (médecins, patients, chercheurs…) confiants dans leur utilisation de ce modèle. Enfin, un réseau de neurones performant pour la prédiction d'un certain phénotype peut avoir identifié une signature dans les données qui pourrait ouvrir sur de nouvelles pistes de recherche. Dans l'état de l'art actuel, il existe deux approches pour interpréter les réseaux neurones : en créant des modèles qui sont par essence interprétables, ou en ayant recours a posteriori à une méthode tierce dédiée à l'interprétation du réseau de neurones déjà appris. Quelle que soit la méthode choisie, l'explication fournie consiste généralement en l'identification des variables d'entrée et des neurones importants pour la prédiction. Or, dans le cas d'une application sur les données d'expression de gènes, cela n'est pas suffisant, car ces données sont difficilement compréhensibles par l'homme. Nous proposons ainsi de nouvelles méthodes originales d'apprentissage profond, interprétables par construction. L'architecture de ces méthodes est définie à partir d'une ou plusieurs bases de connaissances. Un neurone y représente un objet biologique et les connexions entre les neurones correspondent aux relations entre les objets biologiques. Trois méthodes ont été développées, listées ci-dessous dans l'ordre chronologique. La méthode Deep GONet se base sur un perceptron multicouche contraint par une base de connaissance biologique, la Gene Ontology (GO), par l'intermédiaire d'un terme de régularisation adapté. Les explications des prédictions sont fournies par une méthode d'interprétation a posteriori. La méthode GraphGONet tire parti à la fois d'un perceptron multicouche et d'un réseau de neurones de graphes afin d'exploiter au maximum la richesse sémantique de la connaissance GO. Ce modèle a la capacité de rendre automatiquement des explications. La méthode BioHAN ne se base plus que sur un réseau de neurones de graphes et peut facilement intégrer différentes bases de connaissances et leur sémantique. L'interprétation est facilitée par le recours aux mécanismes d'attention orientant le modèle à se concentrer sur les neurones les plus informatifs. Ces méthodes ont été évaluées sur des tâches de diagnostic à partir de jeux de données d'expression de gènes réelles et ont montré leur compétitivité par rapport aux méthodes d'apprentissage automatique de l'état de l'art. Nos modèles fournissent des explications intelligibles composées des neurones les plus importants et des concepts biologiques qui leur sont associés. Cette caractéristique permet aux experts d'utiliser nos outils dans un cadre médical
Deep learning has been a significant advance in artificial intelligence in recent years. Its main domains of interest are image analysis and natural language processing. One of the major future challenges of this approach is its application to precision medicine. This new form of medicine will make it possible to personalize each stage of a patient's care pathway according to his or her characteristics, in particular molecular characteristics such as gene expression data that inform about the cellular state of a patient. However, deep learning models are considered black boxes as their predictions are not accompanied by an explanation, limiting their use in clinics. The General Data Protection Regulation (GDPR), adopted recently by the European Union, imposes that the machine learning algorithms must be able to explain their decisions to the users. Thus, there is a real need to make neural networks more interpretable, and this is particularly true in the medical field for several reasons. Understanding why a phenotype has been predicted is necessary to ensure that the prediction is based on reliable representations of the patients rather than on irrelevant artifacts present in the training data. Regardless of the model's effectiveness, this will affect any end user's decisions and confidence in the model. Finally, a neural network performing well for the prediction of a certain phenotype may have identified a signature in the data that could open up new research avenues.In the current state of the art, two general approaches exist for interpreting these black-boxes: creating inherently interpretable models or using a third-party method dedicated to the interpretation of the trained neural network. Whatever approach is chosen, the explanation provided generally consists of identifying the important input variables and neurons for the prediction. However, in the context of phenotype prediction from gene expression, these approaches generally do not provide an understandable explanation, as these data are not directly comprehensible by humans. Therefore, we propose novel and original deep learning methods, interpretable by design. The architecture of these methods is defined from one or several knowledge databases. A neuron represents a biological object, and the connections between neurons correspond to the relations between biological objects. Three methods have been developed, listed below in chronological order.Deep GONet is based on a multilayer perceptron constrained by a biological knowledge database, the Gene Ontology (GO), through an adapted regularization term. The explanations of the predictions are provided by a posteriori interpretation method.GraphGONet takes advantage of both a multilayer perceptron and a graph neural network to deal with the semantic richness of GO knowledge. This model has the capacity to generate explanations automatically.BioHAN is only established on a graph neural network and can easily integrate different knowledge databases and their semantics. Interpretation is facilitated by the use of an attention mechanism, enabling the model to focus on the most informative neurons.These methods have been evaluated on diagnostic tasks using real gene expression datasets and have shown competitiveness with state-of-the-art machine learning methods. Our models provide intelligible explanations composed of the most contributive neurons and their associated biological concepts. This feature allows experts to use our tools in a medical setting
11

Resmerita, Diana. "Compression pour l'apprentissage en profondeur." Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4043.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les voitures autonomes sont des applications complexes qui nécessitent des machines puissantes pour pouvoir fonctionner correctement. Des tâches telles que rester entre les lignes blanches, lire les panneaux ou éviter les obstacles sont résolues en utilisant plusieurs réseaux neuronaux convolutifs (CNN) pour classer ou détecter les objets. Il est très important que tous les réseaux fonctionnent en parallèle afin de transmettre toutes les informations nécessaires et de prendre une décision commune. Aujourd'hui, à force de s'améliorer, les réseaux sont devenus plus gros et plus coûteux en termes de calcul. Le déploiement d'un seul réseau devient un défi. La compression des réseaux peut résoudre ce problème. Par conséquent, le premier objectif de cette thèse est de trouver des méthodes de compression profonde afin de faire face aux limitations de mémoire et de puissance de calcul présentes sur les systèmes embarqués. Les méthodes de compression doivent être adaptées à un processeur spécifique, le MPPA de Kalray, pour des implémentations à court terme. Nos contributions se concentrent principalement sur la compression du réseau après l'entraînement pour le stockage, ce qui signifie compresser des paramètres du réseau sans réentraîner ou changer l'architecture originale et le type de calculs. Dans le contexte de notre travail, nous avons décidé de nous concentrer sur la quantification. Notre première contribution consiste à comparer les performances de la quantification uniforme et de la quantification non-uniforme, afin d'identifier laquelle des deux présente un meilleur compromis taux-distorsion et pourrait être rapidement prise en charge par l'entreprise. L'intérêt de l'entreprise est également orienté vers la recherche de nouvelles méthodes innovantes pour les futures générations de MPPA. Par conséquent, notre deuxième contribution se concentre sur la comparaison des représentations en virgule flottante (FP32, FP16) aux représentations arithmétiques alternatives telles que BFloat16, msfp8, Posit8. Les résultats de cette analyse étaient en faveur de Posit8. Ceci a motivé la société Kalray à concevoir un décompresseur de FP16 vers Posit8. Enfin, de nombreuses méthodes de compression existent déjà, nous avons décidé de passer à un sujet adjacent qui vise à quantifier théoriquement les effets de l'erreur de quantification sur la précision du réseau. Il s'agit du deuxième objectif de la thèse. Nous remarquons que les mesures de distorsion bien connues ne sont pas adaptées pour prédire la dégradation de la précision dans le cas de l'inférence pour les réseaux de neurones compressés. Nous définissons une nouvelle mesure de distorsion avec une expression analytique qui s’apparente à un rapport signal/bruit. Un ensemble d'expériences a été réalisé en utilisant des données simulées et de petits réseaux qui montrent le potentiel de cette mesure de distorsion
Autonomous cars are complex applications that need powerful hardware machines to be able to function properly. Tasks such as staying between the white lines, reading signs, or avoiding obstacles are solved by using convolutional neural networks (CNNs) to classify or detect objects. It is highly important that all the networks work in parallel in order to transmit all the necessary information and take a common decision. Nowadays, as the networks improve, they also have become bigger and more computational expensive. Deploying even one network becomes challenging. Compressing the networks can solve this issue. Therefore, the first objective of this thesis is to find deep compression methods in order to cope with the memory and computational power limitations present on embedded systems. The compression methods need to be adapted to a specific processor, Kalray's MPPA, for short term implementations. Our contributions mainly focus on compressing the network post-training for storage purposes, which means compressing the parameters of the network without retraining or changing the original architecture and the type of the computations. In the context of our work, we decided to focus on quantization. Our first contribution consists in comparing the performances of uniform quantization and non-uniform quantization, in order to identify which of the two has a better rate-distortion trade-off and could be quickly supported in the company. The company's interest is also directed towards finding new innovative methods for future MPPA generations. Therefore, our second contribution focuses on comparing standard floating-point representations (FP32, FP16) to recently proposed alternative arithmetical representations such as BFloat16, msfp8, Posit8. The results of this analysis were in favor for Posit8. This motivated the company Kalray to conceive a decompressor from FP16 to Posit8. Finally, since many compression methods already exist, we decided to move to an adjacent topic which aims to quantify theoretically the effects of quantization error on the network's accuracy. This is the second objective of the thesis. We notice that well-known distortion measures are not adapted to predict accuracy degradation in the case of inference for compressed neural networks. We define a new distortion measure with a closed form which looks like a signal-to-noise ratio. A set of experiments were done using simulated data and small networks, which show the potential of this distortion measure
12

Mainsant, Marion. "Apprentissage continu sous divers scénarios d'arrivée de données : vers des applications robustes et éthiques de l'apprentissage profond." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALS045.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le cerveau humain reçoit en continu des informations en provenance de stimuli externes. Il a alors la capacité de s’adapter à de nouvelles connaissances tout en conservant une mémoire précise de la connaissance apprise par le passé. De plus en plus d’algorithmes d’intelligence artificielle visent à apprendre des connaissances à la manière d’un être humain. Ils doivent alors être mis à jour sur des données variées arrivant séquentiellement et disponibles sur un temps limité. Cependant, un des verrous majeurs de l’apprentissage profond réside dans le fait que lors de l’apprentissage de nouvelles connaissances, les anciennes sont quant-à-elles perdues définitivement, c’est ce que l’on appelle « l’oubli catastrophique ». De nombreuses méthodes ont été proposées pour répondre à cette problématique, mais celles-ci ne sont pas toujours applicables à une mise en situation réelle car elles sont construites pour obtenir les meilleures performances possibles sur un seul scénario d’arrivée de données à la fois. Par ailleurs, les meilleures méthodes existant dans l’état de l’art sont la plupart du temps ce que l’on appelle des méthodes à « rejeu de données » qui vont donc conserver une petite mémoire du passé, posant ainsi un problème dans la gestion de la confidentialité des données ainsi que dans la gestion de la taille mémoire disponible.Dans cette thèse, nous proposons d’explorer divers scénarios d’arrivée de données existants dans la littérature avec, pour objectif final, l’application à la reconnaissance faciale d’émotion qui est essentielle pour les interactions humain-machine. Pour cela nous présenterons l’algorithme Dream Net – Data-Free qui est capable de s’adapter à un vaste nombre de scenarii d’arrivée des données sans stocker aucune donnée passée. Cela lui permet donc de préserver la confidentialité des données apprises. Après avoir montré la robustesse de cet algorithme comparé aux méthodes existantes de l’état de l’art sur des bases de données classiques de la vision par ordinateur (Mnist, Cifar-10, Cifar-100 et Imagenet-100), nous verrons qu’il fonctionne également sur des bases de données de reconnaissance faciale d’émotions. En s’appuyant sur ces résultats, nous proposons alors un démonstrateur embarquant l’algorithme sur une carte Nvidia Jetson nano. Enfin nous discuterons la pertinence de notre approche pour la réduction des biais en intelligence artificielle ouvrant ainsi des perspectives vers une IA plus robuste et éthique
The human brain continuously receives information from external stimuli. It then has the ability to adapt to new knowledge while retaining past events. Nowadays, more and more artificial intelligence algorithms aim to learn knowledge in the same way as a human being. They therefore have to be able to adapt to a large variety of data arriving sequentially and available over a limited period of time. However, when a deep learning algorithm learns new data, the knowledge contained in the neural network overlaps old one and the majority of the past information is lost, a phenomenon referred in the literature as catastrophic forgetting. Numerous methods have been proposed to overcome this issue, but as they were focused on providing the best performance, studies have moved away from real-life applications where algorithms need to adapt to changing environments and perform, no matter the type of data arrival. In addition, most of the best state of the art methods are replay methods which retain a small memory of the past and consequently do not preserve data privacy.In this thesis, we propose to explore data arrival scenarios existing in the literature, with the aim of applying them to facial emotion recognition, which is essential for human-robot interactions. To this end, we present Dream Net - Data-Free, a privacy preserving algorithm, able to adapt to a large number of data arrival scenarios without storing any past samples. After demonstrating the robustness of this algorithm compared to existing state-of-the-art methods on standard computer vision databases (Mnist, Cifar-10, Cifar-100 and Imagenet-100), we show that it can also adapt to more complex facial emotion recognition databases. We then propose to embed the algorithm on a Nvidia Jetson nano card creating a demonstrator able to learn and predict emotions in real-time. Finally, we discuss the relevance of our approach for bias mitigation in artificial intelligence, opening up perspectives towards a more ethical AI
13

Fourure, Damien. "Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSES056/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La vision par ordinateur est un domaine interdisciplinaire étudiant la manière dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. En intelligence artificielle, et plus précisément en apprentissage automatique, domaine dans lequel se positionne cette thèse, la vision par ordinateur passe par l’extraction de caractéristiques présentes dans les images puis par la généralisation de concepts liés à ces caractéristiques. Ce domaine de recherche est devenu très populaire ces dernières années, notamment grâce aux résultats des réseaux de neurones convolutifs à la base des méthodes dites d’apprentissage profond. Aujourd’hui les réseaux de neurones permettent, entre autres, de reconnaître les différents objets présents dans une image, de générer des images très réalistes ou même de battre les champions au jeu de Go. Leurs performances ne s’arrêtent d’ailleurs pas au domaine de l’image puisqu’ils sont aussi utilisés dans d’autres domaines tels que le traitement du langage naturel (par exemple en traduction automatique) ou la reconnaissance de son. Dans cette thèse, nous étudions les réseaux de neurones convolutifs afin de développer des architectures et des fonctions de coûts spécialisées à des tâches aussi bien de bas niveau (la constance chromatique) que de haut niveau (la segmentation sémantique d’image). Une première contribution s’intéresse à la tâche de constance chromatique. En vision par ordinateur, l’approche principale consiste à estimer la couleur de l’illuminant puis à supprimer son impact sur la couleur perçue des objets. Les expériences que nous avons menées montrent que notre méthode permet d’obtenir des performances compétitives avec l’état de l’art. Néanmoins, notre architecture requiert une grande quantité de données d’entraînement. Afin de corriger en parti ce problème et d’améliorer l’entraînement des réseaux de neurones, nous présentons plusieurs techniques d’augmentation artificielle de données. Nous apportons également deux contributions sur une problématique de haut niveau : la segmentation sémantique d’image. Cette tâche, qui consiste à attribuer une classe sémantique à chacun des pixels d’une image, constitue un défi en vision par ordinateur de par sa complexité. D’une part, elle requiert de nombreux exemples d’entraînement dont les vérités terrains sont coûteuses à obtenir. D’autre part, elle nécessite l’adaptation des réseaux de neurones convolutifs traditionnels afin d’obtenir une prédiction dite dense, c’est-à-dire, une prédiction pour chacun pixel présent dans l’image d’entrée. Pour résoudre la difficulté liée à l’acquisition de données d’entrainements, nous proposons une approche qui exploite simultanément plusieurs bases de données annotées avec différentes étiquettes. Pour cela, nous définissons une fonction de coût sélective. Nous développons aussi une approche dites d’auto-contexte capturant d’avantage les corrélations existantes entre les étiquettes des différentes bases de données. Finalement, nous présentons notre troisième contribution : une nouvelle architecture de réseau de neurones convolutifs appelée GridNet spécialisée pour la segmentation sémantique d’image. Contrairement aux réseaux traditionnels, notre architecture est implémentée sous forme de grille 2D permettant à plusieurs flux interconnectés de fonctionner à différentes résolutions. Afin d’exploiter la totalité des chemins de la grille, nous proposons une technique d’entraînement inspirée du dropout. En outre, nous montrons empiriquement que notre architecture généralise de nombreux réseaux bien connus de l’état de l’art. Nous terminons par une analyse des résultats empiriques obtenus avec notre architecture qui, bien qu’entraînée avec une initialisation aléatoire des poids, révèle de très bonnes performances, dépassant les approches populaires souvent pré-entraînés
Computer vision is an interdisciplinary field that investigates how computers can gain a high level of understanding from digital images or videos. In artificial intelligence, and more precisely in machine learning, the field in which this thesis is positioned,computer vision involves extracting characteristics from images and then generalizing concepts related to these characteristics. This field of research has become very popular in recent years, particularly thanks to the results of the convolutional neural networks that form the basis of so-called deep learning methods. Today, neural networks make it possible, among other things, to recognize different objects present in an image, to generate very realistic images or even to beat the champions at the Go game. Their performance is not limited to the image domain, since they are also used in other fields such as natural language processing (e. g. machine translation) or sound recognition. In this thesis, we study convolutional neural networks in order to develop specialized architectures and loss functions for low-level tasks (color constancy) as well as high-level tasks (semantic segmentation). Color constancy, is the ability of the human visual system to perceive constant colours for a surface despite changes in the spectrum of illumination (lighting change). In computer vision, the main approach consists in estimating the color of the illuminant and then suppressing its impact on the perceived color of objects. We approach the task of color constancy with the use of neural networks by developing a new architecture composed of a subsampling operator inspired by traditional methods. Our experience shows that our method makes it possible to obtain competitive performances with the state of the art. Nevertheless, our architecture requires a large amount of training data. In order to partially correct this problem and improve the training of neural networks, we present several techniques for artificial data augmentation. We are also making two contributions on a high-level issue : semantic segmentation. This task, which consists of assigning a semantic class to each pixel of an image, is a challenge in computer vision because of its complexity. On the one hand, it requires many examples of training that are costly to obtain. On the other hand, it requires the adaptation of traditional convolutional neural networks in order to obtain a so-called dense prediction, i. e., a prediction for each pixel present in the input image. To solve the difficulty of acquiring training data, we propose an approach that uses several databases annotated with different labels at the same time. To do this, we define a selective loss function that has the advantage of allowing the training of a convolutional neural network from data from multiple databases. We also developed self-context approach that captures the correlations between labels in different databases. Finally, we present our third contribution : a new convolutional neural network architecture called GridNet specialized for semantic segmentation. Unlike traditional networks, implemented with a single path from the input (image) to the output (prediction), our architecture is implemented as a 2D grid allowing several interconnected streams to operate at different resolutions. In order to exploit all the paths of the grid, we propose a technique inspired by dropout. In addition, we empirically demonstrate that our architecture generalize many of well-known stateof- the-art networks. We conclude with an analysis of the empirical results obtained with our architecture which, although trained from scratch, reveals very good performances, exceeding popular approaches often pre-trained
14

Blot, Michaël. "Étude de l'apprentissage et de la généralisation des réseaux profonds en classification d'images." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS412.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'intelligence artificielle connait une résurgence ces dernières années. En cause, la capacité croissante à rassembler et à stocker un nombre considérable de données digitalisées. Ces immenses bases de données permettent aux algorithmes de machine learning de répondre à certaines tâches par apprentissage supervisé. Parmi les données digitalisées, les images demeurent prépondérantes dans l’environnement moderne. D'immenses datasets ont été constitués. De plus, la classification d'image a permis l’essor de modèles jusqu'alors négligés, les réseaux de neurones profonds ou deep learning. Cette famille d'algorithmes démontre une grande facilité à apprendre parfaitement des datasets, même de très grande taille. Leurs capacités de généralisation demeure largement incomprise, mais les réseaux de convolutions sont aujourd'hui l'état de l'art incontesté. D'un point de vue recherche et application du deep learning, les demandes vont être de plus en plus exigeantes, nécessitant de fournir un effort pour porter les performances des réseaux de neurone au maximum de leurs capacités. C'est dans cet objectif que se place nos recherches dont les contributions sont présentées dans cette thèse. Nous nous sommes d'abord penchés sur la question de l'entrainement et avons envisagé d’accélérer celui ci grâce à des méthodes distribuées. Nous avons ensuite étudié les architectures dans le but de les améliorer sans toutefois trop augmenter leurs complexités. Enfin nous avons particulièrement étudié la régularisation de l'entrainement des réseaux. Nous avons envisagé un critère de régularisation basée sur la théorie de l'information que nous avons déployé de deux façons différentes
Artificial intelligence is experiencing a resurgence in recent years. This is due to the growing ability to collect and store a considerable amount of digitized data. These huge databases allow machine learning algorithms to respond to certain tasks through supervised learning. Among the digitized data, images remain predominant in the modern environment. Huge datasets have been created. moreover, the image classification has allowed the development of previously neglected models, deep neural networks or deep learning. This family of algorithms demonstrates a great facility to learn perfectly datasets, even very large. Their ability to generalize remains largely misunderstood, but the networks of convolutions are today the undisputed state of the art. From a research and application point of view of deep learning, the demands will be more and more demanding, requiring to make an effort to bring the performances of the neuron networks to the maximum of their capacities. This is the purpose of our research, whose contributions are presented in this thesis. We first looked at the issue of training and considered accelerating it through distributed methods. We then studied the architectures in order to improve them without increasing their complexity. Finally, we particularly study the regularization of network training. We studied a regularization criterion based on information theory that we deployed in two different ways
15

Trullo, Ramirez Roger. "Approche basées sur l'apprentissage en profondeur pour la segmentation des organes à risques dans les tomodensitométries thoraciques." Thesis, Normandie, 2018. http://www.theses.fr/2018NORMR063.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La radiothérapie est un traitement de choix pour le cancer thoracique, l’une des principales causes de décès dans le monde. La planification de la radiothérapie nécessite de contourer non seulement la tumeur, mais également les organes à risque (OAR) situés près de la tumeur dans le thorax, tels que le coeur, les poumons, l’oesophage, etc. Cette segmentation permet de minimiser la quantité d’irradiation reçue pendant le traitement. Aujourd’hui, la segmentation de OAR est réalisée principalement manuellement par des cliniciens sur des images scanner (CT), malgré une prise en charge logicielle partielle. C’est une tâche complexe, sujette à la variabilité intra et interobservateur. Dans ce travail, nous présentons plusieurs méthodologies utilisant des techniques d’apprentissage profond pour segmenter automatiquement le coeur, la trachée, l’aorte et l’oesophage. En particulier, l’oesophage est particulièrement difficile à segmenter, en raison de l’absence de contraste et de variabilité de forme entre différents patients. Les réseaux profonds convolutionnels offrent aujourd’hui des performances de pointe en matière desegmentation sémantique, nous montrons d’abord comment un type spécifique d’architecture basée sur des skip connections peut améliorer la précision des résultats, par rapport à un réseau pleinement convolutionnel (FCN) standard. Dans une deuxième contribution, nous avons intégré des informations de contexte spatial au processus de segmentation, par le biais de réseaux collaboratifs, permettant les segmentations de chaque organe individuellement. Troisièmement, nous proposons une représentation différente des données, basée sur une carte de distance, utilisée en conjointement avec des réseaux adversariaux (GAN), comme un autre moyen de contraindre le contexte anatomique. Les méthodes proposées ont été évaluées sur une base d’images scanner de 60 patients. Les résultats montrent des résultats encourageants pour l’application clinique et souligne le potentiel des méthodes prenant en compte le contexte spatial dans la segmentation
Radiotherapy is one of the options for treatment currently available for patients affected by cancer, one of the leading cause of deaths worldwide. Before radiotherapy, organs at risk (OAR) located near the target tumor, such as the heart, the lungs, the esophagus, etc. in thoracic cancer, must be outlined, in order to minimize the quantity of irradiation that they receive during treatment. Today, segmentation of the OAR is performed mainly manually by clinicians on Computed Tomography (CT) images, despite some partial software support. It is a tedious task, prone to intra and inter-observer variability. In this work, we present several frameworks using deep learning techniques to automatically segment the heart, trachea, aorta and esophagus. In particular, the esophagus is notably challenging to segment, due to the lack of surrounding contrast and shape variability across different patients. As deep networks and in particular fully convolutional networks offer now state of the art performance for semantic segmentation, we first show how a specific type of architecture based on skip connections can improve the accuracy of the results. As a second contribution, we demonstrate that context information can be of vital importance in the segmentation task, where we propose the use of two collaborative networks. Third, we propose a different, distance aware representation of the data, which is then used in junction with adversarial networks, as another way to constrain the anatomical context. All the proposed methods have been tested on 60 patients with 3D-CT scans, showing good performance compared with other methods
16

Arige, Abhaya Dhathri. "Simplification of 3D CAD models with deep learning for augmented reality." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAS018.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans l'Industrie 4.0, l'utilisation d'appareils de Réalité Augmentée (RA) tels que HoloLens a acquis une acceptation significative pour la formation des opérateurs de ligne d'assemblage dans diverses industries. La simplification des modèles CAO 3D pour la formation en RA est essentielle pour une meilleure performance des applications. Notre recherche se concentre sur le développement de méthodes et de techniques visant à rationaliser des modèles CAO 3D complexes, les rendant adaptés aux applications de RA.Notre recherche met en avant le rôle des modèles 3D en RA, améliorant l'expérience virtuelle en superposant des modèles CAO sur le monde réel. Nous détaillons les applications de la RA dans la formation des opérateurs et comment l'intégration de modèles CAO 3D améliore la compréhension des instructions et des procédures.Nous avons réalisé une revue approfondie de la littérature sur la simplification des modèles CAO pour leur intégration dans des scénarios de réalité augmentée (RA). Nos conclusions indiquent que les techniques de simplification basées sur le maillage excellent dans la préservation des éléments essentiels des modèles CAO, offrant un contrôle précis sur les niveaux de détail.De plus, nous avons effectué quatre types distincts d'évaluations dans notre recherche. Ces évaluations comprenaient des évaluations objectives utilisant des techniques basées sur le maillage issu de la littérature existante, des avis d'experts impliquant un examen approfondi de chaque modèle simplifié pour déterminer le niveau de simplification en fonction des plages de sommets, des tests en conditions réelles assistés par HoloLens2, qui ont révélé des améliorations du taux de rafraîchissement lors de l'utilisation de modèles CAO au lieu de leurs versions originales.Pour conclure nos évaluations, nous avons également réalisé des évaluations par les utilisateurs, en donnant la priorité à l'expérience utilisateur dans notre étude. Ces évaluations ont confirmé que les modèles simplifiés sont hautement capables de remplacer les versions originales. Cependant, il a été observé qu'une simplification supplémentaire est nécessaire, en particulier pour les modèles CAO complexes.La méthodologie principale propose une approche innovante axée sur la segmentation du maillage et la simplification adaptative grâce à l'utilisation de méthodes d'apprentissage profond. Pour réduire la complexité associée à la segmentation et à la simplification 3D, nous avons projeté les données dans le domaine 2D pour effectuer la segmentation et avons ensuite cartographié les résultats dans le domaine 3D. Nous avons illustré ce cadre à l'aide d'une fonction spécifique appelée "chaînes continues" pour expliquer le processus de simplification. Par la suite, nous avons réalisé une analyse comparative par rapport à des techniques de pointe établies, démontrant la performance supérieure de notre méthodologie. Dans nos futures recherches, nous visons à élargir la portée de notre cadre pour englober plusieurs caractéristiques et les régions fonctionnelles à l'intérieur des modèles CAO
As a part of Industry 4.0 the use of Augmented Reality (AR) devices like HoloLens has gained significant acceptance for training assembly line operators in various industries. When employing Computer-Aided Design (CAD) models to create assembly line instructions for training purposes, preserving all redundant information becomes unnecessary. Utilizing simplified CAD models leads to improved run-time performance of the applications in which they are employed. This specific research project is tasked with developing methods and techniques to streamline complex 3D CAD models, making them suitable for AR applications.In this research, we explain how 3D models play a significant role in augmented reality (AR) by enriching the virtual experience through the superimposition of computer-aided design (CAD models) onto the real world. The study goes on to offer detailed descriptions of numerous applications of AR in operator training. Furthermore, it elucidates how the integration of 3D CAD models contributes to a deeper understanding of instructions and procedures within these training scenarios.We conducted an in-depth literature review in the field of CAD model simplification to determine which simplification techniques are most suitable for integration into augmented reality (AR) scenarios. Our research revealed that mesh-based simplification techniques are particularly effective in preserving the essential features of CAD models while offering the advantages of precise control over the level of detail.Additionally, we have carried out four distinct types of assessments as part of our research. These assessments encompassed objective evaluations that applied mesh-based techniques from existing literature, subjective assessment involving a thorough examination of each simplified model to determine the level of simplification based on vertex ranges, real-world testing conducted with the assistance of the HoloLens2 that demonstrated framerate enhancements when employing simplified CAD models in place of their original versions. To conclude our evaluations, we conducted user assessments, as user experience holds utmost importance in our study. They demonstrated that the simplified models possess a high degree of capability in substituting the original counterparts. However, it was noted that more simplification is required, particularly for intricate CAD models.An innovative approach centered around segmentation and adaptive simplification through the utilization of deep learning methods is proposed as the main methodology. To illustrate this framework, we employed a specific feature called "continuous chains". We subsequently conducted a comparative analysis against established state-of-the-art techniques, demonstrating that our methodology outperforms existing approaches. In our future research, we intend to expand the scope of our framework to encompass multiple features in CAD model
17

Parekh, Jayneel. "A Flexible Framework for Interpretable Machine Learning : application to image and audio classification." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAT032.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les systèmes d'apprentissage automatique, et en particulier les réseaux de neurones, ont rapidement développé leur capacité à résoudre des problèmes d'apprentissage complexes. Par conséquent, ils sont intégrés dans la société avec une influence de plus en plus grande sur tous les niveaux de l'expérience humaine. Cela a entraîné la nécessité d'acquérir des informations compréhensibles par l'homme dans leur processus de prise de décision pour s'assurer que les décisions soient prises de manière éthique et fiable. L'étude et le développement de méthodes capables de générer de telles informations constituent de manière générale le domaine de l'apprentissage automatique interprétable.Cette thèse vise à développer un nouveau cadre pour aborder deux problématiques majeures dans ce domaine, l'interprétabilité post-hoc et par conception. L'interprétabilité post-hoc conçoit des méthodes pour analyser les décisions d'un modèle prédictif pré-entraîné, tandis que l'interprétabilité par conception vise à apprendre un modèle unique capable à la fois de prédiction et d'interprétation. Pour ce faire, nous étendons la formulation traditionnelle de l'apprentissage supervisé pour inclure l'interprétation en tant que tâche supplémentaire en plus de la prédiction, chacune étant traitée par des modèles distincts, mais liés, un prédicteur et un interpréteur. Fondamentalement, l'interpréteur dépend du prédicteur à travers ses couches cachées et utilise un dictionnaire de concepts comme représentation pour l'interprétation avec la capacité de générer des interprétations locales et globales.Le cadre est instancié séparément pour résoudre les problèmes d'interprétation dans le contexte de la classification d'images et de sons. Les deux systèmes ont fait l'objet d'une évaluation approfondie de leurs interprétations sur de multiples ensembles de données publics. Dans les deux cas, nous démontrons des performances de prédiction élevées, ainsi qu'une haute fidélité des interprétations. Bien qu'ils adhèrent à la même structure sous-jacente, les deux systèmes sont distinctement conçus pour l'interprétation. Le système d'interprétabilité des images fait avancer le protocole de découverte des concepts appris pour une meilleure compréhension, laquelle est évaluée qualitativement. De plus, il inclut un nouveau critère pour rendre les interprétations plus concises. Le système d'interprétabilité audio est, quant à lui, conçu avec une nouvelle représentation basée sur une factorisation matricielle non-négative pour faciliter les interprétations écoutables, tout en modélisant les objets audio composant une scène
Machine learning systems and specially neural networks, have rapidly grown in their ability to address complex learning problems. Consequently, they are being integrated into society with an ever-rising influence on all levels of human experience. This has resulted in a need to gain human-understandable insights in their decision making process to ensure the decisions are being made ethically and reliably. The study and development of methods which can generate such insightsbroadly constitutes the field of interpretable machine learning. This thesis aims to develop a novel framework that can tackle two major problem settings in this field, post-hoc and by-design interpretation. Posthoc interpretability devises methods to interpret decisionsof a pre-trained predictive model, while by-design interpretability targets to learn a single model capable of both prediction and interpretation. To this end, we extend the traditional supervised learning formulation to include interpretation as an additional task besides prediction,each addressed by separate but related models, a predictor and an interpreter. Crucially, the interpreter is dependent on the predictor through its hidden layers and utilizes a dictionary of concepts as its representation for interpretation with the capacity to generate local and globalinterpretations. The framework is separately instantiated to address interpretability problems in the context of image and audio classification. Both systems are extensively evaluated for their interpretations on multiple publicly available datasets. We demonstrate high predictiveperformance and fidelity of interpretations in both cases. Despite adhering to the same underlying structure the two systems are designed differently for interpretations.The image interpretability system advances the pipeline for discovering learnt concepts for improvedunderstandability that is qualitatively evaluated. The audio interpretability system instead is designed with a novel representation based on non-negative matrix factorization to facilitate listenable interpretations whilst modeling audio objects composing a scene
18

Strub, Florian. "Développement de modèles multimodaux interactifs pour l'apprentissage du langage dans des environnements visuels." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I030.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Alors que nous nous représentons le monde au travers de nos sens, de notre langage et de nos interactions, chacun de ces domaines a été historiquement étudié de manière indépendante en apprentissage automatique. Heureusement, ce cloisonnement tend à se défaire grâce aux dernières avancées en apprentissage profond, ce qui a conduit à l'uniformisation de l'extraction des données au travers des communautés. Cependant, les architectures neuronales multimodales n'en sont qu'à leurs premiers balbutiements et l’apprentissage par renforcement profond est encore souvent restreint à des environnements limités. Idéalement, nous aimerions pourtant développer des modèles multimodaux et interactifs afin qu’ils puissent correctement appréhender la complexité du monde réel. Dans cet objectif, cette thèse s’attache à la compréhension du langage combiné à la vision pour trois raisons : (i) ce sont deux modalités longuement étudiées aux travers des différentes communautés scientifiques (ii) nous pouvons bénéficier des dernières avancées en apprentissage profond pour les modèles de langues et de vision (iii) l’interaction entre l’apprentissage du langage et notre perception a été validé en science cognitives. Ainsi, nous avons conçu le jeu GuessWhat?! (KéZaKo) afin d’évaluer la compréhension de langue combiné à la vision de nos modèles : deux joueurs doivent ainsi localiser un objet caché dans une image en posant une série de questions. Nous introduisons ensuite le principe de modulation comme un nouveau module d’apprentissage profond multimodal. Nous montrons qu’une telle approche permet de fusionner efficacement des représentations visuelles et langagières en prenant en compte la structure hiérarchique propre aux réseaux de neurones. Enfin, nous explorons comment l'apprentissage par renforcement permet l’apprentissage de la langue et cimente l'apprentissage des représentations multimodales sous-jacentes. Nous montrons qu’un tel apprentissage interactif conduit à des stratégies langagières valides mais donne lieu à de nouvelles problématiques de recherche
While our representation of the world is shaped by our perceptions, our languages, and our interactions, they have traditionally been distinct fields of study in machine learning. Fortunately, this partitioning started opening up with the recent advents of deep learning methods, which standardized raw feature extraction across communities. However, multimodal neural architectures are still at their beginning, and deep reinforcement learning is often limited to constrained environments. Yet, we ideally aim to develop large-scale multimodal and interactive models towards correctly apprehending the complexity of the world. As a first milestone, this thesis focuses on visually grounded language learning for three reasons (i) they are both well-studied modalities across different scientific fields (ii) it builds upon deep learning breakthroughs in natural language processing and computer vision (ii) the interplay between language and vision has been acknowledged in cognitive science. More precisely, we first designed the GuessWhat?! game for assessing visually grounded language understanding of the models: two players collaborate to locate a hidden object in an image by asking a sequence of questions. We then introduce modulation as a novel deep multimodal mechanism, and we show that it successfully fuses visual and linguistic representations by taking advantage of the hierarchical structure of neural networks. Finally, we investigate how reinforcement learning can support visually grounded language learning and cement the underlying multimodal representation. We show that such interactive learning leads to consistent language strategies but gives raise to new research issues
19

Firmo, Drumond Thalita. "Apports croisées de l'apprentissage hiérarchique et la modélisation du système visuel : catégorisation d'images sur des petits corpus de données." Thesis, Bordeaux, 2020. https://tel.archives-ouvertes.fr/tel-03129189.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les réseaux neuronaux convolutifs profonds ("deep convolutional neural networks" ou DCNN) ont récemment révolutionné la reconnaissance d'objets à grande échelle, modifiant les pratiques en vision par ordinateur, consistant à définir des caractéristiques représentatives "à la main", désormais apprises de façon hiérarchique à partir des données, tout en les classifiant. Fort de la progression des performances matérielles, on exploite efficacement des quantités toujours croissantes d'images recueillies en ligne. Mais, dans des domaines spécifiques, comme en santé ou pour certaines applications, les données sont moins abondantes, et les coûts d'étiquetage par des experts sont plus élevés. Cette rareté conduit à la question centrale de cette thèse : Ces domaines à données limitées peuvent-ils bénéficier des avantages des DCNN pour la classification des images ? Ce travail repose sur une étude approfondie de la littérature, divisée en deux parties principales, avant de proposer des modèles et des mécanismes originaux, expérimentés.La première partie couvre la reconnaissance des objets d'un double point de vue. Tout d'abord, la fonction visuelle biologique, est comparée et contrastée avec la structure, la fonction et les capacités des modèles DCNN. Puis, une revue de l'état-de-l'art identifie les principales catégories d'architectures et les innovations dans les DCNN récents. Cette base interdisciplinaire favorise l'identification des mécanismes — biologiquement et artificiellement inspirés — qui améliorent la reconnaissance d'images dans des situations difficiles. Le traitement récurrent en est un exemple clair : peu présent au niveau de la vision profonde, sauf le traitement aux vidéos — en raison du caractère naturellement séquentiel. Mais la biologie montre clairement qu'un tel traitement joue aussi un rôle dans l'affinement de notre perception d'une scène fixe. Ce thème est approfondi à travers une revue de la littérature consacrée aux architectures convolutionnelles récurrentes utilisées en catégorisation d'images.La deuxième partie se concentre sur notre question centrale~: l'apprentissage profond sur de petits corpus de données. Tout d'abord, le travail propose une discussion plus précise et détaillée de ce problème et de sa relation avec l'apprentissage hiérarchique des caractéristiques réalisé par des modèles profonds. Cette discussion est suivie d'une revue structurée du domaine, organisant et discutant les différentes voies possibles vers l'adaptation des modèles profonds à des données limitées. Plus qu'une simple liste, ce travail vise à trouver du sens dans la myriade d'approches du domaine, en regroupant les méthodes ayant un objectif ou un mécanisme d'action similaire, pour guider le développement d'application particulières, à petits corpus. Cette étude est complétée par une analyse expérimentale, explorant l'apprentissage de petits jeux de données avec des modèles et mécanismes originaux (précédemment publié comme papier de journal).En conclusion, l'apprentissage profond sur des petits corpus de données peut donner de bons résultats, si cela se fait de manière réfléchie. Au niveau des données, il faut essayer de recueillir plus d'informations à partir de sources de données supplémentaires connexes. Au niveau de la complexité, l'architecture et les méthodes d'entraînement peuvent être calibrées afin de tirer le meilleur parti de toute connaissance spécifique au domaine. Des propositions sont discutées en détail au fil du document. Il existe de multiples façons de réduire la complexité de l'apprentissage profond avec de petits échantillons de données, mais il n'y a pas de solution universelle. Chaque méthode a ses propres inconvénients et difficultés pratiques, devant toujours être adaptée spécifiquement à l'application, c'est-à-dire à la tâche perceptive à accomplir
Deep convolutional neural networks (DCNN) have recently protagonized a revolution in large-scale object recognition. They have changed the usual computer vision practices of hand-engineered features, with their ability to hierarchically learn representative features from data with a pertinent classifier. Together with hardware advances, they have made it possible to effectively exploit the ever-growing amounts of image data gathered online. However, in specific domains like healthcare and industrial applications, data is much less abundant, and expert labeling costs higher than those of general purpose image datasets. This scarcity scenario leads to this thesis' core question: can these limited-data domains profit from the advantages of DCNNs for image classification? This question has been addressed throughout this work, based on an extensive study of literature, divided in two main parts, followed by proposal of original models and mechanisms.The first part reviews object recognition from an interdisciplinary double-viewpoint. First, it resorts to understanding the function of vision from a biological stance, comparing and contrasting to DCNN models in terms of structure, function and capabilities. Second, a state-of-the-art review is established aiming to identify the main architectural categories and innovations in modern day DCNNs. This interdisciplinary basis fosters the identification of potential mechanisms - inspired both from biological and artificial structures — that could improve image recognition under difficult situations. Recurrent processing is a clear example: while not completely absent from the "deep vision" literature, it has mostly been applied to videos — due to their inherently sequential nature. From biology however it is clear such processing plays a role in refining our perception of a still scene. This theme is further explored through a dedicated literature review focused on recurrent convolutional architectures used in image classification.The second part carries on in the spirit of improving DCNNs, this time focusing more specifically on our central question: deep learning over small datasets. First, the work proposes a more detailed and precise discussion of the small sample problem and its relation to learning hierarchical features with deep models. This discussion is followed up by a structured view of the field, organizing and discussing the different possible paths towards adapting deep models to limited data settings. Rather than a raw listing, this review work aims to make sense out of the myriad of approaches in the field, grouping methods with similar intent or mechanism of action, in order to guide the development of custom solutions for small-data applications. Second, this study is complemented by an experimental analysis, exploring small data learning with the proposition of original models and mechanisms (previously published as a journal paper).In conclusion, it is possible to apply deep learning to small datasets and obtain good results, if done in a thoughtful fashion. On the data path, one shall try gather more information from additional related data sources if available. On the complexity path, architecture and training methods can be calibrated in order to profit the most from any available domain-specific side-information. Proposals concerning both of these paths get discussed in detail throughout this document. Overall, while there are multiple ways of reducing the complexity of deep learning with small data samples, there is no universal solution. Each method has its own drawbacks and practical difficulties and needs to be tailored specifically to the target perceptual task at hand
20

Maignant, Elodie. "Plongements barycentriques pour l'apprentissage géométrique de variétés : application aux formes et graphes." Electronic Thesis or Diss., Université Côte d'Azur, 2023. http://www.theses.fr/2023COAZ4096.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Une image obtenue par IRM, c'est plus de 60 000 pixels. La plus grosse protéine connue chez l'être humain est constituée d'environ 30 000 acides aminés. On parle de données en grande dimension. En réalité, la plupart des données en grande dimension ne le sont qu'en apparence. Par exemple, de toutes les images que l'on pourrait générer aléatoirement en coloriant 256 x 256 pixels, seule une infime proportion ressemblerait à l'image IRM d'un cerveau humain. C'est ce qu'on appelle la dimension intrinsèque des données. En grande dimension, apprentissage rime donc souvent avec réduction de dimension. Il existe de nombreuses méthodes de réduction de dimension, les plus récentes pouvant être classées selon deux approches.Une première approche, connue sous le nom d'apprentissage de variétés (manifold learning) ou réduction de dimension non linéaire, part du constat que certaines lois physiques derrière les données que l'on observe ne sont pas linéaires. Ainsi, espérer expliquer la dimension intrinsèque des données par un modèle linéaire est donc parfois irréaliste. Au lieu de cela, les méthodes qui relèvent du manifold learning supposent un modèle localement linéaire.D'autre part, avec l'émergence du domaine de l'analyse statistique de formes, il y eu une prise de conscience que de nombreuses données sont naturellement invariantes à certaines symétries (rotations, permutations, reparamétrisations...), invariances qui se reflètent directement sur la dimension intrinsèque des données. Ces invariances, la géométrie euclidienne ne peut pas les retranscrire fidèlement. Ainsi, on observe un intérêt croissant pour la modélisation des données par des structures plus fines telles que les variétés riemanniennes. Une deuxième approche en réduction de dimension consiste donc à généraliser les méthodes existantes à des données à valeurs dans des espaces non-euclidiens. On parle alors d'apprentissage géométrique. Jusqu'à présent, la plupart des travaux en apprentissage géométrique se sont focalisés sur l'analyse en composantes principales.Dans la perspective de proposer une approche qui combine à la fois apprentissage géométrique et manifold learning, nous nous sommes intéressés à la méthode appelée locally linear embedding, qui a la particularité de reposer sur la notion de barycentre, notion a priori définie dans les espaces euclidiens mais qui se généralise aux variétés riemanniennes. C'est d'ailleurs sur cette même notion que repose une autre méthode appelée barycentric subspace analysis, et qui fait justement partie des méthodes qui généralisent l'analyse en composantes principales aux variétés riemanniennes. Ici, nous introduisons la notion nouvelle de plongement barycentrique, qui regroupe les deux méthodes. Essentiellement, cette notion englobe un ensemble de méthodes dont la structure rappelle celle des méthodes de réduction de dimension linéaires et non linéaires, mais où le modèle (localement) linéaire est remplacé par un modèle barycentrique -- affine.Le cœur de notre travail consiste en l'analyse de ces méthodes, tant sur le plan théorique que pratique. Du côté des applications, nous nous intéressons à deux exemples importants en apprentissage géométrique : les formes et les graphes. En particulier, on démontre que par rapport aux méthodes standard de réduction de dimension en analyse statistique des graphes, les plongements barycentriques se distinguent par leur meilleure interprétabilité. En plus des questions pratiques liées à l'implémentation, chacun de ces exemples soulève ses propres questions théoriques, principalement autour de la géométrie des espaces quotients. Parallèlement, nous nous attachons à caractériser géométriquement les plongements localement barycentriques, qui généralisent la projection calculée par locally linear embedding. Enfin, de nouveaux algorithmes d'apprentissage géométrique, novateurs dans leur approche, complètent ce travail
An MRI image has over 60,000 pixels. The largest known human protein consists of around 30,000 amino acids. We call such data high-dimensional. In practice, most high-dimensional data is high-dimensional only artificially. For example, of all the images that could be randomly generated by coloring 256 x 256 pixels, only a very small subset would resemble an MRI image of a human brain. This is known as the intrinsic dimension of such data. Therefore, learning high-dimensional data is often synonymous with dimensionality reduction. There are numerous methods for reducing the dimension of a dataset, the most recent of which can be classified according to two approaches.A first approach known as manifold learning or non-linear dimensionality reduction is based on the observation that some of the physical laws behind the data we observe are non-linear. In this case, trying to explain the intrinsic dimension of a dataset with a linear model is sometimes unrealistic. Instead, manifold learning methods assume a locally linear model.Moreover, with the emergence of statistical shape analysis, there has been a growing awareness that many types of data are naturally invariant to certain symmetries (rotations, reparametrizations, permutations...). Such properties are directly mirrored in the intrinsic dimension of such data. These invariances cannot be faithfully transcribed by Euclidean geometry. There is therefore a growing interest in modeling such data using finer structures such as Riemannian manifolds. A second recent approach to dimension reduction consists then in generalizing existing methods to non-Euclidean data. This is known as geometric learning.In order to combine both geometric learning and manifold learning, we investigated the method called locally linear embedding, which has the specificity of being based on the notion of barycenter, a notion a priori defined in Euclidean spaces but which generalizes to Riemannian manifolds. In fact, the method called barycentric subspace analysis, which is one of those generalizing principal component analysis to Riemannian manifolds, is based on this notion as well. Here we rephrase both methods under the new notion of barycentric embeddings. Essentially, barycentric embeddings inherit the structure of most linear and non-linear dimension reduction methods, but rely on a (locally) barycentric -- affine -- model rather than a linear one.The core of our work lies in the analysis of these methods, both on a theoretical and practical level. In particular, we address the application of barycentric embeddings to two important examples in geometric learning: shapes and graphs. In addition to practical implementation issues, each of these examples raises its own theoretical questions, mostly related to the geometry of quotient spaces. In particular, we highlight that compared to standard dimension reduction methods in graph analysis, barycentric embeddings stand out for their better interpretability. In parallel with these examples, we characterize the geometry of locally barycentric embeddings, which generalize the projection computed by locally linear embedding. Finally, algorithms for geometric manifold learning, novel in their approach, complete this work
21

Pageaud, Simon. "SmartGov : architecture générique pour la co-construction de politiques urbaines basée sur l'apprentissage par renforcement multi-agent." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1128.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous proposons un outil SmartGov, mixant simulation multi-agents et apprentissage multi-agents par renforcement profond, pour permettre la co-construction de politiques urbaines et inscrire les acteurs de la ville dans la boucle de conception. La Smart City permet à l’outil d’intégrer les données collectées par les capteurs présents dans la ville pour la modéliser de façon réaliste. Notre première contribution est une architecture générique pour construire une simulation multi-agents représentant la ville, et étudier l’émergence de comportement globaux avec des agents réalistes capables de réagir aux décisions politiques. Grâce à une modélisation multi-niveaux, et le couplage de différentes dynamiques, le système apprend les spécificités de l’environnement pour proposer des politiques pertinentes. Notre seconde contribution concerne l'autonomie et l'adaptation de la couche décisionnelle avec un apprentissage par renforcement multi-agents et multi-niveaux. Un ensemble d'agents, regroupés en clusters, est distribué dans le périmètre étudié pour apprendre des spécificités locales sans connaissance a priori de son environnement. L’attribution d’un score de confiance et de récompenses individuelles permettent d'atténuer l'impact de la non-stationnarité sur la réutilisation d'expériences nécessaire à l'apprentissage profond. Ces contributions conduisent à un système complet de co-construction de politiques urbaines dans le contexte de la Smart City. Nous comparons notre modèle avec d'autres approches de la littérature sur une politique de tarification du stationnement urbain, afin de mettre en évidence les apports et les limites de nos contributions
In this thesis, we propose the SmartGov model, coupling multi-agent simulation and multi-agent deep reinforcement learning, to help co-construct urban policies and integrate all stakeholders in the decision process. Smart Cities provide sensor data from the urban areas to increase realism of the simulation in SmartGov.Our first contribution is a generic architecture for multi-agent simulation of the city to study global behavior emergence with realistic agents reacting to political decisions. With a multi-level modeling and a coupling of different dynamics, our tool learns environment specificities and suggests relevant policies. Our second contribution improves autonomy and adaptation of the decision function with multi-agent, multi-level reinforcement learning. A set of clustered agents is distributed over the studied area to learn local specificities without any prior knowledge on the environment. Trust score assignment and individual rewards help reduce non-stationary impact on experience replay in deep reinforcement learning.These contributions bring forth a complete system to co-construct urban policies in the Smart City. We compare our model with different approaches from the literature on a parking fee policy to display the benefits and limits of our contributions
22

Balikas, Georgios. "Explorer et apprendre à partir de collections de textes multilingues à l'aide des modèles probabilistes latents et des réseaux profonds." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM054/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le texte est l'une des sources d'informations les plus répandues et les plus persistantes. L'analyse de contenu du texte se réfère à des méthodes d'étude et de récupération d'informations à partir de documents. Aujourd'hui, avec une quantité de texte disponible en ligne toujours croissante l'analyse de contenu du texte revêt une grande importance parce qu' elle permet une variété d'applications. À cette fin, les méthodes d'apprentissage de la représentation sans supervision telles que les modèles thématiques et les word embeddings constituent des outils importants.L'objectif de cette dissertation est d'étudier et de relever des défis dans ce domaine.Dans la première partie de la thèse, nous nous concentrons sur les modèles thématiques et plus précisément sur la manière d'incorporer des informations antérieures sur la structure du texte à ces modèles.Les modèles de sujets sont basés sur le principe du sac-de-mots et, par conséquent, les mots sont échangeables. Bien que cette hypothèse profite les calculs des probabilités conditionnelles, cela entraîne une perte d'information.Pour éviter cette limitation, nous proposons deux mécanismes qui étendent les modèles de sujets en intégrant leur connaissance de la structure du texte. Nous supposons que les documents sont répartis dans des segments de texte cohérents. Le premier mécanisme attribue le même sujet aux mots d'un segment. La seconde, capitalise sur les propriétés de copulas, un outil principalement utilisé dans les domaines de l'économie et de la gestion des risques, qui sert à modéliser les distributions communes de densité de probabilité des variables aléatoires tout en n'accédant qu'à leurs marginaux.La deuxième partie de la thèse explore les modèles de sujets bilingues pour les collections comparables avec des alignements de documents explicites. En règle générale, une collection de documents pour ces modèles se présente sous la forme de paires de documents comparables. Les documents d'une paire sont écrits dans différentes langues et sont thématiquement similaires. À moins de traductions, les documents d'une paire sont semblables dans une certaine mesure seulement. Pendant ce temps, les modèles de sujets représentatifs supposent que les documents ont des distributions thématiques identiques, ce qui constitue une hypothèse forte et limitante. Pour le surmonter, nous proposons de nouveaux modèles thématiques bilingues qui intègrent la notion de similitude interlingue des documents qui constituent les paires dans leurs processus générateurs et d'inférence.La dernière partie de la thèse porte sur l'utilisation d'embeddings de mots et de réseaux de neurones pour trois applications d'exploration de texte. Tout d'abord, nous abordons la classification du document polylinguistique où nous soutenons que les traductions d'un document peuvent être utilisées pour enrichir sa représentation. À l'aide d'un codeur automatique pour obtenir ces représentations de documents robustes, nous démontrons des améliorations dans la tâche de classification de documents multi-classes. Deuxièmement, nous explorons la classification des tweets à plusieurs tâches en soutenant que, en formant conjointement des systèmes de classification utilisant des tâches corrélées, on peut améliorer la performance obtenue. À cette fin, nous montrons comment réaliser des performances de pointe sur une tâche de classification du sentiment en utilisant des réseaux neuronaux récurrents. La troisième application que nous explorons est la récupération d'informations entre langues. Compte tenu d'un document écrit dans une langue, la tâche consiste à récupérer les documents les plus similaires à partir d'un ensemble de documents écrits dans une autre langue. Dans cette ligne de recherche, nous montrons qu'en adaptant le problème du transport pour la tâche d'estimation des distances documentaires, on peut obtenir des améliorations importantes
Text is one of the most pervasive and persistent sources of information. Content analysis of text in its broad sense refers to methods for studying and retrieving information from documents. Nowadays, with the ever increasing amounts of text becoming available online is several languages and different styles, content analysis of text is of tremendous importance as it enables a variety of applications. To this end, unsupervised representation learning methods such as topic models and word embeddings constitute prominent tools.The goal of this dissertation is to study and address challengingproblems in this area, focusing on both the design of novel text miningalgorithms and tools, as well as on studying how these tools can be applied to text collections written in a single or several languages.In the first part of the thesis we focus on topic models and more precisely on how to incorporate prior information of text structure to such models.Topic models are built on the premise of bag-of-words, and therefore words are exchangeable. While this assumption benefits the calculations of the conditional probabilities it results in loss of information.To overcome this limitation we propose two mechanisms that extend topic models by integrating knowledge of text structure to them. We assume that the documents are partitioned in thematically coherent text segments. The first mechanism assigns the same topic to the words of a segment. The second, capitalizes on the properties of copulas, a tool mainly used in the fields of economics and risk management that is used to model the joint probability density distributions of random variables while having access only to their marginals.The second part of the thesis explores bilingual topic models for comparable corpora with explicit document alignments. Typically, a document collection for such models is in the form of comparable document pairs. The documents of a pair are written in different languages and are thematically similar. Unless translations, the documents of a pair are similar to some extent only. Meanwhile, representative topic models assume that the documents have identical topic distributions, which is a strong and limiting assumption. To overcome it we propose novel bilingual topic models that incorporate the notion of cross-lingual similarity of the documents that constitute the pairs in their generative and inference processes. Calculating this cross-lingual document similarity is a task on itself, which we propose to address using cross-lingual word embeddings.The last part of the thesis concerns the use of word embeddings and neural networks for three text mining applications. First, we discuss polylingual document classification where we argue that translations of a document can be used to enrich its representation. Using an auto-encoder to obtain these robust document representations we demonstrate improvements in the task of multi-class document classification. Second, we explore multi-task sentiment classification of tweets arguing that by jointly training classification systems using correlated tasks can improve the obtained performance. To this end we show how can achieve state-of-the-art performance on a sentiment classification task using recurrent neural networks. The third application we explore is cross-lingual information retrieval. Given a document written in one language, the task consists in retrieving the most similar documents from a pool of documents written in another language. In this line of research, we show that by adapting the transportation problem for the task of estimating document distances one can achieve important improvements
23

Klokov, Roman. "Deep learning pour la modélisation de formes 3D." Electronic Thesis or Diss., Université Grenoble Alpes, 2021. http://www.theses.fr/2021GRALM060.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’application des stratégies d’apprentissage profond, aux données de formes 3D pose divers défis aux chercheurs. La nature complexe de ces données 3D autorise différentes représentations, par exemples les grilles d’occupation, les nuages de points, les maillages ou les fonctions implicites. Chacune de ces représentations a vu apparaitre des familles de réseaux de neurones profonds capables de traiter et prédire en fonction d’échantillons, cela pour diverses tâches de reconnaissance, de génération et de modification de données.Les modèles d’apprentissage profond modernes obligent les chercheurs à effectuer divers choix de conception associés à leurs architectures, aux algorithmes d’apprentissage et à d’autres aspects plus spécifiques des applications choisies. Ces choix sont souvent faits sur la base d’heuristiques, ou de manière empirique au travers de nombreuses évaluations expérimentales coûteuses. La modélisation probabiliste offre une alternative à cela et permet de formaliser les tâches d’apprentissage automatique de manière rigoureuse et de développer des objectifs d’entrainement qui reposent sur les probabilités. Cette thèse explore la combinaison de l’apprentissage profond avec la modélisation probabiliste dans le cadre applicatif des données 3D de formes géométriques.La première contribution porte sur l’inférence d’une forme 3D à partir d’une seule vue et explore comment la modélisation probabiliste pourrait être appliquée dans ce contexte. Nous proposons pour cela un ensemble de modèles probabilistes, les réseaux de reconstruction probabilistes (PRN), qui traitent la tâche comme une génération conditionnée par l’image et introduisent une variable latente globale qui encode les informations de géométrie des formes. Nous expérimentons différents conditionnements par l’image et deux objectifs d’entraînement différents basés pour l’un sur la méthode de Monte Carlo et pour l’autre sur l’approximation variationnel de la vraisemblance du modèle. Les modèles PRN sont évalués avec l’inférence de grilles d’occupation 3D à partir d’une seule vue, sur des formes synthétiques observées à partir de points de vue aléatoires. Nous montrons que le conditionnement, par l’image observée, de la distribution a priori de la variable latente est suffisant pour obtenir des performances compétitives pour les métriques basées sur les nuages de points et état de l’art pour les métriques basées sur les voxels. Nous démontrons en outre que l’objectif probabiliste basé sur l’approximation variationnelle de la vraisemblance permet au modèle d’obtenir de meilleurs résultats que l’approximation basée sur Monte Carlo.La deuxième contribution est un modèle probabiliste pour la génération de nuages de points 3D. Ces nuages de points sont vus comme des distributions sur des variables échangeables et utilise le théorème de Finetti pour définir un modèle global de variables latentes avec des distributions conditionnellement indépendantes pour les coordonnées de chaque point. Pour modéliser ces distributions ponctuelles, un nouveau type de flux de normalisation conditionnelle est proposé, basé sur un couplage discret des dimensions des coordonnées ponctuelles. Nous étendons également nos réseaux de flux ponctuels discrets (DPFN) de la génération à la tâche d’inférence à vue unique en conditionnant la variable latente globale a priori d’une manière similaire aux PRN de la première contribution. Les performances génératives résultantes démontrent que les DPFN produisent des échantillons de qualité et de diversité similaires à l’état de l’art basé sur des flux de normalisation continus, mais sont environ 30 fois plus rapides que ces derniers, à la fois dans la formation et l’échantillonnage. Les résultats des tâches d’encodage automatique et d’inférence à vue unique montrent des performances compétitives et état de l’art avec les métriques de distance de chanfrein, de F-score et de distance de Wasserstein pour les nuages de points
Application of deep learning to geometric 3D data poses various challenges for researchers. The complex nature of geometric 3D data allows to represent it in different forms: occupancy grids, point clouds, meshes, implicit functions, etc. Each of those representations has already spawned streams of deep neural network models, capable of processing and predicting according data samples for further use in various data recognition, generation, and modification tasks.Modern deep learning models force researchers to make various design choices, associated with their architectures, learning algorithms and other specific aspects of the chosen applications. Often, these choices are made with the help of various heuristics and best practice methods discovered through numerous costly experimental evaluations. Probabilistic modeling provides an alternative to these methods that allows to formalize machine learning tasks in a meaningful manner and develop probability-based training objectives. This thesis explores combinations of deep learning based methods and probabilistic modeling in application to geometric 3D data.The first contribution explores how probabilistic modeling could be applied in the context of single-view 3D shape inference task. We propose a family of probabilistic models, Probabilistic Reconstruction Networks (PRNs),which treats the task as image conditioned generation and introduces a global latent variable, encoding shape geometry information. We explore different image conditioning options, and two different training objectives based on Monte Carlo and variational approximations of the model likelihood. Parameters of every distribution are predicted by multi-layered convolutional and fully-connected neural networks from the input images. All the options in the family of models are evaluated in the single-view 3D occupancy grid inference task on synthetic shapes and according image renderings from randomized viewpoints. We show that conditioning the latent variable prior on the input images is sufficient to achieve competitive and state-of-the-art single-view 3D shape inference performance for point cloud based and voxel based metrics, respectively. We additionally demonstrate that probabilistic objective based on variational approximation of the likelihood allows the model to obtain better results compared to Monte Carlo based approximation.The second contribution proposes a probabilistic model for 3D point cloud generation. It treats point clouds as distributions over exchangeable variables and use de Finetti’s representation theorem to define a global latent variable model with conditionally independent distributions for coordinates of each point. To model these point distributions a novel type of conditional normalizing flows is proposed, based on discrete coupling of point coordinate dimensions. These flows update the coordinates of each point sample multiple times by dividing them in two groups and inferring the updates for one group of coordinates from another group and, additionally, global latent variable sample by the means of multi-layered fully-connected neural networks with parameters shared for all the points. We also extend our Discrete Point Flow Networks (DPFNs) from generation to single-view inference task by conditioning the global latent variable prior in a manner similar to PRNs from the first contribution. Resulting generative performance demonstrates that DPFNs produce sets of samples of similar quality and diversity compared to state of the art based on continuous normalizing flows, but are approximately 30 times faster both in training and sampling. Results in autoencoding and single-view inference tasks show competitive and state-of-the-art performance for Chamfer distance, F-score and earth mover’s distance similarity metrics for point clouds
24

Matcha, Wyao. "Identification des composants prioritaires pour les tests unitaires dans les systèmes OO : une approche basée sur l'apprentissage profond." Thèse, 2020. http://depot-e.uqtr.ca/id/eprint/9420/1/eprint9420.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles

To the bibliography