Siga este enlace para ver otros tipos de publicaciones sobre el tema: Réseau de croyance profond.

Tesis sobre el tema "Réseau de croyance profond"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 50 mejores tesis para su investigación sobre el tema "Réseau de croyance profond".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Kaabi, Rabeb. "Apprentissage profond et traitement d'images pour la détection de fumée". Electronic Thesis or Diss., Toulon, 2020. http://www.theses.fr/2020TOUL0017.

Texto completo
Resumen
Cette thèse aborde le problème de la détection des feux de forêt par des outils de traitement d’images et apprentissage machine. Un incendie de forêt est un feu qui se propage sur une étendue boisée. Il peut être d'origine naturelle (dû à la foudre ou à une éruption volcanique) ou humaine. Dans le monde entier, l’impact des feux de forêts sur de nombreux aspects de notre vie quotidienne se fait de plus en plus apparente sur l’écosystème entier. De nombreuses méthodes ont montré l’efficacité pour la détection des incendies de forêt. L’originalité du présent travail réside dans la détection précoce des incendies par la détection de la fumée de forêt et la classification des régions de fumée et de non fumée à l’aide d’apprentissage profond et des outils de traitement d’image. Un ensemble de techniques de prétraitement nous a aidé à avoir une base de donnée importante (ajout du bruit aux entrées, augmentation des données) qui nous a permis après de tester la robustesse du modèle basée sur le DBN qu’on a proposé et évaluer la performance en calculant les métriques suivantes (IoU, Précision, Rappel, F1 score). Finalement, l’algorithme proposé est testé sur plusieurs images afin de valider son efficacité. Les simulations de notre algorithme ont été comparées avec celles traités dans l’état de l’art (Deep CNN, SVM…) et ont fourni de très bons résultats
This thesis deals with the problem of forest fire detection using image processing and machine learning tools. A forest fire is a fire that spreads over a wooded area. It can be of natural origin (due to lightning or a volcanic eruption) or human. Around the world, the impact of forest fires on many aspects of our daily lives is becoming more and more apparent on the entire ecosystem.Many methods have been shown to be effective in detecting forest fires. The originality of the present work lies in the early detection of fires through the detection of forest smoke and the classification of smoky and non-smoky regions using deep learning and image processing tools. A set of pre-processing techniques helped us to have an important database which allowed us afterwards to test the robustness of the model based on deep belief network we proposed and to evaluate the performance by calculating the following metrics (IoU, Accuracy, Recall, F1 score). Finally, the proposed algorithm is tested on several images in order to validate its efficiency. The simulations of our algorithm have been compared with those processed in the state of the art (Deep CNN, SVM...) and have provided very good results. The results of the proposed methods gave an average classification accuracy of about 96.5% for the early detection of smoke
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains". Thesis, Paris, ENST, 2017. http://www.theses.fr/2017ENST0071/document.

Texto completo
Resumen
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Antipov, Grigory. "Apprentissage profond pour la description sémantique des traits visuels humains". Electronic Thesis or Diss., Paris, ENST, 2017. http://www.theses.fr/2017ENST0071.

Texto completo
Resumen
Les progrès récents des réseaux de neurones artificiels (plus connus sous le nom d'apprentissage profond) ont permis d'améliorer l’état de l’art dans plusieurs domaines de la vision par ordinateur. Dans cette thèse, nous étudions des techniques d'apprentissage profond dans le cadre de l’analyse du genre et de l’âge à partir du visage humain. En particulier, deux problèmes complémentaires sont considérés : (1) la prédiction du genre et de l’âge, et (2) la synthèse et l’édition du genre et de l’âge.D’abord, nous effectuons une étude détaillée qui permet d’établir une liste de principes pour la conception et l’apprentissage des réseaux de neurones convolutifs (CNNs) pour la classification du genre et l’estimation de l’âge. Ainsi, nous obtenons les CNNs les plus performants de l’état de l’art. De plus, ces modèles nous ont permis de remporter une compétition internationale sur l’estimation de l’âge apparent. Nos meilleurs CNNs obtiennent une précision moyenne de 98.7% pour la classification du genre et une erreur moyenne de 4.26 ans pour l’estimation de l’âge sur un corpus interne particulièrement difficile.Ensuite, afin d’adresser le problème de la synthèse et de l’édition d’images de visages, nous concevons un modèle nommé GA-cGAN : le premier réseau de neurones génératif adversaire (GAN) qui produit des visages synthétiques réalistes avec le genre et l’âge souhaités. Enfin, nous proposons une nouvelle méthode permettant d’employer GA-cGAN pour le changement du genre et de l’âge tout en préservant l’identité dans les images synthétiques. Cette méthode permet d'améliorer la précision d’un logiciel sur étagère de vérification faciale en présence d’écarts d’âges importants
The recent progress in artificial neural networks (rebranded as deep learning) has significantly boosted the state-of-the-art in numerous domains of computer vision. In this PhD study, we explore how deep learning techniques can help in the analysis of gender and age from a human face. In particular, two complementary problem settings are considered: (1) gender/age prediction from given face images, and (2) synthesis and editing of human faces with the required gender/age attributes.Firstly, we conduct a comprehensive study which results in an empirical formulation of a set of principles for optimal design and training of gender recognition and age estimation Convolutional Neural Networks (CNNs). As a result, we obtain the state-of-the-art CNNs for gender/age prediction according to the three most popular benchmarks, and win an international competition on apparent age estimation. On a very challenging internal dataset, our best models reach 98.7% of gender classification accuracy and an average age estimation error of 4.26 years.In order to address the problem of synthesis and editing of human faces, we design and train GA-cGAN, the first Generative Adversarial Network (GAN) which can generate synthetic faces of high visual fidelity within required gender and age categories. Moreover, we propose a novel method which allows employing GA-cGAN for gender swapping and aging/rejuvenation without losing the original identity in synthetic faces. Finally, in order to show the practical interest of the designed face editing method, we apply it to improve the accuracy of an off-the-shelf face verification software in a cross-age evaluation scenario
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Katranji, Mehdi. "Apprentissage profond de la mobilité des personnes". Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCA024.

Texto completo
Resumen
La connaissance de la mobilité est un enjeu majeur pour les autorités organisatrices de mobilité et l'aménagement urbain. En raison du manque de définition formelle de la mobilité humaine, l'expression "mobilité des personnes" sera utilisée dans cette ouvrage. Ce sujet sera introduit par une description de l'écosystème en considérant ces acteurs et ces applications.La création d'un modèle d'apprentissage a des prérequis: la compréhension des typologies des ensembles de données disponibles, leurs forces et leurs faiblesses. Cet état de l'art de la connaissance de la mobilité passe par le modèle à quatre étapes qui existe et est utilisé depuis 1970 pour finir sur le renouvellement des méthodologies de ces dernières années.Nos modélisations de la mobilité des personnes sont ensuite présentées. Leur point commun est la mise en avant de l'individu contrairement aux approches classiques qui prennent comme référence la localité. Les modèles que nous proposons s'appuient sur le fait que la prise de décision des individus se fait selon leur perception de l'environnement.Cet ouvrage fini sur l'étude des méthodes d'apprentissage profond des machines de Boltzmann restreintes. Après un état de l'art de cette famille de modèles, nous recherchons des stratégies pour rendre ces modèles viables dans le monde applicatif. Ce dernier chapitre est notre contribution théorique principale, par l'amélioration de la robustesse et la performance de ces modèles
Knowledge of mobility is a major challenge for authorities mobility organisers and urban planning. Due to the lack of formal definition of human mobility, the term "people's mobility" will be used in this book. This topic will be introduced by a description of the ecosystem by considering these actors and applications.The creation of a learning model has prerequisites: an understanding of the typologies of the available data sets, their strengths and weaknesses. This state of the art in mobility knowledge is based on the four-step model that has existed and been used since 1970, ending with the renewal of the methodologies of recent years.Our models of people's mobility are then presented. Their common point is the emphasis on the individual, unlike traditional approaches that take the locality as a reference. The models we propose are based on the fact that the intake of individuals' decisions is based on their perception of the environment.This finished book on the study of the deep learning methods of Boltzmann machines restricted. After a state of the art of this family of models, we are looking for strategies to make these models viable in the application world. This last chapter is our contribution main theoretical, by improving robustness and performance of these models
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Cheung-Mon-Chan, Pascal. "Réseaux bayésiens et filtres particulaires pour l'égalisation adaptative et le décodage conjoints". Phd thesis, Télécom ParisTech, 2003. http://pastel.archives-ouvertes.fr/pastel-00000732.

Texto completo
Resumen
Cette thèse s'intéresse aux réseaux bayésiens, aux filtres particulaires et à leur application aux communications numériques. Tout d'abord, nous donnons une construction rigoureuse et très générale des réseaux bayésiens et nous présentons l'algorithme de propagation de croyance dans ce contexte. Puis, nous introduisons un nouveau type de filtre particulaire, appelé "filtre particulaire à échantillonnage global", et nous constatons en effectuant des simulations numériques que ce nouvel algorithme se compare favorablement à l'état de l'art. Nous utilisons ensuite le filtrage particulaire pour calculer de façon approchée certains messages de l'algorithme de propagation de croyance. Nous obtenons ainsi un nouvel algorithme, combinant propagation de croyance et filtrage particulaire, que nous avons appelé "algorithme de turbo-filtrage particulaire». Enfin, nous utilisons ces différentes techniques afin de concevoir de façon méthodique un récepteur de communications numériques.
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Le, Cornec Kergann. "Apprentissage Few Shot et méthode d'élagage pour la détection d'émotions sur bases de données restreintes". Thesis, Université Clermont Auvergne‎ (2017-2020), 2020. http://www.theses.fr/2020CLFAC034.

Texto completo
Resumen
La détection d'émotions joue un rôle majeur dans les relations humaines: une bonne compréhension de l'état émotionnel de l'interlocuteur mène à une bonne compréhension de son discours.De fait, elle est aussi très importante dans les relations humain-machine.Dans le domaine de la détection des émotions par ordinateur,l'apprentissage profond s'est imposé comme l'état de l'art. Cependant,les techniques classiques d'apprentissage profond ne fonctionnent plus lorsque la base d'apprentissage est petite.Cette thèse explore deux pistes de réponse: l'élagage et quelques méthodes d'apprentissage few shot. De nombreuses techniques d'élagage existent, mais se concentrent souvent sur un équilibre entre le pourcentage des poids supprimés et la précision. Nous proposons une nouvelle méthode d'élagage, améliorant le choix des poids à supprimer. Cette technique est basée sur la mise en compétition de deux réseaux : le réseau original et un réseau que nous nommons rival. L'idée est de partager les poids entre ces deux réseaux dans le but de maximiser la précision du modèle. Pendant l'apprentissage, les poids ayant un impact négatif sur la précision vont être supprimés, optimisant ainsi le modèle, tout en améliorant la précision. Cette technique est testée sur différents réseaux et différentes bases de données et atteint l'état de l'art en améliorant la précision tout en supprimant un pourcentage de poids non négligeable. La seconde contribution concerne l'utilisation de réseaux correspondants (réseaux siamois et triple), comme réponse à l'apprentissage sur bases multimodales restreintes. Les deux modalités son et image sont combinées afin d'apprendre leurs caractéristiques principales, pour la détection d'émotions. Nous montrons qu'en se limitant à 200 instances d'entrainement par classe, le réseau triple atteint l'état de l'art (appris sur des centaines de milliers d'instances) sur certaines bases de données.Nous montrons aussi que, pour la classification d'émotions, les réseaux triples offrent une meilleure représentation des émotions, et par conséquent présentent de meilleurs résultats que les réseaux siamois. Une nouvelle fonction de perte basée sur le triplet loss est introduite facilitant l'apprentissage de ces réseaux. Différentes méthodes sont aussi appliquées, offrant des éléments de comparaisons du modèle et plus précisément de la représentation vectorielle. A terme, ces deux méthodes pourront être combinées pour proposer des modèles légers et performants. Comme le nombre de paramètres à apprendre sera plus faible, un réseau triple élagué donnera possiblement de meilleurs résultats
Emotion detection plays a major part in human interactions, a goodunderstanding of the speaker's emotional state leading to a betterunderstanding of his speech. It is de facto the same in human-machineinteractions.In the area of emotion detection using computers, deep learning hasemerged as the state of the art. However, classical deep learningtechnics perform poorly when training sets are small. This thesis explores two possible ways for tackling this issue, pruning and fewshot learning.Many pruning methods exist but focus on maximising pruning withoutlosing too much accuracy.We propose a new pruning method, improving the choice of the weightsto remove. This method is based on the rivalry of two networks, theoriginal network and a network we name rival.The idea is to share weights between both models in order to maximisethe accuracy. During training, weights impacting negatively the accuracy will be removed, thus optimising the architecture while improving accuracy. This technic is tested on different networks as well asdifferent databases and achieves state of the art results, improvingaccuracy while pruning a significant percentage of weights.The second area of this thesis is the exploration of matching networks(both siamese and triple), as an answer to learning on small datasets.Sounds and Images were merged to learn their main features, in orderto detect emotions.We show that, while restricting ourselves to 200 training instancesfor each class, triplet network achieves state of the art (trained on hundreds of thousands instances) on some databases.We also show that, in the area of emotion detection, triplet networksprovide a better vectorial embedding of the emotions thansiamese networks, and thusdeliver better results.A new loss function based on triplet loss is also introduced, facilitatingthe training process of the triplet and siamese networks. To allow abetter comparison of our model, different methods are used to provideelements of validation, especially on the vectorial embedding.In the long term, both methods can be combined to propose lighter and optimised networks. As thenumber of parameters is lowered by pruning, the triplet network shouldlearn more easily and could achieve better performances
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Azaza, Lobna. "Une approche pour estimer l'influence dans les réseaux complexes : application au réseau social Twitter". Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCK009/document.

Texto completo
Resumen
L'étude de l'influence sur les réseaux sociaux et en particulier Twitter est un sujet de recherche intense. La détection des utilisateurs influents dans un réseau est une clé de succès pour parvenir à une diffusion d'information à large échelle et à faible coût, ce qui s'avère très utile dans le marketing ou les campagnes politiques. Dans cette thèse, nous proposons une nouvelle approche qui tient compte de la variété des relations entre utilisateurs afin d'estimer l'influence dans les réseaux sociaux tels que Twitter. Nous modélisons Twitter comme un réseau multiplexe hétérogène où les utilisateurs, les tweets et les objets représentent les noeuds, et les liens modélisent les différentes relations entre eux (par exemple, retweets, mentions et réponses). Le PageRank multiplexe est appliqué aux données issues de deux corpus relatifs au domaine politique pour classer les candidats selon leur influence. Si le classement des candidats reflète la réalité, les scores de PageRank multiplexe sont difficiles à interpréter car ils sont très proches les uns des autres.Ainsi, nous voulons aller au-delà d'une mesure quantitative et nous explorons comment les différentes relations entre les noeuds du réseau peuvent déterminer un degré d'influence pondéré par une estimation de la crédibilité. Nous proposons une approche, TwitBelief, basée sur la règle de combinaison conjonctive de la théorie des fonctions de croyance qui permet de combiner différents types de relations tout en exprimant l’incertitude sur leur importance relative. Nous expérimentons TwitBelief sur une grande quantité de données collectées lors des élections européennes de 2014 et de l'élection présidentielle française de 2017 et nous déterminons les candidats les plus influents. Les résultats montrent que notre modèle est suffisamment flexible pour répondre aux besoins des spécialistes en sciences sociales et que l'utilisation de la théorie des fonctions de croyances est pertinente pour traiter des relations multiples. Nous évaluons également l'approche sur l'ensemble de données CLEF RepLab 2014 et montrons que notre approche conduit à des résultats significatifs. Nous proposons aussi deux extensions de TwitBelief traitant le contenu des tweets. La première est l'estimation de la polarisation de l'influence sur le réseau Twitter en utilisant l'analyse des sentiments avec l'algorithme des forêts d'arbres décisionnels. La deuxième extension est la catégorisation des styles de communication dans Twitter, il s'agit de déterminer si le style de communication des utilisateurs de Twitter est informatif, interactif ou équilibré
Influence in complex networks and in particular Twitter has become recently a hot research topic. Detecting most influential users leads to reach a large-scale information diffusion area at low cost, something very useful in marketing or political campaigns. In this thesis, we propose a new approach that considers the several relations between users in order to assess influence in complex networks such as Twitter. We model Twitter as a multiplex heterogeneous network where users, tweets and objects are represented by nodes, and links model the different relations between them (e.g., retweets, mentions, and replies).The multiplex PageRank is applied to data from two datasets in the political field to rank candidates according to their influence. Even though the candidates' ranking reflects the reality, the multiplex PageRank scores are difficult to interpret because they are very close to each other.Thus, we want to go beyond a quantitative measure and we explore how relations between nodes in the network could reveal about the influence and propose TwitBelief, an approach to assess weighted influence of a certain node. This is based on the conjunctive combination rule from the belief functions theory that allow to combine different types of relations while expressing uncertainty about their importance weights. We experiment TwitBelief on a large amount of data gathered from Twitter during the European Elections 2014 and the French 2017 elections and deduce top influential candidates. The results show that our model is flexible enough to consider multiple interactions combination according to social scientists needs or requirements and that the numerical results of the belief theory are accurate. We also evaluate the approach over the CLEF RepLab 2014 data set and show that our approach leads to quite interesting results. We also propose two extensions of TwitBelief in order to consider the tweets content. The first is the estimation of polarized influence in Twitter network. In this extension, sentiment analysis of the tweets with the algorithm of forest decision trees allows to determine the influence polarity. The second extension is the categorization of communication styles in Twitter, it determines whether the communication style of Twitter users is informative, interactive or balanced
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

El, Zoghby Nicole. "Fusion distribuée de données échangées dans un réseau de véhicules". Phd thesis, Université de Technologie de Compiègne, 2014. http://tel.archives-ouvertes.fr/tel-01070896.

Texto completo
Resumen
Cette thèse porte sur l'étude des techniques de fusion de données réparties et incertaines au sein d'un réseau de véhicules pour gérer la confiance dans les autres véhicules ou dans les données reçues. L'algorithme de fusion distribuée proposé est basé sur les fonctions de croyance et est appliqué par chaque nœud à la réception des messages. In se base sur la gestion d'une connaissance directe, locale à chaque nœud et d'une connaissance distribuée diffusée dans le réseau. Cette dernière résulte de la fusion des messages par un opérateur adapté prenant en compte les cycles éventuels et limitant l'effet de "data incest". Chaque nœud peut être autonome pour estimer la confiance mais la coopération entre les véhicules permet d'améliorer et de rendre plus robuste cette estimation. L'algorithme peut être adapté au cas d'étude en considérant un ou plusieurs éléments d'observation et en prenant en compte l'obsolescence des données. Lorsqu'il y a plusieurs éléments d'observation, se pose le problème de l'association de données nécessaire avant l'étape de combinaison. Un nouvel algorithme d'association a été formalisé dans le cadre des fonctions de croyance. Il a été démontré que ce problème est équivalent à un problème d'affectation linéaire, qui peut être résolu en temps polynomial. Cette solution est à la fois optimale et beaucoup plus efficace que d'autres approches développées dans ce formalisme. La gestion de la confiance dans les nœuds et dans les données échangées ont été illustrées par la mise en œuvre de deux applications : la détection de faux nœuds dans une attaque Sybil et la gestion de la confiance dans les cartes dynamiques pour la perception augmentée.
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Moukari, Michel. "Estimation de profondeur à partir d'images monoculaires par apprentissage profond". Thesis, Normandie, 2019. http://www.theses.fr/2019NORMC211/document.

Texto completo
Resumen
La vision par ordinateur est une branche de l'intelligence artificielle dont le but est de permettre à une machine d'analyser, de traiter et de comprendre le contenu d'images numériques. La compréhension de scène en particulier est un enjeu majeur en vision par ordinateur. Elle passe par une caractérisation à la fois sémantique et structurelle de l'image, permettant d'une part d'en décrire le contenu et, d'autre part, d'en comprendre la géométrie. Cependant tandis que l'espace réel est de nature tridimensionnelle, l'image qui le représente, elle, est bidimensionnelle. Une partie de l'information 3D est donc perdue lors du processus de formation de l'image et il est d'autant plus complexe de décrire la géométrie d'une scène à partir d'images 2D de celle-ci.Il existe plusieurs manières de retrouver l'information de profondeur perdue lors de la formation de l'image. Dans cette thèse nous nous intéressons à l’estimation d'une carte de profondeur étant donné une seule image de la scène. Dans ce cas, l'information de profondeur correspond, pour chaque pixel, à la distance entre la caméra et l'objet représenté en ce pixel. L'estimation automatique d'une carte de distances de la scène à partir d'une image est en effet une brique algorithmique critique dans de très nombreux domaines, en particulier celui des véhicules autonomes (détection d’obstacles, aide à la navigation).Bien que le problème de l'estimation de profondeur à partir d'une seule image soit un problème difficile et intrinsèquement mal posé, nous savons que l'Homme peut apprécier les distances avec un seul œil. Cette capacité n'est pas innée mais acquise et elle est possible en grande partie grâce à l'identification d'indices reflétant la connaissance a priori des objets qui nous entourent. Par ailleurs, nous savons que des algorithmes d'apprentissage peuvent extraire ces indices directement depuis des images. Nous nous intéressons en particulier aux méthodes d’apprentissage statistique basées sur des réseaux de neurones profond qui ont récemment permis des percées majeures dans de nombreux domaines et nous étudions le cas de l'estimation de profondeur monoculaire
Computer vision is a branch of artificial intelligence whose purpose is to enable a machine to analyze, process and understand the content of digital images. Scene understanding in particular is a major issue in computer vision. It goes through a semantic and structural characterization of the image, on one hand to describe its content and, on the other hand, to understand its geometry. However, while the real space is three-dimensional, the image representing it is two-dimensional. Part of the 3D information is thus lost during the process of image formation and it is therefore non trivial to describe the geometry of a scene from 2D images of it.There are several ways to retrieve the depth information lost in the image. In this thesis we are interested in estimating a depth map given a single image of the scene. In this case, the depth information corresponds, for each pixel, to the distance between the camera and the object represented in this pixel. The automatic estimation of a distance map of the scene from an image is indeed a critical algorithmic brick in a very large number of domains, in particular that of autonomous vehicles (obstacle detection, navigation aids).Although the problem of estimating depth from a single image is a difficult and inherently ill-posed problem, we know that humans can appreciate distances with one eye. This capacity is not innate but acquired and made possible mostly thanks to the identification of indices reflecting the prior knowledge of the surrounding objects. Moreover, we know that learning algorithms can extract these clues directly from images. We are particularly interested in statistical learning methods based on deep neural networks that have recently led to major breakthroughs in many fields and we are studying the case of the monocular depth estimation
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Groueix, Thibault. "Learning 3D Generation and Matching". Thesis, Paris Est, 2020. http://www.theses.fr/2020PESC1024.

Texto completo
Resumen
L'objectif de cette thèse est de développer des approches d'apprentissage profond pour modéliser et analyser les formes 3D. Les progrès dans ce domaine pourraient démocratiser la création artistique d'actifs 3D, actuellement coûteuse en temps et réservés aux experts du domaine. Nous nous concentrons en particulier sur deux tâches clefs pour la modélisation 3D : la reconstruction à vue unique et la mise en correspondance de formes.Une méthode de reconstruction à vue unique (SVR) prend comme entrée une seule image et prédit le monde physique qui a produit cette image. SVR remonte aux premiers jours de la vision par ordinateur. Étant donné que plusieurs configurations de formes, de textures et d'éclairage peuvent expliquer la même image il faut formuler des hypothèses sur la distribution d'images et de formes 3D pour résoudre l’ambiguïté. Dans cette thèse, nous apprenons ces hypothèses à partir de jeux de données à grande échelle au lieu de les concevoir manuellement. Les méthodes d'apprentissage nous permettent d'effectuer une reconstruction complète et réaliste de l'objet, y compris des parties qui ne sont pas visibles dans l'image d'entrée.La mise en correspondance de forme vise à établir des correspondances entre des objets 3D. Résoudre cette tâche nécessite à la fois une compréhension locale et globale des formes 3D qui est difficile à obtenir explicitement. Au lieu de cela, nous entraînons des réseaux neuronaux sur de grands jeux de données pour capturer ces connaissances implicitement.La mise en correspondance de forme a de nombreuses applications en modélisation 3D telles que le transfert d'attribut, le gréement automatique pour l'animation ou l'édition de maillage.La première contribution technique de cette thèse est une nouvelle représentation paramétrique des surfaces 3D modélisées par les réseaux neuronaux. Le choix de la représentation des données est un aspect critique de tout algorithme de reconstruction 3D. Jusqu'à récemment, la plupart des approches profondes en génération 3D prédisaient des grilles volumétriques de voxel ou des nuages de points, qui sont des représentations discrètes. Au lieu de cela, nous présentons une approche qui prédit une déformation paramétrique de surface, c'est-à-dire une déformation d'un modèle source vers une forme objectif. Pour démontrer les avantages ses avantages, nous utilisons notre nouvelle représentation pour la reconstruction à vue unique. Notre approche, baptisée AtlasNet, est la première approche profonde de reconstruction à vue unique capable de reconstruire des maillages à partir d'images sans s’appuyer sur un post-traitement indépendant, et peut le faire à une résolution arbitraire sans problèmes de mémoire. Une analyse plus détaillée d’AtlasNet révèle qu'il généralise également mieux que les autres approches aux catégories sur lesquelles il n'a pas été entraîné.Notre deuxième contribution est une nouvelle approche de correspondance de forme purement basée sur la reconstruction par des déformations. Nous montrons que la qualité des reconstructions de forme est essentielle pour obtenir de bonnes correspondances, et donc introduisons une optimisation au moment de l'inférence pour affiner les déformations apprises. Pour les humains et d'autres catégories de formes déformables déviant par une quasi-isométrie, notre approche peut tirer parti d'un modèle et d'une régularisation isométrique des déformations. Comme les catégories présentant des variations non isométriques, telles que les chaises, n'ont pas de modèle clair, nous apprenons à déformer n'importe quelle forme en n'importe quelle autre et tirons parti des contraintes de cohérence du cycle pour apprendre des correspondances qui respectent la sémantique des objets. Notre approche de correspondance de forme fonctionne directement sur les nuages de points, est robuste à de nombreux types de perturbations, et surpasse l'état de l'art de 15% sur des scans d'humains réels
The goal of this thesis is to develop deep learning approaches to model and analyse 3D shapes. Progress in this field could democratize artistic creation of 3D assets which currently requires time and expert skills with technical software.We focus on the design of deep learning solutions for two particular tasks, key to many 3D modeling applications: single-view reconstruction and shape matching.A single-view reconstruction (SVR) method takes as input a single image and predicts the physical world which produced that image. SVR dates back to the early days of computer vision. In particular, in the 1960s, Lawrence G. Roberts proposed to align simple 3D primitives to the input image under the assumption that the physical world is made of cuboids. Another approach proposed by Berthold Horn in the 1970s is to decompose the input image in intrinsic images and use those to predict the depth of every input pixel.Since several configurations of shapes, texture and illumination can explain the same image, both approaches need to form assumptions on the distribution of images and 3D shapes to resolve the ambiguity. In this thesis, we learn these assumptions from large-scale datasets instead of manually designing them. Learning allows us to perform complete object reconstruction, including parts which are not visible in the input image.Shape matching aims at finding correspondences between 3D objects. Solving this task requires both a local and global understanding of 3D shapes which is hard to achieve explicitly. Instead we train neural networks on large-scale datasets to solve this task and capture this knowledge implicitly through their internal parameters.Shape matching supports many 3D modeling applications such as attribute transfer, automatic rigging for animation, or mesh editing.The first technical contribution of this thesis is a new parametric representation of 3D surfaces modeled by neural networks.The choice of data representation is a critical aspect of any 3D reconstruction algorithm. Until recently, most of the approaches in deep 3D model generation were predicting volumetric voxel grids or point clouds, which are discrete representations. Instead, we present an alternative approach that predicts a parametric surface deformation ie a mapping from a template to a target geometry. To demonstrate the benefits of such a representation, we train a deep encoder-decoder for single-view reconstruction using our new representation. Our approach, dubbed AtlasNet, is the first deep single-view reconstruction approach able to reconstruct meshes from images without relying on an independent post-processing, and can do it at arbitrary resolution without memory issues. A more detailed analysis of AtlasNet reveals it also generalizes better to categories it has not been trained on than other deep 3D generation approaches.Our second main contribution is a novel shape matching approach purely based on reconstruction via deformations. We show that the quality of the shape reconstructions is critical to obtain good correspondences, and therefore introduce a test-time optimization scheme to refine the learned deformations. For humans and other deformable shape categories deviating by a near-isometry, our approach can leverage a shape template and isometric regularization of the surface deformations. As category exhibiting non-isometric variations, such as chairs, do not have a clear template, we learn how to deform any shape into any other and leverage cycle-consistency constraints to learn meaningful correspondences. Our reconstruction-for-matching strategy operates directly on point clouds, is robust to many types of perturbations, and outperforms the state of the art by 15% on dense matching of real human scans
Los estilos APA, Harvard, Vancouver, ISO, etc.
11

Martinez, Coralie. "Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond". Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT123.

Texto completo
Resumen
La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent
Early classification (EC) of time series is a recent research topic in the field of sequential data analysis. It consists in assigning a label to some data that is sequentially collected with new data points arriving over time, and the prediction of a label has to be made using as few data points as possible in the sequence. The EC problem is of paramount importance for supporting decision makers in many real-world applications, ranging from process control to fraud detection. It is particularly interesting for applications concerned with the costs induced by the acquisition of data points, or for applications which seek for rapid label prediction in order to take early actions. This is for example the case in the field of health, where it is necessary to provide a medical diagnosis as soon as possible from the sequence of medical observations collected over time. Another example is predictive maintenance with the objective to anticipate the breakdown of a machine from its sensor signals. In this doctoral work, we developed a new approach for this problem, based on the formulation of a sequential decision making problem, that is the EC model has to decide between classifying an incomplete sequence or delaying the prediction to collect additional data points. Specifically, we described this problem as a Partially Observable Markov Decision Process noted EC-POMDP. The approach consists in training an EC agent with Deep Reinforcement Learning (DRL) in an environment characterized by the EC-POMDP. The main motivation for this approach was to offer an end-to-end model for EC which is able to simultaneously learn optimal patterns in the sequences for classification and optimal strategic decisions for the time of prediction. Also, the method allows to set the importance of time against accuracy of the classification in the definition of rewards, according to the application and its willingness to make this compromise. In order to solve the EC-POMDP and model the policy of the EC agent, we applied an existing DRL algorithm, the Double Deep-Q-Network algorithm, whose general principle is to update the policy of the agent during training episodes, using a replay memory of past experiences. We showed that the application of the original algorithm to the EC problem lead to imbalanced memory issues which can weaken the training of the agent. Consequently, to cope with those issues and offer a more robust training of the agent, we adapted the algorithm to the EC-POMDP specificities and we introduced strategies of memory management and episode management. In experiments, we showed that these contributions improved the performance of the agent over the original algorithm, and that we were able to train an EC agent which compromised between speed and accuracy, on each sequence individually. We were also able to train EC agents on public datasets for which we have no expertise, showing that the method is applicable to various domains. Finally, we proposed some strategies to interpret the decisions of the agent, validate or reject them. In experiments, we showed how these solutions can help gain insight in the choice of action made by the agent
Los estilos APA, Harvard, Vancouver, ISO, etc.
12

Tong, Zheng. "Evidential deep neural network in the framework of Dempster-Shafer theory". Thesis, Compiègne, 2022. http://www.theses.fr/2022COMP2661.

Texto completo
Resumen
Les réseaux de neurones profonds (DNN) ont obtenu un succès remarquable sur de nombreuses applications du monde réel (par exemple, la reconnaissance de formes et la segmentation sémantique), mais sont toujours confrontés au problème de la gestion de l'incertitude. La théorie de Dempster-Shafer (DST) fournit un cadre bien fondé et élégant pour représenter et raisonner avec des informations incertaines. Dans cette thèse, nous avons proposé un nouveau framework utilisant DST et DNNs pour résoudre les problèmes d'incertitude. Dans le cadre proposé, nous hybridons d'abord DST et DNN en branchant une couche de réseau neuronal basée sur DST suivie d'une couche utilitaire à la sortie d'un réseau neuronal convolutif pour la classification à valeur définie. Nous étendons également l'idée à la segmentation sémantique en combinant des réseaux entièrement convolutifs et DST. L'approche proposée améliore les performances des modèles DNN en attribuant des modèles ambigus avec une incertitude élevée, ainsi que des valeurs aberrantes, à des ensembles multi-classes. La stratégie d'apprentissage utilisant des étiquettes souples améliore encore les performances des DNN en convertissant des données d'étiquettes imprécises et non fiables en fonctions de croyance. Nous avons également proposé une stratégie de fusion modulaire utilisant ce cadre proposé, dans lequel un module de fusion agrège les sorties de la fonction de croyance des DNN évidents selon la règle de Dempster. Nous utilisons cette stratégie pour combiner des DNN formés à partir d'ensembles de données hétérogènes avec différents ensembles de classes tout en conservant des performances au moins aussi bonnes que celles des réseaux individuels sur leurs ensembles de données respectifs. De plus, nous appliquons la stratégie pour combiner plusieurs réseaux superficiels et obtenir une performance similaire d'un DNN avancé pour une tâche compliquée
Deep neural networks (DNNs) have achieved remarkable success on many realworld applications (e.g., pattern recognition and semantic segmentation) but still face the problem of managing uncertainty. Dempster-Shafer theory (DST) provides a wellfounded and elegant framework to represent and reason with uncertain information. In this thesis, we have proposed a new framework using DST and DNNs to solve the problems of uncertainty. In the proposed framework, we first hybridize DST and DNNs by plugging a DSTbased neural-network layer followed by a utility layer at the output of a convolutional neural network for set-valued classification. We also extend the idea to semantic segmentation by combining fully convolutional networks and DST. The proposed approach enhances the performance of DNN models by assigning ambiguous patterns with high uncertainty, as well as outliers, to multi-class sets. The learning strategy using soft labels further improves the performance of the DNNs by converting imprecise and unreliable label data into belief functions. We have also proposed a modular fusion strategy using this proposed framework, in which a fusion module aggregates the belief-function outputs of evidential DNNs by Dempster’s rule. We use this strategy to combine DNNs trained from heterogeneous datasets with different sets of classes while keeping at least as good performance as those of the individual networks on their respective datasets. Further, we apply the strategy to combine several shallow networks and achieve a similar performance of an advanced DNN for a complicated task
Los estilos APA, Harvard, Vancouver, ISO, etc.
13

Ganaye, Pierre-Antoine. "A priori et apprentissage profond pour la segmentation en imagerie cérébrale". Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI100.

Texto completo
Resumen
L'imagerie médicale est un domaine vaste guidé par les avancées en instrumentation, en techniques d'acquisition et en traitement d’images. Les progrès réalisés dans ces grandes disciplines concourent tous à l'amélioration de la compréhension de phénomènes physiologiques comme pathologiques. En parallèle, l'accès à des bases de données d'imagerie plus large, associé au développement de la puissance de calcul, a favorisé le développement de méthodologies par apprentissage machine pour le traitement automatique des images dont les approches basées sur des réseaux de neurones profonds. Parmi les applications où les réseaux de neurones profonds apportent des solutions, on trouve la segmentation d’images qui consiste à localiser et délimiter dans une image les régions avec des propriétés spécifiques qui seront associées à une même structure. Malgré de nombreux travaux récents en segmentation d’images par réseaux de neurones, l'apprentissage des paramètres d'un réseau de neurones reste guidé par des mesures de performances quantitatives n'incluant pas la connaissance de haut niveau de l'anatomie. L’objectif de cette thèse est de développer des méthodes permettant d’intégrer des a priori dans des réseaux de neurones profonds, en ciblant la segmentation de structures cérébrales en imagerie IRM. Notre première contribution propose une stratégie d'intégration de la position spatiale du patch à classifier, pour améliorer le pouvoir discriminant du modèle de segmentation. Ce premier travail corrige considérablement les erreurs de segmentation étant très éloignées de la réalité anatomique, en améliorant également la qualité globale des résultats. Notre deuxième contribution est ciblée sur une méthodologie pour contraindre les relations d'adjacence entre les structures anatomiques, et ce directement lors de l'apprentissage des paramètres du réseau, dans le but de renforcer le réalisme des segmentations produites. Nos expériences permettent de conclure que la contrainte proposée corrige les adjacences non-admises, améliorant ainsi la consistance anatomique des segmentations produites par le réseau de neurones
Medical imaging is a vast field guided by advances in instrumentation, acquisition techniques and image processing. Advances in these major disciplines all contribute to the improvement of the understanding of both physiological and pathological phenomena. In parallel, access to broader imaging databases, combined with the development of computing power, has fostered the development of machine learning methodologies for automatic image processing, including approaches based on deep neural networks. Among the applications where deep neural networks provide solutions, we find image segmentation, which consists in locating and delimiting in an image regions with specific properties that will be associated with the same structure. Despite many recent studies in deep learning based segmentation, learning the parameters of a neural network is still guided by quantitative performance measures that do not include high-level knowledge of anatomy. The objective of this thesis is to develop methods to integrate a priori into deep neural networks, targeting the segmentation of brain structures in MRI imaging. Our first contribution proposes a strategy for integrating the spatial position of the patch to be classified, to improve the discriminating power of the segmentation model. This first work considerably corrects segmentation errors that are far away from the anatomical reality, also improving the overall quality of the results. Our second contribution focuses on a methodology to constrain adjacency relationships between anatomical structures, directly while learning network parameters, in order to reinforce the realism of the produced segmentations. Our experiments conclude that the proposed constraint corrects non-admitted adjacencies, thus improving the anatomical consistency of the segmentations produced by the neural network
Los estilos APA, Harvard, Vancouver, ISO, etc.
14

Bou, Farah Mira. "Méthodes utilisant des fonctions de croyance pour la gestion des informations imparfaites dans les réseaux de véhicules". Thesis, Artois, 2014. http://www.theses.fr/2014ARTO0208/document.

Texto completo
Resumen
La popularisation des véhicules a engendré des problèmes de sécurité et d’environnement. Desprojets ont été lancés à travers le monde pour améliorer la sécurité sur la route, réduire l’encombrementdu trafic et apporter plus de confort aux conducteurs. L’environnement des réseaux devéhicules est complexe et dynamique, les sources sont souvent hétérogènes, de ce fait les informationséchangées peuvent souvent être imparfaites. La théorie des fonctions de croyance modélisesouplement les connaissances et fournit des outils riches pour gérer les différents types d’imperfection.Elle est utilisée pour représenter l’incertitude, gérer les différentes informations acquises etles fusionner. Nous nous intéressons à la gestion des informations imparfaites échangées entre lesvéhicules concernant les événements sur la route. Les événements locaux et les événements étendusn’ayant pas les mêmes caractéristiques, les travaux réalisés les distinguent. Dans un environnementsans infrastructure où chaque véhicule a son propre module de fusion, l’objectif est de fournir auxconducteurs la synthèse la plus proche possible de la réalité. Différents modèles fondés sur desfonctions de croyance sont proposés et différentes stratégies sont étudiées : affaiblir ou renforcervers l’absence de l’événement pour prendre en compte le vieillissement des messages, garder lesmessages initiaux ou seulement le résultat de la fusion dans la base des véhicules, considérer la miseà jour du monde, prendre en compte l’influence du voisinage pour gérer la spatialité des embouteillages.Les perspectives restent nombreuses, certaines sont développées dans ce manuscrit commela généralisation des méthodes proposées à tous les événements étendus tels que les brouillards
The popularization of vehicles has created safety and environmental problems. Projects havebeen launched worldwide to improve road safety, reduce traffic congestion and bring more comfortto drivers. The vehicle network environment is dynamic and complex, sources are often heterogeneous,and therefore the exchanged information may be imperfect. The theory of belief functionsoffers flexibility in uncertainty modeling and provides rich tools for managing different types of imperfection.It is used to represent uncertainty, manage and fuse the various acquired information.We focus on the management of imperfect information exchanged between vehicles concerningevents on the road. The carried work distinguishes local events and spatial events, which do nothave the same characteristics. In an environment without infrastructure where each vehicle is afusion center and creates its own vision, the goal is to provide to each driver the synthesis of thesituation on the road as close as possible to the reality. Different models using belief functionsare proposed. Different strategies are considered: discount or reinforce towards the absence of theevent to take into account messages ageing, keep the original messages or just the fusion result invehicle database, consider the world update, manage the spatiality of traffic jam events by takinginto account neighborhood. Perspectives remain numerous; some are developed in the manuscriptas the generalization of proposed methods to all spatial events such as fog blankets
Los estilos APA, Harvard, Vancouver, ISO, etc.
15

Zhang, Jian. "Modèles de Mobilité de Véhicules par Apprentissage Profond dans les Systèmes de Tranport Intelligents". Thesis, Ecole centrale de Lille, 2018. http://www.theses.fr/2018ECLI0015/document.

Texto completo
Resumen
Les systèmes de transport intelligents ont acquis un grand intérêt pour la recherche ces dernières années. Alors que la simulation réaliste du trafic joue un rôle important, elle n'a pas reçu suffisamment d'attention. Cette thèse est consacrée à l'étude de la simulation du trafic au niveau microscopique et propose des modèles de mobilité des véhicules correspondants. À l'aide de méthodes d'apprentissage profond, ces modèles de mobilité ont fait leurs preuves avec une crédibilité prometteuse pour représenter les véhicules dans le monde réel. D'abord, un modèle de mobilité basé sur un réseau de neurones piloté par les données est proposé. Ce modèle provient de données de trajectoires du monde réel et permet de mimer des comportements de véhicules locaux. En analysant les performances de ce modèle de mobilité basé sur un apprentissage de base, nous indiquons qu’une amélioration est possible et proposons ses spécifications. Un MMC est alors introduit. La préparation de cette intégration est nécessaire, ce qui comprend un examen des modèles de mobilité traditionnels basés sur la dynamique et l’adaptation des modèles « classiques » à notre situation. Enfin, le modèle amélioré est présenté et une simulation de scénarios sophistiqués est construite pour valider les résultats théoriques. La performance de notre modèle de mobilité est prometteuse et des problèmes de mise en œuvre sont également discutés
The intelligent transportation systems gain great research interests in recent years. Although the realistic traffic simulation plays an important role, it has not received enough attention. This thesis is devoted to studying the traffic simulation in microscopic level, and proposes corresponding vehicular mobility models. Using deep learning methods, these mobility models have been proven with a promising credibility to represent the vehicles in real-world. Firstly, a data-driven neural network based mobility model is proposed. This model comes from real-world trajectory data and allows mimicking local vehicle behaviors. By analyzing the performance of this basic learning based mobility model, we indicate that an improvement is possible and we propose its specification. An HMM is then introduced. The preparation of this integration is necessary, which includes an examination of traditional dynamics based mobility models and the adaptation method of “classical” models to our situation. At last, the enhanced model is presented, and a sophisticated scenario simulation is built with it to validate the theoretical results. The performance of our mobility model is promising and implementation issues have also been discussed
Los estilos APA, Harvard, Vancouver, ISO, etc.
16

Dahmani, Sara. "Synthèse audiovisuelle de la parole expressive : modélisation des émotions par apprentissage profond". Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0137.

Texto completo
Resumen
Les travaux de cette thèse portent sur la modélisation des émotions pour la synthèse audiovisuelle expressive de la parole à partir du texte. Aujourd’hui, les résultats des systèmes de synthèse de la parole à partir du texte sont de bonne qualité, toutefois la synthèse audiovisuelle reste encore une problématique ouverte et la synthèse expressive l’est encore d’avantage. Nous proposons dans le cadre de cette thèse une méthode de modélisation des émotions malléable et flexible, permettant de mélanger les émotions comme on mélange les teintes sur une palette de couleurs. Dans une première partie, nous présentons et étudions deux corpus expressifs que nous avons construits. La stratégie d’acquisition ainsi que le contenu expressif de ces corpus sont analysés pour valider leur utilisation à des fins de synthèse audiovisuelle de la parole. Dans une seconde partie, nous proposons deux architectures neuronales pour la synthèse de la parole. Nous avons utilisé ces deux architectures pour modéliser trois aspects de la parole : 1) les durées des sons, 2) la modalité acoustique et 3) la modalité visuelle. Dans un premier temps, nous avons adopté une architecture entièrement connectée. Cette dernière nous a permis d’étudier le comportement des réseaux de neurones face à différents descripteurs contextuels et linguistiques. Nous avons aussi pu analyser, via des mesures objectives, la capacité du réseau à modéliser les émotions. La deuxième architecture neuronale proposée est celle d’un auto-encodeur variationnel. Cette architecture est capable d’apprendre une représentation latente des émotions sans utiliser les étiquettes des émotions. Après analyse de l’espace latent des émotions, nous avons proposé une procédure de structuration de ce dernier pour pouvoir passer d’une représentation par catégorie vers une représentation continue des émotions. Nous avons pu valider, via des expériences perceptives, la capacité de notre système à générer des émotions, des nuances d’émotions et des mélanges d’émotions, et cela pour la synthèse audiovisuelle expressive de la parole à partir du texte
: The work of this thesis concerns the modeling of emotions for expressive audiovisual textto-speech synthesis. Today, the results of text-to-speech synthesis systems are of good quality, however audiovisual synthesis remains an open issue and expressive synthesis is even less studied. As part of this thesis, we present an emotions modeling method which is malleable and flexible, and allows us to mix emotions as we mix shades on a palette of colors. In the first part, we present and study two expressive corpora that we have built. The recording strategy and the expressive content of these corpora are analyzed to validate their use for the purpose of audiovisual speech synthesis. In the second part, we present two neural architectures for speech synthesis. We used these two architectures to model three aspects of speech : 1) the duration of sounds, 2) the acoustic modality and 3) the visual modality. First, we use a fully connected architecture. This architecture allowed us to study the behavior of neural networks when dealing with different contextual and linguistic descriptors. We were also able to analyze, with objective measures, the network’s ability to model emotions. The second neural architecture proposed is a variational auto-encoder. This architecture is able to learn a latent representation of emotions without using emotion labels. After analyzing the latent space of emotions, we presented a procedure for structuring it in order to move from a discrete representation of emotions to a continuous one. We were able to validate, through perceptual experiments, the ability of our system to generate emotions, nuances of emotions and mixtures of emotions, and this for expressive audiovisual text-to-speech synthesis
Los estilos APA, Harvard, Vancouver, ISO, etc.
17

Chen, Yifu. "Deep learning for visual semantic segmentation". Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS200.

Texto completo
Resumen
Dans cette thèse, nous nous intéressons à la segmentation sémantique visuelle, une des tâches de haut niveau qui ouvre la voie à une compréhension complète des scènes. Plus précisément, elle requiert une compréhension sémantique au niveau du pixel. Avec le succès de l’apprentissage approfondi de ces dernières années, les problèmes de segmentation sémantique sont abordés en utilisant des architectures profondes. Dans la première partie, nous nous concentrons sur la construction d’une fonction de coût plus appropriée pour la segmentation sémantique. En particulier, nous définissons une nouvelle fonction de coût basé sur un réseau de neurone de détection de contour sémantique. Cette fonction de coût impose des prédictions au niveau du pixel cohérentes avec les informa- tions de contour sémantique de la vérité terrain, et conduit donc à des résultats de segmentation mieux délimités. Dans la deuxième partie, nous abordons une autre question importante, à savoir l’apprentissage de modèle de segmentation avec peu de données annotées. Pour cela, nous proposons une nouvelle méthode d’attribution qui identifie les régions les plus importantes dans une image considérée par les réseaux de classification. Nous intégrons ensuite notre méthode d’attribution dans un contexte de segmentation faiblement supervisé. Les modèles de segmentation sémantique sont ainsi entraînés avec des données étiquetées au niveau de l’image uniquement, facile à collecter en grande quantité. Tous les modèles proposés dans cette thèse sont évalués expérimentalement de manière approfondie sur plusieurs ensembles de données et les résultats sont compétitifs avec ceux de la littérature
In this thesis, we are interested in Visual Semantic Segmentation, one of the high-level task that paves the way towards complete scene understanding. Specifically, it requires a semantic understanding at the pixel level. With the success of deep learning in recent years, semantic segmentation problems are being tackled using deep architectures. In the first part, we focus on the construction of a more appropriate loss function for semantic segmentation. More precisely, we define a novel loss function by employing a semantic edge detection network. This loss imposes pixel-level predictions to be consistent with the ground truth semantic edge information, and thus leads to better shaped segmentation results. In the second part, we address another important issue, namely, alleviating the need for training segmentation models with large amounts of fully annotated data. We propose a novel attribution method that identifies the most significant regions in an image considered by classification networks. We then integrate our attribution method into a weakly supervised segmentation framework. The semantic segmentation models can thus be trained with only image-level labeled data, which can be easily collected in large quantities. All models proposed in this thesis are thoroughly experimentally evaluated on multiple datasets and the results are competitive with the literature
Los estilos APA, Harvard, Vancouver, ISO, etc.
18

Mlynarski, Pawel. "Apprentissage profond pour la segmentation des tumeurs cérébrales et des organes à risque en radiothérapie". Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4084.

Texto completo
Resumen
Les images médicales jouent un rôle important dans le diagnostic et la prise en charge des cancers. Les oncologues analysent des images pour déterminer les différentes caractéristiques de la tumeur, pour proposer un traitement adapté et suivre l'évolution de la maladie. L'objectif de cette thèse est de proposer des méthodes efficaces de segmentation automatique des tumeurs cérébrales et des organes à risque dans le contexte de la radiothérapie, à partir des images de résonance magnétique (IRM). Premièrement, nous nous intéressons à la segmentation des tumeurs cérébrales en utilisant des réseaux neuronaux convolutifs entrainés sur des IRM segmentés par des experts. Nous proposons un modèle de segmentation ayant un grand champ récepteur 3D tout en étant efficace en termes de complexité de calcul, en combinant des réseaux neuronaux convolutifs 2D et 3D. Nous abordons aussi les problèmes liés à l'utilisation conjointe des différentes séquences IRM (T1, T2, FLAIR). Nous introduisons ensuite un modèle de segmentation qui est entrainé avec des images faiblement annotées en complément des images segmentées, souvent disponibles en quantités très limitées du fait de leur coût. Nous montrons que ce niveau mixte de supervision améliore considérablement la performance de segmentation quand le nombre d'images entièrement annotées est limité. Finalement, nous proposons une méthodologie pour segmenter, de manière cohérente anatomiquement, les organes à risque dans le contexte de la radiothérapie des tumeurs cérébrales. Les segmentations produites par notre système sur un ensemble d'IRM acquis dans le Centre Antoine Lacassagne (Nice) sont évaluées par un radiothérapeute expérimenté
Medical images play an important role in cancer diagnosis and treatment. Oncologists analyze images to determine the different characteristics of the cancer, to plan the therapy and to observe the evolution of the disease. The objective of this thesis is to propose efficient methods for automatic segmentation of brain tumors and organs at risk in the context of radiotherapy planning, using Magnetic Resonance (MR) images. First, we focus on segmentation of brain tumors using Convolutional Neural Networks (CNN) trained on MRIs manually segmented by experts. We propose a segmentation model having a large 3D receptive field while being efficient in terms of computational complexity, based on combination of 2D and 3D CNNs. We also address problems related to the joint use of several MRI sequences (T1, T2, FLAIR). Second, we introduce a segmentation model which is trained using weakly-annotated images in addition to fully-annotated images (with voxelwise labels), which are usually available in very limited quantities due to their cost. We show that this mixed level of supervision considerably improves the segmentation accuracy when the number of fully-annotated images is limited.\\ Finally, we propose a methodology for an anatomy-consistent segmentation of organs at risk in the context of radiotherapy of brain tumors. The segmentations produced by our system on a set of MRIs acquired in the Centre Antoine Lacassagne (Nice, France) are evaluated by an experienced radiotherapist
Los estilos APA, Harvard, Vancouver, ISO, etc.
19

Donon, Balthazar. "Deep statistical solvers & power systems applications". Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG016.

Texto completo
Resumen
Confrontés à l'intégration croissante d'énergies renouvelables intermittentes et à de nouveaux mécanismes de marché, les réseaux électriques sont dans une phase de mutation profonde. Ainsi, face à une complexité croissante, RTE, le gestionnaire du réseau de transport d'électricité français, étudie les opportunités offertes par les méthodes issues du Deep Learning. Les changements de topologie (façon dont les lignes sont interconnectées) étant quotidiens, il est essentiel de permettre aux réseaux de neurones de prendre en compte la structure des données, ce qui est rendu possible par l'utilisation de Graph Neural Networks (GNNs). Après avoir démontré la capacité des GNNs à imiter un simulateur physique du réseau électrique, cette thèse développe une approche qui vise à "apprendre à optimiser" de façon non-supervisée. Un GNN est ainsi appris par minimisation directe des lois physiques, plutôt que par imitation. L'approche est par la suite étayée d'une analyse théorique, puis étendue à un problème d'optimisation à deux niveaux qui repose sur l'emploi de deux GNNs distincts, l'un d'entre eux jouant le rôle d'un opérateur, et l'autre émulant les lois physiques
Facing with the growing integration of intermittent renewable energies and disruptive market mechanisms, power systems are experiencing profound changes. To overcome this increasing complexity, RTE, the French Transmission System Operator, is investigating the use of methods arising from the Deep Learning literature. Topological changes (which affect the way power lines are interconnected) occur multiple times a day, and should thus be taken into account by the considered neural network architecture, which is made possible by Graph Neural Networks (GNNs). After having proven the ability of GNNs to imitate a power grid simulator, this PhD thesis develops an approach that aims at "learning to optimize" in an unsupervised fashion. A GNN is thus trained by direct minimization of physical laws, and not by imitation. This work is further elaborated by a theoretical analysis, and then extended to a bilevel optimization problem which requires the use of two distinct GNN models, one of them playing the role of an operator, while the other emulates physics
Los estilos APA, Harvard, Vancouver, ISO, etc.
20

Michelet, Jordan. "Extraction du fouillis de mer dans des images radar marin cohérent : modèles de champ de phases, méthodes de Boltzmann sur réseau, apprentissage". Electronic Thesis or Diss., La Rochelle, 2022. http://www.theses.fr/2022LAROS048.

Texto completo
Resumen
Nous nous intéressons au problème d’extraction du fouillis de mer dans des images radar marin. Le parti pris est de développer des méthodes de traitement d’image permettant de s’affranchir au mieux d’hypothèses sur la nature du fouillis de mer et du signal d’intérêt. D’une part, nous proposons un algorithme basé sur une approche variationnelle originale : un modèle multiphasique à interface diffuse. Les résultats obtenus montrent que l’algorithme est efficace lorsque le signal d’intérêt a un rapport signal-sur-fouillis suffisamment grand. D’autre part, nous nous intéressons à l’implémentation de schémas de Boltzmann sur réseau pour des problèmes de convection-diffusion à vitesse d’advection non constante et un terme source non nul. Nous décrivons le calcul de la consistance obtenue par analyse asymptotique à l’échelle acoustique et avec un opérateur de collision à temps de relaxation multiples, et étudions la stabilité de ces schémas dans un cas particulier. Les résultats obtenus montrent que les schémas proposés permettent de supprimer le bruit résiduel et de renforcer le signal d’intérêt sur l’image obtenue grâce à la première méthode. Enfin, nous proposons une méthode d’apprentissage permettant de s’affranchir d’hypothèses sur la nature du signal d’intérêt. En effet, en complément de l’algorithme par approche variationnelle, nous proposons un algorithme basé sur le traitement pulse-Doppler lorsque le signal d’intérêt est exo-clutter et a un rapport signal-sur-fouillis faible. Les résultats obtenus à partir du double auto-encodeur que nous proposons, étant comparables aux résultats fournis par chacune des deux méthodes, permettent de valider cette approche
We focus on the problem of sea clutter extraction in marine radar images. The aim is to develop image processing methods allowing us to avoid assumptions about the nature of the sea clutter and the signal of interest. On the one hand, we propose an original algorithm based on a variational approach : a multiphase model with diffuse interface. The results obtained show that the algorithm is efficient when the signal of interest has a sufficiently large signal-to-clutter ratio. On the other hand, we focus on the implementation of lattice Boltzmann schemes for convection-diffusion problems with non-constant advection velocity and non-zero source term. We describe the computation of the consistency obtained by asymptotic analysis at the acoustic scale and with a multiple relaxation time collision operator, and study the stability of these schemes in a particular case. The obtained results show that the proposed schemes allow removing the residual noise and to enhance the signal of interest on the image obtained with the first method. Finally, we propose a learning method allowing us to avoid assumptions on the nature of the signal of interest. Indeed, in addition to the variational approach, we propose an algorithm based on pulse-Doppler processing when the signal of interest is exo-clutter and has a low signal-to-clutter ratio. The results obtained from the proposed double auto-encoder, being comparable to the results provided by each of the two methods, allow validating this approach
Los estilos APA, Harvard, Vancouver, ISO, etc.
21

Zagoruyko, Sergey. "Weight parameterizations in deep neural networks". Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC1129/document.

Texto completo
Resumen
Les réseaux de neurones multicouches ont été proposés pour la première fois il y a plus de trois décennies, et diverses architectures et paramétrages ont été explorés depuis. Récemment, les unités de traitement graphique ont permis une formation très efficace sur les réseaux neuronaux et ont permis de former des réseaux beaucoup plus grands sur des ensembles de données plus importants, ce qui a considérablement amélioré le rendement dans diverses tâches d'apprentissage supervisé. Cependant, la généralisation est encore loin du niveau humain, et il est difficile de comprendre sur quoi sont basées les décisions prises. Pour améliorer la généralisation et la compréhension, nous réexaminons les problèmes de paramétrage du poids dans les réseaux neuronaux profonds. Nous identifions les problèmes les plus importants, à notre avis, dans les architectures modernes : la profondeur du réseau, l'efficacité des paramètres et l'apprentissage de tâches multiples en même temps, et nous essayons de les aborder dans cette thèse. Nous commençons par l'un des problèmes fondamentaux de la vision par ordinateur, le patch matching, et proposons d'utiliser des réseaux neuronaux convolutifs de différentes architectures pour le résoudre, au lieu de descripteurs manuels. Ensuite, nous abordons la tâche de détection d'objets, où un réseau devrait apprendre simultanément à prédire à la fois la classe de l'objet et l'emplacement. Dans les deux tâches, nous constatons que le nombre de paramètres dans le réseau est le principal facteur déterminant sa performance, et nous explorons ce phénomène dans les réseaux résiduels. Nos résultats montrent que leur motivation initiale, la formation de réseaux plus profonds pour de meilleures représentations, ne tient pas entièrement, et des réseaux plus larges avec moins de couches peuvent être aussi efficaces que des réseaux plus profonds avec le même nombre de paramètres. Dans l'ensemble, nous présentons une étude approfondie sur les architectures et les paramétrages de poids, ainsi que sur les moyens de transférer les connaissances entre elles
Multilayer neural networks were first proposed more than three decades ago, and various architectures and parameterizations were explored since. Recently, graphics processing units enabled very efficient neural network training, and allowed training much larger networks on larger datasets, dramatically improving performance on various supervised learning tasks. However, the generalization is still far from human level, and it is difficult to understand on what the decisions made are based. To improve on generalization and understanding we revisit the problems of weight parameterizations in deep neural networks. We identify the most important, to our mind, problems in modern architectures: network depth, parameter efficiency, and learning multiple tasks at the same time, and try to address them in this thesis. We start with one of the core problems of computer vision, patch matching, and propose to use convolutional neural networks of various architectures to solve it, instead of manual hand-crafting descriptors. Then, we address the task of object detection, where a network should simultaneously learn to both predict class of the object and the location. In both tasks we find that the number of parameters in the network is the major factor determining it's performance, and explore this phenomena in residual networks. Our findings show that their original motivation, training deeper networks for better representations, does not fully hold, and wider networks with less layers can be as effective as deeper with the same number of parameters. Overall, we present an extensive study on architectures and weight parameterizations, and ways of transferring knowledge between them
Los estilos APA, Harvard, Vancouver, ISO, etc.
22

Estienne, Théo. "Deep learning-based methods for 3D medical image registration". Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG055.

Texto completo
Resumen
Cette thèse se concentre sur des nouvelles approches d'apprentissage profond (aussi appelé deep learning) pour trouver le meilleur déplacement entre deux images médicales différentes. Ce domaine de recherche, appelé recalage d'images, a de nombreuses applications dans la prise en charge clinique, notamment la fusion de différents types d'imagerie ou le suivi temporel d'un patient. Ce domaine est étudié depuis de nombreuses années avec diverses méthodes, telles que les méthodes basées sur des difféomorphismes, sur des graphes ou sur des équations physiques. Récemment, des méthodes basées sur l'apprentissage profond ont été proposées en utilisant des réseaux de neurones convolutifs.Les méthodes utilisant l’apprentissage profond ont obtenu des résultats similaires aux méthodes classiques tout en réduisant considérablement le temps de calcul et en permettant une prédiction en temps réel. Cette amélioration provient de l'utilisation de processeurs graphiques (GPU) et d'une phase de prédiction où aucune optimisation n'est requise. Cependant, les méthodes utilisant l'apprentissage profond ont plusieurs limites, telles que le besoin de grandes bases de données pour entraîner le réseau ou le choix des bons hyperparamètres pour éviter des transformations trop irrégulières.Dans ce manuscrit, nous proposons diverses modifications apportées aux algorithmes de recalage à l’aide de deep learning, en travaillant sur différentes types d'imagerie et de parties du corps. Nous étudions dans un premier temps la combinaison des tâches de segmentation et de recalage proposant une nouvelle architecture conjointe. Nous nous appliquons à des jeux de données d'IRM cérébrales, en explorant différents cas : des cerveaux sans et avec tumeurs. Notre architecture comprend un encodeur et deux décodeurs et le couplage est renforcé par l'introduction d’une fonction de coût supplémentaire. Dans le cas de la présence d’une tumeur, la fonction de similarité est modifiée tel que l’entraînement se concentre uniquement sur la partie saine du cerveau, ignorant ainsi la tumeur. Ensuite, nous passons au scanner abdominal, une localisation plus difficile, à cause des mouvements et des déformations naturelles des organes. Nous améliorons les performances d’apprentissage grâce à l'utilisation de pré-apprentissage et de pseudo segmentations, l'ajout de nouvelles fonction de coût pour permettre une meilleure régularisation et une stratégie multi-étapes. Enfin, nous analysons l'explicabilité des réseaux d'enregistrement en utilisant une décomposition linéaire et en s'appliquant à l'IRM pulmonaire et l’hippocampe cérébrale. Grâce à notre stratégie de fusion tardive, nous projetons des images dans l'espace latent et calculons une nouvelle base. Cette base correspond à la transformation élémentaire que nous étudions qualitativement
This thesis focuses on new deep learning approaches to find the best displacement between two different medical images. This research area, called image registration, have many applications in the clinical pipeline, including the fusion of different imaging types or the temporal follow-up of a patient. This field is studied for many years with various methods, such as diffeomorphic, graph-based or physical-based methods. Recently, deep learning-based methods were proposed using convolutional neural networks.These methods obtained similar results to non-deep learning methods while greatly reducing the computation time and enabling real-time prediction. This improvement comes from the use of graphics processing units (GPU) and a prediction phase where no optimisation is required. However, deep learning-based registration has several limitations, such as the need for large databases to train the network or tuning regularisation hyperparameters to prevent too noisy transformations.In this manuscript, we investigate diverse modifications to deep learning algorithms, working on various imaging types and body parts. We study first the combination of segmentation and registration tasks proposing a new joint architecture. We apply to brain MRI datasets, exploring different cases : brain without and with tumours. Our architecture comprises one encoder and two decoders and the coupling is reinforced by the introduction of a supplementary loss. In the presence of tumour, the similarity loss is modified such as the registration focus only on healthy part ignoring the tumour. Then, we shift to abdominal CT, a more challenging localisation, as there are natural organ's movement and deformation. We improve registration performances thanks to the use of pre-training and pseudo segmentations, the addition of new losses to provide a better regularisation and a multi-steps strategy. Finally, we analyse the explainability of registration networks using a linear decomposition and applying to lung and hippocampus MR. Thanks to our late fusion strategy, we project images to the latent space and calculate a new basis. This basis correspond to elementary transformation witch we study qualitatively
Los estilos APA, Harvard, Vancouver, ISO, etc.
23

Matteo, Lionel. "De l’image optique "multi-stéréo" à la topographie très haute résolution et la cartographie automatique des failles par apprentissage profond". Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4099.

Texto completo
Resumen
Les failles sismogéniques sont la source des séismes. L'étude de leurs propriétés nous informe donc sur les caractéristiques des forts séismes qu'elles peuvent produire. Les failles sont des objets 3D qui forment des réseaux complexes incluant une faille principale et une multitude de failles et fractures secondaires qui "découpent" la roche environnante à la faille principale. Mon objectif dans cette thèse a été de développer des approches pour aider à étudier cette fracturation secondaire intense. Pour identifier, cartographier et mesurer les fractures et les failles dans ces réseaux, j'ai adressé deux défis :1) Les failles peuvent former des escarpements topographiques très pentus à la surface du sol, créant des "couloirs" ou des canyons étroits et profond où la topographie et donc, la trace des failles, peut être difficile à mesurer en utilisant des méthodologies standard (comme des acquisitions d'images satellites optiques stéréo et tri-stéréo). Pour répondre à ce défi, j'ai utilisé des acquisitions multi-stéréos avec différentes configurations (différents angles de roulis et tangage, différentes dates et modes d'acquisitions). Notre base de données constituée de 37 images Pléiades dans trois sites tectoniques différents dans l'Ouest américain (Valley of Fire, Nevada ; Granite Dells, Arizona ; Bishop Tuff, California) m'a permis de tester différentes configurations d'acquisitions pour calculer la topographie avec trois approches différentes. En utilisant la solution photogrammétrique open-source Micmac (IGN ; Rupnik et al., 2017), j'ai calculé la topographie sous la forme de Modèles Numériques de Surfaces (MNS) : (i) à partir de combinaisons de 2 à 17 images Pléiades, (ii) en fusionnant des MNS calculés individuellement à partir d'acquisitions stéréo et tri-stéréo, évitant alors l'utilisant d'acquisitions multi-dates et (iii) en fusionnant des nuages de points calculés à partir d'acquisitions tri-stéréos en suivant la méthodologie multi-vues développée par Rupnik et al. (2018). J’ai aussi combiné, dans une dernière approche (iv), des acquisitions tri-stéréos avec la méthodologie multi-vues stéréos du CNES/CMLA (CARS) développé par Michel et al. (2020), en combinant des acquisitions tri-stéréos. A partir de ces quatre approches, j'ai calculé plus de 200 MNS et mes résultats suggèrent que deux acquisitions tri-stéréos ou une acquisition stéréo combinée avec une acquisition tri-stéréo avec des angles de roulis opposés permettent de calculer les MNS avec la surface topographique la plus complète et précise.2) Couramment, les failles sont cartographiées manuellement sur le terrain ou sur des images optiques et des données topographiques en identifiant les traces curvilinéaires qu'elles forment à la surface du sol. Néanmoins, la cartographie manuelle demande beaucoup de temps ce qui limite notre capacité à produire cartographies et des mesures complètes des réseaux de failles. Pour s'affranchir de ce problème, j'ai adopté une approche d'apprentissage profond, couramment appelé un réseau de neurones convolutifs (CNN) - U-Net, pour automatiser l'identification et la cartographie des fractures et des failles dans des images optiques et des données topographiques. Volontairement, le modèle CNN a été entraîné avec une quantité modérée de fractures et failles cartographiées manuellement à basse résolution et dans un seul type d'images optiques (photographies du sol avec des caméras classiques). A partir d'un grand nombre de tests, j'ai sélectionné le meilleur modèle, MRef et démontre sa capacité à prédire des fractures et des failles précisément dans données optiques et topographiques de différents types et différentes résolutions (photographies prises au sol, avec un drone et par satellite). Le modèle MRef montre de bonnes capacités de généralisations faisant alors de ce modèle un bon outil pour cartographie rapidement et précisément des fractures et des failles dans des images optiques et des données topographiques
Seismogenic faults are the source of earthquakes. The study of their properties thus provides information on some of the properties of the large earthquakes they might produce. Faults are 3D features, forming complex networks generally including one master fault and myriads of secondary faults and fractures that intensely dissect the master fault embedding rocks. I aim in my thesis to develop approaches to help studying this intense secondary faulting/fracturing. To identify, map and measure the faults and fractures within dense fault networks, I have handled two challenges:1) Faults generally form steep topographic escarpments at the ground surface that enclose narrow, deep corridors or canyons, where topography, and hence fault traces, are difficult to measure using the available standard methods (such as stereo and tri-stereo of optical satellite images). To address this challenge, I have thus used multi-stéréo acquisitions with different configuration such as different roll and pitch angles, different date of acquisitions and different mode of acquisitions (mono and tri-stéréo). Our dataset amounting 37 Pléiades images in three different tectonic sites within Western USA (Valley of Fire, Nevada; Granite Dells, Arizona; Bishop Tuff, California) allow us to test different configuration of acquisitions to calculate the topography with three different approaches. Using the free open-source software Micmac (IGN ; Rupnik et al., 2017), I have calculated the topography in the form of Digital Surface Models (DSM): (i) with the combination of 2 to 17 Pleiades images, (ii) stacking and merging DSM built from individual stéréo or tri-stéréo acquisitions avoiding the use of multi-dates combinations, (iii) stacking and merging point clouds built from tri-stereo acquisitions following the multiview pipeline developped by Rupnik et al., 2018. We used the recent multiview stereo pipeling CARS (CNES/CMLA) developped by Michel et al., 2020 as a last approach (iv), combnining tri-stereo acquisitions. From the four different approaches, I have thus calculated more than 200 DSM and my results suggest that combining two tri-stéréo acquisitions or one stéréo and one tri-stéréo acquisitions with opposite roll angles leads to the most accurate DSM (with the most complete and precise topography surface).2) Commonly, faults are mapped manually in the field or from optical images and topographic data through the recognition of the specific curvilinear traces they form at the ground surface. However, manual mapping is time-consuming, which limits our capacity to produce complete representations and measurements of the fault networks. To overcome this problem, we have adopted a machine learning approach, namely a U-Net Convolutional Neural Network, to automate the identification and mapping of fractures and faults in optical images and topographic data. Intentionally, we trained the CNN with a moderate amount of manually created fracture and fault maps of low resolution and basic quality, extracted from one type of optical images (standard camera photographs of the ground surface). Based on the results of a number of performance tests, we select the best performing model, MRef, and demonstrate its capacity to predict fractures and faults accurately in image data of various types and resolutions (ground photographs, drone and satellite images and topographic data). The MRef predictions thus enable the statistical analysis of the fault networks. MRef exhibits good generalization capacities, making it a viable tool for fast and accurate extraction of fracture and fault networks from image and topographic data
Los estilos APA, Harvard, Vancouver, ISO, etc.
24

Cîrstea, Bogdan-Ionut. "Contribution à la reconnaissance de l'écriture manuscrite en utilisant des réseaux de neurones profonds et le calcul quantique". Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0059.

Texto completo
Resumen
Dans cette thèse, nous fournissons plusieurs contributions des domaines de l’apprentissage profond et du calcul quantique à la reconnaissance de l’écriture manuscrite. Nous commençons par intégrer certaines des techniques d’apprentissage profond les plus récentes(comme dropout, batch normalization et différentes fonctions d’activation) dans les réseaux de neurones à convolution et obtenons des meilleures performances sur le fameux jeu de données MNIST. Nous proposons ensuite des réseaux TSTN (Tied Spatial Transformer Networks), une variante des réseaux STN (Spatial Transformer Networks) avec poids partagés, ainsi que différentes variantes d’entraînement du TSTN. Nous présentons des performances améliorées sur une variante déformée du jeu de données MNIST. Dans un autre travail, nous comparons les performances des réseaux récurrents de neurones Associative Long Short-Term Memory (ALSTM), une architecture récemment introduite, par rapport aux réseaux récurrents de neurones Long Short-Term Memory (LSTM), sur le jeu de données de reconnaissance d’écriture arabe IFN-ENIT. Enfin, nous proposons une architecture de réseau de neurones que nous appelons réseau hybride classique-quantique, capable d’intégrer et de tirer parti de l’informatique quantique. Alors que nos simulations sont effectuées à l’aide du calcul classique (sur GPU), nos résultats sur le jeu de données Fashion-MNIST suggèrent que des améliorations exponentielles en complexité computationnelle pourraient être réalisables, en particulier pour les réseaux de neurones récurrents utilisés pour la classification de séquence
In this thesis, we provide several contributions from the fields of deep learning and quantum computation to handwriting recognition. We begin by integrating some of the more recent deep learning techniques (such as dropout, batch normalization and different activation functions) into convolutional neural networks and show improved performance on the well-known MNIST dataset. We then propose Tied Spatial Transformer Networks (TSTNs), a variant of Spatial Transformer Networks (STNs) with shared weights, as well as different training variants of the TSTN. We show improved performance on a distorted variant of the MNIST dataset. In another work, we compare the performance of Associative Long Short-Term Memory (ALSTM), a recently introduced recurrent neural network (RNN) architecture, against Long Short-Term Memory (LSTM), on the Arabic handwriting recognition IFN-ENIT dataset. Finally, we propose a neural network architecture, which we name a hybrid classical-quantum neural network, which can integrate and take advantage of quantum computing. While our simulations are performed using classical computation (on a GPU), our results on the Fashion-MNIST dataset suggest that exponential improvements in computational requirements might be achievable, especially for recurrent neural networks trained for sequence classification
Los estilos APA, Harvard, Vancouver, ISO, etc.
25

Zeghidour, Neil. "Learning representations of speech from the raw waveform". Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLEE004/document.

Texto completo
Resumen
Bien que les réseaux de neurones soient à présent utilisés dans la quasi-totalité des composants d’un système de reconnaissance de la parole, du modèle acoustique au modèle de langue, l’entrée de ces systèmes reste une représentation analytique et fixée de la parole dans le domaine temps-fréquence, telle que les mel-filterbanks. Cela se distingue de la vision par ordinateur, un domaine où les réseaux de neurones prennent en entrée les pixels bruts. Les mel-filterbanks sont le produit d’une connaissance précieuse et documentée du système auditif humain, ainsi que du traitement du signal, et sont utilisées dans les systèmes de reconnaissance de la parole les plus en pointe, systèmes qui rivalisent désormais avec les humains dans certaines conditions. Cependant, les mel-filterbanks, comme toute représentation fixée, sont fondamentalement limitées par le fait qu’elles ne soient pas affinées par apprentissage pour la tâche considérée. Nous formulons l’hypothèse qu’apprendre ces représentations de bas niveau de la parole, conjontement avec le modèle, permettrait de faire avancer davantage l’état de l’art. Nous explorons tout d’abord des approches d’apprentissage faiblement supervisé et montrons que nous pouvons entraîner un unique réseau de neurones à séparer l’information phonétique de celle du locuteur à partir de descripteurs spectraux ou du signal brut et que ces représentations se transfèrent à travers les langues. De plus, apprendre à partir du signal brut produit des représentations du locuteur significativement meilleures que celles d’un modèle entraîné sur des mel-filterbanks. Ces résultats encourageants nous mènent par la suite à développer une alternative aux mel-filterbanks qui peut être entraînée à partir des données. Dans la seconde partie de cette thèse, nous proposons les Time-Domain filterbanks, une architecture neuronale légère prenant en entrée la forme d’onde, dont on peut initialiser les poids pour répliquer les mel-filterbanks et qui peut, par la suite, être entraînée par rétro-propagation avec le reste du réseau de neurones. Au cours d’expériences systématiques et approfondies, nous montrons que les Time-Domain filterbanks surclassent systématiquement les melfilterbanks, et peuvent être intégrées dans le premier système de reconnaissance de la parole purement convolutif et entraîné à partir du signal brut, qui constitue actuellement un nouvel état de l’art. Les descripteurs fixes étant également utilisés pour des tâches de classification non-linguistique, pour lesquelles elles sont d’autant moins optimales, nous entraînons un système de détection de dysarthrie à partir du signal brut, qui surclasse significativement un système équivalent entraîné sur des mel-filterbanks ou sur des descripteurs de bas niveau. Enfin, nous concluons cette thèse en expliquant en quoi nos contributions s’inscrivent dans une transition plus large vers des systèmes de compréhension du son qui pourront être appris de bout en bout
While deep neural networks are now used in almost every component of a speech recognition system, from acoustic to language modeling, the input to such systems are still fixed, handcrafted, spectral features such as mel-filterbanks. This contrasts with computer vision, in which a deep neural network is now trained on raw pixels. Mel-filterbanks contain valuable and documented prior knowledge from human auditory perception as well as signal processing, and are the input to state-of-the-art speech recognition systems that are now on par with human performance in certain conditions. However, mel-filterbanks, as any fixed representation, are inherently limited by the fact that they are not fine-tuned for the task at hand. We hypothesize that learning the low-level representation of speech with the rest of the model, rather than using fixed features, could push the state-of-the art even further. We first explore a weakly-supervised setting and show that a single neural network can learn to separate phonetic information and speaker identity from mel-filterbanks or the raw waveform, and that these representations are robust across languages. Moreover, learning from the raw waveform provides significantly better speaker embeddings than learning from mel-filterbanks. These encouraging results lead us to develop a learnable alternative to mel-filterbanks, that can be directly used in replacement of these features. In the second part of this thesis we introduce Time-Domain filterbanks, a lightweight neural network that takes the waveform as input, can be initialized as an approximation of mel-filterbanks, and then learned with the rest of the neural architecture. Across extensive and systematic experiments, we show that Time-Domain filterbanks consistently outperform melfilterbanks and can be integrated into a new state-of-the-art speech recognition system, trained directly from the raw audio signal. Fixed speech features being also used for non-linguistic classification tasks for which they are even less optimal, we perform dysarthria detection from the waveform with Time-Domain filterbanks and show that it significantly improves over mel-filterbanks or low-level descriptors. Finally, we discuss how our contributions fall within a broader shift towards fully learnable audio understanding systems
Los estilos APA, Harvard, Vancouver, ISO, etc.
26

Pourchot, Aloïs. "Improving Radiographic Diagnosis with Deep Learning in Clinical Settings". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS421.

Texto completo
Resumen
Les succès impressionnants de l'apprentissage profond au cours de la dernière décennie ont renforcé son statut de norme pour résoudre les problèmes difficiles d'apprentissage automatique, et ont permis sa diffusion rapide dans de nombreux domaines d'application. L'un de ces domaines, qui est au cœur de ce doctorat, est l'imagerie médicale. L'apprentissage profond a fait de la perspective exaltante de soulager les experts médicaux d'une fraction de leur charge de travail grâce au diagnostic automatisé une réalité. Au cours de cette thèse, nous avons été amenés à considérer deux problèmes médicaux : la tâche de détection des fractures, et la tâche d'évaluation de l'âge osseux. Pour chacune de ces deux tâches, nous avons cherché à explorer les possibilités d'amélioration des outils d'apprentissage profond visant à faciliter leur diagnostic. Avec cet objectif en tête, nous avons exploré deux stratégies différentes. La première, ambitieuse mais arrogante, nous a conduit à étudier le paradigme de la recherche d'architecture neuronale, une succession logique de l'apprentissage profond qui vise à apprendre la structure même du modèle de réseau neuronal utilisé pour résoudre une tâche. Dans une seconde stratégie, plus simple mais aussi plus sage, nous avons tenté d'améliorer un modèle par l'analyse méticuleuse des sources de données à disposition. Dans les deux cas, un soin particulier a été apporté à la pertinence clinique de nos différentes contributions, car nous pensons que l'ancrage pratique de nos différents résultats est tout aussi important que leur obtention théorique
The impressive successes of deep learning over the course of the past decade have reinforced its establishment as the standard modus operandi to solve difficult machine learning problems, as well as enabled its swift spread to manifold domains of application. One such domain, which is at the heart of this PhD, is medical imaging. Deep learning has made the thrilling perspective of relieving medical experts from a fraction of their burden through automated diagnosis a reality. Over the course of this thesis, we were led to consider two medical problems: the task of fracture detection, and the task of bone age assessment. For both of them, we strove to explore possibilities to improve deep learning tools aimed at facilitating their diagnosis. With this objective in mind, we have explored two different strategies. The first one, ambitious yet arrogant, has led us to investigate the paradigm of neural architecture search, a logical succession to deep learning which aims at learning the very structure of the neural network model used to solve a task. In a second, bleaker but wiser strategy, we have tried to improve a model through the meticulous analysis of the data sources at hands. In both scenarios, a particular care was given to the clinical relevance of our different results and contributions, as we believed that the practical anchoring of our different contrivances was just as important as their theoretical design
Los estilos APA, Harvard, Vancouver, ISO, etc.
27

Yin, Yuan. "Physics-Aware Deep Learning and Dynamical Systems : Hybrid Modeling and Generalization". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS161.

Texto completo
Resumen
L'apprentissage profond a fait des progrès dans divers domaines et est devenu un outil prometteur pour modéliser les phénomènes dynamiques physiques présentant des relations hautement non linéaires. Cependant, les approches existantes sont limitées dans leur capacité à faire des prédictions physiquement fiables en raison du manque de connaissances préalables et à gérer les scénarios du monde réel où les données proviennent de dynamiques multiples ou sont irrégulièrement distribuées dans le temps et l'espace. Cette thèse vise à surmonter ces limitations dans les directions suivantes: améliorer la modélisation de la dynamique basée sur les réseaux neuronaux en exploitant des modèles physiques grâce à la modélisation hybride ; étendre le pouvoir de généralisation des modèles de dynamique en apprenant les similitudes à partir de données de différentes dynamiques pour extrapoler vers des systèmes invisibles ; et gérer les données de forme libre et prédire continuellement les phénomènes dans le temps et l'espace grâce à la modélisation continue. Nous soulignons la polyvalence des techniques d'apprentissage profond, et les directions proposées montrent des promesses pour améliorer leur précision et leur puissance de généralisation, ouvrant la voie à des recherches futures dans de nouvelles applications
Deep learning has made significant progress in various fields and has emerged as a promising tool for modeling physical dynamical phenomena that exhibit highly nonlinear relationships. However, existing approaches are limited in their ability to make physically sound predictions due to the lack of prior knowledge and to handle real-world scenarios where data comes from multiple dynamics or is irregularly distributed in time and space. This thesis aims to overcome these limitations in the following directions: improving neural network-based dynamics modeling by leveraging physical models through hybrid modeling; extending the generalization power of dynamics models by learning commonalities from data of different dynamics to extrapolate to unseen systems; and handling free-form data and continuously predicting phenomena in time and space through continuous modeling. We highlight the versatility of deep learning techniques, and the proposed directions show promise for improving their accuracy and generalization power, paving the way for future research in new applications
Los estilos APA, Harvard, Vancouver, ISO, etc.
28

Boutiba, Karim. "On enforcing Network Slicing in the new generation of Radio Access Networks". Electronic Thesis or Diss., Sorbonne université, 2024. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2024SORUS003.pdf.

Texto completo
Resumen
Les réseaux 5G émergents et au-delà promettent de prendre en charge de nouveaux cas d'utilisation tels que la communication holographique immersive, l'internet des compétences et la cartographie interactive 4D [1]. Ces cas d'usage ont des exigences strictes en termes de Quality de Service (Quality of Service), telles qu'une faible latence, un débit descendant et ascendant (Downlink (DL)/Uplink (UL)) élevé, ainsi qu'une faible consommation d'énergie. Les spécifications du groupe de normalisation 3GPP ont introduit de nombreuses fonctionnalités aux système radio 5G (5G NR), dans le but d'améliorer l'efficacité spectrale de la 5G et de répondre aux exigences strictes et hétérogènes des services de la 5G et au-delà. Parmi les principales fonctionnalités de la 5G NR, on peut citer l'introduction du concept de numérologie et BandWidth Part (BWP), le multiplexage temporel (TDD) dynamique et Connected-mode Discontinuous Reception (C-DRX). Toutefois, les spécifications 3GPP n'indiquent pas comment configurer la next gNode B (gNB)/User Equipment (UE) pour optimiser l'utilisation des fonctionnalités 5G NR. Afin de combler ce manque, nous proposons de nouvelles solutions qui mettent en œuvre des fonctionnalités 5G NR en appliquant les techniques de l'apprentissage automatique ou Machine Learning (ML), en particulier l'apprentissage profond par renforcement ou Deep Reinforcement Learning (DRL). En effet, les outils de l'intelligence artificielle jouent un rôle essentiel dans l'optimisation des systèmes de communication et des réseaux [2] grâce à leurs capacités à rendre le réseau capable de s'auto-configurer et s'auto-optimiser.Dans cette thèse, nous proposons plusieurs solutions pour permettre une configuration intelligente du réseau d'accès radio (RAN). Nous avons divisé les solutions en trois parties distinctes.Dans la première partie, nous proposons deux contributions. Tout d'abord, nous présentons NRflex, une solution de découpage du RAN en tranches (ou slicing), aligné sur l'architecture Open RAN (O-RAN). Par la suite, nous modélisons le problème de découpage du RAN en tranches comme un problème Mixed-Integer Linear Programming (MILP). Après avoir montré que la résolution du problème prend un temps exponentiel, nous avons introduit une nouvelle approche pour le résoudre en un temps polynomial, ce qui est très important pour la fonction de l'ordonnancement (scheduling) des ressources radio. La nouvelle approche consiste à formaliser et résoudre ce problème par le biais l'apprentissage par renforcement profond (DRL).Dans la deuxième partie de la thèse, nous proposons une solution basée sur le DRL pour permettre un TDD dynamique dans une seule cellule 5G NR. La solution a été implémentée dans la plateforme OpenAirInterface (OAI) et testée avec UEs réels. Nous avons ensuite étendu la solution, en tirant parti de Multi-Agent Deep Reinforcement Learning (MADRL), pour prendre en charge plusieurs cellules en tenant compte de l'interférence radio entre les liaisons transversales entre les cellules.Dans la dernière partie de la thèse, nous avons proposé trois solutions pour optimiser le RAN afin de prendre en charge les services URLLC. Tout d'abord, nous avons proposé une solution en deux étapes basées sur l'apprentissage automatique pour prédire les coupures du lien radio ou Radio Link Failure (RLF). Le modèle de prédiction RLF a été entraîné avec des données réelles obtenues à partir d'un banc d'essai 5G. Dans la deuxième contribution, nous avons proposé une solution basée sur le DRL pour réduire la latence UL. Notre solution alloue (prédit) dynamiquement les futurs besoins en ressource radio du UL en apprenant du modèle de trafic. Dans la dernière contribution, nous introduisons une solution basée sur le DRL afin d'équilibrer la latence et la consommation d'énergie en calculant conjointement les paramètres C-DRX et la configuration BWP
The emerging 5G networks and beyond promise to support novel use cases such as immersive holographic communication, Internet of Skills, and 4D Interactive mapping [usecases]. These use cases require stringent requirements in terms of Quality of Service (QoS), such as low latency, high Downlink (DL)/Uplink (UL) throughput and low energy consumption. The 3rd Generation Partnership Project (3GPP) specifications introduced many features in 5G New Radio (NR) to improve the physical efficiency of 5G to meet the stringent and heterogeneous requirements of beyond 5G services. Among the key 5G NR features, we can mention the numerology, BandWidth Part (BWP), dynamic Time Duplex Division (TDD) and Connected-mode Discontinuous Reception (C-DRX). However, the specifications do not provide how to configure the next Generation Node B (gNB)/User Equipment (UE) in order to optimize the usage of the 5G NR features. We enforce the 5G NR features by applying Machine Learning (ML), particularly Deep Reinforcement Learning (DRL), to fill this gap. Indeed, Artificial Intelligence (AI)/ML is playing a vital role in communications and networking [1] thanks to its ability to provide a self-configuring and self-optimizing network.In this thesis, different solutions are proposed to enable intelligent configuration of the Radio Access Network (RAN). We divided the solutions into three different parts. The first part concerns RAN slicing leveraging numerology and BWPs. In contrast, the second part tackles dynamic TDD, and the last part goes through different RAN optimizations to support Ultra-Reliable and Low-Latency Communication (URLLC) services.In the first part, we propose two contributions. First, we introduce NRflex, a RAN slicing framework aligned with Open RAN (O-RAN) architecture. NRflex dynamically assigns BWPs to the running slices and their associated User Equipment (UE) to fulfill the slices' required QoS. Then, we model the RAN slicing problem as a Mixed-Integer Linear Programming (MILP) problem. To our best knowledge, this is the first MILP modeling of the radio resource management featuring network slicing, taking into account (i) Mixed-numerology, (ii) both latency and throughput requirements (iii) multiple slices attach per UE (iv) Inter-Numerology Interference (INI). After showing that solving the problem takes an exponential time, we consider a new approach in a polynomial time, which is highly required when scheduling radio resources. The new approach consists of formalizing this problem using a DRL-based solver.In the second part of this thesis, we propose a DRL-based solution to enable dynamic TDD in a single 5G NR cell. The solution is implemented in OAI and tested using real UEs. Then, we extend the solution by leveraging Multi-Agent Deep Reinforcement Learning (MADRL) to support multiple cells, considering cross-link interference between cells.In the last part, we propose three solutions to optimize the RAN to support URLLC services. First, we propose a two-step ML-based solution to predict Radio Link Failure (RLF). We combine Long Short-Term Memory (LSTM) and Support Vector Machine (SVM) to find the correlation between radio measurements and RLF. The RLF prediction model was trained with real data obtained from a 5G testbed. In the second contribution, we propose a DRL-based solution to reduce UL latency. Our solution dynamically allocates the future UL grant by learning from the dynamic traffic pattern. In the last contribution, we introduce a DRL-based solution to balance latency and energy consumption by jointly deriving the C-DRX parameters and the BWP configuration
Los estilos APA, Harvard, Vancouver, ISO, etc.
29

Foroughmand, Aarabi Hadrien. "Towards global tempo estimation and rhythm-oriented genre classification based on harmonic characteristics of rhythm". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS018.

Texto completo
Resumen
La détection automatique de la structure rythmique au sein de la musique est l'un des défis du domaine de recherche "Music Information Retrieval". L'avènement de la technologie dédiées aux arts a permis l'émergence de nouvelles tendances musicales généralement décrites par le terme d'"Electronic/Dance Music" (EDM) qui englobe une pléthore de sous-genres. Ce type de musique souvent dédiée à la danse se caractérise par sa structure rythmique. Nous proposons une analyse rythmique de ce qui définit certains genres musicaux dont ceux de l'EDM. Pour ce faire, nous souhaitons réaliser une tâche d'estimation automatique du tempo global et une tâche de classification des genres axée sur le rythme. Le tempo et le genre sont deux aspects entremêlés puisque les genres sont souvent associés à des motifs rythmiques qui sont joués dans des plages de tempo spécifiques. Certains systèmes d'estimation du tempo dit "handcrafted" ont montré leur efficacité en se basant sur l'extraction de caractéristiques liées au rythme. Récemment, avec l'apparition de base de données annotées, les systèmes dit "data-driven" et les approches d'apprentissage profond ont montré des progrès dans l'estimation automatique de ces tâches.Dans cette thèse, nous proposons des méthodes à la croisée des chemins entre les systèmes "handcrafted" et "data-driven". Le développement d'une nouvelle représentation du rythme combiné à un apprentissage profond par réseau de neurone convolutif est à la base de tous nos travaux. Nous présentons en détails notre méthode dites Deep Rhythm dans cette thèse et nous présentons également plusieurs extensions basées sur des intuitions musicales qui nous permettent d'améliorer nos résultats
Automatic detection of the rhythmic structure within music is one of the challenges of the "Music Information Retrieval" research area. The advent of technology dedicated to the arts has allowed the emergence of new musical trends generally described by the term "Electronic/Dance Music" (EDM) which encompasses a plethora of sub-genres. This type of music often dedicated to dance is characterized by its rhythmic structure. We propose a rhythmic analysis of what defines certain musical genres including those of EDM. To do so, we want to perform an automatic global tempo estimation task and a genre classification task based on rhythm. Tempo and genre are two intertwined aspects since genres are often associated with rhythmic patterns that are played in specific tempo ranges. Some so-called "handcrafted" tempo estimation systems have been shown to be effective based on the extraction of rhythm-related characteristics. Recently, with the appearance of annotated databases, so-called "data-driven" systems and deep learning approaches have shown progress in the automatic estimation of these tasks. In this thesis, we propose methods at the crossroads between " handcrafted " and " data-driven " systems. The development of a new representation of rhythm combined with deep learning by convolutional neural network is at the basis of all our work. We present in detail our Deep Rhythm method in this thesis and we also present several extensions based on musical intuitions that allow us to improve our results
Los estilos APA, Harvard, Vancouver, ISO, etc.
30

Shahid, Mustafizur Rahman. "Deep learning for Internet of Things (IoT) network security". Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS003.

Texto completo
Resumen
L’internet des objets (IoT) introduit de nouveaux défis pour la sécurité des réseaux. La plupart des objets IoT sont vulnérables en raison d'un manque de sensibilisation à la sécurité des fabricants d'appareils et des utilisateurs. En conséquence, ces objets sont devenus des cibles privilégiées pour les développeurs de malware qui veulent les transformer en bots. Contrairement à un ordinateur de bureau, un objet IoT est conçu pour accomplir des tâches spécifiques. Son comportement réseau est donc très stable et prévisible, ce qui le rend bien adapté aux techniques d'analyse de données. Ainsi, la première partie de cette thèse tire profit des algorithmes de deep learning pour développer des outils de surveillance des réseaux IoT. Deux types d'outils sont explorés: les systèmes de reconnaissance de type d’objets IoT et les systèmes de détection d'intrusion réseau IoT. Pour la reconnaissance des types d’objets IoT, des algorithmes d'apprentissage supervisé sont entrainés pour classifier le trafic réseau et déterminer à quel objet IoT le trafic appartient. Le système de détection d'intrusion consiste en un ensemble d'autoencoders, chacun étant entrainé pour un type d’objet IoT différent. Les autoencoders apprennent le profil du comportement réseau légitime et détectent tout écart par rapport à celui-ci. Les résultats expérimentaux en utilisant des données réseau produites par une maison connectée montrent que les modèles proposés atteignent des performances élevées. Malgré des résultats préliminaires prometteurs, l’entraînement et l'évaluation des modèles basés sur le machine learning nécessitent une quantité importante de données réseau IoT. Or, très peu de jeux de données de trafic réseau IoT sont accessibles au public. Le déploiement physique de milliers d’objets IoT réels peut être très coûteux et peut poser problème quant au respect de la vie privée. Ainsi, dans la deuxième partie de cette thèse, nous proposons d'exploiter des GAN (Generative Adversarial Networks) pour générer des flux bidirectionnels qui ressemblent à ceux produits par un véritable objet IoT. Un flux bidirectionnel est représenté par la séquence des tailles de paquets ainsi que de la durée du flux. Par conséquent, en plus de générer des caractéristiques au niveau des paquets, tel que la taille de chaque paquet, notre générateur apprend implicitement à se conformer aux caractéristiques au niveau du flux, comme le nombre total de paquets et d'octets dans un flux ou sa durée totale. Des résultats expérimentaux utilisant des données produites par un haut-parleur intelligent montrent que notre méthode permet de générer des flux bidirectionnels synthétiques réalistes et de haute qualité
The growing Internet of Things (IoT) introduces new security challenges for network activity monitoring. Most IoT devices are vulnerable because of a lack of security awareness from device manufacturers and end users. As a consequence, they have become prime targets for malware developers who want to turn them into bots. Contrary to general-purpose devices, an IoT device is designed to perform very specific tasks. Hence, its networking behavior is very stable and predictable making it well suited for data analysis techniques. Therefore, the first part of this thesis focuses on leveraging recent advances in the field of deep learning to develop network monitoring tools for the IoT. Two types of network monitoring tools are explored: IoT device type recognition systems and IoT network Intrusion Detection Systems (NIDS). For IoT device type recognition, supervised machine learning algorithms are trained to perform network traffic classification and determine what IoT device the traffic belongs to. The IoT NIDS consists of a set of autoencoders, each trained for a different IoT device type. The autoencoders learn the legitimate networking behavior profile and detect any deviation from it. Experiments using network traffic data produced by a smart home show that the proposed models achieve high performance.Despite yielding promising results, training and testing machine learning based network monitoring systems requires tremendous amount of IoT network traffic data. But, very few IoT network traffic datasets are publicly available. Physically operating thousands of real IoT devices can be very costly and can rise privacy concerns. In the second part of this thesis, we propose to leverage Generative Adversarial Networks (GAN) to generate bidirectional flows that look like they were produced by a real IoT device. A bidirectional flow consists of the sequence of the sizes of individual packets along with a duration. Hence, in addition to generating packet-level features which are the sizes of individual packets, our developed generator implicitly learns to comply with flow-level characteristics, such as the total number of packets and bytes in a bidirectional flow or the total duration of the flow. Experimental results using data produced by a smart speaker show that our method allows us to generate high quality and realistic looking synthetic bidirectional flows
Los estilos APA, Harvard, Vancouver, ISO, etc.
31

Loiseau, Romain. "Real-World 3D Data Analysis : Toward Efficiency and Interpretability". Electronic Thesis or Diss., Marne-la-vallée, ENPC, 2023. http://www.theses.fr/2023ENPC0028.

Texto completo
Resumen
Cette thèse explore de nouvelles approches d'apprentissage profond pour l'analyse des données 3D du monde réel. Le traitement des données 3D est utile pour de nombreuses applications telles que la conduite autonome, la gestion du territoire, la surveillance des installations industrielles, l'inventaire forestier et la mesure de biomasse. Cependant, l'annotation et l'analyse des données 3D peuvent être exigeantes. En particulier, il est souvent difficile de respecter des contraintes liées à l'utilisation des ressources de calcul ou à l'efficacité de l'annotation. La difficulté d'interpréter et de comprendre le fonctionnement interne des modèles d'apprentissage profond peut également limiter leur adoption.Des efforts considérables ont été déployés pour concevoir des méthodes d'analyse des données 3D, afin d'effectuer des tâches telles que la classification des formes ou la segmentation et la décomposition de scènes. Les premières analyses automatisées s'appuyaient sur des descripteurs créés à la main et incorporaient des connaissances préalables sur les acquisitions du monde réel. Les techniques modernes d'apprentissage profond ont de meilleures performances, mais, sont souvent coûteuses en calcul, dépendent de grands ensembles de données annotées, et sont peu interprétables. Les contributions de cette thèse répondent à ces limitations.La première contribution est une architecture d'apprentissage profond pour l’analyse efficace de séquences LiDAR en temps réel. Notre approche prend en compte la géométrie d'acquisition des capteurs LiDAR rotatifs, que de nombreuses pipelines de conduite autonome utilisent. Par rapport aux travaux antérieurs, qui considèrent les rotations complètes des capteurs LiDAR individuellement, notre modèle traite l'acquisition par petits incréments. L'architecture que nous proposons à une performance comparable à celle des meilleures méthodes, tout en réduisant le temps de traitement de plus de cinq fois, et la taille du modèle de plus de cinquante fois.La deuxième contribution est une méthode d'apprentissage profond permettant de résumer de vastes collections de formes 3D à l'aide d'un petit ensemble de formes 3D. Nous apprenons un faible nombre de formes prototypiques 3D qui sont alignées et déformées pour reconstruire les nuages de points d'entrée. Notre représentation compacte et interprétable des collections de formes 3D permet d'obtenir des résultats à l'état de l'art de la segmentation sémantique avec peu d'exemples annotés.La troisième contribution développe l'analyse non supervisée pour la décomposition de scans 3D du monde réel en parties interprétables. Nous introduisons un modèle de reconstruction probabiliste permettant de décomposer un nuage de points 3D à l'aide d'un petit ensemble de formes prototypiques apprises. Nous surpassons les méthodes non supervisées les plus récentes en termes de précision de décomposition, tout en produisant des représentations visuellement interprétables. Nous offrons des avantages significatifs par rapport aux approches existantes car notre modèle ne nécessite pas d'annotations lors de l'entraînement.Cette thèse présente également deux jeux de données annotés du monde réel en accès libre, HelixNet et Earth Parser Dataset, acquis respectivement avec des LiDAR terrestres et aériens. HelixNet est le plus grand jeu de données LiDAR de conduite autonome avec des annotations denses, et fournit les métadonnées du capteur pour chaque points, cruciales pour mesurer précisément la latence des méthodes de segmentation sémantique. Le Earth Parser Dataset se compose de sept scènes LiDAR aériennes, qui peuvent être utilisées pour évaluer les performances des techniques de traitement 3D dans divers environnements.Nous espérons que ces jeux de données, et ces méthodes fiables tenant compte des spécificités des acquisitions dans le monde réel, encourageront la poursuite de la recherche vers des modèles plus efficaces et plus interprétables
This thesis explores new deep-learning approaches for modeling and analyzing real-world 3D data. 3D data processing is helpful for numerous high-impact applications such as autonomous driving, territory management, industry facilities monitoring, forest inventory, and biomass measurement. However, annotating and analyzing 3D data can be demanding. Specifically, matching constraints regarding computing resources or annotation efficiency is often challenging. The difficulty of interpreting and understanding the inner workings of deep learning models can also limit their adoption.The computer vision community has made significant efforts to design methods to analyze 3D data, to perform tasks such as shape classification, scene segmentation, and scene decomposition. Early automated analysis relied on hand-crafted descriptors and incorporated prior knowledge about real-world acquisitions. Modern deep learning techniques demonstrate the best performances but are often computationally expensive, rely on large annotated datasets, and have low interpretability. In this thesis, we propose contributions that address these limitations.The first contribution of this thesis is an efficient deep-learning architecture for analyzing LiDAR sequences in real time. Our approach explicitly considers the acquisition geometry of rotating LiDAR sensors, which many autonomous driving perception pipelines use. Compared to previous work, which considers complete LiDAR rotations individually, our model processes the acquisition in smaller increments. Our proposed architecture achieves accuracy on par with the best methods while reducing processing time by more than five times and model size by more than fifty times.The second contribution is a deep learning method to summarize extensive 3D shape collections with a small set of 3D template shapes. We learn end-to-end a small number of 3D prototypical shapes that are aligned and deformed to reconstruct input point clouds. The main advantage of our approach is that its representations are in the 3D space and can be viewed and manipulated. They constitute a compact and interpretable representation of 3D shape collections and facilitate annotation, leading to emph{state-of-the-art} results for few-shot semantic segmentation.The third contribution further expands unsupervised analysis for parsing large real-world 3D scans into interpretable parts. We introduce a probabilistic reconstruction model to decompose an input 3D point cloud using a small set of learned prototypical shapes. Our network determines the number of prototypes to use to reconstruct each scene. We outperform emph{state-of-the-art} unsupervised methods in terms of decomposition accuracy while remaining visually interpretable. We offer significant advantages over existing approaches as our model does not require manual annotations.This thesis also introduces two open-access annotated real-world datasets, HelixNet and the Earth Parser Dataset, acquired with terrestrial and aerial LiDARs, respectively. HelixNet is the largest LiDAR autonomous driving dataset with dense annotations and provides point-level sensor metadata crucial for precisely measuring the latency of semantic segmentation methods. The Earth Parser Dataset consists of seven aerial LiDAR scenes, which can be used to evaluate 3D processing techniques' performances in diverse environments.We hope that these datasets and reliable methods considering the specificities of real-world acquisitions will encourage further research toward more efficient and interpretable models
Los estilos APA, Harvard, Vancouver, ISO, etc.
32

Mehr, Éloi. "Unsupervised Learning of 3D Shape Spaces for 3D Modeling". Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS566.

Texto completo
Resumen
Bien que les données 3D soient de plus en plus populaires, en particulier avec la démocratisation des expériences de réalité virtuelle et augmentée, il reste très difficile de manipuler une forme 3D, même pour des designers ou des experts. Partant d’une base de données d’instances 3D d’une ou plusieurs catégories d’objets, nous voulons apprendre la variété des formes plausibles en vue de développer de nouveaux outils intelligents de modélisation et d’édition 3D. Cependant, cette variété est souvent bien plus complexe comparée au domaine 2D. En effet, les surfaces 3D peuvent être représentées en utilisant plusieurs plongements distincts, et peuvent aussi exhiber des alignements ou des topologies différentes. Dans cette thèse, nous étudions la variété des formes plausibles à la lumière des défis évoqués précédemment, en approfondissant trois points de vue différents. Tout d'abord, nous considérons la variété comme un espace quotient, dans le but d’apprendre la géométrie intrinsèque des formes à partir d’une base de données où les modèles 3D ne sont pas co-alignés. Ensuite, nous supposons que la variété est non connexe, ce qui aboutit à un nouveau modèle d’apprentissage profond capable d’automatiquement partitionner et apprendre les formes selon leur typologie. Enfin, nous étudions la conversion d’une entrée 3D non structurée vers une géométrie exacte, représentée comme un arbre structuré de primitives solides continues
Even though 3D data is becoming increasingly more popular, especially with the democratization of virtual and augmented experiences, it remains very difficult to manipulate a 3D shape, even for designers or experts. Given a database containing 3D instances of one or several categories of objects, we want to learn the manifold of plausible shapes in order to develop new intelligent 3D modeling and editing tools. However, this manifold is often much more complex compared to the 2D domain. Indeed, 3D surfaces can be represented using various embeddings, and may also exhibit different alignments and topologies. In this thesis we study the manifold of plausible shapes in the light of the aforementioned challenges, by deepening three different points of view. First of all, we consider the manifold as a quotient space, in order to learn the shapes’ intrinsic geometry from a dataset where the 3D models are not co-aligned. Then, we assume that the manifold is disconnected, which leads to a new deep learning model that is able to automatically cluster and learn the shapes according to their typology. Finally, we study the conversion of an unstructured 3D input to an exact geometry, represented as a structured tree of continuous solid primitives
Los estilos APA, Harvard, Vancouver, ISO, etc.
33

Gal, Viviane. "Vers une nouvelle Interaction Homme Environnement dans les jeux vidéo et pervasifs : rétroaction biologique et états émotionnels : apprentissage profond non supervisé au service de l'affectique". Electronic Thesis or Diss., Paris, CNAM, 2019. http://www.theses.fr/2019CNAM1269.

Texto completo
Resumen
Vivre des moments exceptionnels, connaître des sensations fortes, du bien-être, nous épanouir, font souvent partie de nos rêves ou aspirations. Nous choisissons des moyens divers pour y arriver comme le jeu. Que le joueur recherche l’originalité, les défis, la découverte, une histoire, ou d’autres buts, ce sont des états émotionnels qui sont l’objet de sa quête. Il attend que le jeu lui procure du plaisir, des sensations. Comment les lui apporter ? Mettre au point une nouvelle interaction humain environnement, dans les jeux vidéo ou pervasifs ou autres applications, prenant en compte et s’adaptant aux émotions de chacun, sans être gêné par les interfaces, biocapteurs de contact par exemple, est notre objectif. Cela soulève deux questions : - Peut-on découvrir des états émotionnels à partir de mesures physiologiques issues de biocapteurs de contact ? - Si oui, ces capteurs peuvent-ils être remplacés par des dispositifs distants, donc non invasifs, et produire les mêmes résultats ?Les modèles mis au point proposent des solutions à base de méthodes mathématiques d’apprentissage non supervisées. Nous présentons aussi des moyens de mesures à distance et expliquons les futurs travaux dans le domaine que nous baptisons affectique
Living exceptional moments, experiencing thrills, well-being, blooming, are often part of our dreams or aspirations. We choose various ways to get there like games. Whether the player is looking for originality, challenges, discovery, a story, or other goals, emotional states are the purpose of his quest. He remains until the game gives him pleasure, sensations. How bring them there? We are developing a new human environment interaction that takes into account and adapts to emotions. We address video or pervasive games or other applications. Through this goal, players should not be bothered by interfaces, or biosensors invasivness. This work raises two questions:- Can we discover emotional states based on physiological measurements from contact biosensors?- If so, can these sensors be replaced by remote, non-invasive devices and produce the same results?The models we have developed propose solutions based on unsupervised machine learning methods. We also present remote measurements technics and explain our future works in a new field we call affectics
Los estilos APA, Harvard, Vancouver, ISO, etc.
34

Messaoud, Kaouther. "Deep learning based trajectory prediction for autonomous vehicles". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS048.

Texto completo
Resumen
La prédiction de trajectoire des agents avoisinants d'un véhicule autonome est essentielle pour la conduite autonome afin d'effectuer une planification de trajectoire d'une manière efficace. Dans cette thèse, nous abordons la problématique de prédiction de trajectoire d'un véhicule cible dans deux environnements différents ; une autoroute et une zone urbaine (intersection, rond-point, etc.). Dans ce but, nous développons des solutions basées sur l'apprentissage automatique profond en mettant en phase les interactions entre le véhicule cibles et les éléments statiques et dynamiques de la scène. De plus, afin de tenir compte de l'incertitude du futur, nous générons de multiples trajectoires plausibles et la probabilité d'occurrence de chacune. Nous nous assurons également que les trajectoires prédites sont réalistes et conformes à la structure de la scène. Les solutions développées sont évaluées à à l'aide de bases de données de conduite réelles
The trajectory prediction of neighboring agents of an autonomous vehicle is essential for autonomous driving in order to perform trajectory planning in an efficient manner. In this thesis, we tackle the problem of predicting the trajectory of a target vehicle in two different environments; a highway and an urban area (intersection, roundabout, etc.). To this end, we develop solutions based on deep machine learning by phasing the interactions between the target vehicle and the static and dynamic elements of the scene. In addition, in order to take into account the uncertainty of the future, we generate multiple plausible trajectories and the probability of occurrence of each. We also make sure that the predicted trajectories are realistic and conform to the structure of the scene. The solutions developed are evaluated using real driving datasets
Los estilos APA, Harvard, Vancouver, ISO, etc.
35

Bayerlein, Harald. "Machine Learning Methods for UAV-aided Wireless Networks". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS154.

Texto completo
Resumen
Les drones autonomes sont envisagés pour une multitude d'applications au service de la société du futur. Du point de vue des réseaux sans-fil de la prochaine génération, les drones ne sont pas seulement prévus dans le rôle d'utilisateurs passifs connectés au réseau cellulaire, mais aussi comme facilitateurs actifs de la connectivité dans le cadre de réseaux assistés par drones. L'avantage déterminant des drones dans tous les scénarios d'application potentiels est leur mobilité. Pour tirer pleinement parti de leurs capacités, des méthodes de planification de trajectoire flexibles et efficaces sont une nécessité impérative. Cette thèse se concentre sur l'exploration de l'apprentissage automatique, en particulier l'apprentissage par renforcement (RL), comme une classe prometteuse de solutions aux défis de la gestion de la mobilité des drones. L'apprentissage par renforcement profond est l'un des rares cadres qui nous permet de nous attaquer directement à la tâche complexe du contrôle des drones dans les scénarios de communication, étant donné qu'il s'agit généralement de problèmes d'optimisation non convexes et NP-difficile. De plus, le RL profond offre la possibilité d'équilibrer les objectifs multiples de manière directe, il est très flexible en termes de disponibilité d'informations préalables ou de modèles, tandis que l'inférence RL profonde est efficace sur le plan informatique. Cette thèse explore également les défis que représentent un temps de vol fortement limité, la coopération entre plusieurs drones et la réduction de la demande de données d'entraînement. La thèse explore aussi la connexion entre les réseaux assistés par drone et la robotique
Autonomous unmanned aerial vehicles (UAVs), spurred by rapid innovation in drone hardware and regulatory frameworks during the last decade, are envisioned for a multitude of applications in service of the society of the future. From the perspective of next-generation wireless networks, UAVs are not only anticipated in the role of passive cellular-connected users, but also as active enablers of connectivity as part of UAV-aided networks. The defining advantage of UAVs in all potential application scenarios is their mobility. To take full advantage of their capabilities, flexible and efficient path planning methods are necessary. This thesis focuses on exploring machine learning (ML), specifically reinforcement learning (RL), as a promising class of solutions to UAV mobility management challenges. Deep RL is one of the few frameworks that allows us to tackle the complex task of UAV control and deployment in communication scenarios directly, given that these are generally NP-hard optimization problems and badly affected by non-convexity. Furthermore, deep RL offers the possibility to balance multiple objectives of UAV-aided networks in a straightforward way, it is very flexible in terms of the availability of prior or model information, while deep RL inference is computationally efficient. This thesis also explores the challenges of severely limited flying time, cooperation between multiple UAVs, and reducing the training data demand of DRL methods. The thesis also explores the connection between drone-assisted networks and robotics, two generally disjoint research communities
Los estilos APA, Harvard, Vancouver, ISO, etc.
36

Zhao, Zhou. "Heart Segmentation and Evaluation of Fibrosis". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS003.

Texto completo
Resumen
La fibrillation auriculaire est la maladie du rythme cardiaque la plus courante. En raison d'un manque de compréhension des structures atriales sous-jacentes, les traitements actuels ne sont toujours pas satisfaisants. Récemment, avec la popularité de l'apprentissage profond, de nombreuses méthodes de segmentation basées sur l'apprentissage profond ont été proposées pour analyser les structures auriculaires, en particulier à partir de l'imagerie par résonance magnétique renforcée au gadolinium tardif. Cependant, deux problèmes subsistent : 1) les résultats de la segmentation incluent le fond de type atrial ; 2) les limites sont très difficiles à segmenter. La plupart des approches de segmentation conçoivent un réseau spécifique qui se concentre principalement sur les régions, au détriment des frontières. Par conséquent, dans cette thèse, nous proposons deux méthodes différentes pour segmenter le cœur, une méthode en deux étapes et une méthode entraînable de bout en bout. Ensuite, pour évaluer le degré de fibrose, nous avons également proposé deux méthodes, l'une consiste à combiner l'apprentissage profond avec la morphologie, et l'autre à utiliser directement l'apprentissage profond. Enfin, l'efficacité de l'approche proposée est vérifiée sur certains jeux de données publics
Atrial fibrillation is the most common heart rhythm disease. Due to a lack of understanding in the matter of underlying atrial structures, current treatments are still not satisfying. Recently, with the popularity of deep learning, many segmentation methods based on deep learning have been proposed to analyze atrial structures, especially from late gadolinium-enhanced magnetic resonance imaging. However, two problems still occur: 1) segmentation results include the atrial-like background; 2) boundaries are very hard to segment. Most segmentation approaches design a specific network that mainly focuses on the regions, to the detriment of the boundaries. Therefore, in this dissertation, we propose two different methods to segment the heart, one two-stage and one end-to-end trainable method. And then, for evaluating the fibrosis degree, we also proposed two methods, one is to combine deep learning with morphology, and the other is to use deep learning directly. Finally, the efficiency of the proposed approach is verified on some public datasets
Los estilos APA, Harvard, Vancouver, ISO, etc.
37

Wu, Dawen. "Solving Some Nonlinear Optimization Problems with Deep Learning". Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG083.

Texto completo
Resumen
Cette thèse considère quatre types de problèmes d'optimisation non linéaire, à savoir les jeux de bimatrice, les équations de projection non linéaire (NPEs), les problèmes d'optimisation convexe non lisse (NCOPs) et les jeux à contraintes stochastiques (CCGs). Ces quatre classes de problèmes d'optimisation non linéaire trouvent de nombreuses applications dans divers domaines tels que l'ingénierie, l'informatique, l'économie et la finance. Notre objectif est d'introduire des algorithmes basés sur l'apprentissage profond pour calculer efficacement les solutions optimales de ces problèmes d'optimisation non linéaire.Pour les jeux de bimatrice, nous utilisons des réseaux neuronaux convolutionnels (CNNs) pour calculer les équilibres de Nash. Plus précisément, nous concevons une architecture de CNN où l'entrée est un jeu de bimatrice et la sortie est l'équilibre de Nash prédit pour le jeu. Nous générons un ensemble de jeux de bimatrice suivant une distribution de probabilité donnée et utilisons l'algorithme de Lemke-Howson pour trouver leurs véritables équilibres de Nash, constituant ainsi un ensemble d'entraînement. Le CNN proposé est formé sur cet ensemble de données pour améliorer sa précision. Une fois l'apprentissage terminée, le CNN est capable de prédire les équilibres de Nash pour des jeux de bimatrice inédits. Les résultats expérimentaux démontrent l'efficacité computationnelle exceptionnelle de notre approche basée sur CNN, au détriment de la précision.Pour les NPEs, NCOPs et CCGs, qui sont des problèmes d'optimisation plus complexes, ils ne peuvent pas être directement introduits dans les réseaux neuronaux. Par conséquent, nous avons recours à des outils avancés, à savoir l'optimisation neurodynamique et les réseaux neuronaux informés par la physique (PINNs), pour résoudre ces problèmes. Plus précisément, nous utilisons d'abord une approche neurodynamique pour modéliser un problème d'optimisation non linéaire sous forme de système d'équations différentielles ordinaires (ODEs). Ensuite, nous utilisons un modèle basé sur PINN pour résoudre le système d'ODE résultant, où l'état final du modèle représente la solution prédite au problème d'optimisation initial. Le réseau neuronal est formé pour résoudre le système d'ODE, résolvant ainsi le problème d'optimisation initial. Une contribution clé de notre méthode proposée réside dans la transformation d'un problème d'optimisation non linéaire en un problème d'entraînement de réseau neuronal. En conséquence, nous pouvons maintenant résoudre des problèmes d'optimisation non linéaire en utilisant uniquement PyTorch, sans compter sur des solveurs d'optimisation convexe classiques tels que CVXPY, CPLEX ou Gurobi
This thesis considers four types of nonlinear optimization problems, namely bimatrix games, nonlinear projection equations (NPEs), nonsmooth convex optimization problems (NCOPs), and chance-constrained games (CCGs).These four classes of nonlinear optimization problems find extensive applications in various domains such as engineering, computer science, economics, and finance.We aim to introduce deep learning-based algorithms to efficiently compute the optimal solutions for these nonlinear optimization problems.For bimatrix games, we use Convolutional Neural Networks (CNNs) to compute Nash equilibria.Specifically, we design a CNN architecture where the input is a bimatrix game and the output is the predicted Nash equilibrium for the game.We generate a set of bimatrix games by a given probability distribution and use the Lemke-Howson algorithm to find their true Nash equilibria, thereby constructing a training dataset.The proposed CNN is trained on this dataset to improve its accuracy. Upon completion of training, the CNN is capable of predicting Nash equilibria for unseen bimatrix games.Experimental results demonstrate the exceptional computational efficiency of our CNN-based approach, at the cost of sacrificing some accuracy.For NPEs, NCOPs, and CCGs, which are more complex optimization problems, they cannot be directly fed into neural networks.Therefore, we resort to advanced tools, namely neurodynamic optimization and Physics-Informed Neural Networks (PINNs), for solving these problems.Specifically, we first use a neurodynamic approach to model a nonlinear optimization problem as a system of Ordinary Differential Equations (ODEs).Then, we utilize a PINN-based model to solve the resulting ODE system, where the end state of the model represents the predicted solution to the original optimization problem.The neural network is trained toward solving the ODE system, thereby solving the original optimization problem.A key contribution of our proposed method lies in transforming a nonlinear optimization problem into a neural network training problem.As a result, we can now solve nonlinear optimization problems using only PyTorch, without relying on classical convex optimization solvers such as CVXPY, CPLEX, or Gurobi
Los estilos APA, Harvard, Vancouver, ISO, etc.
38

Dolz, Jose. "Vers la segmentation automatique des organes à risque dans le contexte de la prise en charge des tumeurs cérébrales par l’application des technologies de classification de deep learning". Thesis, Lille 2, 2016. http://www.theses.fr/2016LIL2S059/document.

Texto completo
Resumen
Les tumeurs cérébrales sont une cause majeure de décès et d'invalidité dans le monde, ce qui représente 14,1 millions de nouveaux cas de cancer et 8,2 millions de décès en 2012. La radiothérapie et la radiochirurgie sont parmi l'arsenal de techniques disponibles pour les traiter. Ces deux techniques s’appuient sur une irradiation importante nécessitant une définition précise de la tumeur et des tissus sains environnants. Dans la pratique, cette délinéation est principalement réalisée manuellement par des experts avec éventuellement un faible support informatique d’aide à la segmentation. Il en découle que le processus est fastidieux et particulièrement chronophage avec une variabilité inter ou intra observateur significative. Une part importante du temps médical s’avère donc nécessaire à la segmentation de ces images médicales. L’automatisation du processus doit permettre d’obtenir des ensembles de contours plus rapidement, reproductibles et acceptés par la majorité des oncologues en vue d'améliorer la qualité du traitement. En outre, toute méthode permettant de réduire la part médicale nécessaire à la délinéation contribue à optimiser la prise en charge globale par une utilisation plus rationnelle et efficace des compétences de l'oncologue.De nos jours, les techniques de segmentation automatique sont rarement utilisées en routine clinique. Le cas échéant, elles s’appuient sur des étapes préalables de recalages d’images. Ces techniques sont basées sur l’exploitation d’informations anatomiques annotées en amont par des experts sur un « patient type ». Ces données annotées sont communément appelées « Atlas » et sont déformées afin de se conformer à la morphologie du patient en vue de l’extraction des contours par appariement des zones d’intérêt. La qualité des contours obtenus dépend directement de la qualité de l’algorithme de recalage. Néanmoins, ces techniques de recalage intègrent des modèles de régularisation du champ de déformations dont les paramètres restent complexes à régler et la qualité difficile à évaluer. L’intégration d’outils d’assistance à la délinéation reste donc aujourd’hui un enjeu important pour l’amélioration de la pratique clinique.L'objectif principal de cette thèse est de fournir aux spécialistes médicaux (radiothérapeute, neurochirurgien, radiologue) des outils automatiques pour segmenter les organes à risque des patients bénéficiant d’une prise en charge de tumeurs cérébrales par radiochirurgie ou radiothérapie.Pour réaliser cet objectif, les principales contributions de cette thèse sont présentées sur deux axes principaux. Tout d'abord, nous considérons l'utilisation de l'un des derniers sujets d'actualité dans l'intelligence artificielle pour résoudre le problème de la segmentation, à savoir le «deep learning ». Cet ensemble de techniques présente des avantages par rapport aux méthodes d'apprentissage statistiques classiques (Machine Learning en anglais). Le deuxième axe est dédié à l'étude des caractéristiques d’images utilisées pour la segmentation (principalement les textures et informations contextuelles des images IRM). Ces caractéristiques, absentes des méthodes classiques d'apprentissage statistique pour la segmentation des organes à risque, conduisent à des améliorations significatives des performances de segmentation. Nous proposons donc l'inclusion de ces fonctionnalités dans un algorithme de réseau de neurone profond (deep learning en anglais) pour segmenter les organes à risque du cerveau.Nous démontrons dans ce travail la possibilité d'utiliser un tel système de classification basée sur techniques de « deep learning » pour ce problème particulier. Finalement, la méthodologie développée conduit à des performances accrues tant sur le plan de la précision que de l’efficacité
Brain cancer is a leading cause of death and disability worldwide, accounting for 14.1 million of new cancer cases and 8.2 million deaths only in 2012. Radiotherapy and radiosurgery are among the arsenal of available techniques to treat it. Because both techniques involve the delivery of a very high dose of radiation, tumor as well as surrounding healthy tissues must be precisely delineated. In practice, delineation is manually performed by experts, or with very few machine assistance. Thus, it is a highly time consuming process with significant variation between labels produced by different experts. Radiation oncologists, radiology technologists, and other medical specialists spend, therefore, a substantial portion of their time to medical image segmentation. If by automating this process it is possible to achieve a more repeatable set of contours that can be agreed upon by the majority of oncologists, this would improve the quality of treatment. Additionally, any method that can reduce the time taken to perform this step will increase patient throughput and make more effective use of the skills of the oncologist.Nowadays, automatic segmentation techniques are rarely employed in clinical routine. In case they are, they typically rely on registration approaches. In these techniques, anatomical information is exploited by means of images already annotated by experts, referred to as atlases, to be deformed and matched on the patient under examination. The quality of the deformed contours directly depends on the quality of the deformation. Nevertheless, registration techniques encompass regularization models of the deformation field, whose parameters are complex to adjust, and its quality is difficult to evaluate. Integration of tools that assist in the segmentation task is therefore highly expected in clinical practice.The main objective of this thesis is therefore to provide radio-oncology specialists with automatic tools to delineate organs at risk of patients undergoing brain radiotherapy or stereotactic radiosurgery. To achieve this goal, main contributions of this thesis are presented on two major axes. First, we consider the use of one of the latest hot topics in artificial intelligence to tackle the segmentation problem, i.e. deep learning. This set of techniques presents some advantages with respect to classical machine learning methods, which will be exploited throughout this thesis. The second axis is dedicated to the consideration of proposed image features mainly associated with texture and contextual information of MR images. These features, which are not present in classical machine learning based methods to segment brain structures, led to improvements on the segmentation performance. We therefore propose the inclusion of these features into a deep network.We demonstrate in this work the feasibility of using such deep learning based classification scheme for this particular problem. We show that the proposed method leads to high performance, both in accuracy and efficiency. We also show that automatic segmentations provided by our method lie on the variability of the experts. Results demonstrate that our method does not only outperform a state-of-the-art classifier, but also provides results that would be usable in the radiation treatment planning
Los estilos APA, Harvard, Vancouver, ISO, etc.
39

Yang, Lixuan. "Structuring of image databases for the suggestion of products for online advertising". Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1102/document.

Texto completo
Resumen
Le sujet de la thèse est l'extraction et la segmentation des vêtements à partir d'images en utilisant des techniques de la vision par ordinateur, de l'apprentissage par ordinateur et de la description d'image, pour la recommandation de manière non intrusive aux utilisateurs des produits similaires provenant d'une base de données de vente. Nous proposons tout d'abord un extracteur d'objets dédié à la segmentation de la robe en combinant les informations locales avec un apprentissage préalable. Un détecteur de personne localises des sites dans l'image qui est probable de contenir l'objet. Ensuite, un processus d'apprentissage intra-image en deux étapes est est développé pour séparer les pixels de l'objet de fond. L'objet est finalement segmenté en utilisant un algorithme de contour actif qui prend en compte la segmentation précédente et injecte des connaissances spécifiques sur la courbure locale dans la fonction énergie. Nous proposons ensuite un nouveau framework pour l'extraction des vêtements généraux en utilisant une procédure d'ajustement globale et locale à trois étapes. Un ensemble de modèles initialises un processus d'extraction d'objet par un alignement global du modèle, suivi d'une recherche locale en minimisant une mesure de l'inadéquation par rapport aux limites potentielles dans le voisinage. Les résultats fournis par chaque modèle sont agrégés, mesuré par un critère d'ajustement globale, pour choisir la segmentation finale. Dans notre dernier travail, nous étendons la sortie d'un réseau de neurones Fully Convolutional Network pour inférer le contexte à partir d'unités locales (superpixels). Pour ce faire, nous optimisons une fonction énergie, qui combine la structure à grande échelle de l'image avec le local structure superpixels, en recherchant dans l'espace de toutes les possibilité d'étiquetage. De plus, nous introduisons une nouvelle base de données RichPicture, constituée de 1000 images pour l'extraction de vêtements à partir d'images de mode. Les méthodes sont validées sur la base de données publiques et se comparent favorablement aux autres méthodes selon toutes les mesures de performance considérées
The topic of the thesis is the extraction and segmentation of clothing items from still images using techniques from computer vision, machine learning and image description, in view of suggesting non intrusively to the users similar items from a database of retail products. We firstly propose a dedicated object extractor for dress segmentation by combining local information with a prior learning. A person detector is applied to localize sites in the image that are likely to contain the object. Then, an intra-image two-stage learning process is developed to roughly separate foreground pixels from the background. Finally, the object is finely segmented by employing an active contour algorithm that takes into account the previous segmentation and injects specific knowledge about local curvature in the energy function.We then propose a new framework for extracting general deformable clothing items by using a three stage global-local fitting procedure. A set of template initiates an object extraction process by a global alignment of the model, followed by a local search minimizing a measure of the misfit with respect to the potential boundaries in the neighborhood. The results provided by each template are aggregated, with a global fitting criterion, to obtain the final segmentation.In our latest work, we extend the output of a Fully Convolution Neural Network to infer context from local units(superpixels). To achieve this we optimize an energy function,that combines the large scale structure of the image with the locallow-level visual descriptions of superpixels, over the space of all possiblepixel labellings. In addition, we introduce a novel dataset called RichPicture, consisting of 1000 images for clothing extraction from fashion images.The methods are validated on the public database and compares favorably to the other methods according to all the performance measures considered
Los estilos APA, Harvard, Vancouver, ISO, etc.
40

Cárdenas, Chapellín Julio José. "Inversion of geophysical data by deep learning". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS185.

Texto completo
Resumen
Cette thèse présente la caractérisation d’anomalies magnétiques par des réseaux de neurones convolutifs, et l’application d’outils de visualisation pour comprendre et valider leurs prédictions. L’approche développée permet la localisation de dipôles magnétiques, incluant le comptage dunombre de dipôles, leur position géographique, et la prédiction de leurs paramètres (moment magnétique, profondeur, et déclinaison). Nos résultats suggèrent que la combinaison de deux modèles d’apprentissage profond, "YOLO" et "DenseNet", est la plus performante pour atteindre nos objectifs de classification et de régression. De plus, nous avons appliqué des outils de visualisation pour comprendre les prédictions de notre modèle et son principe de fonctionnement. Nous avons constaté que l’outil Grad-CAM a amélioré les performances de prédiction en identifiant plusieurs couches qui n’avaient aucune influence sur la prédiction et l’outil t-SNE a confirmé la bonne capacité de notre modèle à différencier différentes combinaisons de paramètres. Ensuite, nous avons testé notre modèle avec des données réelles pour établir ses limites et son domaine d’application. Les résultats montrent que notre modèle détecte les anomalies dipolaires dans une carte magnétique réelle, même après avoir appris d’une base de données synthétique de moindre complexité, ce qui indique une capacité de généralisation significative. Nous avons également remarqué qu’il n’est pas capable d’identifier des anomalies dipolaires de formes et de tailles différentes de celles considérées pour la création de la base de données synthétique. Nos travaux actuels consistent à créer de nouvelles bases de données en combinant des données synthétiques et réelles afin de comparer leur influence potentielle dans l’amélioration des prédictions. Enfin, les perspectives de ce travail consistent à valider la pertinence opérationnelle et l’adaptabilité de notre modèle dans des conditions réalistes et à tester d’autres applications avec des méthodes géophysiques alternatives
This thesis presents the characterization ofmagnetic anomalies using convolutional neural networks, and the application of visualization tools to understand and validate their predictions. The developed approach allows the localization of magnetic dipoles, including counting the number of dipoles, their geographical position, and the prediction of their parameters (magnetic moment, depth, and declination). Our results suggest that the combination of two deep learning models, "YOLO" and "DenseNet", performs best in achieving our classification and regression goals. Additionally, we applied visualization tools to understand our model’s predictions and its working principle. We found that the Grad-CAM tool improved prediction performance by identifying several layers that had no influence on the prediction and the t-SNE tool confirmed the good ability of our model to differentiate among different parameter combinations. Then, we tested our model with real data to establish its limitations and application domain. Results demonstrate that our model detects dipolar anomalies in a real magnetic map even after learning from a synthetic database with a lower complexity, which indicates a significant generalization capability. We also noticed that it is not able to identify dipole anomalies of shapes and sizes different from those considered for the creation of the synthetic database. Our current work consists in creating new databases by combining synthetic and real data to compare their potential influence in improving predictions. Finally, the perspectives of this work consist in validating the operational relevance and adaptability of our model under realistic conditions and in testing other applications with alternative geophysical methods
Esta tesis presenta la caracterización de anomalías magnéticas mediante redes neuronales convolucionales, y la aplicación de herramientas de visualización para entender y validar sus predicciones. El enfoque desarrollado permite la localización de dipolos magnéticos, incluyendo el recuento delnúmero de dipolos, su posición geográfica y la predicción de sus parámetros (momento magnético, profundidad y declinación). Nuestros resultados sugieren que la combinación de dos modelos de aprendizaje profundo, "YOLO" y "DenseNet", es la que mejor se ajusta a nuestros objetivos de clasificación y regresión. Adicionalmente, aplicamos herramientas de visualización para entender las predicciones de nuestromodelo y su principio de funcionamiento. Descubrimos que la herramienta Grad-CAM mejoraba el rendimiento de la predicción al identificar varias capas que no influían enla predicción y la herramienta t-SNE confirmaba la buena capacidad de nuestro modelo para diferenciar entre distintas combinaciones de parámetros. Seguidamente, probamos nuestro modelo con datos reales para establecer sus limitaciones y su rango de aplicación. Los resultados demuestran quenuestro modelo detecta anomalías dipolares en unmapa magnético real incluso después de aprender de una base de datos sintética con una complejidad menor, lo que indica una capacidad de generalización significativa. También observamos que no es capaz de identificar anomalías dipolares de formas y tamaños diferentes a los considerados para la creación de la base de datos sintética. Nuestro trabajo actual consiste en crear nuevas bases de datos combinando datos sintéticos y reales para comparar su posible influencia en la mejora de las predicciones. Por último, las perspectivas de este trabajo consisten en validar la pertinencia operativa y la adaptabilidad de nuestro modelo en condiciones realistas y en probar otras aplicaciones con métodos geofísicos alternativos
Los estilos APA, Harvard, Vancouver, ISO, etc.
41

Esteves, José Jurandir Alves. "Optimization of network slice placement in distributed large-scale infrastructures : from heuristics to controlled deep reinforcement learning". Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS325.

Texto completo
Resumen
Cette thèse examine comment optimiser le placement de tranches (slices) de réseau dans les infrastructures distribuées à grande échelle en se concentrant sur des approches heuristiques en ligne et basées sur l'apprentissage par renforcement profond (DRL). Tout d'abord, nous nous appuyons sur la programmation linéaire en nombre entiers (ILP) pour proposer un modèle de données permettant le placement de tranches de réseau sur le bord et le cœur du réseau. Contrairement à la plupart des études relatives au placement de fonctions réseau virtualisées, le modèle ILP proposé prend en compte les topologies complexes des tranches de réseau et accorde une attention particulière à l'emplacement géographique des utilisateurs des tranches réseau et à son impact sur le calcul de la latence de bout en bout. Des expérimentations numériques nous ont permis de montrer la pertinence de la prise en compte des contraintes de localisation des utilisateurs.Ensuite, nous nous appuyons sur une approche appelée "Power of Two Choices" pour proposer un algorithme heuristique en ligne qui est adapté à supporter le placement sur des infrastructures distribuées à grande échelle tout en intégrant des contraintes spécifiques au bord du réseau. Les résultats de l'évaluation montrent la bonne performance de l'heuristique qui résout le problème en quelques secondes dans un scénario à grande échelle. L'heuristique améliore également le taux d'acceptation des demandes de placement de tranches de réseau par rapport à une solution déterministe en ligne en utilisant l'ILP.Enfin, nous étudions l'utilisation de méthodes de ML, et plus particulièrement de DRL, pour améliorer l'extensibilité et l'automatisation du placement de tranches réseau en considérant une version multi-objectif du problème. Nous proposons d'abord un algorithme DRL pour le placement de tranches réseau qui s'appuie sur l'algorithme "Advantage Actor Critic" pour un apprentissage rapide, et sur les réseaux convolutionels de graphes pour l'extraction de propriétés. Ensuite, nous proposons une approche que nous appelons "Heuristically Assisted DRL" (HA-DRL), qui utilise des heuristiques pour contrôler l'apprentissage et l'exécution de l'agent DRL. Nous évaluons cette solution par des simulations dans des conditions de charge de réseau stationnaire, ensuite cyclique et enfin non-stationnaire. Les résultats de l'évaluation montrent que le contrôle par heuristique est un moyen efficace d'accélérer le processus d'apprentissage du DRL, et permet d'obtenir un gain substantiel dans l'utilisation des ressources, de réduire la dégradation des performances et d'être plus fiable en cas de changements imprévisibles de la charge du réseau que les algorithmes DRL non contrôlés
This PhD thesis investigates how to optimize Network Slice Placement in distributed large-scale infrastructures focusing on online heuristic and Deep Reinforcement Learning (DRL) based approaches. First, we rely on Integer Linear Programming (ILP) to propose a data model for enabling on-Edge and on-Network Slice Placement. In contrary to most studies related to placement in the NFV context, the proposed ILP model considers complex Network Slice topologies and pays special attention to the geographic location of Network Slice Users and its impact on the End-to-End (E2E) latency. Extensive numerical experiments show the relevance of taking into account the user location constraints. Then, we rely on an approach called the “Power of Two Choices"(P2C) to propose an online heuristic algorithm for the problem which is adapted to support placement on large-scale distributed infrastructures while integrating Edge-specific constraints. The evaluation results show the good performance of the heuristic that solves the problem in few seconds under a large-scale scenario. The heuristic also improves the acceptance ratio of Network Slice Placement Requests when compared against a deterministic online ILP-based solution. Finally, we investigate the use of ML methods, more specifically DRL, for increasing scalability and automation of Network Slice Placement considering a multi-objective optimization approach to the problem. We first propose a DRL algorithm for Network Slice Placement which relies on the Advantage Actor Critic algorithm for fast learning, and Graph Convolutional Networks for feature extraction automation. Then, we propose an approach we call Heuristically Assisted Deep Reinforcement Learning (HA-DRL), which uses heuristics to control the learning and execution of the DRL agent. We evaluate this solution trough simulations under stationary, cycle-stationary and non-stationary network load conditions. The evaluation results show that heuristic control is an efficient way of speeding up the learning process of DRL, achieving a substantial gain in resource utilization, reducing performance degradation, and is more reliable under unpredictable changes in network load than non-controlled DRL algorithms
Los estilos APA, Harvard, Vancouver, ISO, etc.
42

Feng, Yuting. "Diffusion-Aware Recommendation in Social Media". Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG009.

Texto completo
Resumen
Avec la popularité montante des médias sociaux en tant que voies d'accès à l'information, la formulation de recommandations dans des scénarios sociaux spécifiques mérite une attention particulière, où les modèles de diffusion de l'information et les mécanismes d'influence sont exploités. Dans notre travail, nous nous efforçons de servir l'information aux utilisateurs des médias sociaux de manière directe ou indirecte : la première se rapportant à la recommandation des actualités et la seconde à la maximisation de l'influence dans un objectif de l'équité.Les systèmes de recommandation des actualités sont généralement basés sur le contenu sémantique des articles et les profils des utilisateurs, alors que le scénario de recommandation implicite est ignoré. Nous considérons une perspective de diffusion et d'influence sur le problème de la recommandation des actualités, et nous proposons une approche légère d'apprentissage profond, appelée DSN (Deep Influence-Aware News Recommendation in Social Media). Cette approche vise la recommandation des actualités dans les plateformes de micro-blogging, telles que Twitter ou Weibo, dont l'extrême vélocité des données exige un compromis satisfaisant entre la complexité du modèle et son efficacité. Nous utilisons des "graph embeddings" - des représentations de nœuds qui sont indicatives des schémas de diffusion des actualités - qui conduisent à des informations sociales précieuses pour les recommandations. Pour fusionner les représentations sémantiques et sociales des actualités, un réseau neuronal convolutif spécialement conçu pour la représentation conjointe des caractéristiques (SCNN, Social-Related Multi-Source Feature Extraction) est utilisé comme encodeur d'actualité, tandis qu'un modèle d'attention agrège automatiquement les différents intérêts des utilisateurs. Pour approfondir la dimension temporelle et les problèmes liés à la séquentialité de la recommandation des actualités dans le scénario des microblogs, nous proposons une deuxième approche de recommandation qui tient également compte de la diffusion et de l'influence dans le média, appelée IGNiteR (News Recommendation in Microblogging Applications). Il s'agit d'un modèle de recommandation approfondie basé sur le contenu qui exploite conjointement toutes les facettes des données susceptibles d'avoir un impact sur les décisions d'y acceder. Nous avons réalisé des expériences approfondies sur les deux mêmes ensembles de données du monde réel, montrant qu'IGNiteR surpasse les méthodes de recommandation des actualités basées sur l'apprentissage profond les plus récentes.Pour la recommandation indirecte des informations concernant la maximisation de l'influence avec équité, qui vise à sélectionner k nœuds influents pour maximiser la diffusion d'informations dans un réseau, tout en garantissant que certains attributs sensibles des utilisateurs (par exemple, le sexe, l'emplacement, l'âge, etc.) sont affectés équitablement. Le défi consiste donc à trouver une solution évolutive, applicable à des réseaux comptant des millions ou des milliards de nœuds. Nous proposons deux approches basées sur les données : (a) l'échantillonnage des participants basé sur l'équité (FPS, Fairness-based Participant Sampling), et (b) l'équité en tant que contexte (FAC, Fairness as Contex). Elles sont basées sur l'apprentissage des représentations des nœuds (embeddings) pour extraire les caractéristiques des utilisateurs liées à la propagation des informations à partir des cascades de diffusion, au lieu de la connectivité sociale, et de cette façon nous pouvons traiter de très grands graphes. Les caractéristiques extraites sont ensuite utilisées pour sélectionner les influenceurs qui maximisent la propagation de l'influence. Les algorithmes proposés sont génériques et représentent les premières solutions axées sur les politiques qui peuvent être appliquées à des ensembles arbitraires d'attributs sensibles à grande échelle
With the increasing popularity of social media as pathways to information, making recommendations in specific social scenarios deserves attention, where the information diffusion patterns and influence mechanisms therein are exploited. We strive in our work to develop models and algorithms for serving information to users in social media, either in a direct user-based (personalized) way or in an indirect audience-based way, with the former pertaining to news recommendation and the latter referring to fairness in influence maximization. News recommendation systems are generally based on the semantic content of news items and user profiles, whereas the underlying recommendation scenario is ignored. We consider in our PhD work a diffusion and influence-aware perspective on the news recommendation problem, and we first propose a lightweight deep learning approach for it, called DSN. This approach targets news recommendation in micro-blogging platforms, such as Twitter or Weibo, whose extreme data velocity demands a satisfactory trade-off between the model's complexity and its effectiveness. We use graph embeddings -- node representations that are indicative of news diffusion patterns -- leading to valuable social-related information for recommendations. To merge the semantics and social-related representations of news, a specially designed convolutional neural network for joint feature representation (SCNN) is used as the news encoder, while an attention model automatically aggregates the different interests of users. To further exploit the time dimension, with a sequential recommendation perspective on news recommendation in the micro-blogging scenario, we propose secondly in our PhD work an alternative deep-learning based recommendation model, which is also diffusion and influence-aware, called Influence-Graph News Recommender (IGNteR). It is a content-based deep recommendation model that jointly exploits all the data facets that may impact adoption decisions, namely semantics, diffusion-related features pertaining to local and global influence among users, temporal attractiveness, and timeliness, as well as dynamic user preferences. We perform extensive experiments on the same real-world datasets, showing that IGNiteR outperforms the state-of-the-art deep-learning based news recommendation methods.For the indirect and audience-based recommendation setting, we focus on influence maximization with fairness, which aims to select k influential nodes to maximise the spread of information in a network, while ensuring that selected sensitive user attributes (e.g., gender location, origin, race, etc.) are fairly affected, i.e., are proportionally similar between the original network and the affected users. We propose two data-driven approaches: (a) fairness-based participant sampling (FPS) and (b) fairness as context (FAC), which are based on learning node representations (embeddings) to extract spread-related user features from diffusion cascades information, instead of the social connectivity, and in this way we can deal with very large graphs. The extracted features are then used in selecting influencers that maximize the influence spread, while also being fair with respect to the chosen sensitive attributes. In FPS, fairness and cascade length information are considered independently in the decision-making process, while FAC considers these information facets jointly and takes into account correlations between them. The proposed algorithms are generic and represent the first policy-driven solutions that can be applied to arbitrary sets of sensitive attributes at scale
Los estilos APA, Harvard, Vancouver, ISO, etc.
43

Kang, Chen. "Image Aesthetic Quality Assessment Based on Deep Neural Networks". Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG004.

Texto completo
Resumen
Avec le développement des dispositifs de capture et d'Internet, les gens accèdent à un nombre croissant d'images. L'évaluation de l'esthétique visuelle a des applications importantes dans plusieurs domaines, de la récupération d'image et de la recommandation à l'amélioration. L'évaluation de la qualité esthétique de l'image vise à déterminer la beauté d'une image pour les observateurs humains. De nombreux problèmes dans ce domaine ne sont pas bien étudiés, y compris la subjectivité de l'évaluation de la qualité esthétique, l'explication de l'esthétique et la collecte de données annotées par l'homme. La prédiction conventionnelle de la qualité esthétique des images vise à prédire le score moyen ou la classe esthétique d'une image. Cependant, la prédiction esthétique est intrinsèquement subjective, et des images avec des scores / classe esthétiques moyens similaires peuvent afficher des niveaux de consensus très différents par les évaluateurs humains. Des travaux récents ont traité de la subjectivité esthétique en prédisant la distribution des scores humains, mais la prédiction de la distribution n'est pas directement interprétable en termes de subjectivité et pourrait être sous-optimale par rapport à l'estimation directe des descripteurs de subjectivité calculés à partir des scores de vérité terrain. De plus, les étiquettes des ensembles de données existants sont souvent bruyantes, incomplètes ou ne permettent pas des tâches plus sophistiquées telles que comprendre pourquoi une image est belle ou non pour un observateur humain. Dans cette thèse, nous proposons tout d'abord plusieurs mesures de la subjectivité, allant de simples mesures statistiques telles que l'écart type des scores, aux descripteurs nouvellement proposés inspirés de la théorie de l'information. Nous évaluons les performances de prédiction de ces mesures lorsqu'elles sont calculées à partir de distributions de scores prédites et lorsqu'elles sont directement apprises à partir de données de vérité terrain. Nous constatons que cette dernière stratégie donne en général de meilleurs résultats. Nous utilisons également la subjectivité pour améliorer la prédiction des scores esthétiques, montrant que les mesures de subjectivité inspirées de la théorie de l'information fonctionnent mieux que les mesures statistiques. Ensuite, nous proposons un ensemble de données EVA (Explainable Visual Aesthetics), qui contient 4070 images avec au moins 30 votes par image. EVA a été collecté en utilisant une approche plus disciplinée inspirée des meilleures pratiques d'évaluation de la qualité. Il offre également des caractéristiques supplémentaires, telles que le degré de difficulté à évaluer le score esthétique, l'évaluation de 4 attributs esthétiques complémentaires, ainsi que l'importance relative de chaque attribut pour se forger une opinion esthétique. L'ensemble de données accessible au public devrait contribuer aux recherches futures sur la compréhension et la prédiction de l'esthétique de la qualité visuelle. De plus, nous avons étudié l'explicabilité de l'évaluation de la qualité esthétique de l'image. Une analyse statistique sur EVA démontre que les attributs collectés et l'importance relative peuvent être combinés linéairement pour expliquer efficacement les scores d'opinion moyenne esthétique globale. Nous avons trouvé que la subjectivité a une corrélation limitée avec la difficulté personnelle moyenne dans l'évaluation esthétique, et la région du sujet, le niveau photographique et l'âge affectent de manière significative l'évaluation esthétique de l'utilisateur
With the development of capture devices and the Internet, people access to an increasing amount of images. Assessing visual aesthetics has important applications in several domains, from image retrieval and recommendation to enhancement. Image aesthetic quality assessment aims at determining how beautiful an image looks to human observers. Many problems in this field are not studied well, including the subjectivity of aesthetic quality assessment, explanation of aesthetics and the human-annotated data collection. Conventional image aesthetic quality prediction aims at predicting the average score or aesthetic class of a picture. However, the aesthetic prediction is intrinsically subjective, and images with similar mean aesthetic scores/class might display very different levels of consensus by human raters. Recent work has dealt with aesthetic subjectivity by predicting the distribution of human scores, but predicting the distribution is not directly interpretable in terms of subjectivity, and might be sub-optimal compared to directly estimating subjectivity descriptors computed from ground-truth scores. Furthermore, labels in existing datasets are often noisy, incomplete or they do not allow more sophisticated tasks such as understanding why an image looks beautiful or not to a human observer. In this thesis, we first propose several measures of subjectivity, ranging from simple statistical measures such as the standard deviation of the scores, to newly proposed descriptors inspired by information theory. We evaluate the prediction performance of these measures when they are computed from predicted score distributions and when they are directly learned from ground-truth data. We find that the latter strategy provides in general better results. We also use the subjectivity to improve predicting aesthetic scores, showing that information theory inspired subjectivity measures perform better than statistical measures. Then, we propose an Explainable Visual Aesthetics (EVA) dataset, which contains 4070 images with at least 30 votes per image. EVA has been crowd-sourced using a more disciplined approach inspired by quality assessment best practices. It also offers additional features, such as the degree of difficulty in assessing the aesthetic score, rating for 4 complementary aesthetic attributes, as well as the relative importance of each attribute to form aesthetic opinions. The publicly available dataset is expected to contribute to future research on understanding and predicting visual quality aesthetics. Additionally, we studied the explainability of image aesthetic quality assessment. A statistical analysis on EVA demonstrates that the collected attributes and relative importance can be linearly combined to explain effectively the overall aesthetic mean opinion scores. We found subjectivity has a limited correlation to average personal difficulty in aesthetic assessment, and the subject's region, photographic level and age affect the user's aesthetic assessment significantly
Los estilos APA, Harvard, Vancouver, ISO, etc.
44

Mercadier, Yves. "Classification automatique de textes par réseaux de neurones profonds : application au domaine de la santé". Thesis, Montpellier, 2020. http://www.theses.fr/2020MONTS068.

Texto completo
Resumen
Cette thèse porte sur l'analyse de données textuelles dans le domaine de la santé et en particulier sur la classification supervisée multi-classes de données issues de la littérature biomédicale et des médias sociaux.Une des difficultés majeures lors de l'exploration de telles données par des méthodes d'apprentissage supervisées est de posséder un jeu de données suffisant en nombre d'exemples pour l'entraînement des modèles. En effet, il est généralement nécessaire de catégoriser les données manuellement avant de réaliser l'étape d'apprentissage. La taille importante des jeux de données rend cette tâche de catégorisation très coûteuse, qu'il convient de réduire par des systèmes semi-automatiques.Dans ce contexte, l’apprentissage actif, pendant lequel l’oracle intervient pour choisir les meilleurs exemples à étiqueter, s’avère prometteur. L’intuition est la suivante : en choisissant les exemples intelligemment et non aléatoirement, les modèles devraient s’améliorer avec moins d’efforts pour l’oracle et donc à moindre coût (c’est-a-dire avec moins d’exemples annotés). Dans cette thèse, nous évaluerons différentes approches d’apprentissage actif combinées avec des modèles d’apprentissage profond récents.Par ailleurs, lorsque l’on dispose de peu de données annotées, une possibilité d’amélioration est d’augmenter artificiellement la quantité de données pendant la phase d’entraînement du modèle, en créant de nouvelles données de manière automatique à partir des données existantes. Plus précisément, il s’agit d’injecter de la connaissance en tenant compte des propriétés invariantes des données par rapport à certaines transformations. Les données augmentées peuvent ainsi couvrir un espace d’entrée inexploré, éviter le sur-apprentissage et améliorer la généralisation du modèle. Dans cette thèse, nous proposerons et évaluerons une nouvelle approche d'augmentation de données textuelles
This Ph.D focuses on the analysis of textual data in the health domain and in particular on the supervised multi-class classification of data from biomedical literature and social media.One of the major difficulties when exploring such data by supervised learning methods is to have a sufficient number of data sets for models training. Indeed, it is generally necessary to label manually the data before performing the learning step. The large size of the data sets makes this labellisation task very expensive, which should be reduced with semi-automatic systems.In this context, active learning, in which the Oracle intervenes to choose the best examples to label, is promising. The intuition is as follows: by choosing the smartly the examples and not randomly, the models should improve with less effort for the oracle and therefore at lower cost (i.e. with less annotated examples). In this PhD, we will evaluate different active learning approaches combined with recent deep learning models.In addition, when small annotated data set is available, one possibility of improvement is to artificially increase the data quantity during the training phase, by automatically creating new data from existing data. More precisely, we inject knowledge by taking into account the invariant properties of the data with respect to certain transformations. The augmented data can thus cover an unexplored input space, avoid overfitting and improve the generalization of the model. In this Ph.D, we will propose and evaluate a new approach for textual data augmentation.These two contributions will be evaluated on different textual datasets in the medical domain
Los estilos APA, Harvard, Vancouver, ISO, etc.
45

Yang, Lixuan. "Structuring of image databases for the suggestion of products for online advertising". Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1102.

Texto completo
Resumen
Le sujet de la thèse est l'extraction et la segmentation des vêtements à partir d'images en utilisant des techniques de la vision par ordinateur, de l'apprentissage par ordinateur et de la description d'image, pour la recommandation de manière non intrusive aux utilisateurs des produits similaires provenant d'une base de données de vente. Nous proposons tout d'abord un extracteur d'objets dédié à la segmentation de la robe en combinant les informations locales avec un apprentissage préalable. Un détecteur de personne localises des sites dans l'image qui est probable de contenir l'objet. Ensuite, un processus d'apprentissage intra-image en deux étapes est est développé pour séparer les pixels de l'objet de fond. L'objet est finalement segmenté en utilisant un algorithme de contour actif qui prend en compte la segmentation précédente et injecte des connaissances spécifiques sur la courbure locale dans la fonction énergie. Nous proposons ensuite un nouveau framework pour l'extraction des vêtements généraux en utilisant une procédure d'ajustement globale et locale à trois étapes. Un ensemble de modèles initialises un processus d'extraction d'objet par un alignement global du modèle, suivi d'une recherche locale en minimisant une mesure de l'inadéquation par rapport aux limites potentielles dans le voisinage. Les résultats fournis par chaque modèle sont agrégés, mesuré par un critère d'ajustement globale, pour choisir la segmentation finale. Dans notre dernier travail, nous étendons la sortie d'un réseau de neurones Fully Convolutional Network pour inférer le contexte à partir d'unités locales (superpixels). Pour ce faire, nous optimisons une fonction énergie, qui combine la structure à grande échelle de l'image avec le local structure superpixels, en recherchant dans l'espace de toutes les possibilité d'étiquetage. De plus, nous introduisons une nouvelle base de données RichPicture, constituée de 1000 images pour l'extraction de vêtements à partir d'images de mode. Les méthodes sont validées sur la base de données publiques et se comparent favorablement aux autres méthodes selon toutes les mesures de performance considérées
The topic of the thesis is the extraction and segmentation of clothing items from still images using techniques from computer vision, machine learning and image description, in view of suggesting non intrusively to the users similar items from a database of retail products. We firstly propose a dedicated object extractor for dress segmentation by combining local information with a prior learning. A person detector is applied to localize sites in the image that are likely to contain the object. Then, an intra-image two-stage learning process is developed to roughly separate foreground pixels from the background. Finally, the object is finely segmented by employing an active contour algorithm that takes into account the previous segmentation and injects specific knowledge about local curvature in the energy function.We then propose a new framework for extracting general deformable clothing items by using a three stage global-local fitting procedure. A set of template initiates an object extraction process by a global alignment of the model, followed by a local search minimizing a measure of the misfit with respect to the potential boundaries in the neighborhood. The results provided by each template are aggregated, with a global fitting criterion, to obtain the final segmentation.In our latest work, we extend the output of a Fully Convolution Neural Network to infer context from local units(superpixels). To achieve this we optimize an energy function,that combines the large scale structure of the image with the locallow-level visual descriptions of superpixels, over the space of all possiblepixel labellings. In addition, we introduce a novel dataset called RichPicture, consisting of 1000 images for clothing extraction from fashion images.The methods are validated on the public database and compares favorably to the other methods according to all the performance measures considered
Los estilos APA, Harvard, Vancouver, ISO, etc.
46

Zhao, Xi. "3D face analysis : landmarking, expression recognition and beyond". Phd thesis, Ecole Centrale de Lyon, 2010. http://tel.archives-ouvertes.fr/tel-00599660.

Texto completo
Resumen
This Ph.D thesis work is dedicated to automatic facial analysis in 3D, including facial landmarking and facial expression recognition. Indeed, facial expression plays an important role both in verbal and non verbal communication, and in expressing emotions. Thus, automatic facial expression recognition has various purposes and applications and particularly is at the heart of "intelligent" human-centered human/computer(robot) interfaces. Meanwhile, automatic landmarking provides aprior knowledge on location of face landmarks, which is required by many face analysis methods such as face segmentation and feature extraction used for instance for expression recognition. The purpose of this thesis is thus to elaborate 3D landmarking and facial expression recognition approaches for finally proposing an automatic facial activity (facial expression and action unit) recognition solution.In this work, we have proposed a Bayesian Belief Network (BBN) for recognizing facial activities, such as facial expressions and facial action units. A StatisticalFacial feAture Model (SFAM) has also been designed to first automatically locateface landmarks so that a fully automatic facial expression recognition system can be formed by combining the SFAM and the BBN. The key contributions are the followings. First, we have proposed to build a morphable partial face model, named SFAM, based on Principle Component Analysis. This model allows to learn boththe global variations in face landmark configuration and the local ones in terms of texture and local geometry around each landmark. Various partial face instances can be generated from SFAM by varying model parameters. Secondly, we have developed a landmarking algorithm based on the minimization an objective function describing the correlation between model instances and query faces. Thirdly, we have designed a Bayesian Belief Network with a structure describing the casual relationships among subjects, expressions and facial features. Facial expression oraction units are modelled as the states of the expression node and are recognized by identifying the maximum of beliefs of all states. We have also proposed a novel method for BBN parameter inference using a statistical feature model that can beconsidered as an extension of SFAM. Finally, in order to enrich information usedfor 3D face analysis, and particularly 3D facial expression recognition, we have also elaborated a 3D face feature, named SGAND, to characterize the geometry property of a point on 3D face mesh using its surrounding points.The effectiveness of all these methods has been evaluated on FRGC, BU3DFEand Bosphorus datasets for facial landmarking as well as BU3DFE and Bosphorus datasets for facial activity (expression and action unit) recognition.
Los estilos APA, Harvard, Vancouver, ISO, etc.
47

Sivasankaran, Sunit. "Séparation de la parole guidée par la localisation". Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0078.

Texto completo
Resumen
Les assistants vocaux font partie de notre vie quotidienne. Leurs performances sont mises à l'épreuve en présence de distorsions du signal, telles que le bruit, la réverbération et les locuteurs simultanés. Cette thèse aborde le problème de l'extraction du signal d'intérêt dans de telles conditions acoustiques difficiles en localisant d'abord le locuteur cible puis en utilisant la position spatiale pour extraire le signal de parole correspondant. Dans un premier temps, nous considérons la situation courante où le locuteur cible prononce un mot ou une phrase connue, comme le mot de réveil d'un système de commande vocale mains-libres. Nous proposons une méthode afin d'exploiter cette information textuelle pour améliorer la localisation du locuteur en présence de locuteurs simultanés. La solution proposée utilise un système de reconnaissance vocale pour aligner le mot de réveil au signal vocal corrompu. Un spectre de référence représentant les phones alignés est utilisé pour calculer un identifiant qui est ensuite utilisé par un réseau de neurones profond pour localiser le locuteur cible. Les résultats sur des données simulées montrent que la méthode proposée réduit le taux d'erreur de localisation par rapport à la méthode classique GCC-PHAT. Des améliorations similaires sont constatées sur des données réelles. Étant donnée la position spatiale estimée du locuteur cible, la séparation de la parole est effectuée en trois étapes. Dans la première étape, une simple formation de voie delay-and-sum (DS) est utilisée pour rehausser le signal provenant de cette direction, qui est utilisé dans la deuxième étape par un réseau de neurones pour estimer un masque temps-fréquence. Ce masque est utilisé pour calculer les statistiques du second ordre et pour effectuer une formation de voie adaptative dans la troisième étape. Un ensemble de données réverbéré, bruité avec plusieurs canaux et plusieurs locuteurs --- inspiré du célèbre corpus WSJ0-2mix --- a été généré et la performance de la méthode proposée a été étudiée en terme du taux d'erreur sur les mots (WER). Pour rendre le système plus robuste aux erreurs de localisation, une approche par déflation guidée par la localisation (SLOGD) qui estime les sources de manière itérative est proposée. À chaque itération, la position spatiale d'un locuteur est estimée puis utilisée pour estimer un masque correspondant à ce même locuteur. La source estimée est retirée du mélange avant d'estimer la position et le masque de la source suivante. La méthode proposée surpasse Conv-TasNet. Enfin, le problème d'expliquer la robustesse des réseaux de neurones utilisés pour calculer les masques temps-fréquence à des conditions de bruit différentes. Nous utilisons la méthode dite SHAP pour quantifier la contribution de chaque point temps-fréquence du signal d'entrée au masque temps-fréquence estimé. Nous définissons une métrique qui résume les valeurs SHAP et montrons qu'elle est corrélée au WER obtenu sur la parole séparée. À notre connaissance, il s'agit de la première étude sur l'explicabilité des réseaux de neurones dans le contexte de la séparation de la parole
Voice based personal assistants are part of our daily lives. Their performance suffers in the presence of signal distortions, such as noise, reverberation, and competing speakers. This thesis addresses the problem of extracting the signal of interest in such challenging conditions by first localizing the target speaker and using the location to extract the target speech. In a first stage, a common situation is considered when the target speaker utters a known word or sentence such as the wake-up word of a distant-microphone voice command system. A method that exploits this text information in order to improve the speaker localization performance in the presence of competing speakers is proposed. The proposed solution uses a speech recognition system to align the wake-up word to the corrupted speech signal. A model spectrum representing the aligned phones is used to compute an identifier which is then used by a deep neural network to localize the target speaker. Results on simulated data show that the proposed method reduces the localization error rate compared to the classical GCC-PHAT method. Similar improvements are observed on real data. Given the estimated location of the target speaker, speech separation is performed in three stages. In the first stage, a simple delay-and-sum (DS) beamformer is used to enhance the signal impinging from that location which is then used in the second stage to estimate a time-frequency mask corresponding to the localized speaker using a neural network. This mask is used to compute the second-order statistics and to derive an adaptive beamformer in the third stage. A multichannel, multispeaker, reverberated, noisy dataset --- inspired from the famous WSJ0-2mix dataset --- was generated and the performance of the proposed pipeline was investigated in terms of the word error rate (WER). To make the system robust to localization errors, a Speaker LOcalization Guided Deflation (SLOGD) based approach which estimates the sources iteratively is proposed. At each iteration the location of one speaker is estimated and used to estimate a mask corresponding to that speaker. The estimated source is removed from the mixture before estimating the location and mask of the next source. The proposed method is shown to outperform Conv-TasNet. Finally, we consider the problem of explaining the robustness of neural networks used to compute time-frequency masks to mismatched noise conditions. We employ the so-called SHAP method to quantify the contribution of every time-frequency bin in the input signal to the estimated time-frequency mask. We define a metric that summarizes the SHAP values and show that it correlates with the WER achieved on separated speech. To the best of our knowledge, this is the first known study on neural network explainability in the context of speech separation
Los estilos APA, Harvard, Vancouver, ISO, etc.
48

Sahin, Serdar. "Advanced receivers for distributed cooperation in mobile ad hoc networks". Thesis, Toulouse, INPT, 2019. http://www.theses.fr/2019INPT0089.

Texto completo
Resumen
Les réseaux ad hoc mobiles (MANETs) sont des systèmes de communication sans fil rapidement déployables et qui fonctionnent avec une coordination minimale, ceci afin d'éviter les pertes d'efficacité spectrale induites par la signalisation. Les stratégies de transmissions coopératives présentent un intérêt pour les MANETs, mais la nature distribuée de tels protocoles peut augmenter le niveau d'interférence avec un impact autant plus sévère que l'on cherche à pousser les limites des efficacités énergétique et spectrale. L'impact de l'interférence doit alors être réduit par l'utilisation d'algorithmes de traitement du signal au niveau de la couche PHY, avec une complexité calculatoire raisonnable. Des avancées récentes sur les techniques de conception de récepteurs numériques itératifs proposent d'exploiter l'inférence bayésienne approximée et des techniques de passage de message associés afin d'améliorer le potentiel des turbo-détecteurs plus classiques. Entre autres, la propagation d'espérance (EP) est une technique flexible, qui offre des compromis attractifs de complexité et de performance dans des situations où la propagation de croyance conventionnel est limité par sa complexité calculatoire. Par ailleurs, grâce à des techniques émergentes de l'apprentissage profond, de telles structures itératives peuvent être projetés vers des réseaux de détection profonds, où l'apprentissage des hyper-paramètres algorithmiques améliore davantage les performances. Dans cette thèse nous proposons des égaliseurs à retour de décision à réponse impulsionnelle finie basée sur la propagation d'espérance (EP) qui apportent des améliorations significatives, en particulier pour des applications à haute efficacité spectrale vis à vis des turbo-détecteurs conventionnels, tout en ayant l'avantage d'être asymptotiquement prédictibles. Nous proposons un cadre générique pour la conception de récepteurs dans le domaine fréquentiel, afin d'obtenir des architectures de détection avec une faible complexité calculatoire. Cette approche est analysée théoriquement et numériquement, avec un accent mis sur l'égalisation des canaux sélectifs en fréquence, et avec des extensions pour de la détection dans des canaux qui varient dans le temps ou pour des systèmes multi-antennes. Nous explorons aussi la conception de détecteurs multi-utilisateurs, ainsi que l'impact de l'estimation du canal, afin de comprendre le potentiel et le limite de cette approche. Pour finir, nous proposons une méthode de prédiction performance à taille finie, afin de réaliser une abstraction de lien pour l'égaliseur domaine fréquentiel à base d'EP. L'impact d'un modélisation plus fine de la couche PHY est évalué dans le contexte de la diffusion coopérative pour des MANETs tactiques, grâce à un simulateur flexible de couche MAC
Mobile ad hoc networks (MANETs) are rapidly deployable wireless communications systems, operating with minimal coordination in order to avoid spectral efficiency losses caused by overhead. Cooperative transmission schemes are attractive for MANETs, but the distributed nature of such protocols comes with an increased level of interference, whose impact is further amplified by the need to push the limits of energy and spectral efficiency. Hence, the impact of interference has to be mitigated through with the use PHY layer signal processing algorithms with reasonable computational complexity. Recent advances in iterative digital receiver design techniques exploit approximate Bayesian inference and derivative message passing techniques to improve the capabilities of well-established turbo detectors. In particular, expectation propagation (EP) is a flexible technique which offers attractive complexity-performance trade-offs in situations where conventional belief propagation is limited by computational complexity. Moreover, thanks to emerging techniques in deep learning, such iterative structures are cast into deep detection networks, where learning the algorithmic hyper-parameters further improves receiver performance. In this thesis, EP-based finite-impulse response decision feedback equalizers are designed, and they achieve significant improvements, especially in high spectral efficiency applications, over more conventional turbo-equalization techniques, while having the advantage of being asymptotically predictable. A framework for designing frequency-domain EP-based receivers is proposed, in order to obtain detection architectures with low computational complexity. This framework is theoretically and numerically analysed with a focus on channel equalization, and then it is also extended to handle detection for time-varying channels and multiple-antenna systems. The design of multiple-user detectors and the impact of channel estimation are also explored to understand the capabilities and limits of this framework. Finally, a finite-length performance prediction method is presented for carrying out link abstraction for the EP-based frequency domain equalizer. The impact of accurate physical layer modelling is evaluated in the context of cooperative broadcasting in tactical MANETs, thanks to a flexible MAC-level simulator
Los estilos APA, Harvard, Vancouver, ISO, etc.
49

Wei, Wen. "Apprentissage automatique des altérations cérébrales causées par la sclérose en plaques en neuro-imagerie multimodale". Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4021.

Texto completo
Resumen
La sclérose en plaques (SEP) est la maladie neurologique évolutive la plus courante chez les jeunes adultes dans le monde et représente donc un problème de santé publique majeur avec environ 90 000 patients en France et plus de 500 000 personnes atteintes de SEP en Europe. Afin d'optimiser les traitements, il est essentiel de pouvoir mesurer et suivre les altérations cérébrales chez les patients atteints de SEP. En fait, la SEP est une maladie aux multiples facettes qui implique différents types d'altérations, telles que les dommages et la réparation de la myéline. Selon cette observation, la neuroimagerie multimodale est nécessaire pour caractériser pleinement la maladie. L'imagerie par résonance magnétique (IRM) est devenue un biomarqueur d'imagerie fondamental pour la sclérose en plaques en raison de sa haute sensibilité à révéler des anomalies tissulaires macroscopiques chez les patients atteints de SEP. L'IRM conventionnelle fournit un moyen direct de détecter les lésions de SEP et leurs changements, et joue un rôle dominant dans les critères diagnostiques de la SEP. De plus, l'imagerie par tomographie par émission de positons (TEP), une autre modalité d'imagerie, peut fournir des informations fonctionnelles et détecter les changements tissulaires cibles au niveau cellulaire et moléculaire en utilisant divers radiotraceurs. Par exemple, en utilisant le radiotraceur [11C]PIB, la TEP permet une mesure pathologique directe de l'altération de la myéline. Cependant, en milieu clinique, toutes les modalités ne sont pas disponibles pour diverses raisons. Dans cette thèse, nous nous concentrons donc sur l'apprentissage et la prédiction des altérations cérébrales dérivées des modalités manquantes dans la SEP à partir de données de neuroimagerie multimodale
Multiple Sclerosis (MS) is the most common progressive neurological disease of young adults worldwide and thus represents a major public health issue with about 90,000 patients in France and more than 500,000 people affected with MS in Europe. In order to optimize treatments, it is essential to be able to measure and track brain alterations in MS patients. In fact, MS is a multi-faceted disease which involves different types of alterations, such as myelin damage and repair. Under this observation, multimodal neuroimaging are needed to fully characterize the disease. Magnetic resonance imaging (MRI) has emerged as a fundamental imaging biomarker for multiple sclerosis because of its high sensitivity to reveal macroscopic tissue abnormalities in patients with MS. Conventional MR scanning provides a direct way to detect MS lesions and their changes, and plays a dominant role in the diagnostic criteria of MS. Moreover, positron emission tomography (PET) imaging, an alternative imaging modality, can provide functional information and detect target tissue changes at the cellular and molecular level by using various radiotracers. For example, by using the radiotracer [11C]PIB, PET allows a direct pathological measure of myelin alteration. However, in clinical settings, not all the modalities are available because of various reasons. In this thesis, we therefore focus on learning and predicting missing-modality-derived brain alterations in MS from multimodal neuroimaging data
Los estilos APA, Harvard, Vancouver, ISO, etc.
50

Ghrissi, Amina. "Ablation par catheter de fibrillation atriale persistante guidée par dispersion spatiotemporelle d’électrogrammes : Identification automatique basée sur l’apprentissage statistique". Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4026.

Texto completo
Resumen
La fibrillation atriale (FA) est l’arythmie cardiaque soutenue la plus fréquemment rencontrée dans la pratique clinique. Pour la traiter, l’ablation par cathéter de zones cardiaques jugées responsables de soutenir l’arythmie est devenue la thérapie la plus utilisée. Un nouveau protocole d’ablation se base sur l’identification des zones atriales où les électrogrammes (EGM) enregistrés à l’aide d’un cathéter à électrodes multiples, appelé PentaRay, manifestent des décalages spatiotemporels significatifs sur plusieurs voies adjacentes. Ce phénomène est appelé dispersion spatio-temporelle (DST). L’intervention devient ainsi plus adaptée aux spécificités de chaque patient et elle atteint un taux de succès procédural de 95%. Cependant, à l’heure actuelle les zones de DST sont identifiées de manière visuelle par le spécialiste pratiquant l’ablation. Cette thèse vise à identifier automatiquement les sites potentiels d’ablation basée sur la DST à l’aide de techniques d’apprentissage statistique et notamment d’apprentissage profond adaptées. Dans la première partie, les enregistrements EGM sont classés par catégorie en DST vs. non-DST. Cependant, le rapport très déséquilibré entre les données issues des deux classes dégrade les résultats de classification. Nous abordons ce problème en utilisant des techniques d’augmentation de données adaptées à la problématique médicale et qui permettent d’obtenir de bons taux de classification. La performance globale s’élève ainsi atteignant des valeurs de précision et d’aire sous la courbe ROC autour de 90%. Deux approches sont ensuite comparées, l’ingénierie des caractéristiques et l’extraction automatique de ces caractéristiques par apprentissage statistique à partir d’une série temporelle, appelée valeur absolue de tension maximale aux branches du PentRay (VAVp). Les résultats montrent que la classification supervisée de VAVp est prometteuse avec des valeurs de précision, sensibilité et spécificité autour de 90%. Ensuite, la classification des enregistrements EGM bruts est effectuée à l’aide de plusieurs outils d’apprentissage statistique. Une première approche consiste à étudier les circuits arithmétiques à convolution pour leur intérêt théorique prometteur, mais les expériences sur des données synthétiques sont infructueuses. Enfin, nous investiguons des outils d’apprentissage supervisé plus conventionnels comme les réseaux de neurones convolutifs (RNC). Nous concevons une sélection de représentation des données adaptées à différents algorithmes de classification. Ces modèles sont ensuite évalués en termes de performance et coût de calcul. L’apprentissage profond par transfert est aussi étudié. La meilleure performance est obtenue avec un RNC peu profond pour la classification des matrices EGM brutes, atteignant 94% de précision et d’aire sous la courbe ROC en plus d’un score F1 de 60%. Dans la deuxième partie, les enregistrements EGM acquis pendant la cartographie sont étiquetés ablatés vs. non-ablatés en fonction de leur proximité par rapport aux sites d’ablation, puis classés dans les mêmes catégories. Les annotations de dispersion sont aussi prises en compte comme une probabilité à priori dans la classification. La meilleure performance représente un score F1 de 76%. L’agrégation de l’étiquette DST ne permet pas d’améliorer les performances du modèle. Globalement, ce travail fait partie des premières tentatives d’application de l’analyse statistique et d’outils d’apprentissage pour l’identification automatique et réussie des zones d’ablation en se basant sur la DST. En fournissant aux cardiologues interventionnels un outil intelligent, objectif et déployé en temps réel qui permet la caractérisation de la dispersion spatiotemporelle, notre solution permet d’améliorer potentiellement l’efficacité de la thérapie personnalisée d’ablation par cathéter de la FA persistante
Catheter ablation is increasingly used to treat atrial fibrillation (AF), the most common sustained cardiac arrhythmia encountered in clinical practice. A recent patient-tailored AF ablation therapy, giving 95% of procedural success rate, is based on the use of a multipolar mapping catheter called PentaRay. It targets areas of spatiotemporal dispersion (STD) in the atria as potential AF drivers. STD stands for a delay of the cardiac activation observed in intracardiac electrograms (EGMs) across contiguous leads.In practice, interventional cardiologists localize STD sites visually using the PentaRay multipolar mapping catheter. This thesis aims to automatically characterize and identify ablation sites in STD-based ablation of persistent AF using machine learning (ML) including deep learning (DL) techniques. In the first part, EGM recordings are classified into STD vs. non-STD groups. However, highly imbalanced dataset ratio hampers the classification performance. We tackle this issue by using adapted data augmentation techniques that help achieve good classification. The overall performance is high with values of accuracy and AUC around 90%. First, two approaches are benchmarked, feature engineering and automatic feature extraction from a time series, called maximal voltage absolute values at any of the bipoles (VAVp). Statistical features are extracted and fed to ML classifiers but no important dissimilarity is obtained between STD and non-STD categories. Results show that the supervised classification of raw VAVp time series itself into the same categories is promising with values of accuracy, AUC, sensi-tivity and specificity around 90%. Second, the classification of raw multichannel EGM recordings is performed. Shallow convolutional arithmetic circuits are investigated for their promising theoretical interest but experimental results on synthetic data are unsuccessful. Then, we move forward to more conventional supervised ML tools. We design a selection of data representations adapted to different ML and DL models, and benchmark their performance in terms of classification and computational cost. Transfer learning is also assessed. The best performance is achieved with a convolutional neural network (CNN) model for classifying raw EGM matrices. The average performance over cross-validation reaches 94% of accuracy and AUC added to an F1-score of 60%. In the second part, EGM recordings acquired during mapping are labeled ablated vs. non-ablated according to their proximity to the ablation sites then classified into the same categories. STD labels, previously defined by interventional cardiologists at the ablation procedure, are also aggregated as a prior probability in the classification task.Classification results on the test set show that a shallow CNN gives the best performance with an F1-score of 76%. Aggregating STD label does not help improve the model’s performance. Overall, this work is among the first attempts at the application of statistical analysis and ML tools to automatically identify successful ablation areas in STD-based ablation. By providing interventional cardiologists with a real-time objective measure of STD, the proposed solution offers the potential to improve the efficiency and effectiveness of this fully patient-tailored catheter ablation approach for treating persistent AF
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía