Добірка наукової літератури з теми "GAN, Réseaux antagonistes génératifs"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "GAN, Réseaux antagonistes génératifs".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Статті в журналах з теми "GAN, Réseaux antagonistes génératifs"

1

Renucci, Franck, Benoît Le Blanc, and David Galli. "Communication et études de l’IA : mémoire du futur." Le design de l’« intelligence artificielle » à l’épreuve du vivant 9, no. 1 (June 2, 2020). http://dx.doi.org/10.25965/interfaces-numeriques.4088.

Повний текст джерела
Анотація:
Pour aborder la question de la mémoire du futur, ce texte se centre sur un récit de vie que nous avons recueilli auprès de Grégory Chatonsky, artiste dont la production est fortement imprégnée par les outils d’intelligence artificielle. Parmi ces outils, les réseaux génératifs antagonistes (GAN) posent des questions cruciales sur la créativité, sur l’imagination, sur le temps, sur le vivant et l’artificiel et sur l’œuvre d’art dans son ensemble.
Стилі APA, Harvard, Vancouver, ISO та ін.

Дисертації з теми "GAN, Réseaux antagonistes génératifs"

1

Rana, Aakanksha. "Analyse d'images haute gamme dynamique." Electronic Thesis or Diss., Paris, ENST, 2018. http://www.theses.fr/2018ENST0015.

Повний текст джерела
Анотація:
L'imagerie HDR (High Dynamic Range) permet de capturer une gamme dynamique plus larges, nous permettant ainsi de tirer parti de détails subtils, mais différenciés, présents à la fois dans les zones extrêmement sombres et lumineuses d'une scène. Ces propriétés présentent un intérêt potentiel pour les algorithmes de vision par ordinateur où la performance peut se dégrader considérablement en présence de changements d’illumination lorsque les scènes acquises sont à l'aide d'images traditionnelles à faible gamme dynamique (LDR). Dans cette thèse, nous présentons des aspects quantitatifs et qualitatifs de l'analyse d'images HDR pour des algorithmes de vision par ordinateur.Cette thèse débute par l'identification des questions les plus importantes concernant l'utilisation de contenus HDR pour la tâche d'extraction des caractéristiques de bas niveau, qui est d'une importance fondamentale pour de nombreuses applications. En réalisant une évaluation de la performance, nous démontrons comment les différentes techniques basées sur le HDR améliorent la performance par rapport au LDR. Cependant, nous constatons qu'aucune ne peut le faire de manière optimale pour toutes les scènes. Pour étudier cette question, nous examinons l'importance des objectifs propres à chaque tâche, et concevons des opérateurs de mise en correspondance tonale (tone mapping operator-TMO) spécifiques.Dans cette thèse, nous proposons trois méthodologies basées sur l'apprentissage visant le TMO optimal du contenu HDR pour améliorer l'efficacité de l'extraction des caractéristiques locales à chaqueétape, à savoir détection, description et appariement final
High Dynamic Range (HDR) imaging enables to capture a wider dynamic range and color gamut, thus enabling us to draw on subtle, yet discriminating details present both in the extremely dark and bright areas of a scene. Such property is of potential interest for computer vision algorithms where performance degrades substantially when the scenes are captured using traditional low dynamic range (LDR) imagery. While such algorithms have been exhaustively designed using traditional LDR images, little work has been done so far in contex of HDR content. In this thesis, we present the quantitative and qualitative analysis of HDR imagery for such task-specific algorithms. This thesis begins by identifying the most natural and important questions of using HDR content for low-level feature extraction task, which is of fundamental importance for many high-level applications such as stereo vision, localization, matching and retrieval. By conducting a performance evaluation study, we demonstrate how different HDR-based modalities enhance algorithms performance with respect to LDR on a proposed dataset. However, we observe that none of them can optimally to do so across all the scenes. To examine this sub-optimality, we investigate the importance of task-specific objectives for designing optimal modalities through an experimental study. Based on the insights, we attempt to surpass this sub-optimality by designing task-specific HDR tone-mapping operators (TMOs). In this thesis, we propose three learning based methodologies aimed at optimal mapping of HDR content to enhance the efficiency of local features extraction at each stage namely, detection, description and final matching
Стилі APA, Harvard, Vancouver, ISO та ін.
2

Shahid, Mustafizur Rahman. "Deep learning for Internet of Things (IoT) network security." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAS003.

Повний текст джерела
Анотація:
L’internet des objets (IoT) introduit de nouveaux défis pour la sécurité des réseaux. La plupart des objets IoT sont vulnérables en raison d'un manque de sensibilisation à la sécurité des fabricants d'appareils et des utilisateurs. En conséquence, ces objets sont devenus des cibles privilégiées pour les développeurs de malware qui veulent les transformer en bots. Contrairement à un ordinateur de bureau, un objet IoT est conçu pour accomplir des tâches spécifiques. Son comportement réseau est donc très stable et prévisible, ce qui le rend bien adapté aux techniques d'analyse de données. Ainsi, la première partie de cette thèse tire profit des algorithmes de deep learning pour développer des outils de surveillance des réseaux IoT. Deux types d'outils sont explorés: les systèmes de reconnaissance de type d’objets IoT et les systèmes de détection d'intrusion réseau IoT. Pour la reconnaissance des types d’objets IoT, des algorithmes d'apprentissage supervisé sont entrainés pour classifier le trafic réseau et déterminer à quel objet IoT le trafic appartient. Le système de détection d'intrusion consiste en un ensemble d'autoencoders, chacun étant entrainé pour un type d’objet IoT différent. Les autoencoders apprennent le profil du comportement réseau légitime et détectent tout écart par rapport à celui-ci. Les résultats expérimentaux en utilisant des données réseau produites par une maison connectée montrent que les modèles proposés atteignent des performances élevées. Malgré des résultats préliminaires prometteurs, l’entraînement et l'évaluation des modèles basés sur le machine learning nécessitent une quantité importante de données réseau IoT. Or, très peu de jeux de données de trafic réseau IoT sont accessibles au public. Le déploiement physique de milliers d’objets IoT réels peut être très coûteux et peut poser problème quant au respect de la vie privée. Ainsi, dans la deuxième partie de cette thèse, nous proposons d'exploiter des GAN (Generative Adversarial Networks) pour générer des flux bidirectionnels qui ressemblent à ceux produits par un véritable objet IoT. Un flux bidirectionnel est représenté par la séquence des tailles de paquets ainsi que de la durée du flux. Par conséquent, en plus de générer des caractéristiques au niveau des paquets, tel que la taille de chaque paquet, notre générateur apprend implicitement à se conformer aux caractéristiques au niveau du flux, comme le nombre total de paquets et d'octets dans un flux ou sa durée totale. Des résultats expérimentaux utilisant des données produites par un haut-parleur intelligent montrent que notre méthode permet de générer des flux bidirectionnels synthétiques réalistes et de haute qualité
The growing Internet of Things (IoT) introduces new security challenges for network activity monitoring. Most IoT devices are vulnerable because of a lack of security awareness from device manufacturers and end users. As a consequence, they have become prime targets for malware developers who want to turn them into bots. Contrary to general-purpose devices, an IoT device is designed to perform very specific tasks. Hence, its networking behavior is very stable and predictable making it well suited for data analysis techniques. Therefore, the first part of this thesis focuses on leveraging recent advances in the field of deep learning to develop network monitoring tools for the IoT. Two types of network monitoring tools are explored: IoT device type recognition systems and IoT network Intrusion Detection Systems (NIDS). For IoT device type recognition, supervised machine learning algorithms are trained to perform network traffic classification and determine what IoT device the traffic belongs to. The IoT NIDS consists of a set of autoencoders, each trained for a different IoT device type. The autoencoders learn the legitimate networking behavior profile and detect any deviation from it. Experiments using network traffic data produced by a smart home show that the proposed models achieve high performance.Despite yielding promising results, training and testing machine learning based network monitoring systems requires tremendous amount of IoT network traffic data. But, very few IoT network traffic datasets are publicly available. Physically operating thousands of real IoT devices can be very costly and can rise privacy concerns. In the second part of this thesis, we propose to leverage Generative Adversarial Networks (GAN) to generate bidirectional flows that look like they were produced by a real IoT device. A bidirectional flow consists of the sequence of the sizes of individual packets along with a duration. Hence, in addition to generating packet-level features which are the sizes of individual packets, our developed generator implicitly learns to comply with flow-level characteristics, such as the total number of packets and bytes in a bidirectional flow or the total duration of the flow. Experimental results using data produced by a smart speaker show that our method allows us to generate high quality and realistic looking synthetic bidirectional flows
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Wei, Wen. "Apprentissage automatique des altérations cérébrales causées par la sclérose en plaques en neuro-imagerie multimodale." Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4021.

Повний текст джерела
Анотація:
La sclérose en plaques (SEP) est la maladie neurologique évolutive la plus courante chez les jeunes adultes dans le monde et représente donc un problème de santé publique majeur avec environ 90 000 patients en France et plus de 500 000 personnes atteintes de SEP en Europe. Afin d'optimiser les traitements, il est essentiel de pouvoir mesurer et suivre les altérations cérébrales chez les patients atteints de SEP. En fait, la SEP est une maladie aux multiples facettes qui implique différents types d'altérations, telles que les dommages et la réparation de la myéline. Selon cette observation, la neuroimagerie multimodale est nécessaire pour caractériser pleinement la maladie. L'imagerie par résonance magnétique (IRM) est devenue un biomarqueur d'imagerie fondamental pour la sclérose en plaques en raison de sa haute sensibilité à révéler des anomalies tissulaires macroscopiques chez les patients atteints de SEP. L'IRM conventionnelle fournit un moyen direct de détecter les lésions de SEP et leurs changements, et joue un rôle dominant dans les critères diagnostiques de la SEP. De plus, l'imagerie par tomographie par émission de positons (TEP), une autre modalité d'imagerie, peut fournir des informations fonctionnelles et détecter les changements tissulaires cibles au niveau cellulaire et moléculaire en utilisant divers radiotraceurs. Par exemple, en utilisant le radiotraceur [11C]PIB, la TEP permet une mesure pathologique directe de l'altération de la myéline. Cependant, en milieu clinique, toutes les modalités ne sont pas disponibles pour diverses raisons. Dans cette thèse, nous nous concentrons donc sur l'apprentissage et la prédiction des altérations cérébrales dérivées des modalités manquantes dans la SEP à partir de données de neuroimagerie multimodale
Multiple Sclerosis (MS) is the most common progressive neurological disease of young adults worldwide and thus represents a major public health issue with about 90,000 patients in France and more than 500,000 people affected with MS in Europe. In order to optimize treatments, it is essential to be able to measure and track brain alterations in MS patients. In fact, MS is a multi-faceted disease which involves different types of alterations, such as myelin damage and repair. Under this observation, multimodal neuroimaging are needed to fully characterize the disease. Magnetic resonance imaging (MRI) has emerged as a fundamental imaging biomarker for multiple sclerosis because of its high sensitivity to reveal macroscopic tissue abnormalities in patients with MS. Conventional MR scanning provides a direct way to detect MS lesions and their changes, and plays a dominant role in the diagnostic criteria of MS. Moreover, positron emission tomography (PET) imaging, an alternative imaging modality, can provide functional information and detect target tissue changes at the cellular and molecular level by using various radiotracers. For example, by using the radiotracer [11C]PIB, PET allows a direct pathological measure of myelin alteration. However, in clinical settings, not all the modalities are available because of various reasons. In this thesis, we therefore focus on learning and predicting missing-modality-derived brain alterations in MS from multimodal neuroimaging data
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Wang, Yaohui. "Apprendre à générer des vidéos de personnes." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4116.

Повний текст джерела
Анотація:
Les réseaux antagonistes génératifs (GAN) ont suscité une attention croissante en raison de leurs capacités à modéliser des distributions de données visuelles complexes, ce qui leur permet de générer et de traduire des images réalistes. Bien que la génération de vidéos réalistes soit la suite naturelle, elle est nettement plus difficile en ce qui concerne leur complexité et leur calcul, associés à la modélisation simultanée de l'apparence, ainsi que du mouvement de la personne dans la vidéo. Plus précisément, en inférant et en modélisant la distribution de vidéos, les modèles génératifs sont confrontés à trois défis principaux : (a) générer un nouveau mouvement et conserver l'apparence de la personne, (b) modéliser la cohérence spatio-temporelle, ainsi que (c) comprendre la représentation latente de la vidéo.Dans cette thèse, nous proposons un certain nombre d'approches novatrices pour générer des vidéos de haute qualité visuelle et interpréter l'espace latent de la représentation de la vidéo dans ces modèles génératifs. Nous introduisons tout d'abord une méthode, qui apprend à générer conditionnellement des vidéos basées sur une seule image en entrée. Notre modèle proposé permet une génération de vidéo contrôlable en fournissant diverses catégories de mouvement. Deuxièmement, nous présentons un modèle, qui est capable de produire des vidéos à partir de vecteurs de bruit en dissociant l'apparence et le mouvement dans l'espace latent. Nous démontrons que les deux facteurs peuvent être manipulés de manière conditionnelle et inconditionnelle. Troisièmement, nous introduisons un modèle génératif inconditionnel de vidéos qui permet l'interprétation de l'espace latent. Nous mettons l'accent sur l'interprétation et la manipulation du mouvement. Nous montrons que la méthode proposée est capable de découvrir des représentations du mouvement sémantiquement significatives, qui à leur tour permettent le contrôle des vidéos générées. Enfin, nous décrivons une nouvelle approche pour combiner la modélisation générative avec l'apprentissage contrastif pour la réidentification de personnes en mode non supervisé. Nous exploitons les données générées en tant qu'augmentation de données et montrons que ces données peuvent améliorer la précision de la ré-identification
Generative Adversarial Networks (GANs) have witnessed increasing attention due to their abilities to model complex visual data distributions, which allow them to generate and translate realistic images. While realistic \textit{video generation} is the natural sequel, it is substantially more challenging w.r.t. complexity and computation, associated to the simultaneous modeling of appearance, as well as motion. Specifically, in inferring and modeling the distribution of human videos, generative models face three main challenges: (a) generating uncertain motion and retaining of human appearance, (b) modeling spatio-temporal consistency, as well as (c) understanding of latent representation. In this thesis, we propose three novel approaches towards generating high-visual quality videos and interpreting latent space in video generative models. We firstly introduce a method, which learns to conditionally generate videos based on single input images. Our proposed model allows for controllable video generation by providing various motion categories. Secondly, we present a model, which is able to produce videos from noise vectors by disentangling the latent space into appearance and motion. We demonstrate that both factors can be manipulated in both, conditional and unconditional manners. Thirdly, we introduce an unconditional video generative model that allows for interpretation of the latent space. We place emphasis on the interpretation and manipulation of motion. We show that our proposed method is able to discover semantically meaningful motion representations, which in turn allow for control in generated results. Finally, we describe a novel approach to combine generative modeling with contrastive learning for unsupervised person re-identification. Specifically, we leverage generated data as data augmentation and show that such data can boost re-identification accuracy
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Yedroudj, Mehdi. "Steganalysis and steganography by deep learning." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS095.

Повний текст джерела
Анотація:
La stéganographie d'image est l'art de la communication secrète dans le but d'échanger un message de manière furtive. La stéganalyse d'image a elle pour objectif de détecter la présence d'un message caché en recherchant les artefacts présent dans l'image. Pendant une dizaine d'années, l'approche classique en stéganalyse a été d'utiliser un ensemble classifieur alimenté par des caractéristiques extraites "à la main". Au cours des dernières années, plusieurs études ont montré que les réseaux de neurones convolutionnels peuvent atteindre des performances supérieures à celles des approches conventionnelles d'apprentissage machine.Le sujet de cette thèse traite des techniques d'apprentissage profond utilisées pour la stéganographie d'images et la stéganalyse dans le domaine spatial.La première contribution est un réseau de neurones convolutionnel rapide et efficace pour la stéganalyse, nommé Yedroudj-Net. Comparé aux méthodes modernes de steganalyse basées sur l'apprentissage profond, Yedroudj-Net permet d'obtenir des résultats de détection performants, mais prend également moins de temps à converger, ce qui permet l'utilisation des bases d'apprentissage de grandes dimensions. De plus, Yedroudj-Net peut facilement être amélioré en ajoutant des compléments ou des modules bien connus. Parmi les amélioration possibles, nous avons évalué l'augmentation de la base de données d'entraînement, et l'utilisation d'un ensemble de CNN. Les deux modules complémentaires permettent d'améliorer les performances de notre réseau.La deuxième contribution est l'application des techniques d'apprentissage profond à des fins stéganographiques i.e pour l'insertion. Parmi les techniques existantes, nous nous concentrons sur l'approche du "jeu-à-3-joueurs". Nous proposons un algorithme d'insertion qui apprend automatiquement à insérer un message secrètement. Le système de stéganographie que nous proposons est basé sur l'utilisation de réseaux adverses génératifs. L'entraînement de ce système stéganographique se fait à l'aide de trois réseaux de neurones qui se font concurrence : le stéganographeur, l'extracteur et le stéganalyseur. Pour le stéganalyseur nous utilisons Yedroudj-Net, pour sa petite taille, et le faite que son entraînement ne nécessite pas l'utilisation d'astuces qui pourrait augmenter le temps de calcul.Cette deuxième contribution donne des premiers éléments de réflexion tout en donnant des résultats prometteurs, et pose ainsi les bases pour de futurs recherches
Image steganography is the art of secret communication in order to exchange a secret message. In the other hand, image steganalysis attempts to detect the presence of a hidden message by searching artefacts within an image. For about ten years, the classic approach for steganalysis was to use an Ensemble Classifier fed by hand-crafted features. In recent years, studies have shown that well-designed convolutional neural networks (CNNs) can achieve superior performance compared to conventional machine-learning approaches.The subject of this thesis deals with the use of deep learning techniques for image steganography and steganalysis in the spatialdomain.The first contribution is a fast and very effective convolutional neural network for steganalysis, named Yedroudj-Net. Compared tomodern deep learning based steganalysis methods, Yedroudj-Net can achieve state-of-the-art detection results, but also takes less time to converge, allowing the use of a large training set. Moreover,Yedroudj-Net can easily be improved by using well known add-ons. Among these add-ons, we have evaluated the data augmentation, and the the use of an ensemble of CNN; Both increase our CNN performances.The second contribution is the application of deep learning techniques for steganography i.e the embedding. Among the existing techniques, we focus on the 3-player game approach.We propose an embedding algorithm that automatically learns how to hide a message secretly. Our proposed steganography system is based on the use of generative adversarial networks. The training of this steganographic system is conducted using three neural networks that compete against each other: the embedder, the extractor, and the steganalyzer. For the steganalyzer we use Yedroudj-Net, this for its affordable size, and for the fact that its training does not require the use of any tricks that could increase the computational time.This second contribution defines a research direction, by giving first reflection elements while giving promising first results
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Pagliarini, Silvia. "Modeling the neural network responsible for song learning." Thesis, Bordeaux, 2021. http://www.theses.fr/2021BORD0107.

Повний текст джерела
Анотація:
Pendant la première période de leur vie, les bébés et les jeunes oiseaux présentent des phases de développement vocal comparables : ils écoutent d'abord leurs parents/tuteurs afin de construire une représentation neurale du stimulus auditif perçu, puis ils commencent à produire des sons qui se rapprochent progressivement du chant de leur tuteur. Cette phase d'apprentissage est appelée la phase sensorimotrice et se caractérise par la présence de babillage. Elle se termine lorsque le chant se cristallise, c'est-à-dire lorsqu'il devient semblable à celui produit par les adultes.Il y a des similitudes entre les voies cérébrales responsables de l'apprentissage sensorimoteur chez l'homme et chez les oiseaux. Dans les deux cas, une voie s’occupe de la production vocale et implique des projections directes des zones auditives vers les zones motrices, et une autre voie s’occupe de l’apprentissage vocal, de l'imitation et de la plasticité.Chez les oiseaux, ces circuits cérébraux sont exclusivement dédiés à l'apprentissage du chant, ce qui en fait un modèle idéal pour explorer les mécanismes neuronaux de l’apprentissage vocal par imitation.Cette thèse vise à construire un modèle de l'apprentissage du chant des oiseaux par imitation. De nombreuses études antérieures ont tenté de mettre en œuvre l'apprentissage par imitation dans des modèles informatiques et partagent une structure commune. Ces modèles comprennent des mécanismes d'apprentissage et, éventuellement, des stratégies d'exploration et d'évaluation.Dans ces modèles, une fonction de contrôle moteur permet la production de sons et une réponse sensorielle modélise soit la façon dont le son est perçu, soit la façon dont il façonne la récompense. Les entrées et les sorties de ces fonctions sont dans plusieurs espaces: l'espace moteur (paramètres moteurs), l'espace sensoriel (sons réels), l'espace perceptif (représentation à faible dimension du son) ou l’espace des objectifs (représentation non perceptive du son cible).Le premier modèle proposé est un modèle théorique inverse basé sur un modèle d'apprentissage vocal simplifié où l'espace sensoriel coïncide avec l'espace moteur (c'est-à-dire qu'il n'y a pas de production sonore). Une telle simplification permet d'étudier comment introduire des hypothèses biologiques (par exemple, une réponse non linéaire) dans un modèle d'apprentissage vocal et quels sont les paramètres qui influencent le plus la puissance de calcul du modèle.Afin de disposer d'un modèle complet (capable de percevoir et de produire des sons), nous avions besoin d'une fonction de contrôle moteur capable de reproduire des sons similaires à des données réelles. Nous avons analysé la capacité de WaveGAN (un réseau de génération) à produire des chants de canari réalistes. Dans ce modèle, l'espace d'entrée devient l'espace latent après l'entraînement et permet la représentation d'un ensemble de données à haute dimension dans une variété à plus basse dimension. Nous avons obtenu des chants de canari réalistes en utilisant seulement trois dimensions pour l'espace latent. Des analyses quantitatives et qualitatives démontrent les capacités d'interpolation du modèle, ce qui suggère que le modèle peut être utilisé comme fonction motrice dans un modèle d'apprentissage vocal.La deuxième version du modèle est un modèle d'apprentissage vocal complet avec une boucle action-perception complète (il comprend l'espace moteur, l'espace sensoriel et l'espace perceptif). La production sonore est réalisée par le générateur GAN obtenu précédemment. Un réseau neuronal récurrent classant les syllabes sert de réponse sensorielle perceptive. La correspondance entre l'espace perceptuel et l'espace moteur est apprise par un modèle inverse. Les résultats préliminaires montrent l'impact du taux d'apprentissage lorsque différentes fonctions de réponse sensorielle sont mises en œuvre
During the first period of their life, babies and juvenile birds show comparable phases of vocal development: first, they listen to their parents/tutors in order to build a neural representation of the experienced auditory stimulus, then they start to produce sound and progressively get closer to reproducing their tutor song. This phase of learning is called the sensorimotor phase and is characterized by the presence of babbling, in babies, and subsong, in birds. It ends when the song crystallizes and becomes similar to the one produced by the adults.It is possible to find analogies between brain pathways responsible for sensorimotor learning in humans and birds: a vocal production pathway involves direct projections from auditory areas to motor neurons, and a vocal learning pathway is responsible for imitation and plasticity. The behavioral studies and the neuroanatomical structure of the vocal control circuit in humans and birds provide the basis for bio-inspired models of vocal learning.In particular, birds have brain circuits exclusively dedicated to song learning, making them an ideal model for exploring the representation of vocal learning by imitation of tutors.This thesis aims to build a vocal learning model underlying song learning in birds. An extensive review of the existing literature is discussed in the thesis: many previous studies have attempted to implement imitative learning in computational models and share a common structure. These learning architectures include the learning mechanisms and, eventually, exploration and evaluation strategies. A motor control function enables sound production and sensory response models either how sound is perceived or how it shapes the reward. The inputs and outputs of these functions lie (1)~in the motor space (motor parameters’ space), (2)~in the sensory space (real sounds) and (3)~either in the perceptual space (a low dimensional representation of the sound) or in the internal representation of goals (a non-perceptual representation of the target sound).The first model proposed in this thesis is a theoretical inverse model based on a simplified vocal learning model where the sensory space coincides with the motor space (i.e., there is no sound production). Such a simplification allows us to investigate how to introduce biological assumptions (e.g. non-linearity response) into a vocal learning model and which parameters influence the computational power of the model the most. The influence of the sharpness of auditory selectivity and the motor dimension are discussed.To have a complete model (which is able to perceive and produce sound), we needed a motor control function capable of reproducing sounds similar to real data (e.g. recordings of adult canaries). We analyzed the capability of WaveGAN (a Generative Adversarial Network) to provide a generator model able to produce realistic canary songs. In this generator model, the input space becomes the latent space after training and allows the representation of a high-dimensional dataset in a lower-dimensional manifold. We obtained realistic canary sounds using only three dimensions for the latent space. Among other results, quantitative and qualitative analyses demonstrate the interpolation abilities of the model, which suggests that the generator model we studied can be used as a motor function in a vocal learning model.The second version of the sensorimotor model is a complete vocal learning model with a full action-perception loop (i.e., it includes motor space, sensory space, and perceptual space). The sound production is performed by the GAN generator previously obtained. A recurrent neural network classifying syllables serves as the perceptual sensory response. Similar to the first model, the mapping between the perceptual space and the motor space is learned via an inverse model. Preliminary results show the influence of the learning rate when different sensory response functions are implemented
Стилі APA, Harvard, Vancouver, ISO та ін.
7

Hamis, Sébastien. "Compression de contenus visuels pour transmission mobile sur réseaux de très bas débit." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAS020.

Повний текст джерела
Анотація:
Le domaine de la compression de contenus visuels (image, vidéo, éléments graphiques 2D/3D) a connu, depuis maintenant plus de vingt ans, un essor considérable avec l’émergence notamment au fil des années de nombreuses normes internationales comme JPEG, JPEG2000 pour les images fixes ou les différentes versions de standards MPEG-1/2/4 pour les données vidéo et graphiques.L’apparition des smartphones et l’explosion des applications qui leur sont dédiées a également bénéficié de ces avancées, l’image étant aujourd’hui omniprésente dans un contexte de mobilité/itinérance. Néanmoins, cela nécessite toujours des réseaux fiables et disponibles, offrant un débit suffisant pour la transmission effective de ces données visuelles qui sont intrinsèquement gourmandes en bande passante. Si aujourd’hui les pays développés bénéficient de réseaux mobiles (3G, 4G…) hautement performantes, cela n’est pas le cas d’un certain nombre de régions du monde, en particulier dans les pays émergents, où les communications s’appuient encore sur des réseaux 2G SMS. Transmettre de contenus visuels dans un tel contexte devient un défi ambitieux, qui nécessite la mise en œuvre de nouveaux algorithmes de compression. Le défi à relever consiste à assurer une transmission des images sur une bande passante correspondant à un ensemble relativement réduit (10 à 20) de SMS (140 octets par SMS).Pour répondre à ces contraintes, de multiples pistes de développement ont été envisagées. Après un état de l’art des techniques de compression traditionnelles et de leurs améliorations futures, nous avons finalement orienté nos travaux vers des méthodes de deep learning, visant à réaliser des post-traitements pour améliorer la qualité des contenus compressés.Nos contributions s’articulent autour de la création d’un nouveau schéma de compression, incluant les codecs existants ainsi qu’un panel de briques de post-traitement permettant une meilleure exploitation des contenus fortement compressés. Ces briques sont des réseaux de neurones profonds dédiés, qui réalisent des opérations de super-résolution et/ou de réduction d’artéfacts de compression, spécifiquement entraînés pour répondre aux objectifs ciblés. Ces opérations interviennent du côté du décodeur et peuvent être interprétées comme des algorithmes de reconstruction d’images à partir de versions fortement compressées. Cette approche présente l’avantage de pouvoir s’appuyer des codecs existants, particulièrement légers et peu coûteux en ressources. Dans nos travaux, nous avons retenu le format BPG, qui fait état de l’art dans le domaine, mais d’autre schémas de compression peuvent être également considérés.Concernant le type de réseaux de neurones, nos recherches nous ont conduits vers les réseaux antagonistes génératifs (Generative Adversarials Nets–GAN), qui s‘avèrent particulièrement adaptés pour des objectifs de reconstruction à partir de données incomplètes. Plus précisément, les deux architectures retenues et adaptées à nos objectifs sont les réseaux SRGAN et ESRGAN. L’impact des différents éléments et paramètres impliqués, comme notamment les facteurs de super-résolution utilisés et les fonctions de pertes, sont analysés en détails.Enfin, une dernière contribution concerne l’évaluation expérimentale. Après avoir montré les limitations des métriques objectives, qui peinent à prendre en compte la qualité visuelle de l’image, nous avons mis en place un protocole d’évaluation subjective. Les résultats obtenus en termes de scores MOS (Mean Opinion Score) démontrent pleinement la pertinence des approches de reconstruction proposées.Enfin, nous analysons une ouverture de nos travaux à des cas d’utilisation différents, d’une nature plus grand public. C’est notamment le cas pour le traitement de contenus de grande résolution plus ou moins compressés et même pour l’amélioration de la qualité de vidéos
The field of visual content compression (image, video, 2D/3D graphics elements) has known spectacular achievements for more than twenty years, with the emergence numerous international standards such as JPEG, JPEG2000 for still image compression, or MPEG-1/2/4 for video and 3D graphics content coding.The apparition of smartphones and of their related applications have also benefited from these advances, the image being today ubiquitous in a context of mobility. Nevertheless, image transmission requires reliable and available networks, since such visual data that are inherently bandwidth-intensive. While developed countries benefit today from high-performance mobile networks (3G, 4G...), this is not the case in a certain number of regions of the world, particularly in emerging countries, where communications still rely on 2G SMS networks. Transmitting visual content in such a context becomes a highly ambitious challenge, requiring the elaboration of new, for very low bitrate compression algorithm. The challenge is to ensure images transmission over a narrow bandwidth corresponding to a relatively small set (10 to 20) of SMS (140 bytes per SMS).To meet such constraints, multiple axes of development have been considered. After a state-of-the-art of traditional image compression techniques, we have oriented our research towards deep learning methods, aiming achieve post-treatments over strongly compressed data in order to improve the quality of the decoded content.Our contributions are structures around the creation of a new compression scheme, including existing codecs and a panel of post-processing bricks aiming at enhancing highly compressed content. Such bricks represent dedicated deep neural networks, which perform super-resolution and/or compression artifact reduction operations, specifically trained to meet the targeted objectives. These operations are carried out on the decoder side and can be interpreted as image reconstruction algorithms from heavily compressed versions. This approach offers the advantage of being able to rely on existing codecs, which are particularly light and resource-efficient. In our work, we have retained the BPG format, which represents the state of art in the field, but other compression schemes can also be considered.Regarding the type of neural networks, we have adopted Generative Adversarials Nets-GAN, which are particularly well-suited for objectives of reconstruction from incomplete data. Specifically, the two architectures retained and adapted to our objectives are the SRGAN and ESRGAN networks. The impact of the various elements and parameters involved, such as the super-resolution factors and the loss functions, are analyzed in detail.A final contribution concerns experimental evaluation performed. After showing the limitations of objective metrics, which fail to take into account the visual quality of the image, we have put in place a subjective evaluation protocol. The results obtained in terms of MOS (Mean Opinion Score) fully demonstrate the relevance of the proposed reconstruction approaches.Finally, we open our work to different use cases, of a more general nature. This is particularly the case for high-resolution image processing and for video compression
Стилі APA, Harvard, Vancouver, ISO та ін.
8

Ben, Tanfous Amor. "Représentations parcimonieuses dans les variétés de formes pour la classification et la génération de trajectoires humaines." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I111.

Повний текст джерела
Анотація:
Concevoir des systèmes intelligents pour comprendre le contenu des vidéos est devenu un axe de recherche très important car il permet de compenser les capacités humaines limitées de l'analyse efficace des vidéos. En particulier, la compréhension du comportement humain à partir de vidéos suscite un intérêt considérable en raison de ses nombreuses applications potentielles. Au même temps, la détection et le suivi de marqueurs humains dans les flux vidéo sont devenus de plus en plus fiables, et c'est en partie grâce à la disponibilité de capteurs abordables. Cela permet de déduire des données géométriques qui varient dans le temps et qui jouent un rôle important dans l'analyse automatique du mouvement humain. Cependant, une telle analyse reste difficile en raison des énormes variations de vue, de la détection inexacte des marqueurs, des variations importantes des classes ainsi que de l’insuffisance des données annotées. Dans cette thèse, nous proposons de nouvelles méthodes permettant de classifier et de générer des séquences 2D/3D de marqueurs humains. Tout d'abord, nous représentons ces séquences comme étant des trajectoires dans des variétés de formes permettant ainsi une analyse invariante à la vue. Toutefois, ces variétés sont non linéaires et, par conséquent, les algorithmes classiques telles que les techniques d'apprentissage automatique standards ne pourraient pas être appliqués d'une manière directe vu qu'ils sont conçus pour des données de nature linéaire. En guise de solution, nous exploitons des notions de la géométrie Riemannienne pour coder ces trajectoires en appliquant une technique de codage parcimonieux et d'apprentissage de dictionnaires. Cela permet non seulement de résoudre le problème de non-linéarité des variétés de formes mais aussi de représenter les trajectoires comme étant des représentations parcimonieuses qui sont définies dans des espaces vectoriels, qui sont plus discriminantes et moins bruitées que les données originales. Nous étudions des paradigmes intrinsèques et extrinsèques de codage parcimonieux et d’apprentissage de dictionnaire dans les variétés de formes et nous présentons une étude comparative de leur utilisation en fonction de la nature des données (i.e., visage ou corps en 2D ou 3D). D'autre part, en se basant sur ces représentations parcimonieuses, nous proposons deux approches de reconnaissance d'actions humaines en 3D et de reconnaissance d'expressions faciales en 2D, et nous montrons que les résultats obtenus sont compétitifs avec les méthodes récentes de l'état de l'art. Enfin, nous présentons un modèle génératif permettant de synthétiser des actions humaines dont l'idée principale est de concevoir un réseau antagoniste génératif afin de générer de nouvelles représentations parcimonieuses qui sont ensuite transformées en des séquences de poses. Nous appliquons cette méthode pour l’augmentation des données ce qui permet d’améliorer les performances de la classification d'actions. De plus, les séquences de pose générées sont utilisées pour guider un second modèle générateur dans le but de générer des vidéos humaines par transfert de chaque pose d'une séquence en une image texture. Nous montrons que les vidéos obtenues sont réalistes et présentent une meilleure cohérence en termes d'apparence et de mouvement qu'une méthode récente de l'état de l'art
Designing intelligent systems to understand video content has been a hot research topic in the past few decades since it helps compensate the limited human capabilities of analyzing videos in an efficient way. In particular, human behavior understanding in videos is receiving a huge interest due to its many potential applications. At the same time, the detection and tracking of human landmarks in video streams has gained in reliability partly due to the availability of affordable RGB-D sensors. This infer time-varying geometric data which play an important role in the automatic human motion analysis. However, such analysis remains challenging due to enormous view variations, inaccurate detection of landmarks, large intra- and inter- class variations, and insufficiency of annotated data. In this thesis, we propose novel frameworks to classify and generate 2D/3D sequences of human landmarks. We first represent them as trajectories in the shape manifold which allows for a view-invariant analysis. However, this manifold is nonlinear and thereby standard computational tools and machine learning techniques could not be applied in a straightforward manner. As a solution, we exploit notions of Riemannian geometry to encode these trajectories based on sparse coding and dictionary learning. This not only overcomes the problem of nonlinearity of the manifold but also yields sparse representations that lie in vector space, that are more discriminative and less noisy than the original data. We study intrinsic and extrinsic paradigms of sparse coding and dictionary learning in the shape manifold and provide a comprehensive evaluation on their use according to the nature of the data (i.e., face or body in 2D or 3D). Based on these sparse representations, we present two frameworks for 3D human action recognition and 2D micro- and macro- facial expression recognition and show that they achieve competitive performance in comparison to the state-of-the-art. Finally, we design a generative model allowing to synthesize human actions. The main idea is to train a generative adversarial network to generate new sparse representations that are then transformed to pose sequences. This framework is applied to the task of data augmentation allowing to improve the classification performance. In addition, the generated pose sequences are used to guide a second framework to generate human videos by means of pose transfer of each pose to a texture image. We show that the obtained videos are realistic and have better appearance and motion consistency than a recent state-of-the-art baseline
Стилі APA, Harvard, Vancouver, ISO та ін.
9

Laifa, Oumeima. "A joint discriminative-generative approach for tumour angiogenesis assessment in computational pathology." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS230.

Повний текст джерела
Анотація:
L’angiogenèse est le processus par lequel de nouveaux vaisseaux sanguins se forment à partir du réseaux préexistant. Au cours de l’angiogenèse tumorale, les cellules tumorales sécrètent des facteurs de croissance qui activent la prolifération et la migration des cellules et stimulent la surproduction du facteur de croissance endothélial vasculaire (VEGF). Le rôle fondamental de l’approvisionnement vasculaire dans la croissance tumorale et le developement des thérapies anticancéreuses rend l’évaluation de l’angiogenèse tumorale, cruciale dans l’évaluation de l’effet des thérapies anti-angiogéniques, en tant que thérapie anticancéreuse prometteuse. Dans cette étude, nous établissons un panel quantitatif et qualitatif pour évaluer les structures des vaisseaux sanguins de la tumeur sur des images de fluorescence non invasives et des images histopathologique sur toute la surface tumorale afin d’identifier les caractéristiques architecturales et les mesures quantitatives souvent associées à la réponse thérapeutique ou prédictive de celle-ci. Nous développons un pipeline formé de Markov Random Field (MFR) et Watershed pour segmenter les vaisseaux sanguins et les composants du micro-environnement tumoral afin d’évaluer quantitativement l’effet du médicament anti-angiogénique Pazopanib sur le système vasculaire tumoral et l’interaction avec le micro-environnement de la tumeur. Le pazopanib, agent anti-angiogénèse, a montré un effet direct sur le système vasculaire du réseau tumoral via les cellules endothéliales. Nos résultats montrent une relation spécifique entre la néovascularisation apoptotique et la densité de noyau dans une tumeur murine traitée par Pazopanib. Une évaluation qualitative des vaisseaux sanguins de la tumeur est réalisée dans la suite de l’étude. Nous avons développé un modèle de réseau de neurone discriminant-générateur basé sur un modele d’apprentissage : réseau de neurones convolutionnels (CNN) et un modèle de connaissance basé sur des règles Marked Point Process (MPP) permettant de segmenter les vaisseaux sanguins sur des images très hétérogènes à l’aide de très peu de données annotées. Nous détaillons l’intuition et la conception du modèle discriminatif-génératif, sa similarité avec les Réseaux antagonistes génératifs (GAN) et nous évaluons ses performances sur des données histopathologiques et synthétiques. Les limites et les perspectives de la méthode sont présentées à la fin de notre étude
Angiogenesis is the process through which new blood vessels are formed from pre-existing ones. During angiogenesis, tumour cells secrete growth factors that activate the proliferation and migration of endothelial cells and stimulate over production of the vascular endothelial growth factor (VEGF). The fundamental role of vascular supply in tumour growth and anti-cancer therapies makes the evaluation of angiogenesis crucial in assessing the effect of anti-angiogenic therapies as a promising anti-cancer therapy. In this study, we establish a quantitative and qualitative panel to evaluate tumour blood vessels structures on non-invasive fluorescence images and histopathological slide across the full tumour to identify architectural features and quantitative measurements that are often associated with prediction of therapeutic response. We develop a Markov Random Field (MFRs) and Watershed framework to segment blood vessel structures and tumour micro-enviroment components to assess quantitatively the effect of the anti-angiogenic drug Pazopanib on the tumour vasculature and the tumour micro-enviroment interaction. The anti-angiogenesis agent Pazopanib was showing a direct effect on tumour network vasculature via the endothelial cells crossing the whole tumour. Our results show a specific relationship between apoptotic neovascularization and nucleus density in murine tumor treated by Pazopanib. Then, qualitative evaluation of tumour blood vessels structures is performed in whole slide images, known to be very heterogeneous. We develop a discriminative-generative neural network model based on both learning driven model convolutional neural network (CNN), and rule-based knowledge model Marked Point Process (MPP) to segment blood vessels in very heterogeneous images using very few annotated data comparing to the state of the art. We detail the intuition and the design behind the discriminative-generative model, and we analyze its similarity with Generative Adversarial Network (GAN). Finally, we evaluate the performance of the proposed model on histopathology slide and synthetic data. The limits of this promising framework as its perspectives are shown
Стилі APA, Harvard, Vancouver, ISO та ін.
10

Dutil, Francis. "Prédiction et génération de données structurées à l'aide de réseaux de neurones et de décisions discrètes." Thèse, 2018. http://hdl.handle.net/1866/22124.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Ми пропонуємо знижки на всі преміум-плани для авторів, чиї праці увійшли до тематичних добірок літератури. Зв'яжіться з нами, щоб отримати унікальний промокод!

До бібліографії