Academic literature on the topic 'Apprentissage métrique profond'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Apprentissage métrique profond.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Dissertations / Theses on the topic "Apprentissage métrique profond"

1

Bhattarai, Binod. "Développement de méthodes de rapprochement physionomique par apprentissage machine." Caen, 2016. https://hal.archives-ouvertes.fr/tel-01467985.

Full text
Abstract:
Ce travail pr'esent'e dans cette th'ese se d'eroule dans le contexte g'en'eral de l'appariement de visage. Plus pr'ecis'ement, notre but est de concevoir et de d'evelopper de nouveaux algorithmes pour apprendre des repr'esentations compactes, discriminatives, invariantes au domaine ou de pr 'evenir l'identification de visages. La recherche et d'indexation de visages ouvre la porte a' des nombreuses applications int'eressantes. Cepen-dant, cela est devenu, jour apr'es jour, plus difficile en raison de la croissance rapide du nombre de vis- ages a' analyser. La repr'esentation des visages par des caract'eristiques compactes et discriminatives est, par cons'equent, essentielle pour en traiter cette ensemble de donn'ees tr'es volumineux. De plus, ce volume augmente sans limites apparentes ; C'est pourquoi il est'egalement pertinent de proposer des solutions pour organiser les visages de faccon s'emantique, afin de r'eduire l'espace de recherche et d'am'eliorer 1'efficacit'e de la recherche. Bien que le volume de visages disponibles sur Internet augmente, il est encore difficile de trouver des exem- pies annot'es pour former des mod'eles pour chaque cas d'utilisation possible, par exemple, pour la classifi-cation de diff'erentes races, sexes, etc. L'apprentissage d'un mod'ele avec des exemples construites a' partir d'un groupe de personnes peut ne n'ecessairement pas prédire correctement les exemples d'un autre groupe en raison, par exemple, du taux in'egal entre exu de changements de dimensions biom'etriques produites par le vieillissement. De m eme, un mod'ele obtenu d'un type de caract'eristique peut'echouer a' faire de bonnes pr'edictions lorsqu'il est test'e avec un autre type de fonctionnalit'e. Il serait id'eal d'avoir des mod'eles pro­ duisant des repr'esentations de visage qui seraient invariables a' ces'ecarts. Apprendre des repr 'esentations communes aide finalement a' r'eduire les param'etres sp'ecifiques au domaine et, encore plus important, permet d'utiliser des exemples construites par un domaine et utilis'es dans d'autres. Par cons'equent, il est n'ecessaire de concevoir des algorithmes pour cartographier les caract'eristiques de diff'erents domaines a' un sous-espace commun, qui am'ene des visages portant les m emes propri'et'es a' etre repr'esentes plus prochement. D'autre part, comme les outils automatiques de mise en correspondance de visage sont de plus en plus intelligents, il y a une menace croissante sur la vie priv'ee. La popularit'e du partage de photos sur les r'eseaux sociaux a exacerb'e ce risque. Dans un tel contexte, modifier les repr 'esentations des visages de faccon a' ce que les visages ne puissent pas Aetre identifi'es par des correspondants automatiques- alors que les visages semblent ne pas etre modifi'es -est devenu une perspective int'eressante en mati'ere de protection de la vie priv'ee. Il permet aux utilisateurs de limiter le risque de partager leurs photos dans les r'eseaux sociaux. Dans tous ces sc'enarios, nous avons explor'e comment l'utilisation des m'ethodes d'apprentissage m'etrique (Metric Learning) ainsi que celles d'apprentissage profond (Deep Learning) peuvent nous aider a' apprendre les repr'esentations compactes et discriminantes des visages. Nous construisons ces outils en proposant des repr'esentations compactes, discriminatives, invariantes au domaine et capables de pr'evenir l'identification de visages. Nous avons appliqu'e les m'ethodes propos'ees sur une large gamme d'applications d'analyse faciale. Ces applications comprennent: recherche de visages a' grande'echelle, estimation de l'aAge, pr'edictions d'attribut et identification de l'identit'e. Nous avons'evalu'e nos algorithmes sur des ensembles de donn'ees publics standard et stimulants tels que: LFW, CelebA, MORPH II etc. De plus, nous avons ajout'e des visages lM de Flicker. Com a' LFW et g'en'er'e un jeu de donn'ees nouveau et plus difficile a"evaluer nos algorithmes en grande-'echelle. Nos expériences montrent que les m'ethodes propos'ees sont plus pr'ecises et plus efficaces que les méthodes de r'ef'erences compar'ees et les m'ethodes de !"etat de 1'art et atteignent de nouvelles performances de pointe
The work presented in this PhD thesis takes place in the general context of face matching. More precisely, our goal is to design and develop novel algorithms to learn compact, discriminative, domain invariant or de-identifying representations of faces. Searching and indexing faces open the door to many interesting applications. However, this is made day after day more challenging due to the rapid growth of the volume of faces to analyse. Representing faces by compact and discriminative features is consequently es- sential to deal with such very large datasets. Moreover, this volume is increasing without any apparent limits; this is why it is also relevant to propose solutions to organise faces in meaningful ways, in order to reduce the search space and improve efficiency of the retrieval. Although the volume of faces available on the internet is increasing, it is still difficult to find annotated examples to train models for each possible use cases e. G. For different races, sexes, etc. For every specifie task. Learning a model with training examples from a group of people can fail to predict well in another group due to the uneven rate of changes of biometrie dimensions e. G. , ageing, among them. Similarly, a modellean1ed from a type of feature can fail to make good predictions when tested with another type of feature. It would be ideal to have models producing face representations that would be invariant to these discrepancies. Learning common representations ultimately helps to reduce the domain specifie parameters and, more important!y, allows to use training examples from domains weil represented to other demains. Hence, there is a need for designing algorithms to map the features from different domains to a common subspace -bringing faces bearing same properties closer. On the other band, as automatic face matching tools are getting smarter and smarter, there is an increasing threat on privacy. The popularity in photo sharing on the social networks has exacerbated this risk. In such a context, altering the representations of faces so that the faces cannot be identified by automatic face matchers -while the faces look as similar as before -has become an interesting perspective toward privacy protection. It allows users to limit the risk of sharing their photos in social networks. In ali these scenarios, we explored how the use of Metric Leaming methods as weil as those of Deep Learning can help us to leam compact and discriminative representations of faces. We build on these tools, proposing compact, discriminative, domain invariant representations and de-identifying representations of faces crawled from Flicker. Corn to LFW and generated a novel and more challenging dataset to evaluate our algorithms in large-scale. We applied the proposed methods on a wide range of facial analysing applications. These applications include: large-scale face retrieval, age estimation, attribute predictions and identity de-identification. We have evaluated our algorithms on standard and challenging public datasets such as: LFW, CelebA, MORPH II etc. Moreover, we appended lM faces crawled from Flicker. Corn to LFW and generated a novel and more challenging dataset to evaluate our algorithms in large-scale. Our experiments show that the proposed methods are more accurate and more efficient than compared competitive baselines and existing state-of-art methods, and attain new state-of-art performance
APA, Harvard, Vancouver, ISO, and other styles
2

Habib, Yassine. "Monocular SLAM densification for 3D mapping and autonomous drone navigation." Electronic Thesis or Diss., Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2024. http://www.theses.fr/2024IMTA0390.

Full text
Abstract:
Les drones aériens sont essentiels dans les missions de recherche et de sauvetage car ils permettent une reconnaissance rapide de la zone de la mission, tel qu’un bâtiment effondré. La cartographie 3D dense et métrique en temps réel est cruciale pour capturer la structure de l’environnement et permettre une navigation autonome. L’approche privilégiée pour cette tâche consiste à utiliser du SLAM (Simultaneous Localization and Mapping) à partir d’une caméra monoculaire synchronisée avec une centrale inertielle (IMU). Les algorithmes à l’état de l’art maximisent l’efficacité en triangulant un nombre minimum de points, construisant ainsi un nuage de points 3D épars. Quelques travaux traitent de la densification du SLAM monoculaire, généralement en utilisant des réseaux neuronaux profonds pour prédire une carte de profondeur dense à partir d’une seule image. La plupart ne sont pas métriques ou sont trop complexes pour être utilisés en embarqué. Dans cette thèse, nous identifions une méthode de SLAM monoculaire à l’état de l’art et l’évaluons dans des conditions difficiles pour les drones. Nous présentons une architecture fonctionnelle pour densifier le SLAM monoculaire en appliquant la prédiction de profondeur monoculaire pour construire une carte dense et métrique en voxels 3D.L’utilisation de voxels permet une construction et une maintenance efficaces de la carte par projection de rayons, et permet la fusion volumétrique multi-vues. Enfin, nous proposons une procédure de récupération d’échelle qui utilise les estimations de profondeur éparses et métriques du SLAM pour affiner les cartes de profondeur denses prédites. Notre approche a été évaluée sur des benchmarks conventionnels et montre des résultats prometteurs pour des applications pratiques
Aerial drones are essential in search and rescue missions as they provide fast reconnaissance of the mission area, such as a collapsed building. Creating a dense and metric 3D map in real-time is crucial to capture the structure of the environment and enable autonomous navigation. The recommended approach for this task is to use Simultaneous Localization and Mapping (SLAM) from a monocular camera synchronized with an Inertial Measurement Unit (IMU). Current state-of-the-art algorithms maximize efficiency by triangulating a minimum number of points, resulting in a sparse 3D point cloud. Few works address monocular SLAM densification, typically by using deep neural networks to predict a dense depth map from a single image. Most are not metric or are too complex for use in embedded applications. In this thesis, we identify and evaluate a state of-the-art monocular SLAM baseline under challenging drone conditions. We present a practical pipeline for densifying monocular SLAM by applying monocular depth prediction to construct a dense and metric 3D voxel map. Using voxels allows the efficient construction and maintenance of the map through raycasting, and allows for volumetric multi-view fusion. Finally, we propose a scale recovery procedure that uses the sparse and metric depth estimates of SLAM to refine the predicted dense depth maps. Our approach has been evaluated on conventional benchmarks and shows promising results for practical applications
APA, Harvard, Vancouver, ISO, and other styles
3

Venkataramanan, Shashanka. "Metric learning for instance and category-level visual representation." Electronic Thesis or Diss., Université de Rennes (2023-....), 2024. http://www.theses.fr/2024URENS022.

Full text
Abstract:
Le principal objectif de la vision par ordinateur est de permettre aux machines d'extraire des informations significatives à partir de données visuelles, telles que des images et des vidéos, et de tirer parti de ces informations pour effectuer une large gamme de tâches. À cette fin, de nombreuses recherches se sont concentrées sur le développement de modèles d'apprentissage profond capables de coder des représentations visuelles complètes et robustes. Une stratégie importante dans ce contexte consiste à préentraîner des modèles sur des ensembles de données à grande échelle, tels qu'ImageNet, pour apprendre des représentations qui peuvent présenter une applicabilité transversale aux tâches et faciliter la gestion réussie de diverses tâches en aval avec un minimum d'effort. Pour faciliter l'apprentissage sur ces ensembles de données à grande échelle et coder de bonnes représentations, des stratégies complexes d'augmentation des données ont été utilisées. Cependant, ces augmentations peuvent être limitées dans leur portée, étant soit conçues manuellement et manquant de diversité, soit générant des images qui paraissent artificielles. De plus, ces techniques d'augmentation se sont principalement concentrées sur le jeu de données ImageNet et ses tâches en aval, limitant leur applicabilité à un éventail plus large de problèmes de vision par ordinateur. Dans cette thèse, nous visons à surmonter ces limitations en explorant différentes approches pour améliorer l'efficacité et l'efficience de l'apprentissage des représentations. Le fil conducteur des travaux présentés est l'utilisation de techniques basées sur l'interpolation, telles que mixup, pour générer des exemples d'entraînement diversifiés et informatifs au-delà du jeu de données original. Dans le premier travail, nous sommes motivés par l'idée de la déformation comme un moyen naturel d'interpoler des images plutôt que d'utiliser une combinaison convexe. Nous montrons que l'alignement géométrique des deux images dans l'espace des caractéristiques permet une interpolation plus naturelle qui conserve la géométrie d'une image et la texture de l'autre, la reliant au transfert de style. En nous appuyant sur ces observations, nous explorons la combinaison de mix6up et de l'apprentissage métrique profond. Nous développons une formulation généralisée qui intègre mix6up dans l'apprentissage métrique, conduisant à des représentations améliorées qui explorent des zones de l'espace d'embedding au-delà des classes d'entraînement. En nous appuyant sur ces insights, nous revisitons la motivation originale de mixup et générons un plus grand nombre d'exemples interpolés au-delà de la taille du mini-lot en interpolant dans l'espace d'embedding. Cette approche nous permet d'échantillonner sur l'ensemble de l'enveloppe convexe du mini-lot, plutôt que juste le long des segments linéaires entre les paires d'exemples. Enfin, nous explorons le potentiel de l'utilisation d'augmentations naturelles d'objets à partir de vidéos. Nous introduisons un ensemble de données "Walking Tours" de vidéos égocentriques en première personne, qui capturent une large gamme d'objets et d'actions dans des transitions de scènes naturelles. Nous proposons ensuite une nouvelle méthode de préentraînement auto-supervisée appelée DoRA, qui détecte et suit des objets dans des images vidéo, dérivant de multiples vues à partir des suivis et les utilisant de manière auto-supervisée
The primary goal in computer vision is to enable machines to extract meaningful information from visual data, such as images and videos, and leverage this information to perform a wide range of tasks. To this end, substantial research has focused on developing deep learning models capable of encoding comprehensive and robust visual representations. A prominent strategy in this context involves pretraining models on large-scale datasets, such as ImageNet, to learn representations that can exhibit cross-task applicability and facilitate the successful handling of diverse downstream tasks with minimal effort. To facilitate learning on these large-scale datasets and encode good representations, com- plex data augmentation strategies have been used. However, these augmentations can be limited in their scope, either being hand-crafted and lacking diversity, or generating images that appear unnatural. Moreover, the focus of these augmentation techniques has primarily been on the ImageNet dataset and its downstream tasks, limiting their applicability to a broader range of computer vision problems. In this thesis, we aim to tackle these limitations by exploring different approaches to en- hance the efficiency and effectiveness in representation learning. The common thread across the works presented is the use of interpolation-based techniques, such as mixup, to generate diverse and informative training examples beyond the original dataset. In the first work, we are motivated by the idea of deformation as a natural way of interpolating images rather than using a convex combination. We show that geometrically aligning the two images in the fea- ture space, allows for more natural interpolation that retains the geometry of one image and the texture of the other, connecting it to style transfer. Drawing from these observations, we explore the combination of mixup and deep metric learning. We develop a generalized formu- lation that accommodates mixup in metric learning, leading to improved representations that explore areas of the embedding space beyond the training classes. Building on these insights, we revisit the original motivation of mixup and generate a larger number of interpolated examples beyond the mini-batch size by interpolating in the embedding space. This approach allows us to sample on the entire convex hull of the mini-batch, rather than just along lin- ear segments between pairs of examples. Finally, we investigate the potential of using natural augmentations of objects from videos. We introduce a "Walking Tours" dataset of first-person egocentric videos, which capture a diverse range of objects and actions in natural scene transi- tions. We then propose a novel self-supervised pretraining method called DoRA, which detects and tracks objects in video frames, deriving multiple views from the tracks and using them in a self-supervised manner
APA, Harvard, Vancouver, ISO, and other styles
4

Carvalho, Micael. "Deep representation spaces." Electronic Thesis or Diss., Sorbonne université, 2018. http://www.theses.fr/2018SORUS292.

Full text
Abstract:
Ces dernières années, les techniques d’apprentissage profond ont fondamentalement transformé l'état de l'art de nombreuses applications de l'apprentissage automatique, devenant la nouvelle approche standard pour plusieurs d’entre elles. Les architectures provenant de ces techniques ont été utilisées pour l'apprentissage par transfert, ce qui a élargi la puissance des modèles profonds à des tâches qui ne disposaient pas de suffisamment de données pour les entraîner à partir de zéro. Le sujet d'étude de cette thèse couvre les espaces de représentation créés par les architectures profondes. Dans un premier temps, nous étudions les propriétés de leurs espaces, en prêtant un intérêt particulier à la redondance des dimensions et la précision numérique de leurs représentations. Nos résultats démontrent un fort degré de robustesse, pointant vers des schémas de compression simples et puissants. Ensuite, nous nous concentrons sur le l'affinement de ces représentations. Nous choisissons d'adopter un problème multi-tâches intermodal et de concevoir une fonction de coût capable de tirer parti des données de plusieurs modalités, tout en tenant compte des différentes tâches associées au même ensemble de données. Afin d'équilibrer correctement ces coûts, nous développons également un nouveau processus d'échantillonnage qui ne prend en compte que des exemples contribuant à la phase d'apprentissage, c'est-à-dire ceux ayant un coût positif. Enfin, nous testons notre approche sur un ensemble de données à grande échelle de recettes de cuisine et d'images associées. Notre méthode améliore de 5 fois l'état de l'art sur cette tâche, et nous montrons que l'aspect multitâche de notre approche favorise l'organisation sémantique de l'espace de représentation, lui permettant d'effectuer des sous-tâches jamais vues pendant l'entraînement, comme l'exclusion et la sélection d’ingrédients. Les résultats que nous présentons dans cette thèse ouvrent de nombreuses possibilités, y compris la compression de caractéristiques pour les applications distantes, l'apprentissage multi-modal et multitâche robuste et l'affinement de l'espace des caractéristiques. Pour l'application dans le contexte de la cuisine, beaucoup de nos résultats sont directement applicables dans une situation réelle, en particulier pour la détection d'allergènes, la recherche de recettes alternatives en raison de restrictions alimentaires et la planification de menus
In recent years, Deep Learning techniques have swept the state-of-the-art of many applications of Machine Learning, becoming the new standard approach for them. The architectures issued from these techniques have been used for transfer learning, which extended the power of deep models to tasks that did not have enough data to fully train them from scratch. This thesis' subject of study is the representation spaces created by deep architectures. First, we study properties inherent to them, with particular interest in dimensionality redundancy and precision of their features. Our findings reveal a strong degree of robustness, pointing the path to simple and powerful compression schemes. Then, we focus on refining these representations. We choose to adopt a cross-modal multi-task problem, and design a loss function capable of taking advantage of data coming from multiple modalities, while also taking into account different tasks associated to the same dataset. In order to correctly balance these losses, we also we develop a new sampling scheme that only takes into account examples contributing to the learning phase, i.e. those having a positive loss. Finally, we test our approach in a large-scale dataset of cooking recipes and associated pictures. Our method achieves a 5-fold improvement over the state-of-the-art, and we show that the multi-task aspect of our approach promotes a semantically meaningful organization of the representation space, allowing it to perform subtasks never seen during training, like ingredient exclusion and selection. The results we present in this thesis open many possibilities, including feature compression for remote applications, robust multi-modal and multi-task learning, and feature space refinement. For the cooking application, in particular, many of our findings are directly applicable in a real-world context, especially for the detection of allergens, finding alternative recipes due to dietary restrictions, and menu planning
APA, Harvard, Vancouver, ISO, and other styles
5

Nagorny, Pierre. "Contrôle automatique non-invasif de la qualité des produits : Application au procédé d'injection-moulage des thermoplastiques." Thesis, Chambéry, 2020. http://www.theses.fr/2020CHAMA008.

Full text
Abstract:
La maîtrise de la qualité de la production est un objectif particulièrement important pour la croissance des industries. Contrôler la qualité d'un produit nécessite de la mesurer. Le contrôle de cent pourcent des produits est un objectif important pour dépasser les limites du contrôle par prélèvement, dans le cas de défauts liés à des causes exceptionnelles. Cependant, les contraintes industrielles ont limité le déploiement de la mesure des caractéristiques des produits directement au sein des lignes de production. Le déploiement du contrôle visuel humain est limité par sa durée incompatible avec la durée du cycle des productions à haute cadence, par son coût et par sa variabilité. L'intégration de systèmes de vision informatique présente un coût qui les réservent aux productions à hautes valeurs ajoutées. De plus, le contrôle automatique de la qualité de l'aspect des produits reste une thématique de recherche ouverte.Notre travail a pour objectifs de répondre à ces contraintes, dans le cadre du procédé d'injection-moulage des thermoplastiques.Nous proposons un système de contrôle qui est non invasif pour le procédé de production. Les pièces sont contrôlées dès la sortie de la presse à injecter.Nous étudierons l'apport de l'imagerie non-conventionnelle. La thermographie d'une pièce moulée chaude permet d'obtenir une information sur sa géométrie, qui est complémentaire de l'imagerie conventionnelle. La polarimétrie permet de discriminer les défauts de courbure des surfaces qui modifient l'angle de polarisation de la lumière réfléchie, des défauts de la structure de la matière qui diffusent la lumière.De plus, les cahiers des charges des produits présentent de plus en plus d'exigences tant sur les géométries complexes que sur l'aspect. Cependant, les caractéristiques d'aspect sont difficiles à formaliser. Pour automatiser le contrôle d'aspect, il est nécessaire de modéliser la notion de qualité d'une pièce. Afin d'exploiter les mesures réalisées sur les pièces chaudes, notre approche utilise des méthodes d'apprentissage statistique. Ainsi, l'expert humain qui connait la notion de qualité d'une pièce transmet son savoir au système, par l'annotation d'un jeu de données d'apprentissage. Notre système de contrôle apprend alors une métrique de la qualité d'une pièce, à partir des données brutes issues capteurs. Nous avons privilégier une approche par réseaux de convolution profonds (textit{Deep Learning}) afin d'obtenir les meilleurs performances en justesse de discrimination des pièces conformes. La faible quantité d'échantillons annotés disponible dans notre contexte industrielle nous ont amenée à utiliser des méthodes d'apprentissage par transfert de domaine.Enfin, afin de répondre à l'ensemble des contraintes, nous avons réalisé l'intégration verticale d'une prototype de dispositif de mesure des pièces et de la solution logicielle de traitement par apprentissage statistique.Le dispositif intègre l'imagerie thermique, polarimétrique, l'éclairage et le système de traitement embarqué nécessaire à l'envoi des données sur un serveur d'analyse distant.Deux cas d'applications permettent d'évaluer les performances et la viabilité de la solution proposée
Inline quality control of the product is an important objective for industries growth. Controlling a product quality requires measurements of its quality characteristics. One hundred percent control is an important objective to overcome the limits of the control by sampling, in the case of defects related to exceptional causes. However, industrial constraints have limited the deployment of measurement of product characteristics directly within production lines. Human visual control is limited by its duration incompatible with the production cycle at high speed productions, by its cost and its variability. Computer vision systems present a cost that reserves them for productions with high added value. In addition, the automatic control of the quality of the appearance of the products remains an open research topic.Our work aims to meet these constraints, as part of the injection-molding process of thermoplastics. We propose a control system that is non-invasive for the production process. Parts are checked right out of the injection molding machine.We will study the contribution of non-conventional imaging. Thermography of a hot molded part provides information on its geometry, which is complementary to conventional imaging. Polarimetry makes it possible to discriminate curvature defects of surfaces that change the polarization angle of reflected light and defects in the structure of the material that diffuse light.Furthermore, specifications on products are more and more tighter. Specifications include complex geometric features, as well as appearance features, which are difficult to formalize. However, the appearance characteristics are difficult to formalize. To automate aspect control, it is necessary to model the notion of quality of a part. In order to exploit the measurements made on the hot parts, our approach uses statistical learning methods. Thus, the human expert who knows the notion of quality of a piece transmits his knowledge to the system, by the annotation of a set of learning data. Our control system then learns a metric of the quality of a part, from raw data from sensors. We favor a deep convolutional network approach (Deep Learning) in order to obtain the best performances in fairness of discrimination of the compliant parts. The small amount of annotated samples available in our industrial context has led us to use domain transfer learning methods.Finally, in order to meet all the constraints and validate our propositions, we realized the vertical integration of a prototype of device of measure of the parts and the software solution of treatment by statistical learning. The device integrates thermal imaging, polarimetric imaging, lighting and the on-board processing system necessary for sending data to a remote analysis server.Two application cases make it possible to evaluate the performance and viability of the proposed solution
APA, Harvard, Vancouver, ISO, and other styles
6

Leclerc, Sarah Marie-Solveig. "Automatisation de la segmentation sémantique de structures cardiaques en imagerie ultrasonore par apprentissage supervisé." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI121.

Full text
Abstract:
L’analyse d’images médicales joue un rôle essentiel en cardiologie pour la réalisation du diagnostique cardiaque clinique et le suivi de l’état du patient. Parmi les modalités d’imagerie utilisées, l’imagerie par ultrasons, temps réelle, moins coûteuse et portable au chevet du patient, est de nos jours la plus courante. Malheureusement, l’étape nécessaire de segmentation sémantique (soit l’identification et la délimitation précise) des structures cardiaques est difficile en échocardiographie à cause de la faible qualité des images ultrasonores, caractérisées en particulier par l’absence d’interfaces nettes entre les différents tissus. Pour combler le manque d’information, les méthodes les plus performante, avant ces travaux, reposaient sur l’intégration d’informations a priori sur la forme ou le mouvement du cœur, ce qui en échange réduisait leur adaptabilité au cas par cas. De plus, de telles approches nécessitent pour être efficaces l’identification manuelle de plusieurs repères dans l’image, ce qui rend le processus de segmentation difficilement reproductible. Dans cette thèse, nous proposons plusieurs algorithmes originaux et entièrement automatiques pour la segmentation sémantique d’images échocardiographiques. Ces méthodes génériques sont adaptées à la segmentation échocardiographique par apprentissage supervisé, c’est-à-dire que la résolution du problème est construite automatiquement à partir de données pré- analysées par des cardiologues entraînés. Grâce au développement d’une base de données et d’une plateforme d’évaluation dédiées au projet, nous montrons le fort potentiel clinique des méthodes automatiques d’apprentissage supervisé, et en particulier d’apprentissage profond, ainsi que la possibilité d’améliorer leur robustesse en intégrant une étape de détection automatique des régions d’intérêt dans l’image
The analysis of medical images plays a critical role in cardiology. Ultrasound imaging, as a real-time, low cost and bed side applicable modality, is nowadays the most commonly used image modality to monitor patient status and perform clinical cardiac diagnosis. However, the semantic segmentation (i.e the accurate delineation and identification) of heart structures is a difficult task due to the low quality of ultrasound images, characterized in particular by the lack of clear boundaries. To compensate for missing information, the best performing methods before this thesis relied on the integration of prior information on cardiac shape or motion, which in turns reduced the adaptability of the corresponding methods. Furthermore, such approaches require man- ual identifications of key points to be adapted to a given image, which makes the full process difficult to reproduce. In this thesis, we propose several original fully-automatic algorithms for the semantic segmentation of echocardiographic images based on supervised learning ap- proaches, where the resolution of the problem is automatically set up using data previously analyzed by trained cardiologists. From the design of a dedicated dataset and evaluation platform, we prove in this project the clinical applicability of fully-automatic supervised learning methods, in particular deep learning methods, as well as the possibility to improve the robustness by incorporating in the full process the prior automatic detection of regions of interest
APA, Harvard, Vancouver, ISO, and other styles
7

Schmitt, Thomas. "Appariements collaboratifs des offres et demandes d’emploi." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS210/document.

Full text
Abstract:
Notre recherche porte sur la recommandation de nouvelles offres d'emploi venant d'être postées et n'ayant pas d'historique d'interactions (démarrage à froid). Nous adaptons les systèmes de recommandations bien connus dans le domaine du commerce électronique à cet objectif, en exploitant les traces d'usage de l'ensemble des demandeurs d'emploi sur les offres antérieures. Une des spécificités du travail présenté est d'avoir considéré des données réelles, et de s'être attaqué aux défis de l'hétérogénéité et du bruit des documents textuels. La contribution présentée intègre l'information des données collaboratives pour apprendre une nouvelle représentation des documents textes, requise pour effectuer la recommandation dite à froid d'une offre nouvelle. Cette représentation dite latente vise essentiellement à construire une bonne métrique. L'espace de recherche considéré est celui des réseaux neuronaux. Les réseaux neuronaux sont entraînés en définissant deux fonctions de perte. La première cherche à préserver la structure locale des informations collaboratives, en s'inspirant des approches de réduction de dimension non linéaires. La seconde s'inspire des réseaux siamois pour reproduire les similarités issues de la matrice collaborative. Le passage à l'échelle de l'approche et ses performances reposent sur l'échantillonnage des paires d'offres considérées comme similaires. L'intérêt de l'approche proposée est démontrée empiriquement sur les données réelles et propriétaires ainsi que sur le benchmark publique CiteULike. Enfin, l'intérêt de la démarche suivie est attesté par notre participation dans un bon rang au challenge international RecSys 2017 (15/100; un million d'utilisateurs pour un million d'offres)
Our research focuses on the recommendation of new job offers that have just been posted and have no interaction history (cold start). To this objective, we adapt well-knowns recommendations systems in the field of e-commerce by exploiting the record of use of all job seekers on previous offers. One of the specificities of the work presented is to have considered real data, and to have tackled the challenges of heterogeneity and noise of textual documents. The presented contribution integrates the information of the collaborative data to learn a new representation of text documents, which is required to make the so-called cold start recommendation of a new offer. The new representation essentially aims to build a good metric. The search space considered is that of neural networks. Neural networks are trained by defining two loss functions. The first seeks to preserve the local structure of collaborative information, drawing on non-linear dimension reduction approaches. The second is inspired by Siamese networks to reproduce the similarities from the collaborative matrix. The scaling up of the approach and its performance are based on the sampling of pairs of offers considered similar. The interest of the proposed approach is demonstrated empirically on the real and proprietary data as well as on the CiteULike public benchmark. Finally, the interest of the approach followed is attested by our participation in a good rank in the international challenge RecSys 2017 (15/100, with millions of users and millions of offers)
APA, Harvard, Vancouver, ISO, and other styles
8

Doras, Guillaume. "Automatic cover detection using deep learning." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS299.

Full text
Abstract:
Les reprises (ou covers en anglais) sont des interprétations différentes d’une même œuvre musicale originale. Elles partagent typiquement une ligne mélodique ou une structure harmonique similaire, mais diffèrent généralement dans plusieurs autres dimensions, telles que la structure, l’instrumentation, le genre, etc. La détection automatique de covers est la tâche consistant à retrouver dans un corpus audio toutes les covers d’une chanson donnée. Elle a longtemps été considérée comme un problème théorique ardu et est récemment devenue un problème pratique posé par le développement de larges corpus audio. Dans ce travail, nous abordons la détection de covers en utilisant le paradigme d’apprentissage de métrique. Nous montrons que cette approche permet d'extraire d’une chanson une représentation expressive et compacte – son embedding – appropriée pour une recherche rapide dans de larges corpus audio. Nous proposons ensuite une étude comparative de différentes représentations et montrons que les systèmes combinant représentations mélodiques et harmoniques surpassent ceux qui s’appuient sur une seule représentation d'entrée. Nous illustrons par une analyse qualitative et quantitative comment mélodie et harmonie se complètent efficacement et décrivons divers types de fusion permettant d'établir un nouvel état de l’art sur de larges corpus publiquement accessibles. Nous étudions alors théoriquement comment l’espace des embeddings est structuré pendant l’entraînement, et introduisons une nouvelle fonction de coût qui améliore encore les résultats. Nous décrivons enfin une implémentation opérationnelle de la méthode et démontrons son efficacité dans un contexte industriel
Covers are different interpretations of the same original musical work. They usually share a similar melodic line or harmonic structure, but typically differ greatly in one or several other dimensions, such as structure, tempo, key, instrumentation, genre, etc. Automatic cover detection – the task of finding and retrieving from an audio corpus all covers of one or several query tracks – has long been seen as a challenging theoretical problem. It also became an acute practical problem for with the ever-growing size of modern audio corpora.In this work, we propose to address the cover detection problem with a solution based on the metric learning paradigm. We show that this approach allows training of simple neural networks to extract out of a song an expressive and compact representation – its embedding – suitable for fast and effective retrieval in large audio corpora. We then propose a comparative study of different audio representations and show that systems combining melodic and harmonic features drastically outperform those relying on a single input representation. We illustrate how these features complement each other with both quantitative and qualitative analyses. We describe various fusion schemes and propose methods yielding state-of-the-art performances on publicly available large datasets. Finally, we describe theoretically how the embedding space is structured during training, and introduce an adaptation of the standard triplet loss which improves the results further. We finally describe an operational implementation of the method, and demonstrate its efficiency both in terms of accuracy and scalability in a real industrial context
APA, Harvard, Vancouver, ISO, and other styles
9

Kaabi, Rabeb. "Apprentissage profond et traitement d'images pour la détection de fumée." Electronic Thesis or Diss., Toulon, 2020. http://www.theses.fr/2020TOUL0017.

Full text
Abstract:
Cette thèse aborde le problème de la détection des feux de forêt par des outils de traitement d’images et apprentissage machine. Un incendie de forêt est un feu qui se propage sur une étendue boisée. Il peut être d'origine naturelle (dû à la foudre ou à une éruption volcanique) ou humaine. Dans le monde entier, l’impact des feux de forêts sur de nombreux aspects de notre vie quotidienne se fait de plus en plus apparente sur l’écosystème entier. De nombreuses méthodes ont montré l’efficacité pour la détection des incendies de forêt. L’originalité du présent travail réside dans la détection précoce des incendies par la détection de la fumée de forêt et la classification des régions de fumée et de non fumée à l’aide d’apprentissage profond et des outils de traitement d’image. Un ensemble de techniques de prétraitement nous a aidé à avoir une base de donnée importante (ajout du bruit aux entrées, augmentation des données) qui nous a permis après de tester la robustesse du modèle basée sur le DBN qu’on a proposé et évaluer la performance en calculant les métriques suivantes (IoU, Précision, Rappel, F1 score). Finalement, l’algorithme proposé est testé sur plusieurs images afin de valider son efficacité. Les simulations de notre algorithme ont été comparées avec celles traités dans l’état de l’art (Deep CNN, SVM…) et ont fourni de très bons résultats
This thesis deals with the problem of forest fire detection using image processing and machine learning tools. A forest fire is a fire that spreads over a wooded area. It can be of natural origin (due to lightning or a volcanic eruption) or human. Around the world, the impact of forest fires on many aspects of our daily lives is becoming more and more apparent on the entire ecosystem.Many methods have been shown to be effective in detecting forest fires. The originality of the present work lies in the early detection of fires through the detection of forest smoke and the classification of smoky and non-smoky regions using deep learning and image processing tools. A set of pre-processing techniques helped us to have an important database which allowed us afterwards to test the robustness of the model based on deep belief network we proposed and to evaluate the performance by calculating the following metrics (IoU, Accuracy, Recall, F1 score). Finally, the proposed algorithm is tested on several images in order to validate its efficiency. The simulations of our algorithm have been compared with those processed in the state of the art (Deep CNN, SVM...) and have provided very good results. The results of the proposed methods gave an average classification accuracy of about 96.5% for the early detection of smoke
APA, Harvard, Vancouver, ISO, and other styles
10

Cuan, Bonan. "Deep similarity metric learning for multiple object tracking." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI065.

Full text
Abstract:
Le suivi d’objets multiples dans une scène est une tâche importante dans le domaine de la vision par ordinateur, et présente toujours de très nombreux verrous. Les objets doivent être détectés et distingués les uns des autres de manière continue et simultanée. Les approches «suivi par détection» sont largement utilisées, où la détection des objets est d’abord réalisée sur toutes les frames, puis le suivi est ramené à un problème d’association entre les détections d’un même objet et les trajectoires identifiées. La plupart des algorithmes de suivi associent des modèles de mouvement et des modèles d’apparence. Dans cette thèse, nous proposons un modèle de ré-identification basé sur l’apparence et utilisant l’apprentissage de métrique de similarité. Nous faisons tout d’abord appel à un réseau siamois profond pour apprendre un maping de bout en bout, des images d’entrée vers un espace de caractéristiques où les objets sont mieux discriminés. De nombreuses configurations sont évaluées, afin d’en déduire celle offrant les meilleurs scores. Le modèle ainsi obtenu atteint des résultats de ré-identification satisfaisants comparables à l’état de l’art. Ensuite, notre modèle est intégré dans un système de suivi d’objets multiples pour servir de guide d’apparence pour l’association des objets. Un modèle d’apparence est établi pour chaque objet détecté s’appuyant sur le modèle de ré-identification. Les similarités entre les objets détectés sont alors exploitées pour la classification. Par ailleurs, nous avons étudié la coopération et les interférences entre les modèles d’apparence et de mouvement dans le processus de suivi. Un couplage actif entre ces 2 modèles est proposé pour améliorer davantage les performances du suivi, et la contribution de chacun d’eux est estimée en continue. Les expérimentations menées dans le cadre du benchmark «Multiple Object Tracking Challenge» ont prouvé l’efficacité de nos propositions et donné de meilleurs résultats de suivi que l’état de l’art
Multiple object tracking, i.e. simultaneously tracking multiple objects in the scene, is an important but challenging visual task. Objects should be accurately detected and distinguished from each other to avoid erroneous trajectories. Since remarkable progress has been made in object detection field, “tracking-by-detection” approaches are widely adopted in multiple object tracking research. Objects are detected in advance and tracking reduces to an association problem: linking detections of the same object through frames into trajectories. Most tracking algorithms employ both motion and appearance models for data association. For multiple object tracking problems where exist many objects of the same category, a fine-grained discriminant appearance model is paramount and indispensable. Therefore, we propose an appearance-based re-identification model using deep similarity metric learning to deal with multiple object tracking in mono-camera videos. Two main contributions are reported in this dissertation: First, a deep Siamese network is employed to learn an end-to-end mapping from input images to a discriminant embedding space. Different metric learning configurations using various metrics, loss functions, deep network structures, etc., are investigated, in order to determine the best re-identification model for tracking. In addition, with an intuitive and simple classification design, the proposed model achieves satisfactory re-identification results, which are comparable to state-of-the-art approaches using triplet losses. Our approach is easy and fast to train and the learned embedding can be readily transferred onto the domain of tracking tasks. Second, we integrate our proposed re-identification model in multiple object tracking as appearance guidance for detection association. For each object to be tracked in a video, we establish an identity-related appearance model based on the learned embedding for re-identification. Similarities among detected object instances are exploited for identity classification. The collaboration and interference between appearance and motion models are also investigated. An online appearance-motion model coupling is proposed to further improve the tracking performance. Experiments on Multiple Object Tracking Challenge benchmark prove the effectiveness of our modifications, with a state-of-the-art tracking accuracy
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography