Academic literature on the topic 'Apprentissage par métrique'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Apprentissage par métrique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Dissertations / Theses on the topic "Apprentissage par métrique"

1

Bhattarai, Binod. "Développement de méthodes de rapprochement physionomique par apprentissage machine." Caen, 2016. https://hal.archives-ouvertes.fr/tel-01467985.

Full text
Abstract:
Ce travail pr'esent'e dans cette th'ese se d'eroule dans le contexte g'en'eral de l'appariement de visage. Plus pr'ecis'ement, notre but est de concevoir et de d'evelopper de nouveaux algorithmes pour apprendre des repr'esentations compactes, discriminatives, invariantes au domaine ou de pr 'evenir l'identification de visages. La recherche et d'indexation de visages ouvre la porte a' des nombreuses applications int'eressantes. Cepen-dant, cela est devenu, jour apr'es jour, plus difficile en raison de la croissance rapide du nombre de vis- ages a' analyser. La repr'esentation des visages par des caract'eristiques compactes et discriminatives est, par cons'equent, essentielle pour en traiter cette ensemble de donn'ees tr'es volumineux. De plus, ce volume augmente sans limites apparentes ; C'est pourquoi il est'egalement pertinent de proposer des solutions pour organiser les visages de faccon s'emantique, afin de r'eduire l'espace de recherche et d'am'eliorer 1'efficacit'e de la recherche. Bien que le volume de visages disponibles sur Internet augmente, il est encore difficile de trouver des exem- pies annot'es pour former des mod'eles pour chaque cas d'utilisation possible, par exemple, pour la classifi-cation de diff'erentes races, sexes, etc. L'apprentissage d'un mod'ele avec des exemples construites a' partir d'un groupe de personnes peut ne n'ecessairement pas prédire correctement les exemples d'un autre groupe en raison, par exemple, du taux in'egal entre exu de changements de dimensions biom'etriques produites par le vieillissement. De m eme, un mod'ele obtenu d'un type de caract'eristique peut'echouer a' faire de bonnes pr'edictions lorsqu'il est test'e avec un autre type de fonctionnalit'e. Il serait id'eal d'avoir des mod'eles pro­ duisant des repr'esentations de visage qui seraient invariables a' ces'ecarts. Apprendre des repr 'esentations communes aide finalement a' r'eduire les param'etres sp'ecifiques au domaine et, encore plus important, permet d'utiliser des exemples construites par un domaine et utilis'es dans d'autres. Par cons'equent, il est n'ecessaire de concevoir des algorithmes pour cartographier les caract'eristiques de diff'erents domaines a' un sous-espace commun, qui am'ene des visages portant les m emes propri'et'es a' etre repr'esentes plus prochement. D'autre part, comme les outils automatiques de mise en correspondance de visage sont de plus en plus intelligents, il y a une menace croissante sur la vie priv'ee. La popularit'e du partage de photos sur les r'eseaux sociaux a exacerb'e ce risque. Dans un tel contexte, modifier les repr 'esentations des visages de faccon a' ce que les visages ne puissent pas Aetre identifi'es par des correspondants automatiques- alors que les visages semblent ne pas etre modifi'es -est devenu une perspective int'eressante en mati'ere de protection de la vie priv'ee. Il permet aux utilisateurs de limiter le risque de partager leurs photos dans les r'eseaux sociaux. Dans tous ces sc'enarios, nous avons explor'e comment l'utilisation des m'ethodes d'apprentissage m'etrique (Metric Learning) ainsi que celles d'apprentissage profond (Deep Learning) peuvent nous aider a' apprendre les repr'esentations compactes et discriminantes des visages. Nous construisons ces outils en proposant des repr'esentations compactes, discriminatives, invariantes au domaine et capables de pr'evenir l'identification de visages. Nous avons appliqu'e les m'ethodes propos'ees sur une large gamme d'applications d'analyse faciale. Ces applications comprennent: recherche de visages a' grande'echelle, estimation de l'aAge, pr'edictions d'attribut et identification de l'identit'e. Nous avons'evalu'e nos algorithmes sur des ensembles de donn'ees publics standard et stimulants tels que: LFW, CelebA, MORPH II etc. De plus, nous avons ajout'e des visages lM de Flicker. Com a' LFW et g'en'er'e un jeu de donn'ees nouveau et plus difficile a"evaluer nos algorithmes en grande-'echelle. Nos expériences montrent que les m'ethodes propos'ees sont plus pr'ecises et plus efficaces que les méthodes de r'ef'erences compar'ees et les m'ethodes de !"etat de 1'art et atteignent de nouvelles performances de pointe
The work presented in this PhD thesis takes place in the general context of face matching. More precisely, our goal is to design and develop novel algorithms to learn compact, discriminative, domain invariant or de-identifying representations of faces. Searching and indexing faces open the door to many interesting applications. However, this is made day after day more challenging due to the rapid growth of the volume of faces to analyse. Representing faces by compact and discriminative features is consequently es- sential to deal with such very large datasets. Moreover, this volume is increasing without any apparent limits; this is why it is also relevant to propose solutions to organise faces in meaningful ways, in order to reduce the search space and improve efficiency of the retrieval. Although the volume of faces available on the internet is increasing, it is still difficult to find annotated examples to train models for each possible use cases e. G. For different races, sexes, etc. For every specifie task. Learning a model with training examples from a group of people can fail to predict well in another group due to the uneven rate of changes of biometrie dimensions e. G. , ageing, among them. Similarly, a modellean1ed from a type of feature can fail to make good predictions when tested with another type of feature. It would be ideal to have models producing face representations that would be invariant to these discrepancies. Learning common representations ultimately helps to reduce the domain specifie parameters and, more important!y, allows to use training examples from domains weil represented to other demains. Hence, there is a need for designing algorithms to map the features from different domains to a common subspace -bringing faces bearing same properties closer. On the other band, as automatic face matching tools are getting smarter and smarter, there is an increasing threat on privacy. The popularity in photo sharing on the social networks has exacerbated this risk. In such a context, altering the representations of faces so that the faces cannot be identified by automatic face matchers -while the faces look as similar as before -has become an interesting perspective toward privacy protection. It allows users to limit the risk of sharing their photos in social networks. In ali these scenarios, we explored how the use of Metric Leaming methods as weil as those of Deep Learning can help us to leam compact and discriminative representations of faces. We build on these tools, proposing compact, discriminative, domain invariant representations and de-identifying representations of faces crawled from Flicker. Corn to LFW and generated a novel and more challenging dataset to evaluate our algorithms in large-scale. We applied the proposed methods on a wide range of facial analysing applications. These applications include: large-scale face retrieval, age estimation, attribute predictions and identity de-identification. We have evaluated our algorithms on standard and challenging public datasets such as: LFW, CelebA, MORPH II etc. Moreover, we appended lM faces crawled from Flicker. Corn to LFW and generated a novel and more challenging dataset to evaluate our algorithms in large-scale. Our experiments show that the proposed methods are more accurate and more efficient than compared competitive baselines and existing state-of-art methods, and attain new state-of-art performance
APA, Harvard, Vancouver, ISO, and other styles
2

Do, Cao Tri. "Apprentissage de métrique temporelle multi-modale et multi-échelle pour la classification robuste de séries temporelles par plus proches voisins." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM028/document.

Full text
Abstract:
La définition d'une métrique entre des séries temporelles est un élément important pour de nombreuses tâches en analyse ou en fouille de données, tel que le clustering, la classification ou la prédiction. Les séries temporelles présentent naturellement différentes caractéristiques, que nous appelons modalités, sur lesquelles elles peuvent être comparées, comme leurs valeurs, leurs formes ou leurs contenus fréquentielles. Ces caractéristiques peuvent être exprimées avec des délais variables et à différentes granularités ou localisations temporelles - exprimées globalement ou localement. Combiner plusieurs modalités à plusieurs échelles pour apprendre une métrique adaptée est un challenge clé pour de nombreuses applications réelles impliquant des données temporelles. Cette thèse propose une approche pour l'Apprentissage d'une Métrique Multi-modal et Multi-scale (M2TML) en vue d'une classification robuste par plus proches voisins. La solution est basée sur la projection des paires de séries temporelles dans un espace de dissimilarités, dans lequel un processus d'optimisation à vaste marge est opéré pour apprendre la métrique. La solution M2TML est proposée à la fois dans le contexte linéaire et non-linéaire, et est étudiée pour différents types de régularisation. Une variante parcimonieuse et interprétable de la solution montre le potentiel de la métrique temporelle apprise à pouvoir localiser finement les modalités discriminantes, ainsi que leurs échelles temporelles en vue de la tâche d'analyse considérée. L'approche est testée sur un vaste nombre de 30 bases de données publiques et challenging, couvrant des images, traces, données ECG, qui sont linéairement ou non-linéairement séparables. Les expériences montrent l'efficacité et le potentiel de la méthode M2TML pour la classification de séries temporelles par plus proches voisins
The definition of a metric between time series is inherent to several data analysis and mining tasks, including clustering, classification or forecasting. Time series data present naturally several characteristics, called modalities, covering their amplitude, behavior or frequential spectrum, that may be expressed with varying delays and at different temporal granularity and localization - exhibited globally or locally. Combining several modalities at multiple temporal scales to learn a holistic metric is a key challenge for many real temporal data applications. This PhD proposes a Multi-modal and Multi-scale Temporal Metric Learning (M2TML) approach for robust time series nearest neighbors classification. The solution is based on the embedding of pairs of time series into a pairwise dissimilarity space, in which a large margin optimization process is performed to learn the metric. The M2TML solution is proposed for both linear and non linear contexts, and is studied for different regularizers. A sparse and interpretable variant of the solution shows the ability of the learned temporal metric to localize accurately discriminative modalities as well as their temporal scales.A wide range of 30 public and challenging datasets, encompassing images, traces and ECG data, that are linearly or non linearly separable, are used to show the efficiency and the potential of M2TML for time series nearest neighbors classification
APA, Harvard, Vancouver, ISO, and other styles
3

Law, Marc Teva. "Distance metric learning for image and webpage comparison." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066019/document.

Full text
Abstract:
Cette thèse se focalise sur l'apprentissage de distance pour la comparaison d'images ou de pages Web. Les distances (ou métriques) sont exploitées dans divers contextes de l'apprentissage automatique et de la vision artificielle tels que la recherche des k plus proches voisins, le partitionnement, les machines à vecteurs de support, la recherche d'information/images, la visualisation etc. Nous nous intéressons dans cette thèse à l'apprentissage de fonction de distance paramétrée par une matrice symétrique semi-définie positive. Ce modèle, appelé (par abus) apprentissage de distance de Mahalanobis, consiste à apprendre une transformation linéaire des données telle que la distance euclidienne dans l'espace projeté appris satisfasse les contraintes d'apprentissage.Premièrement, nous proposons une méthode basée sur la comparaison de distances relatives qui prend en compte des relations riches entre les données, et exploite des similarités entre quadruplets d'exemples. Nous appliquons cette méthode aux attributs relatifs et à la classification hiérarchique d'images.Deuxièmement, nous proposons une nouvelle méthode de régularisation qui permet de contrôler le rang de la matrice apprise, limitant ainsi le nombre de paramètres indépendants appris et le sur-apprentissage. Nous montrons l'intérêt de notre méthode sur des bases synthétiques et réelles d'identification de visage.Enfin, nous proposons une nouvelle méthode de détection automatique de changement dans les pages Web, dans un contexte d'archivage. Pour cela, nous utilisons les relations de distance temporelle entre différentes versions d'une même page Web. La métrique apprise de façon entièrement non supervisée détecte les régions d'intérêt de la page et ignore le contenu non informatif tel que les menus et publicités. Nous montrons l'intérêt de la méthode sur différents sites Web
This thesis focuses on distance metric learning for image and webpage comparison. Distance metrics are used in many machine learning and computer vision contexts such as k-nearest neighbors classification, clustering, support vector machine, information/image retrieval, visualization etc. In this thesis, we focus on Mahalanobis-like distance metric learning where the learned model is parametered by a symmetric positive semidefinite matrix. It learns a linear tranformation such that the Euclidean distance in the induced projected space satisfies learning constraints.First, we propose a method based on comparison between relative distances that takes rich relations between data into account, and exploits similarities between quadruplets of examples. We apply this method on relative attributes and hierarchical image classification. Second, we propose a new regularization method that controls the rank of the learned matrix, limiting the number of independent parameters and overfitting. We show the interest of our method on synthetic and real-world recognition datasets. Eventually, we propose a novel Webpage change detection framework in a context of archiving. For this purpose, we use temporal distance relations between different versions of a same Webpage. The metric learned in a totally unsupervised way detects important regions and ignores unimportant content such as menus and advertisements. We show the interest of our method on different Websites
APA, Harvard, Vancouver, ISO, and other styles
4

Leclerc, Sarah Marie-Solveig. "Automatisation de la segmentation sémantique de structures cardiaques en imagerie ultrasonore par apprentissage supervisé." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI121.

Full text
Abstract:
L’analyse d’images médicales joue un rôle essentiel en cardiologie pour la réalisation du diagnostique cardiaque clinique et le suivi de l’état du patient. Parmi les modalités d’imagerie utilisées, l’imagerie par ultrasons, temps réelle, moins coûteuse et portable au chevet du patient, est de nos jours la plus courante. Malheureusement, l’étape nécessaire de segmentation sémantique (soit l’identification et la délimitation précise) des structures cardiaques est difficile en échocardiographie à cause de la faible qualité des images ultrasonores, caractérisées en particulier par l’absence d’interfaces nettes entre les différents tissus. Pour combler le manque d’information, les méthodes les plus performante, avant ces travaux, reposaient sur l’intégration d’informations a priori sur la forme ou le mouvement du cœur, ce qui en échange réduisait leur adaptabilité au cas par cas. De plus, de telles approches nécessitent pour être efficaces l’identification manuelle de plusieurs repères dans l’image, ce qui rend le processus de segmentation difficilement reproductible. Dans cette thèse, nous proposons plusieurs algorithmes originaux et entièrement automatiques pour la segmentation sémantique d’images échocardiographiques. Ces méthodes génériques sont adaptées à la segmentation échocardiographique par apprentissage supervisé, c’est-à-dire que la résolution du problème est construite automatiquement à partir de données pré- analysées par des cardiologues entraînés. Grâce au développement d’une base de données et d’une plateforme d’évaluation dédiées au projet, nous montrons le fort potentiel clinique des méthodes automatiques d’apprentissage supervisé, et en particulier d’apprentissage profond, ainsi que la possibilité d’améliorer leur robustesse en intégrant une étape de détection automatique des régions d’intérêt dans l’image
The analysis of medical images plays a critical role in cardiology. Ultrasound imaging, as a real-time, low cost and bed side applicable modality, is nowadays the most commonly used image modality to monitor patient status and perform clinical cardiac diagnosis. However, the semantic segmentation (i.e the accurate delineation and identification) of heart structures is a difficult task due to the low quality of ultrasound images, characterized in particular by the lack of clear boundaries. To compensate for missing information, the best performing methods before this thesis relied on the integration of prior information on cardiac shape or motion, which in turns reduced the adaptability of the corresponding methods. Furthermore, such approaches require man- ual identifications of key points to be adapted to a given image, which makes the full process difficult to reproduce. In this thesis, we propose several original fully-automatic algorithms for the semantic segmentation of echocardiographic images based on supervised learning ap- proaches, where the resolution of the problem is automatically set up using data previously analyzed by trained cardiologists. From the design of a dedicated dataset and evaluation platform, we prove in this project the clinical applicability of fully-automatic supervised learning methods, in particular deep learning methods, as well as the possibility to improve the robustness by incorporating in the full process the prior automatic detection of regions of interest
APA, Harvard, Vancouver, ISO, and other styles
5

Nagorny, Pierre. "Contrôle automatique non-invasif de la qualité des produits : Application au procédé d'injection-moulage des thermoplastiques." Thesis, Chambéry, 2020. http://www.theses.fr/2020CHAMA008.

Full text
Abstract:
La maîtrise de la qualité de la production est un objectif particulièrement important pour la croissance des industries. Contrôler la qualité d'un produit nécessite de la mesurer. Le contrôle de cent pourcent des produits est un objectif important pour dépasser les limites du contrôle par prélèvement, dans le cas de défauts liés à des causes exceptionnelles. Cependant, les contraintes industrielles ont limité le déploiement de la mesure des caractéristiques des produits directement au sein des lignes de production. Le déploiement du contrôle visuel humain est limité par sa durée incompatible avec la durée du cycle des productions à haute cadence, par son coût et par sa variabilité. L'intégration de systèmes de vision informatique présente un coût qui les réservent aux productions à hautes valeurs ajoutées. De plus, le contrôle automatique de la qualité de l'aspect des produits reste une thématique de recherche ouverte.Notre travail a pour objectifs de répondre à ces contraintes, dans le cadre du procédé d'injection-moulage des thermoplastiques.Nous proposons un système de contrôle qui est non invasif pour le procédé de production. Les pièces sont contrôlées dès la sortie de la presse à injecter.Nous étudierons l'apport de l'imagerie non-conventionnelle. La thermographie d'une pièce moulée chaude permet d'obtenir une information sur sa géométrie, qui est complémentaire de l'imagerie conventionnelle. La polarimétrie permet de discriminer les défauts de courbure des surfaces qui modifient l'angle de polarisation de la lumière réfléchie, des défauts de la structure de la matière qui diffusent la lumière.De plus, les cahiers des charges des produits présentent de plus en plus d'exigences tant sur les géométries complexes que sur l'aspect. Cependant, les caractéristiques d'aspect sont difficiles à formaliser. Pour automatiser le contrôle d'aspect, il est nécessaire de modéliser la notion de qualité d'une pièce. Afin d'exploiter les mesures réalisées sur les pièces chaudes, notre approche utilise des méthodes d'apprentissage statistique. Ainsi, l'expert humain qui connait la notion de qualité d'une pièce transmet son savoir au système, par l'annotation d'un jeu de données d'apprentissage. Notre système de contrôle apprend alors une métrique de la qualité d'une pièce, à partir des données brutes issues capteurs. Nous avons privilégier une approche par réseaux de convolution profonds (textit{Deep Learning}) afin d'obtenir les meilleurs performances en justesse de discrimination des pièces conformes. La faible quantité d'échantillons annotés disponible dans notre contexte industrielle nous ont amenée à utiliser des méthodes d'apprentissage par transfert de domaine.Enfin, afin de répondre à l'ensemble des contraintes, nous avons réalisé l'intégration verticale d'une prototype de dispositif de mesure des pièces et de la solution logicielle de traitement par apprentissage statistique.Le dispositif intègre l'imagerie thermique, polarimétrique, l'éclairage et le système de traitement embarqué nécessaire à l'envoi des données sur un serveur d'analyse distant.Deux cas d'applications permettent d'évaluer les performances et la viabilité de la solution proposée
Inline quality control of the product is an important objective for industries growth. Controlling a product quality requires measurements of its quality characteristics. One hundred percent control is an important objective to overcome the limits of the control by sampling, in the case of defects related to exceptional causes. However, industrial constraints have limited the deployment of measurement of product characteristics directly within production lines. Human visual control is limited by its duration incompatible with the production cycle at high speed productions, by its cost and its variability. Computer vision systems present a cost that reserves them for productions with high added value. In addition, the automatic control of the quality of the appearance of the products remains an open research topic.Our work aims to meet these constraints, as part of the injection-molding process of thermoplastics. We propose a control system that is non-invasive for the production process. Parts are checked right out of the injection molding machine.We will study the contribution of non-conventional imaging. Thermography of a hot molded part provides information on its geometry, which is complementary to conventional imaging. Polarimetry makes it possible to discriminate curvature defects of surfaces that change the polarization angle of reflected light and defects in the structure of the material that diffuse light.Furthermore, specifications on products are more and more tighter. Specifications include complex geometric features, as well as appearance features, which are difficult to formalize. However, the appearance characteristics are difficult to formalize. To automate aspect control, it is necessary to model the notion of quality of a part. In order to exploit the measurements made on the hot parts, our approach uses statistical learning methods. Thus, the human expert who knows the notion of quality of a piece transmits his knowledge to the system, by the annotation of a set of learning data. Our control system then learns a metric of the quality of a part, from raw data from sensors. We favor a deep convolutional network approach (Deep Learning) in order to obtain the best performances in fairness of discrimination of the compliant parts. The small amount of annotated samples available in our industrial context has led us to use domain transfer learning methods.Finally, in order to meet all the constraints and validate our propositions, we realized the vertical integration of a prototype of device of measure of the parts and the software solution of treatment by statistical learning. The device integrates thermal imaging, polarimetric imaging, lighting and the on-board processing system necessary for sending data to a remote analysis server.Two application cases make it possible to evaluate the performance and viability of the proposed solution
APA, Harvard, Vancouver, ISO, and other styles
6

Boutaleb, Mohamed Yasser. "Egocentric Hand Activity Recognition : The principal components of an egocentric hand activity recognition framework, exploitable for augmented reality user assistance." Electronic Thesis or Diss., CentraleSupélec, 2022. http://www.theses.fr/2022CSUP0007.

Full text
Abstract:
Les êtres humains utilisent leurs mains pour diverses tâches dans la vie quotidienne et professionnelle, ce qui fait que la recherche dans ce domaine a récemment suscitée un grand intérêt. De plus, l'analyse et l'interprétation du comportement humain à l'aide de signaux visuels est l'un des domaines les plus actifs et les plus explorés de la vision par ordinateur. Avec l'arrivée des nouvelles technologies de réalité augmentée, les chercheurs s'intéressent de plus en plus à la compréhension de l'activité de la main d'un point de vue de la première personne, en explorant la pertinence de son utilisation pour le guidage et l'assistance humaine.L'objectif principal de cette thèse est de proposer un système de reconnaissance de l'activité de l'utilisateur incluant quatre composants essentiels, qui peut être utilisé pour assister les utilisateurs lors d'activités orientées vers des objectifs spécifiques : industrie 4.0 (par exemple, assemblage assisté, maintenance) et enseignement. Ainsi, le système observe les mains de l'utilisateur et les objets manipulés depuis le point de vue de l'utilisateur afin de reconnaître et comprendre ses activités manuelles réalisées. Le système de réalité augmenté souhaité doit reconnaître de manière robuste les activités habituelles de l'utilisateur. Néanmoins, il doit détecter les activités inhabituelles afin d'informer l'utilisateur et l'empêcher d'effectuer de mauvaises manœuvres, une exigence fondamentale pour l'assistance à l'utilisateur. Cette thèse combine donc des techniques issues des domaines de recherche de la vision par ordinateur et de l'apprentissage automatique afin de proposer des composants de reconnaissance de l'activité de l'utilisateur nécessaires à un outil d'assistance complet
Humans use their hands for various tasks in daily life and industry, making research in this area a recent focus of significant interest. Moreover, analyzing and interpreting human behavior using visual signals is one of the most animated and explored areas of computer vision. With the advent of new augmented reality technologies, researchers are increasingly interested in hand activity understanding from a first-person perspective exploring its suitability for human guidance and assistance. Our work is based on machine learning technology to contribute to this research area. Recently, deep neural networks have proven their outstanding effectiveness in many research areas, allowing researchers to jump significantly in efficiency and robustness.This thesis's main objective is to propose a user's activity recognition framework including four key components, which can be used to assist users during their activities oriented towards specific objectives: industry 4.0 (e.g., assisted assembly, maintenance) and teaching. Thus, the system observes the user's hands and the manipulated objects from the user's viewpoint to recognize his performed hand activity. The desired framework must robustly recognize the user's usual activities. Nevertheless, it must detect unusual ones to feedback and prevent him from performing wrong maneuvers, a fundamental requirement for user assistance. This thesis, therefore, combines techniques from the research fields of computer vision and machine learning to propose comprehensive hand activity recognition components essential for a complete assistance tool
APA, Harvard, Vancouver, ISO, and other styles
7

Mignon, Alexis. "Apprentissage de métriques et méthodes à noyaux appliqués à la reconnaissance de personnes dans les images." Caen, 2012. http://www.theses.fr/2012CAEN2048.

Full text
Abstract:
Nos travaux portent sur la reconnaissance des personnes dans des images vidéo en se basant principalement sur les visages. Nous nous intéressons aux étapes d’alignement et de reconnaissance, en supposant que les positions des visages dans les images sont connues. L’alignement vise à compenser les variations de position et d'orientation des visages, les rendant plus facilement comparables. Nous présentons une méthode de détection de points-clés basée sur une régression parcimonieuse. Elle permet de prédire le décalage entre les positions moyennes et réelles d'un point-clé à partir de l'apparence de l'image autour des positions moyennes. Nos contributions à la reconnaissance de visages reposent sur l'idée que deux représentations différentes d'une même personne devraient être plus proches, au sens d'une certaine mesure de distance, que celles de deux personnes distinctes. Nous proposons une méthode d’apprentissage de métriques vérifiant ces propriétés. L'approche est par ailleurs assez générale pour être en mesure d'apprendre une distance entre des modalités différentes. Les modèles utilisés dans nos approches sont linéaires. Pour pallier cette limitation, ces modèles sont étendus au cas non-linéaire grâce au «truc» du noyau. Une partie de cette thèse porte justement sur l'étude des propriétés des noyaux additifs homogènes, adaptés aux comparaisons d'histogrammes. Nous apportons notamment des résultats théoriques originaux sur la fonction de re-description du noyau de la moyenne puissance
Our work is devoted to person recognition in video images and focuses mainly on faces. We are interested in the registration and recognition steps, assuming that the locations of faces in the images are known. The registration step aims at compensating the location and pose variations of the faces, making them easier to compare. We present a method to predict the location of key-points based on sparse regression. It predicts the offset between average and real positions of a key-point from the appearence of the image around the average positions. Our contributions to face recognition rely on the idea that two different representations of faces of the same person should be closer, with respect to a given distance measure, than those of two different persons. We propose a metric learning method that verifies these properties. Besides, the approach is general enough to be able to learn a distance between different modalities. The models we use in our approaches are linear. To alleviate this limitation, they are extended to the non-linear case through the use of the kernel trick. A part of this thesis precisely deals with the properties of additive homogeneous kernels, well adapted for histogram comparisons. We especially present some oringal theoretical results on the feature map of the power mean kernel
APA, Harvard, Vancouver, ISO, and other styles
8

Cuan, Bonan. "Deep similarity metric learning for multiple object tracking." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI065.

Full text
Abstract:
Le suivi d’objets multiples dans une scène est une tâche importante dans le domaine de la vision par ordinateur, et présente toujours de très nombreux verrous. Les objets doivent être détectés et distingués les uns des autres de manière continue et simultanée. Les approches «suivi par détection» sont largement utilisées, où la détection des objets est d’abord réalisée sur toutes les frames, puis le suivi est ramené à un problème d’association entre les détections d’un même objet et les trajectoires identifiées. La plupart des algorithmes de suivi associent des modèles de mouvement et des modèles d’apparence. Dans cette thèse, nous proposons un modèle de ré-identification basé sur l’apparence et utilisant l’apprentissage de métrique de similarité. Nous faisons tout d’abord appel à un réseau siamois profond pour apprendre un maping de bout en bout, des images d’entrée vers un espace de caractéristiques où les objets sont mieux discriminés. De nombreuses configurations sont évaluées, afin d’en déduire celle offrant les meilleurs scores. Le modèle ainsi obtenu atteint des résultats de ré-identification satisfaisants comparables à l’état de l’art. Ensuite, notre modèle est intégré dans un système de suivi d’objets multiples pour servir de guide d’apparence pour l’association des objets. Un modèle d’apparence est établi pour chaque objet détecté s’appuyant sur le modèle de ré-identification. Les similarités entre les objets détectés sont alors exploitées pour la classification. Par ailleurs, nous avons étudié la coopération et les interférences entre les modèles d’apparence et de mouvement dans le processus de suivi. Un couplage actif entre ces 2 modèles est proposé pour améliorer davantage les performances du suivi, et la contribution de chacun d’eux est estimée en continue. Les expérimentations menées dans le cadre du benchmark «Multiple Object Tracking Challenge» ont prouvé l’efficacité de nos propositions et donné de meilleurs résultats de suivi que l’état de l’art
Multiple object tracking, i.e. simultaneously tracking multiple objects in the scene, is an important but challenging visual task. Objects should be accurately detected and distinguished from each other to avoid erroneous trajectories. Since remarkable progress has been made in object detection field, “tracking-by-detection” approaches are widely adopted in multiple object tracking research. Objects are detected in advance and tracking reduces to an association problem: linking detections of the same object through frames into trajectories. Most tracking algorithms employ both motion and appearance models for data association. For multiple object tracking problems where exist many objects of the same category, a fine-grained discriminant appearance model is paramount and indispensable. Therefore, we propose an appearance-based re-identification model using deep similarity metric learning to deal with multiple object tracking in mono-camera videos. Two main contributions are reported in this dissertation: First, a deep Siamese network is employed to learn an end-to-end mapping from input images to a discriminant embedding space. Different metric learning configurations using various metrics, loss functions, deep network structures, etc., are investigated, in order to determine the best re-identification model for tracking. In addition, with an intuitive and simple classification design, the proposed model achieves satisfactory re-identification results, which are comparable to state-of-the-art approaches using triplet losses. Our approach is easy and fast to train and the learned embedding can be readily transferred onto the domain of tracking tasks. Second, we integrate our proposed re-identification model in multiple object tracking as appearance guidance for detection association. For each object to be tracked in a video, we establish an identity-related appearance model based on the learned embedding for re-identification. Similarities among detected object instances are exploited for identity classification. The collaboration and interference between appearance and motion models are also investigated. An online appearance-motion model coupling is proposed to further improve the tracking performance. Experiments on Multiple Object Tracking Challenge benchmark prove the effectiveness of our modifications, with a state-of-the-art tracking accuracy
APA, Harvard, Vancouver, ISO, and other styles
9

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00522278/en/.

Full text
Abstract:
La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.
APA, Harvard, Vancouver, ISO, and other styles
10

Dergachyova, Olga. "Knowledge-based support for surgical workflow analysis and recognition." Thesis, Rennes 1, 2017. http://www.theses.fr/2017REN1S059/document.

Full text
Abstract:
L'assistance informatique est devenue une partie indispensable pour la réalisation de procédures chirurgicales modernes. Le désir de créer une nouvelle génération de blocs opératoires intelligents a incité les chercheurs à explorer les problèmes de perception et de compréhension automatique de la situation chirurgicale. Dans ce contexte de prise de conscience de la situation, un domaine de recherche en plein essor adresse la reconnaissance automatique du flux chirurgical. De grands progrès ont été réalisés pour la reconnaissance des phases et des gestes chirurgicaux. Pourtant, il existe encore un vide entre ces deux niveaux de granularité dans la hiérarchie du processus chirurgical. Très peu de recherche se concentre sur les activités chirurgicales portant des informations sémantiques vitales pour la compréhension de la situation. Deux facteurs importants entravent la progression. Tout d'abord, la reconnaissance et la prédiction automatique des activités chirurgicales sont des tâches très difficiles en raison de la courte durée d'une activité, de leur grand nombre et d'un flux de travail très complexe et une large variabilité. Deuxièmement, une quantité très limitée de données cliniques ne fournit pas suffisamment d'informations pour un apprentissage réussi et une reconnaissance précise. À notre avis, avant de reconnaître les activités chirurgicales, une analyse soigneuse des éléments qui composent l'activité est nécessaire pour choisir les bons signaux et les capteurs qui faciliteront la reconnaissance. Nous avons utilisé une approche d'apprentissage profond pour évaluer l'impact de différents éléments sémantiques de l'activité sur sa reconnaissance. Grâce à une étude approfondie, nous avons déterminé un ensemble minimum d'éléments suffisants pour une reconnaissance précise. Les informations sur la structure anatomique et l'instrument chirurgical sont de première importance. Nous avons également abordé le problème de la carence en matière de données en proposant des méthodes de transfert de connaissances à partir d'autres domaines ou chirurgies. Les méthodes de ''word embedding'' et d'apprentissage par transfert ont été proposées. Ils ont démontré leur efficacité sur la tâche de prédiction d'activité suivante offrant une augmentation de précision de 22%. De plus, des observations pertinentes
Computer assistance became indispensable part of modern surgical procedures. Desire of creating new generation of intelligent operating rooms incited researchers to explore problems of automatic perception and understanding of surgical situations. Situation awareness includes automatic recognition of surgical workflow. A great progress was achieved in recognition of surgical phases and gestures. Yet, there is still a blank between these two granularity levels in the hierarchy of surgical process. Very few research is focused on surgical activities carrying important semantic information vital for situation understanding. Two important factors impede the progress. First, automatic recognition and prediction of surgical activities is a highly challenging task due to short duration of activities, their great number and a very complex workflow with multitude of possible execution and sequencing ways. Secondly, very limited amount of clinical data provides not enough information for successful learning and accurate recognition. In our opinion, before recognizing surgical activities a careful analysis of elements that compose activity is necessary in order to chose right signals and sensors that will facilitate recognition. We used a deep learning approach to assess the impact of different semantic elements of activity on its recognition. Through an in-depth study we determined a minimal set of elements sufficient for an accurate recognition. Information about operated anatomical structure and surgical instrument was shown to be the most important. We also addressed the problem of data deficiency proposing methods for transfer of knowledge from other domains or surgeries. The methods of word embedding and transfer learning were proposed. They demonstrated their effectiveness on the task of next activity prediction offering 22% increase in accuracy. In addition, pertinent observations about the surgical practice were made during the study. In this work, we also addressed the problem of insufficient and improper validation of recognition methods. We proposed new validation metrics and approaches for assessing the performance that connect methods to targeted applications and better characterize capacities of the method. The work described in this these aims at clearing obstacles blocking the progress of the domain and proposes a new perspective on the problem of surgical workflow recognition
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography