To see the other types of publications on this topic, follow the link: Apprentissage de la similarité.

Dissertations / Theses on the topic 'Apprentissage de la similarité'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage de la similarité.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Risser-Maroix, Olivier. "Similarité visuelle et apprentissage de représentations." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7327.

Full text
Abstract:
L’objectif de cette thèse CIFRE est de développer un moteur de recherche par image, basé sur la vision par ordinateur, afin d’assister les officiers des douanes. En effet, nous constatons, paradoxalement, une augmentation des menaces sécuritaires (terrorisme, trafic, etc.) couplée d’une diminution des effectifs en Douane. Les images de cargos acquises par des scanners à rayons X permettent déjà l’inspection d’un chargement sans nécessiter l’ouverture et la fouille complète d’un chargement contrôlé. En proposant automatiquement des images similaires, un tel moteur de recherche permettrait d’aider le douanier dans sa prise de décision face à des signatures visuelles de produits peu fréquents ou suspects. Grâce à l’essor des techniques modernes en intelligence artificielle (IA), notre époque subit de grands changements : l’IA transforme tous les secteurs de l’économie. Certains voient dans cet avènement de la "robotisation" la déshumanisation de la force de travail, voire son remplacement. Cependant, réduire l’utilisation de l’IA à la simple recherche de gains de productivité serait réducteur. En réalité, l’IA pourrait permettre d’augmenter la capacité de travail des humains et non à les concurrencer en vue de les remplacer. C’est dans ce contexte, la naissance de l’Intelligence Augmentée, que s’inscrit cette thèse. Ce manuscrit consacré à la question de la similarité visuelle se décompose en deux parties. Deux cas pratiques où la collaboration entre l’Homme et l’IA est bénéfique sont ainsi proposés. Dans la première partie, le problème de l’apprentissage de représentations pour la recherche d’images similaires fait encore l’objet d’investigations approfondies. Après avoir implémenté un premier système semblable à ceux proposés par l’état de l’art, l’une des principales limitations est pointée du doigt : le biais sémantique. En effet, les principales méthodes contemporaines utilisent des jeux de données d’images couplées de labels sémantiques uniquement. Les travaux de la littérature considèrent que deux images sont similaires si elles partagent le même label. Cette vision de la notion de similarité, pourtant fondamentale en IA, est réductrice. Elle sera donc remise en question à la lumière des travaux en psychologie cognitive afin de proposer une amélioration : la prise en compte de la similarité visuelle. Cette nouvelle définition permet une meilleure synergie entre le douanier et la machine. Ces travaux font l’objet de publications scientifiques et d’un brevet. Dans la seconde partie, après avoir identifié les composants clefs permettant d’améliorer les performances du système précédemment proposé, une approche mêlant recherche empirique et théorique est proposée. Ce second cas, l’intelligence augmentée est inspirée des développements récents en mathématiques et physique. D’abord appliquée à la com- préhension d’un hyperparamètre important (la température), puis à une tâche plus large (la classification), la méthode proposée permet de fournir une intuition sur l’importance et le rôle de facteurs corrélés à la variable étudiée (ex. hyperparamètre, score, etc.). La chaîne de traitement ainsi mise en place a démontré son efficacité en fournissant une solution hautement explicable et en adéquation avec des décennies de recherches en apprentissage automatique. Ces découvertes permettront l’amélioration des solutions précédemment développées
The objective of this CIFRE thesis is to develop an image search engine, based on computer vision, to assist customs officers. Indeed, we observe, paradoxically, an increase in security threats (terrorism, trafficking, etc.) coupled with a decrease in the number of customs officers. The images of cargoes acquired by X-ray scanners already allow the inspection of a load without requiring the opening and complete search of a controlled load. By automatically proposing similar images, such a search engine would help the customs officer in his decision making when faced with infrequent or suspicious visual signatures of products. Thanks to the development of modern artificial intelligence (AI) techniques, our era is undergoing great changes: AI is transforming all sectors of the economy. Some see this advent of "robotization" as the dehumanization of the workforce, or even its replacement. However, reducing the use of AI to the simple search for productivity gains would be reductive. In reality, AI could allow to increase the work capacity of humans and not to compete with them in order to replace them. It is in this context, the birth of Augmented Intelligence, that this thesis takes place. This manuscript devoted to the question of visual similarity is divided into two parts. Two practical cases where the collaboration between Man and AI is beneficial are proposed. In the first part, the problem of learning representations for the retrieval of similar images is still under investigation. After implementing a first system similar to those proposed by the state of the art, one of the main limitations is pointed out: the semantic bias. Indeed, the main contemporary methods use image datasets coupled with semantic labels only. The literature considers that two images are similar if they share the same label. This vision of the notion of similarity, however fundamental in AI, is reductive. It will therefore be questioned in the light of work in cognitive psychology in order to propose an improvement: the taking into account of visual similarity. This new definition allows a better synergy between the customs officer and the machine. This work is the subject of scientific publications and a patent. In the second part, after having identified the key components allowing to improve the performances of thepreviously proposed system, an approach mixing empirical and theoretical research is proposed. This secondcase, augmented intelligence, is inspired by recent developments in mathematics and physics. First applied tothe understanding of an important hyperparameter (temperature), then to a larger task (classification), theproposed method provides an intuition on the importance and role of factors correlated to the studied variable(e.g. hyperparameter, score, etc.). The processing chain thus set up has demonstrated its efficiency byproviding a highly explainable solution in line with decades of research in machine learning. These findings willallow the improvement of previously developed solutions
APA, Harvard, Vancouver, ISO, and other styles
2

Grimal, Clément. "Apprentissage de co-similarités pour la classification automatique de données monovues et multivues." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENM092/document.

Full text
Abstract:
L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c'est pourquoi les travaux de cette thèse se concentrent sur leur étude. Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d'apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d'objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l'aide de leurs liens à d'autres types d'objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l'algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d'obtenir de meilleurs résultats que les méthodes de l'état de l'art. De plus, il est fréquent que ces objets soient liés à plus d'un autre type d'objets, les données qui décrivent ces multiples relations entre différents types d'objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C'est pourquoi nous présentons dans cette thèse l'algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l'algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l'état de l'art, ainsi que les méthodes monovues, validant ainsi l'apport de l'aspect multivue. Finalement, nous proposons également d'utiliser l'algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu'en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage
Machine learning consists in conceiving computer programs capable of learning from their environment, or from data. Different kind of learning exist, depending on what the program is learning, or in which context it learns, which naturally forms different tasks. Similarity measures play a predominant role in most of these tasks, which is the reason why this thesis focus on their study. More specifically, we are focusing on data clustering, a so called non supervised learning task, in which the goal of the program is to organize a set of objects into several clusters, in such a way that similar objects are grouped together. In many applications, these objects (documents for instance) are described by their links to other types of objects (words for instance), that can be clustered as well. This case is referred to as co-clustering, and in this thesis we study and improve the co-similarity algorithm XSim. We demonstrate that these improvements enable the algorithm to outperform the state of the art methods. Additionally, it is frequent that these objects are linked to more than one other type of objects, the data that describe these multiple relations between these various types of objects are called multiview. Classical methods are generally not able to consider and use all the information contained in these data. For this reason, we present in this thesis a new multiview similarity algorithm called MVSim, that can be considered as a multiview extension of the XSim algorithm. We demonstrate that this method outperforms state of the art multiview methods, as well as classical approaches, thus validating the interest of the multiview aspect. Finally, we also describe how to use the MVSim algorithm to cluster large-scale single-view data, by first splitting it in multiple subsets. We demonstrate that this approach allows to significantly reduce the running time and the memory footprint of the method, while slightly lowering the quality of the obtained clustering compared to a straightforward approach with no splitting
APA, Harvard, Vancouver, ISO, and other styles
3

Boutin, Luc. "Biomimétisme, génération de trajectoires pour la robotique humanoïde à partir de mouvements humains." Poitiers, 2009. http://theses.edel.univ-poitiers.fr/theses/2009/Boutin-Luc/2009-Boutin-Luc-These.pdf.

Full text
Abstract:
La reproduction fidèle de la locomotion humaine est une problématique d'actualité concernant les robots humanoïdes. Les travaux présentés dans ce mémoire ont pour objectif de définir une procédure permettant l'imitation par les robots humanoïdes du mouvement humain. Dans un premier temps les techniques de l'analyse du mouvement humain sont présentées. Le protocole de mesure adopté est exposé, ainsi que le calcul des angles articulaires. La problématique de la détection des évènements de contact est abordée en proposant l'adaptation des méthodes existantes pour des mouvements complexes. Les algorithmes sont validés par une série de mesures effectuées sur une trentaine de sujets sains. La deuxième partie traite de la transposition du mouvement humain aux robots. Une fois la problématique générale et le processus de transposition définis, le critère d'équilibre des robots marcheurs est présenté. A partir des données du mouvement humain capturé, les trajectoires de référence des pieds et du ZMP sont définies. Une modification de ces trajectoires est ensuite effectuée dans le cas de risque de collision entre les pieds notamment dans le cas de l'exécution d’un slalom. Finallement un algorithme de cinématique inverse, développé pour cette problématique est utilisé pour déterminer les angles articulaires du robot associés aux trajectoires de référence des pieds et du ZMP. Plusieurs applications sur les robots HOAP-3 et HPR-2 sont présentées. Les trajectoires sont validées vis-à-vis du maintien de l'équilibre grâce à des simulations dynamiques du mouvement ainsi que vis-à-vis des limites des actionneurs
The true reproduction of human locomotion is a topical issue on humanoid robots. The goal of this work is to define a process to imitate the human motion with humanoid robots. In the first part, the motion capture techniques are presented. The measurement protocol adopted is exposed and the calculation of joint angles. An adaptation of three existing algorithms is proposed to detect the contact events during complex movements. The method is valided by measurements on thirty healthy subjects. The second part deals with the generation of humanoid trajectories imitating the human motion. Once the problem and the imitation process are defined, the balance criterion of walking robots is presented. Using data from human motion capture, the reference trajectories of the feet and ZMP are defined. These paths are modified to avoid collision between feet, particularly in the case of executing a slalom. Finally an inverse kinematics algorithm developed for this problem is used to determine the joint angles associated with the robot reference trajectories of the feet and ZMP. Several applications on robots HOAP-3 and HRP-2 are presented. The trajectories are validated according to the robot balance through dynamic simulations of the computed motion, and respecting the limits of actuators
APA, Harvard, Vancouver, ISO, and other styles
4

Grimal, Clement. "Apprentissage de co-similarités pour la classification automatique de données monovues et multivues." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00819840.

Full text
Abstract:
L'apprentissage automatique consiste à concevoir des programmes informatiques capables d'apprendre à partir de leurs environnement, ou bien à partir de données. Il existe différents types d'apprentissage, selon que l'on cherche à faire apprendre au programme, et également selon le cadre dans lequel il doit apprendre, ce qui constitue différentes tâches. Les mesures de similarité jouent un rôle prépondérant dans la plupart de ces tâches, c'est pourquoi les travaux de cette thèse se concentrent sur leur étude. Plus particulièrement, nous nous intéressons à la classification de données, qui est une tâche d'apprentissage dit non supervisé, dans lequel le programme doit organiser un ensemble d'objets en plusieurs classes distinctes, de façon à regrouper les objets similaires ensemble. Dans de nombreuses applications, ces objets (des documents par exemple) sont décrits à l'aide de leurs liens à d'autres types d'objets (des mots par exemple), qui peuvent eux-même être classifiés. On parle alors de co-classification, et nous étudions et proposons dans cette thèse des améliorations de l'algorithme de calcul de co-similarités XSim. Nous montrons que ces améliorations permettent d'obtenir de meilleurs résultats que les méthodes de l'état de l'art. De plus, il est fréquent que ces objets soient liés à plus d'un autre type d'objets, les données qui décrivent ces multiples relations entre différents types d'objets sont dites multivues. Les méthodes classiques ne sont généralement pas capables de prendre en compte toutes les informations contenues dans ces données. C'est pourquoi nous présentons dans cette thèse l'algorithme de calcul multivue de similarités MVSim, qui peut être vu comme une extension aux données multivues de l'algorithme XSim. Nous montrons que cette méthode obtient de meilleures performances que les méthodes multivues de l'état de l'art, ainsi que les méthodes monovues, validant ainsi l'apport de l'aspect multivue. Finalement, nous proposons également d'utiliser l'algorithme MVSim pour classifier des données classiques monovues de grandes tailles, en les découpant en différents ensembles. Nous montrons que cette approche permet de gagner en temps de calcul ainsi qu'en taille mémoire nécessaire, tout en dégradant relativement peu la classification par rapport à une approche directe sans découpage.
APA, Harvard, Vancouver, ISO, and other styles
5

Boyer, Laurent. "Apprentissage probabiliste de similarités d'édition." Phd thesis, Université Jean Monnet - Saint-Etienne, 2011. http://tel.archives-ouvertes.fr/tel-00718835.

Full text
Abstract:
De nombreuses applications informatiques nécessitent l'utilisation de distances. Dans le cadre de données structurées, chaînes ou arbres, nous utilisons majoritairement la distance d'édition. Celle-ci correspond au nombre minimal d'opérations d'édition (insertion, délétion et substitution) nécessaire pour transformer la première donnée en la seconde. Suivant l'application traitée, il est possible de paramétrer la distance d'édition en associant à chaque opération d'édition un poids. Dans le cadre de ce manuscrit, nous proposons une technique d'apprentissage automatique supervisée pour apprendre les poids de la distance décrite précédemment. L'algorithme utilisé, appelé Expectation-Maximisation, maximise la vraisemblance des paramètres du modèle à l'aide d'un échantillon d'apprentissage composé de paires d'exemples considérés comme similaires. La première contribution de ce manuscrit est une extension de précédents travaux sur les chaînes aux arbres sous la forme de transducteur à un unique état. Nous montrons sur une tâche de reconnaissance de caractères manuscrits, l'efficacité de l'apprentissage par rapport à l'utilisation de poids non appris. La seconde est une approche sur les chaînes sous contraintes. Le modèle est représenté par un ensemble fini d'états dans lequel les transitions sont contraintes. Une contrainte est représentée par un ensemble fini de fonctions booléennes définies sur la chaîne d'entrée et une de ses positions. Nous utilisons notre modèle pour aborder une application de recherche de sites de facteur de transcription dans des séquences génomiques
APA, Harvard, Vancouver, ISO, and other styles
6

Vogel, Robin. "Similarity ranking for biometrics : theory and practice." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT031.

Full text
Abstract:
L’augmentation rapide de la population combinée à la mobilité croissante des individus a engendré le besoin de systèmes de gestion d’identités sophistiqués. À cet effet, le terme biométrie se réfère généralement aux méthodes permettant d’identifier les individus en utilisant des caractéristiques biologiques ou comportementales. Les méthodes les plus populaires, c’est-à-dire la reconnaissance d’empreintes digitales, d’iris ou de visages, se basent toutes sur des méthodes de vision par ordinateur. L’adoption de réseaux convolutifs profonds, rendue possible par le calcul générique sur processeur graphique, ont porté les récentes avancées en vision par ordinateur. Ces avancées ont permis une amélioration drastique des performances des méthodes conventionnelles en biométrie, ce qui a accéléré leur adoption pour des usages concrets, et a provoqué un débat public sur l’utilisation de ces techniques. Dans ce contexte, les concepteurs de systèmes biométriques sont confrontés à un grand nombre de challenges dans l’apprentissage de ces réseaux. Dans cette thèse, nous considérons ces challenges du point de vue de l’apprentissage statistique théorique, ce qui nous amène à proposer ou esquisser des solutions concrètes. Premièrement, nous répondons à une prolifération de travaux sur l’apprentissage de similarité pour les réseaux profonds, qui optimisent des fonctions objectif détachées du but naturel d’ordonnancement recherché en biométrie. Précisément, nous introduisons la notion d’ordonnancement par similarité, en mettant en évidence la relation entre l’ordonnancement bipartite et la recherche d’une similarité adaptée à l’identification biométrique. Nous étendons ensuite la théorie sur l’ordonnancement bipartite à ce nouveau problème, tout en l’adaptant aux spécificités de l’apprentissage sur paires, notamment concernant son coût computationnel. Les fonctions objectif usuelles permettent d’optimiser la performance prédictive, mais de récents travaux ont mis en évidence la nécessité de prendre en compte d’autres facteurs lors de l’entraı̂nement d’un système biométrique, comme les biais présents dans les données, la robustesse des prédictions ou encore des questions d’équité. La thèse aborde ces trois exemples, en propose une étude statistique minutieuse, ainsi que des méthodes pratiques qui donnent les outils nécessaires aux concepteurs de systèmes biométriques pour adresser ces problématiques, sans compromettre la performance de leurs algorithmes
The rapid growth in population, combined with the increased mobility of people has created a need for sophisticated identity management systems.For this purpose, biometrics refers to the identification of individuals using behavioral or biological characteristics. The most popular approaches, i.e. fingerprint, iris or face recognition, are all based on computer vision methods. The adoption of deep convolutional networks, enabled by general purpose computing on graphics processing units, made the recent advances incomputer vision possible. These advances have led to drastic improvements for conventional biometric methods, which boosted their adoption in practical settings, and stirred up public debate about these technologies. In this respect, biometric systems providers face many challenges when learning those networks.In this thesis, we consider those challenges from the angle of statistical learning theory, which leads us to propose or sketch practical solutions. First, we answer to the proliferation of papers on similarity learningfor deep neural networks that optimize objective functions that are disconnected with the natural ranking aim sought out in biometrics. Precisely, we introduce the notion of similarity ranking, by highlighting the relationship between bipartite ranking and the requirements for similarities that are well suited to biometric identification. We then extend the theory of bipartite ranking to this new problem, by adapting it to the specificities of pairwise learning, particularly those regarding its computational cost. Usual objective functions optimize for predictive performance, but recentwork has underlined the necessity to consider other aspects when training a biometric system, such as dataset bias, prediction robustness or notions of fairness. The thesis tackles all of those three examplesby proposing their careful statistical analysis, as well as practical methods that provide the necessary tools to biometric systems manufacturers to address those issues, without jeopardizing the performance of their algorithms
APA, Harvard, Vancouver, ISO, and other styles
7

Philippeau, Jérémy. "Apprentissage de similarités pour l'aide à l'organisation de contenus audiovisuels." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/564/.

Full text
Abstract:
Dans une optique d'adaptation aux nouveaux usages de consultation d'archives audiovisuelles, nous souhaitons aider un utilisateur issu du grand public à organiser des contenus audiovisuels, c'est-à-dire les classifier, les caractériser, les identifier ou les ordonner. Pour ce faire, nous proposons d'utiliser un vocabulaire autre que ce que l'on pourrait trouver dans une notice documentaire de l'Ina, afin de répondre à des envies qui ne sont pas facilement définissables avec des mots. Nous avons conçu pour cela une interface graphique qui s'appuie sur un formalisme de graphe dédié à l'expression d'une tâche organisationnelle. La similarité numérique est un bon outil au regard des éléments que nous manipulons, à savoir des objets informationnels présentés sur un écran d'ordinateur et des valeurs descriptives de " bas niveau " audio et vidéo extraites de manière automatique. Nous avons choisi de prédire la similarité entre ces éléments grâce à un modèle statistique. Parmi les nombreux modèles existants, la prédiction statistique basée sur la régression univariée et fondée
In the perspective of new usages in the field of the access to audiovisual archives, we have created a semi-automatic system that helps a user to organize audiovisual contents while performing tasks of classification, characterization, identification and ranking. To do so, we propose to use a new vocabulary, different from the one already available in INA documentary notices, to answer needs which can not be easily defined with words. We have conceived a graphical interface based on graph formalism designed to express an organisational task. The digital similarity is a good tool in respect with the handled elements which are informational objects shown on the computer screen and the automatically extracted audio and video low-level features. We have made the choice to estimate the similarity between those elements with a predictive process through a statistical model. Among the numerous existing models, the statistical prediction based on the univaried regression and on support vectors has been chosen. H)
APA, Harvard, Vancouver, ISO, and other styles
8

Qamar, Ali Mustafa. "Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisins." Phd thesis, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00591988.

Full text
Abstract:
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleurs. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. gCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé.
APA, Harvard, Vancouver, ISO, and other styles
9

Aseervatham, Sujeevan. "Apprentissage à base de Noyaux Sémantiques pour le Traitement de Données Textuelles." Phd thesis, Université Paris-Nord - Paris XIII, 2007. http://tel.archives-ouvertes.fr/tel-00274627.

Full text
Abstract:
Depuis le début des années 80, les méthodes statistiques et, plus spécifiquement, les méthodes d'apprentissage appliquées au traitement de données textuelles connaissent un intérêt grandissant. Cette tendance est principalement due au fait que la taille des corpus est en perpétuelle croissance. Ainsi, les méthodes utilisant le travail d'experts sont devenues des processus coûteux perdant peu à peu de leur popularité au profit des systèmes d'apprentissage.
Dans le cadre de cette thèse, nous nous intéressons principalement à deux axes.
Le premier axe porte sur l'étude des problématiques liées au traitement de données textuelles structurées par des approches à base de noyaux. Nous présentons, dans ce contexte, un noyau sémantique pour les documents structurés en sections notamment sous le format XML. Le noyau tire ses informations sémantiques à partir d'une source de connaissances externe, à savoir un thésaurus. Notre noyau a été testé sur un corpus de documents médicaux avec le thésaurus médical UMLS. Il a été classé, lors d'un challenge international de catégorisation de documents médicaux, parmi les 10 méthodes les plus performantes sur 44.
Le second axe porte sur l'étude des concepts latents extraits par des méthodes statistiques telles que l'analyse sémantique latente (LSA). Nous présentons, dans une première partie, des noyaux exploitant des concepts linguistiques provenant d'une source externe et des concepts statistiques issus de la LSA. Nous montrons qu'un noyau intégrant les deux types de concepts permet d'améliorer les performances. Puis, dans un deuxième temps, nous présentons un noyau utilisant des LSA locaux afin d'extraire des concepts latents permettant d'obtenir une représentation plus fine des documents.
APA, Harvard, Vancouver, ISO, and other styles
10

Qamar, Ali Mustafa. "Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisins." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM083.

Full text
Abstract:
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleures. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. GCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé
Almost all machine learning problems depend heavily on the metric used. Many works have proved that it is a far better approach to learn the metric structure from the data rather than assuming a simple geometry based on the identity matrix. This has paved the way for a new research theme called metric learning. Most of the works in this domain have based their approaches on distance learning only. However some other works have shown that similarity should be preferred over distance metrics while dealing with textual datasets as well as with non-textual ones. Being able to efficiently learn appropriate similarity measures, as opposed to distances, is thus of high importance for various collections. If several works have partially addressed this problem for different applications, no previous work is known which has fully addressed it in the context of learning similarity metrics for kNN classification. This is exactly the focus of the current study. In the case of information filtering systems where the aim is to filter an incoming stream of documents into a set of predefined topics with little supervision, cosine based category specific thresholds can be learned. Learning such thresholds can be seen as a first step towards learning a complete similarity measure. This strategy was used to develop Online and Batch algorithms for information filtering during the INFILE (Information Filtering) track of the CLEF (Cross Language Evaluation Forum) campaign during the years 2008 and 2009. However, provided enough supervised information is available, as is the case in classification settings, it is usually beneficial to learn a complete metric as opposed to learning thresholds. To this end, we developed numerous algorithms for learning complete similarity metrics for kNN classification. An unconstrained similarity learning algorithm called SiLA is developed in which case the normalization is independent of the similarity matrix. SiLA encompasses, among others, the standard cosine measure, as well as the Dice and Jaccard coefficients. SiLA is an extension of the voted perceptron algorithm and allows to learn different types of similarity functions (based on diagonal, symmetric or asymmetric matrices). We then compare SiLA with RELIEF, a well known feature re-weighting algorithm. It has recently been suggested by Sun and Wu that RELIEF can be seen as a distance metric learning algorithm optimizing a cost function which is an approximation of the 0-1 loss. We show here that this approximation is loose, and propose a stricter version closer to the the 0-1 loss, leading to a new, and better, RELIEF-based algorithm for classification. We then focus on a direct extension of the cosine similarity measure, defined as a normalized scalar product in a projected space. The associated algorithm is called generalized Cosine simiLarity Algorithm (gCosLA). All of the algorithms are tested on many different datasets. A statistical test, the s-test, is employed to assess whether the results are significantly different. GCosLA performed statistically much better than SiLA on many of the datasets. Furthermore, SiLA and gCosLA were compared with many state of the art algorithms, illustrating their well-foundedness
APA, Harvard, Vancouver, ISO, and other styles
11

Dhouib, Sofiane. "Contributions to unsupervised domain adaptation : Similarity functions, optimal transport and theoretical guarantees." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI117.

Full text
Abstract:
L'explosion de la quantité de données produites chaque jour a fait de l' l'Apprentissage Automatique un outil vital pour extraire des motifs de haute valeur à partir de celles-là. Concrètement, un algorithme d'apprentissage automatique apprend de tels motifs après avoir été entraîné sur un jeu de données appelé données d'entraînement, et sa performance est évaluée sur échantillon différent, appelé données de test. L'Adaptation de Domaine est une branche de l'apprentissage automatique, dans lequel les données d'entraînement et de test ne sont plus supposées provenir de la même distribution de probabilité. Dans ce cas, les deux distributions des données d'entraînement et de test correspondent respectivement aux domaines source et cible. Nos contributions se focalisent sur trois aspects théoriques en relation avec l'adaptation de domaine pour les tâches de classification. Le premier est l'apprentissage avec des fonctions de similarité, qui traite les algorithmes de classification basés sur la comparaison d'une instance à d'autres exemples pour décider sa classe. Le deuxième est la classification à vaste marge qui concerne l'apprentissage d'un classifieur maximisant la séparation entre classes. Le troisième aspect est le Transport Optimal qui formalise un principe d'effort minimal pour le transport de masses de probabilité entre distributions. Au début de cette thèse, nous nous intéressions à l'apprentissage avec ce que l'on appelle fonctions de similarités (epsilon,gamma,tau)-bonnes dans le cadre de l'adaptation de domaine, puisque ces fonctions ont été introduites dans la littérature dans le cadre classique de l'apprentissage supervisé. C'est le sujet de notre première contribution dans laquelle nous étudions théoriquement la performance d'une fonction de similarité sur une distribution cible, étant donné qu'elle est adéquate pour la source. Puis, nous abordons plus généralement le thème de la classification à vaste marge pour l'adaptation de domaine, avec des hypothèses de départ plus faibles que celles adoptées dans la première contribution. Dans ce contexte, nous proposons une nouvelle étude théorique et un algorithme d'adaptation de domaine, ce qui constitue notre deuxième contribution. Nous dérivons de nouvelles bornes prenant en compte la marge de classification dans le domaine cible, que nous convexifions en tirant profit de la théorie du Transport Optimal, en vue de dériver un algorithme d'adaptation de domaine présentant une variation adversariale du problème classique de Kantorovitch. Finalement, nous dédions notre dernière contribution aux variations adversariales ou minimax du problème du transport optimal, où nous démontrons l'adaptabilité de notre approche
The surge in the quantity of data produced nowadays made of Machine Learning, a subfield of Artificial Intelligence, a vital tool used to extract valuable patterns from them and allowed it to be integrated into almost every aspect of our everyday activities. Concretely, a machine learning algorithm learns such patterns after being trained on a dataset called the training set, and its performance is assessed on a different set called the testing set. Domain Adaptation is an active research area of machine learning, in which the training and testing sets are not assumed to stem from the same probability distribution, as opposed to Supervised Learning. In this case, the two distributions generating the training and testing data correspond respectively to the source and target domains. Our contributions focus on three theoretical aspects related to domain adaptation for classification tasks. The first one is learning with similarity functions, which deals with classification algorithms based on comparing an instance to other examples in order to decide its class. The second is large-margin classification, which concerns learning classifiers that maximize the separation between classes. The third is Optimal Transport that formalizes the principle of least effort for transporting probability masses between two distributions. At the beginning of the thesis, we were interested in learning with so-called (epsilon,gamma,tau)-good similarity functions in the domain adaptation framework, since these functions have been introduced in the literature in the classical framework of supervised learning. This is the subject of our first contribution in which we theoretically study the performance of a similarity function on a target distribution, given it is suitable for the source one. Then, we tackle the more general topic of large-margin classification in domain adaptation, with weaker assumptions than those adopted in the first contribution. In this context, we proposed a new theoretical study and a domain adaptation algorithm, which is our second contribution. We derive novel bounds taking the classification margin on the target domain into account, that we convexify by leveraging the appealing Optimal Transport theory, in order to derive a domain adaptation algorithm with an adversarial variation of the classic Kantorovich problem. Finally, after noticing that our adversarial formulation can be generalized to include several other cases of interest, we dedicate our last contribution to adversarial or minimax variations of the optimal transport problem, where we demonstrate the versatility of our approach
APA, Harvard, Vancouver, ISO, and other styles
12

Gresse, Adrien. "L'Art de la Voix : Caractériser l'information vocale dans un choix artistique." Thesis, Avignon, 2020. http://www.theses.fr/2020AVIG0236.

Full text
Abstract:
Pour atteindre une audience internationale, les productions audiovisuelles (films, séries, jeux vidéo) doivent être traduites dans d'autres langues. Très souvent les voix de la langue d'origine de l'œuvre sont doublées par de nouvelles voix dans la langue cible. Le processus de casting vocal visant à choisir une voix (un acteur) en accord avec la voix originale et le personnage joué est réalisé manuellement par un directeur artistique (DA). Aujourd'hui, les DAs ont une inclination pour les nouveaux talents (moins coûteux et plus disponibles que les doubleurs expérimentés), mais ils ne peuvent pas réaliser une audition à grande échelle. Doter les industriels de l'audiovisuel d'outils automatiques capables de mesurer l'adéquation entre une voix dans une langue source avec un contexte donné et une voix dans une langue/culture cible est donc d'un fort intérêt. De plus, au-delà du casting vocal, cette problématique du choix d'une voix fait écho aux grands enjeux scientifiques de la compréhension des mécanismes de perception de la voix.Dans ce travail de thèse, nous utilisons des voix d'acteurs professionnels sélectionnées par un DA dans différentes langues pour des œuvres déjà doublées. Dans un premier temps, nous construisons un protocole fondé sur une méthode état-de-l'art en reconnaissance du locuteur pour mettre en évidence l'existence d'une information caractéristique du personnage dans nos données. Nous identifions également l'influence du biais linguistique sur les performances du système. Nous mettons en place, dans un second temps, un cadre méthodologique pour évaluer la capacité d'un système automatique à discriminer les paires de voix doublant un même personnage. Le système que nous avons créé repose sur des réseaux de neurones siamois. Dans ce cadre d'évaluation nous exerçons un contrôle fort des biais (contenu linguistique, genre, etc.) et nous apprenons une mesure de similarité permettant de prédire les choix du DA avec un écart significatif par rapport au hasard. Enfin, nous entraînons un espace de représentation mettant en avant l'information caractéristique du personnage, appelé p-vecteur. Nous montrons, grâce à notre cadre méthodologique que cette représentation permet de mieux discriminer les voix de nouveaux personnages, par comparaison à une représentation orientée sur l'information locuteur. De plus, nous montrons qu'il est possible de bénéficier de la connaissance généralisée d'un modèle appris sur un jeu de données proche en utilisant les techniques de distillation de la connaissance dans les réseaux de neurones.Cette thèse apporte un début de réponse pour la construction d'un outil d'aide au casting vocal capable de réaliser une présélection des voix pertinentes parmi un grand ensemble de voix disponibles dans une langue. Si nous avons montré dans cette thèse qu'il est possible d'extraire, à partir d'un grand volume de données, une information caractéristique d'un choix artistique souvent difficile à formaliser, il nous reste encore à mettre en évidence les facteurs explicatifs de cette décision. Nous souhaitons pouvoir fournir en complément de la sélection de voix réalisée une description des raisons de ce choix. Par ailleurs, la compréhension du processus de décision du système nous aiderait à définir la "palette vocale". À la suite de ces travaux, nous aimerions explorer l'influence de la langue et de la culture ciblée en étendant nos travaux à plus de langues. À plus long termes, ce travail pourrait aider à comprendre comment la perception des voix à évoluer depuis les débuts du doublage
To reach an international audience, audiovisual productions (films, TVshows, video games) must be translated into other languages. Generally, theoriginal voice is replaced by a new voice in the target language. This processis referred as dubbing. The voice casting process aimed at choosing avoice (an actor) in accordance with the original voice and the character, isperformed manually by an artistic director (AD). Today, ADs are looking fornew "talents" (less expensive and more available than experienced dubbers),but they cannot perform large-scale auditions. Automatic tools capable ofmeasuring the adequacy between a voice in a source language with a voicein a target language/culture and a given context is of great interest for audiovisualcompanies. In addition, beyond voice casting, this voice selectionproblematic echoes the major scientific questions of voice similarity andperception mechanism.In this work, we use the voices of professional actors selected by ADs indifferent languages from already dubbed works. First, we set up a protocolwith state-of-the-art methods in automatic speaker recognition to highlightthe existence of character/role specific information in our data. Wealso identify the influence of linguistic bias on the performance of the system.Then, we build methodological framework to evaluate the ability ofan automatic system to discriminate pairs of voices playing the same character.The system we created is based on Siamese Neural Networks. In thisevaluation protocol, we apply strong constraints to avoid possible biases(linguistic content, gender, etc.) and we learn a similarity measure that reflectsthe AD’s choices with a significant difference that is not attributed tochance. Finally, we train a new representational space highlighting the characterspecific information, called p-vector. Thanks to our methodologicalframework, we show that this representation allows to better discriminatethe voices of new characters, in comparison to a representation oriented onthe speaker information. In addition, we show that it is possible to benefitfrom the generalized knowledge of a model learned on a similar dataset using knowledge distillation in neural networks.This thesis gives a initial answer for assisted voice casting and providesautomatic tools capable of preselecting the relevant voices from a large setof voices in a target language. Despite the fact that the information characteristicof an artistic choice can be extracted from a large volume of data,even if this choice is difficult to formalize, we still have to highlight the explanatoryfactors of the decision of the system.We would like to explain, inaddition to the selection of voices, the reasons of this choice. Furthermore,understanding the decision process of the system would help us define the"voice palette". In future work, we would like to explore the influence of thetarget language and culture by extending our work to more languages. Inthe longer term, this work could help to understand how voice perceptionhas evolved since the beginning of dubbing
APA, Harvard, Vancouver, ISO, and other styles
13

Brezellec, Pierre. "Techniques d'apprentissage par explication et détections de similarités." Paris 13, 1992. http://www.theses.fr/1992PA132033.

Full text
Abstract:
En premier lieu, nous présentons naïade et oréade deux algorithmes d'apprentissage par détection de similarités dont nous évaluons les performances sur trois problèmes biologiques. Dans un second temps, nous décrivons yaces. Ce dernier est un algorithme combinant apprentissage par détection de similarités et apprentissage par explications; une évaluation de son comportement vis-à-vis de bases d'apprentissage générées artificiellement est proposée. Nous montrons enfin comment les concepts de changement de biais, de changement de la perception et de décision par gestion d'hypothèses atténuent la dépendance de l'apprentissage par rapport 1) au contenu initial de la théorie utilisée pour la saturation, 2) aux descriptions initiales des objets et 3) au bruit.
APA, Harvard, Vancouver, ISO, and other styles
14

Michaud, Dorian. "Indexation bio-inspirée pour la recherche d'images par similarité." Thesis, Poitiers, 2018. http://www.theses.fr/2018POIT2288/document.

Full text
Abstract:
La recherche d'images basée sur le contenu visuel est un domaine très actif de la vision par ordinateur, car le nombre de bases d'images disponibles ne cesse d'augmenter.L’objectif de ce type d’approche est de retourner les images les plus proches d'une requête donnée en terme de contenu visuel.Notre travail s'inscrit dans un contexte applicatif spécifique qui consiste à indexer des petites bases d'images expertes sur lesquelles nous n'avons aucune connaissance a priori.L’une de nos contributions pour palier ce problème consiste à choisir un ensemble de descripteurs visuels et de les placer en compétition directe. Nous utilisons deux stratégies pour combiner ces caractéristiques : la première, est pyschovisuelle, et la seconde, est statistique.Dans ce contexte, nous proposons une approche adaptative non supervisée, basée sur les sacs de mots et phrases visuels, dont le principe est de sélectionner les caractéristiques pertinentes pour chaque point d'intérêt dans le but de renforcer la représentation de l'image.Les tests effectués montrent l'intérêt d'utiliser ce type de méthodes malgré la domination des méthodes basées réseaux de neurones convolutifs dans la littérature.Nous proposons également une étude, ainsi que les résultats de nos premiers tests concernant le renforcement de la recherche en utilisant des méthodes semi-interactives basées sur l’expertise de l'utilisateur
Image Retrieval is still a very active field of image processing as the number of available image datasets continuously increases.One of the principal objectives of Content-Based Image Retrieval (CBIR) is to return the most similar images to a given query with respect to their visual content.Our work fits in a very specific application context: indexing small expert image datasets, with no prior knowledge on the images. Because of the image complexity, one of our contributions is the choice of effective descriptors from literature placed in direct competition.Two strategies are used to combine features: a psycho-visual one and a statistical one.In this context, we propose an unsupervised and adaptive framework based on the well-known bags of visual words and phrases models that select relevant visual descriptors for each keypoint to construct a more discriminative image representation.Experiments show the interest of using this this type of methodologies during a time when convolutional neural networks are ubiquitous.We also propose a study about semi interactive retrieval to improve the accuracy of CBIR systems by using the knowledge of the expert users
APA, Harvard, Vancouver, ISO, and other styles
15

Champesme, Marc. "Apprentissage par détection de similarités utilisant le formalisme des graphes conceptuels." Paris 13, 1993. http://www.theses.fr/1993PA132004.

Full text
Abstract:
Nous décrivons un système d'apprentissage de concepts à partir d'exemples, qui procède par détection de similarités. Les connaissances du domaine, les exemples et les similarités sont représentés dans le formalisme des graphes conceptuels tel qu'il a été décrit par John Sowa. Ce formalisme permet la représentation de connaissances structurelles. La méthode utilisée procède en trois étapes. Dans un premier temps, la connaissance du domaine est introduite dans les exemples au cours d'une phase de saturation. Dans l'étape suivante, on recherche des similarités entre les exemples du concept à apprendre en limitant la recherche aux arborescences conceptuelles (graphes conceptuels qui sont en même temps des arborescences). Enfin, les similarités obtenues sont structurées en recherchant les implications empiriques existant entre elles. Des tests, effectués sur des données artificielles produites à l'aide d'un générateur aléatoire de graphes conceptuels canoniques, montrent que la méthode présentée permet l'apprentissage de concepts disjonctifs complexes et le traitement de données de grande taille (nombre et taille des exemples).
APA, Harvard, Vancouver, ISO, and other styles
16

Benhabiles, Halim. "3D-mesh segmentation : automatic evaluation and a new learning-based method." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2011. http://tel.archives-ouvertes.fr/tel-00834344.

Full text
Abstract:
Dans cette thèse, nous abordons deux problèmes principaux, à savoir l'évaluation quantitative des algorithmes de segmentation de maillages ainsi que la segmentation de maillages par apprentissage en exploitant le facteur humain. Nous proposons les contributions suivantes : - Un benchmark dédié à l'évaluation des algorithmes de segmentation de maillages 3D. Le benchmark inclut un corpus de segmentations vérités-terrains réalisées par des volontaires ainsi qu'une nouvelle métrique de similarité pertinente qui quantifie la cohérence entre ces segmentations vérités-terrains et celles produites automatique- ment par un algorithme donné sur les mêmes modèles. De plus, nous menons un ensemble d'expérimentations, y compris une expérimentation subjective, pour respectivement démontrer et valider la pertinence de notre benchmark. - Un algorithme de segmentation par apprentissage. Pour cela, l'apprentissage d'une fonction d'arête frontière est effectué, en utilisant plusieurs critères géométriques, à partir d'un ensemble de segmentations vérités-terrains. Cette fonction est ensuite utilisée, à travers une chaîne de traitement, pour segmenter un nouveau maillage 3D. Nous montrons, à travers une série d'expérimentations s'appuyant sur différents benchmarks, les excellentes performances de notre algorithme par rapport à ceux de l'état de l'art. Nous présentons également une application de notre algorithme de segmentation pour l'extraction de squelettes cinématiques pour les maillages 3D dynamiques.
APA, Harvard, Vancouver, ISO, and other styles
17

Ngo, Duy Hoa. "Enhancing Ontology Matching by Using Machine Learning, Graph Matching and Information Retrieval Techniques." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20096/document.

Full text
Abstract:
Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul.Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang
In recent years, ontologies have attracted a lot of attention in the Computer Science community, especially in the Semantic Web field. They serve as explicit conceptual knowledge models and provide the semantic vocabularies that make domain knowledge available for exchange and interpretation among information systems. However, due to the decentralized nature of the semantic web, ontologies are highlyheterogeneous. This heterogeneity mainly causes the problem of variation in meaning or ambiguity in entity interpretation and, consequently, it prevents domain knowledge sharing. Therefore, ontology matching, which discovers correspondences between semantically related entities of ontologies, becomes a crucial task in semantic web applications.Several challenges to the field of ontology matching have been outlined in recent research. Among them, selection of the appropriate similarity measures as well as configuration tuning of their combination are known as fundamental issues that the community should deal with. In addition, verifying the semantic coherent of the discovered alignment is also known as a crucial task. Furthermore, the difficulty of the problem grows with the size of the ontologies. To deal with these challenges, in this thesis, we propose a novel matching approach, which combines different techniques coming from the fields of machine learning, graph matching and information retrieval in order to enhance the ontology matching quality. Indeed, we make use of information retrieval techniques to design new effective similarity measures for comparing labels and context profiles of entities at element level. We also apply a graph matching method named similarity propagation at structure level that effectively discovers mappings by exploring structural information of entities in the input ontologies. In terms of combination similarity measures at element level, we transform the ontology matching task into a classification task in machine learning. Besides, we propose a dynamic weighted sum method to automatically combine the matching results obtained from the element and structure level matchers. In order to remove inconsistent mappings, we design a new fast semantic filtering method. Finally, to deal with large scale ontology matching task, we propose two candidate selection methods to reduce computational space.All these contributions have been implemented in a prototype named YAM++. To evaluate our approach, we adopt various tracks namely Benchmark, Conference, Multifarm, Anatomy, Library and Large BiomedicalOntologies from the OAEI campaign. The experimental results show that the proposed matching methods work effectively. Moreover, in comparison to other participants in OAEI campaigns, YAM++ showed to be highly competitive and gained a high ranking position
APA, Harvard, Vancouver, ISO, and other styles
18

Alliod, Charlotte. "Conception et modélisation de nouvelles molécules hautement énergétiques en fonction des contraintes réglementaires et environnementales." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE1035.

Full text
Abstract:
Depuis deux décennies, la recherche militaire se focalise sur l'amélioration des critères de performances des explosifs, tout en prenant en compte leurs impacts environnementaux et toxicologiques. Ces enjeux sont encadrés par une réglementation stricte : REACh (Registration, Evaluation, Authorization and Restriction of Chemicals) permettant d'assurer un haut niveau de protection sanitaire et environnementale. De nos jours, développer des explosifs ou molécules hautement énergétiques (High Energy Materials (HEM)) ayant un effet réduit sur l'homme et l'environnement est un sujet de préoccupation majeur. Ainsi, en collaboration avec Airbus Safran Lauchers (ASL), un programme de recherche a été mis en place, afin d'obtenir des outils optimisés pour la prédiction de la toxicité des HEMs et concevoir de nouvelles molécules HEMS non toxiques et réglementaires.Différentes méthodes in silico ont été utilisées dont des Relations Structure Activité Quantitatives (ou Quantitative Structure-Activity Relationship (QSAR)) et le Machine Learning. La recherche de similarité structurale parmi les molécules est un outil novateur sur lequel nous avons basé nos prédictions in silico. Cette similarité est obtenue grâce à un algorithme intelligent développé au sein du Pôle Rhône Alpin de Bio-Informatique de Lyon et qui a donné lieu à un brevet. Cet algorithme nous permet d'obtenir des prédictions plus précises basées sur des données expérimentales issues de directives européennes
For the last two decades, the military research has focused on the improvement of explosive performances, while taking into account their environmental and toxicological impacts. These issues are governed by strict regulations: REACh (Registration, Evaluation, Authorization and Restriction of Chemicals) to ensure a high level of health and environmental protection.Today, it's a major consideration to develop High Energetic Materials (HEM) or molecules who's hazard on human health and environment are reduced. Thus, in collaboration with Airbus Safran Lauchers (ASL), a research program was set up to obtain optimized tools for predicting the potential toxicity of HEM and to design new non-toxic and regulatory molecules.Different in silico methods have been used, including Quantitative Structure Activity Activity Relationships (QSARs) and Machine Learning.The search for structural similarity among molecules is an innovative tool on which we based our predictions in silico. This similarity is obtained thanks to an intelligent algorithm developed within the Pole Rhone Alpin de Bio-Informatique of Lyon which gave rise to a patent. This algorithm allows us to obtain more accurate predictions based on experimental data from European directives
APA, Harvard, Vancouver, ISO, and other styles
19

Zhou, Zhyiong. "Recherche d'images par le contenu application à la proposition de mots clés." Thesis, Poitiers, 2018. http://www.theses.fr/2018POIT2254.

Full text
Abstract:
La recherche d'information dans des masses de données multimédia et l'indexation de ces grandes bases d'images par le contenu sont des problématiques très actuelles. Elles s'inscrivent dans un type de gestion de données qu'on appelle le Digital Asset Management (ou DAM) ; Le DAM fait appel à des techniques de segmentation d'images et de classification de données. Nos principales contributions dans cette thèse peuvent se résumer en trois points :- Analyse des utilisations possibles des différentes méthodes d'extraction des caractéristiques locales en exploitant la technique de VLAD.- Proposition d'une nouvelle méthode d'extraction de l'information relative à la couleur dominante dans une image.- Comparaison des Machine à Supports de Vecteur (SVM - Support Vector Machine) à différents classifieurs pour la proposition de mots clés d'indexation. Ces contributions ont été testées et validées sur des données de synthèse et sur des données réelles. Nos méthodes ont alors été largement utilisées dans le système DAM ePhoto développé par la société EINDEN, qui a financé la thèse CIFRE dans le cadre de laquelle ce travail a été effectué. Les résultats sont encourageants et ouvrent de nouvelles perspectives de recherche
The search for information in masses of multimedia data and the indexing of these large databases by the content are very current problems. They are part of a type of data management called Digital Asset Management (or DAM) ; The DAM uses image segmentation and data classification techniques.Our main contributions in this thesis can be summarized in three points : - Analysis of the possible uses of different methods of extraction of local characteristics using the VLAD technique.- Proposed a new method for extracting dominant color information in an image.- Comparison of Support Vector Machines (SVM) to different classifiers for the proposed indexing keywords. These contributions have been tested and validated on summary data and on actual data. Our methods were then widely used in the DAM ePhoto system developed by the company EINDEN, which financed the CIFRE thesis in which this work was carried out. The results are encouraging and open new perspectives for research
APA, Harvard, Vancouver, ISO, and other styles
20

Kessler, Rémy. "Traitement automatique d'informations appliqué aux ressources humaines." Phd thesis, Université d'Avignon, 2009. http://tel.archives-ouvertes.fr/tel-00453642.

Full text
Abstract:
Depuis les années 90, Internet est au coeur du marché du travail. D'abord mobilisée sur des métiers spécifiques, son utilisation s'étend à mesure qu'augmente le nombre d'internautes dans la population. La recherche d'emploi au travers des « bourses à l'emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d'informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d'information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d'outils pour automatiser les flux d'informations lors d'un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d'une entreprise à gérer efficacement et à moindre coût ces flux d'informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l'application des méthodes d'apprentissage afin d'effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l'analyse et l'intégration d'une offre d'emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d'intégrer une offre d'emploi d'une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d'assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures. L'utilisation d'un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité.
APA, Harvard, Vancouver, ISO, and other styles
21

Elgui, Kevin. "Contributions to RSSI-based geolocation." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT047.

Full text
Abstract:
La géolocalisation par le réseau a suscité beaucoup d'attention ces dernières années. Dans un contexte où les signaux sont à bandes étroites, par exemple pour l'Internet des Objets, les techniques de géolocalisation basées sur le RSSI se distinguent. Nous proposons tout d'abord quelques méthodes pour le problème de la géolocalisation basée sur le RSSI. En particulier, nous introduisons un estimateur semi-paramétrique de Nadaraya-Watson de la vraisemblance, suivi d'un estimateur de maximum à postériori de la position de l'objet. Les expériences démontrent l'intérêt de la méthode proposée sur les performances d'estimation. Une approche alternative est donnée par une régression de type k-NN qui utilise une métrique appropriée entre les vecteurs de RSSI. Nous nous intéressons donc au problème de l'apprentissage de similarité et nous introduisons un objectif spécifiquemet choisi pour améliorer la géolocalisation. La fonction de similarité est choisie comme une somme d'arbres de régression et est apprise séquentiellement au moyen d'une version modifiée de l'algorithme XGBoost. La dernière partie de la thèse est consacrée à l'introduction d'un test d'hypothèse d'indépendance conditionnelle (IC). En effet, pour de nombreux estimateurs, les composantes des vecteurs RSSI sont supposées indépendantes sachant la position. La contribution est cependant fournie dans un cadre statistique général. Nous introduisons la fonction de copule partielle pondérée pour tester l'indépendance conditionnelle. La procédure de test proposée résulte des éléments suivants : (i) la statistique de test est une transformation de Cramér-von Mises de la copule partielle pondérée, (ii) les régions de rejet sont calculées à l'aide d'une procédure de "bootstrap" qui imite l'indépendance conditionnelle en générant des échantillons. Sous l'hypothèse nulle, la faible convergence du processus de la copule partielle pondérée est établie et confirme le bien-fondé de notre approche
The Network-Based Geolocation has raised a great deal of attention in the context of the Internet of Things. In many situations, connected objects with low-consumption should be geolocated without the use of GPS or GSM. Geolocation techniques based on the Received Signal Strength Indicator (RSSI) stands out, because other location techniques may fail in the context of urban environments and/or narrow band signals. First, we propose some methods for the RSSI-based geolocation problem. The observation is a vector of RSSI received at the various base stations. In particular, we introduce a semi-parametric Nadaraya-Watson estimator of the likelihood, followed by a maximum a posteriori estimator of the object’s position. Experiments demonstrate the interest of the proposed method, both in terms of location estimation performance, and ability to build radio maps. An alternative approach is given by a k-nearest neighbors regressor which uses a suitable metric between RSSI vectors. Results also show that the quality of the prediction is highly related to the chosen metric. Therefore, we turn our attention to the metric learning problem. We introduce an original task-driven objective for learning a similarity between pairs of data points. The similarity is chosen as a sum of regression trees and is sequentially learned by means of a modified version of the so-called eXtreme Gradient Boosting algorithm (XGBoost). The last part of the thesis is devoted to the introduction of a Conditional Independence (CI) hypothesis test. The motivation is related to the fact that for many estimators, the components of the RSSI vectors are assumed independent given the position. The contribution is however provided in a general statistical framework. We introduce the weighted partial copula function for testing conditional independence. The proposed test procedure results from the following ingredients: (i) the test statistic is an explicit Cramér-von Mises transformation of the weighted partial copula, (ii) the regions of rejection are computed using a boot-strap procedure which mimics conditional independence by generating samples. Under the null hypothesis, the weak convergence of the weighted partial copula process is established and endorses the soundness of our approach
APA, Harvard, Vancouver, ISO, and other styles
22

Berrahou, Soumia Lilia. "Extraction d'arguments de relations n-aires dans les textes guidée par une RTO de domaine." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS019/document.

Full text
Abstract:
Aujourd'hui, la communauté scientifique a l'opportunité de partager des connaissances et d'accéder à de nouvelles informations à travers les documents publiés et stockés dans les bases en ligne du web. Dans ce contexte, la valorisation des données disponibles reste un défi majeur pour permettre aux experts de les réutiliser et les analyser afin de produire de la connaissance du domaine. Pour être valorisées, les données pertinentes doivent être extraites des documents puis structurées. Nos travaux s'inscrivent dans la problématique de la capitalisation des données expérimentales issues des articles scientifiques, sélectionnés dans des bases en ligne, afin de les réutiliser dans des outils d'aide à la décision. Les mesures expérimentales (par exemple, la perméabilité à l'oxygène d'un emballage ou le broyage d'une biomasse) réalisées sur différents objets d'études (par exemple, emballage ou procédé de bioraffinerie) sont représentées sous forme de relations n-aires dans une Ressource Termino-Ontologique (RTO). La RTO est modélisée pour représenter les relations n-aires en associant une partie terminologique et/ou linguistique aux ontologies afin d'établir une distinction claire entre la manifestation linguistique (le terme) et la notion qu'elle dénote (le concept). La thèse a pour objectif de proposer une contribution méthodologique d'extraction automatique ou semi-automatique d'arguments de relations n-aires provenant de documents textuels afin de peupler la RTO avec de nouvelles instances. Les méthodologies proposées exploitent et adaptent conjointement des approches de Traitement automatique de la Langue (TAL) et de fouille de données, le tout s'appuyant sur le support sémantique apporté par la RTO de domaine. De manière précise, nous cherchons, dans un premier temps, à extraire des termes, dénotant les concepts d'unités de mesure, réputés difficiles à identifier du fait de leur forte variation typographique dans les textes. Après la localisation de ces derniers par des méthodes de classification automatique, les variants d'unités sont identifiés en utilisant des mesures d'édition originales. La seconde contribution méthodologique de nos travaux repose sur l'adaptation et la combinaison de méthodes de fouille de données (extraction de motifs et règles séquentiels) et d'analyse syntaxique pour identifier les instances d'arguments de la relation n-aire recherchée
Today, a huge amount of data is made available to the research community through several web-based libraries. Enhancing data collected from scientific documents is a major challenge in order to analyze and reuse efficiently domain knowledge. To be enhanced, data need to be extracted from documents and structured in a common representation using a controlled vocabulary as in ontologies. Our research deals with knowledge engineering issues of experimental data, extracted from scientific articles, in order to reuse them in decision support systems. Experimental data can be represented by n-ary relations which link a studied object (e.g. food packaging, transformation process) with its features (e.g. oxygen permeability in packaging, biomass grinding) and capitalized in an Ontological and Terminological Ressource (OTR). An OTR associates an ontology with a terminological and/or a linguistic part in order to establish a clear distinction between the term and the notion it denotes (the concept). Our work focuses on n-ary relation extraction from scientific documents in order to populate a domain OTR with new instances. Our contributions are based on Natural Language Processing (NLP) together with data mining approaches guided by the domain OTR. More precisely, firstly, we propose to focus on unit of measure extraction which are known to be difficult to identify because of their typographic variations. We propose to rely on automatic classification of texts, using supervised learning methods, to reduce the search space of variants of units, and then, we propose a new similarity measure that identifies them, taking into account their syntactic properties. Secondly, we propose to adapt and combine data mining methods (sequential patterns and rules mining) and syntactic analysis in order to overcome the challenging process of identifying and extracting n-ary relation instances drowned in unstructured texts
APA, Harvard, Vancouver, ISO, and other styles
23

Akgül, Ceyhun Burak. "Descripteurs de forme basés sur la densité probabiliste et apprentissage des similarités pour la recherche d'objets 3D." Phd thesis, Télécom ParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00003154.

Full text
APA, Harvard, Vancouver, ISO, and other styles
24

Trouvilliez, Benoît. "Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits." Thesis, Artois, 2013. http://www.theses.fr/2013ARTO0403/document.

Full text
Abstract:
Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction
This Ph.D. thesis is about the establishment of textual data similarities in the client relation domain. Two subjects are mainly considered : - the automatic analysis of short messages in response of satisfaction surveys ; - the search of products given same criteria expressed in natural language by a human through a conversation with a program. The first subject concerns the statistical informations from the surveys answers. The ideas recognized in the answers are identified, organized according to a taxonomy and quantified. The second subject concerns the transcription of some criteria over products into queries to be interpreted by a database management system. The number of criteria under consideration is wide, from simplest criteria like material or brand, until most complex criteria like color or price. The two subjects meet on the problem of establishing textual data similarities thanks to NLP techniques. The main difficulties come from the fact that the texts to be processed, written in natural language, are short ones and with lots of spell checking errors and negations. Establishment of semantic similarities between words (synonymy, antonymy, ...) and syntactic relations between syntagms (conjunction, opposition, ...) are other issues considered in our work. We also study in this Ph. D. thesis automatic clustering and classification methods in order to analyse answers to satisfaction surveys
APA, Harvard, Vancouver, ISO, and other styles
25

Akgül, Ceyhun Burak. "Descripteurs de forme basés sur la densité de probabilité et apprentissage des similarités pour la recherche d'objets 3D." Paris, ENST, 2007. http://www.theses.fr/2007ENST0026.

Full text
Abstract:
L'objectif de la recherche par le contenu est de développer des moteurs de recherche permettant aux utilisateurs d'effectuer des requêtes par la similarité du contenu. Cette thèse aborde deux problèmes fondamentaux de la recherche d'objets 3D par le contenu : (1) Comment décrire une forme 3D pour en obtenir une représentation fiable qui facilite ensuite la recherche par similarité? (2) Comment superviser le processus de recherche afin d’apprendre les similarités inter-objets pour une recherche plus efficace et sémantique?Concernant le premier problème, nous développons un nouveau système de description de formes 3D basé sur la densité de probabilité d’attributs surfaciques locaux multivariés. Nous relevons des caractéristiques locales des points 3D et résumons l'information locale sous forme d'un descripteur global. Pour l'estimation de la densité de probabilité, nous utilisons la méthode d'estimation de densité par noyaux, associée avec un algorithme d'approximation rapide: la transformée de Gauss rapide. Les expériences sur diverses bases d'objets 3D montrent que les descripteurs basés sur la densité sont très rapides à calculer et très efficaces pour la recherche 3D par similarité. Concernant le deuxième problème, nous proposons un système d'apprentissage des similarités. Notre approche est basée sur la combinaison de scores de similarité multiples en optimisant une version convexe régularisée du critère de risque de mauvais classement empirique. Cette approche de fusion de scores à l'apprentissage des similarités peut être appliquée à divers problèmes de moteur de recherche. Dans ces travaux, nous démontrons son efficacité pour la recherche d'objets 3D
Content-based retrieval research aims at developing search engines that would allow users to perform a query by similarity of content. This thesis deals with two fundamentals problems in content-based 3D object retrieval : (1) How to describe a 3D shape to obtain a reliable representative for the subsequent task of similarity search? (2) How to supervise the search process to learn inter-shape similarities for more effective and semantic retrieval? Concerning the first problem, we develop a novel 3D shape description scheme based on probability density of multivariate local surface features. We constructively obtain local characterizations of 3D points and then summarize the resulting local shape information into a global shape descriptor. For probability density estimation, we use the general purpose kernel density estimation methodology, coupled with a fast approximation algorithm: the fast Gauss transform. Experiments that we have conducted on several 3D object databases show that density-based descriptors are very fast to compute and very effective for 3D similarity search. Concerning the second problem, we propose a similarity learning scheme. Our approach relies on combining multiple similarity scores by optimizing a convex regularized version of the empirical ranking risk criterion. This score fusion approach to similarity learning is applicable to a variety of search engine problems. In this work, we demonstrate its effectiveness in 3D object retrieval
APA, Harvard, Vancouver, ISO, and other styles
26

Schutz, Georges. "Adaptations et applications de modèles mixtes de réseaux de neurones à un processus industriel." Phd thesis, Université Henri Poincaré - Nancy I, 2006. http://tel.archives-ouvertes.fr/tel-00115770.

Full text
Abstract:
Cette étude consiste à étudier l'apport de réseaux de neurones
artificiels pour améliorer le contrôle de processus industriels
complexes, caractérisés en particulier par leur aspect temporel.
Les motivations principales pour traiter des séries temporelles
sont la réduction du volume de données, l'indexation pour la
recherche de similarités, la localisation de séquences,
l'extraction de connaissances (data mining) ou encore la
prédiction.

Le processus industriel choisi est un four à arc
électrique pour la production d'acier liquide au Luxembourg. Notre
approche est un concept de contrôle prédictif et se base sur des
méthodes d'apprentissage non-supervisé dans le but d'une
extraction de connaissances.

Notre méthode de codage se base sur
des formes primitives qui composent les signaux. Ces formes,
composant un alphabet de codage, sont extraites par une méthode
non-supervisée, les cartes auto-organisatrices de Kohonen (SOM).
Une méthode de validation des alphabets de codage accompagne
l'approche.

Un sujet important abordé durant ces recherches est
la similarité de séries temporelles. La méthode proposée est
non-supervisée et intègre la capacité de traiter des séquences de
tailles variées.
APA, Harvard, Vancouver, ISO, and other styles
27

Zheng, Lilei. "Triangular similarity metric learning : A siamese architecture approach." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEI045/document.

Full text
Abstract:
Dans de nombreux problèmes d’apprentissage automatique et de reconnaissance des formes, il y a toujours un besoin de fonctions métriques appropriées pour mesurer la distance ou la similarité entre des données. La fonction métrique est une fonction qui définit une distance ou une similarité entre chaque paire d’éléments d’un ensemble de données. Dans cette thèse, nous proposons une nouvelle methode, Triangular Similarity Metric Learning (TSML), pour spécifier une fonction métrique de données automatiquement. Le système TSML proposée repose une architecture Siamese qui se compose de deux sous-systèmes identiques partageant le même ensemble de paramètres. Chaque sous-système traite un seul échantillon de données et donc le système entier reçoit une paire de données en entrée. Le système TSML comprend une fonction de coût qui définit la relation entre chaque paire de données et une fonction de projection permettant l’apprentissage des formes de haut niveau. Pour la fonction de coût, nous proposons d’abord la similarité triangulaire (Triangular Similarity), une nouvelle similarité métrique qui équivaut à la similarité cosinus. Sur la base d’une version simplifiée de la similarité triangulaire, nous proposons la fonction triangulaire (the triangular loss) afin d’effectuer l’apprentissage de métrique, en augmentant la similarité entre deux vecteurs dans la même classe et en diminuant la similarité entre deux vecteurs de classes différentes. Par rapport aux autres distances ou similarités, la fonction triangulaire et sa fonction gradient nous offrent naturellement une interprétation géométrique intuitive et intéressante qui explicite l’objectif d’apprentissage de métrique. En ce qui concerne la fonction de projection, nous présentons trois fonctions différentes: une projection linéaire qui est réalisée par une matrice simple, une projection non-linéaire qui est réalisée par Multi-layer Perceptrons (MLP) et une projection non-linéaire profonde qui est réalisée par Convolutional Neural Networks (CNN). Avec ces fonctions de projection, nous proposons trois systèmes de TSML pour plusieurs applications: la vérification par paires, l’identification d’objet, la réduction de la dimensionnalité et la visualisation de données. Pour chaque application, nous présentons des expérimentations détaillées sur des ensembles de données de référence afin de démontrer l’efficacité de notre systèmes de TSML
In many machine learning and pattern recognition tasks, there is always a need for appropriate metric functions to measure pairwise distance or similarity between data, where a metric function is a function that defines a distance or similarity between each pair of elements of a set. In this thesis, we propose Triangular Similarity Metric Learning (TSML) for automatically specifying a metric from data. A TSML system is loaded in a siamese architecture which consists of two identical sub-systems sharing the same set of parameters. Each sub-system processes a single data sample and thus the whole system receives a pair of data as the input. The TSML system includes a cost function parameterizing the pairwise relationship between data and a mapping function allowing the system to learn high-level features from the training data. In terms of the cost function, we first propose the Triangular Similarity, a novel similarity metric which is equivalent to the well-known Cosine Similarity in measuring a data pair. Based on a simplified version of the Triangular Similarity, we further develop the triangular loss function in order to perform metric learning, i.e. to increase the similarity between two vectors in the same class and to decrease the similarity between two vectors of different classes. Compared with other distance or similarity metrics, the triangular loss and its gradient naturally offer us an intuitive and interesting geometrical interpretation of the metric learning objective. In terms of the mapping function, we introduce three different options: a linear mapping realized by a simple transformation matrix, a nonlinear mapping realized by Multi-layer Perceptrons (MLP) and a deep nonlinear mapping realized by Convolutional Neural Networks (CNN). With these mapping functions, we present three different TSML systems for various applications, namely, pairwise verification, object identification, dimensionality reduction and data visualization. For each application, we carry out extensive experiments on popular benchmarks and datasets to demonstrate the effectiveness of the proposed systems
APA, Harvard, Vancouver, ISO, and other styles
28

Kessler, Rémy. "Traitement automatique d’informations appliqué aux ressources humaines." Thesis, Avignon, 2009. http://www.theses.fr/2009AVIG0167/document.

Full text
Abstract:
Depuis les années 90, Internet est au coeur du marché du travail. D’abord mobilisée sur des métiers spécifiques, son utilisation s’étend à mesure qu’augmente le nombre d’internautes dans la population. La recherche d’emploi au travers des « bourses à l’emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d’informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d’information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d’outils pour automatiser les flux d’informations lors d’un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d’une entreprise à gérer efficacement et à moindre coût ces flux d’informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l’application des méthodes d’apprentissage afin d’effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l’analyse et l’intégration d’une offre d’emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d’intégrer une offre d’emploi d’une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d’assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d’effectuer un classement pertinent des candidatures. L’utilisation d’un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité
Since the 90s, Internet is at the heart of the labor market. First mobilized on specific expertise, its use spreads as increase the number of Internet users in the population. Seeking employment through "electronic employment bursary" has become a banality and e-recruitment something current. This information explosion poses various problems in their treatment with the large amount of information difficult to manage quickly and effectively for companies. We present in this PhD thesis, the work we have developed under the E-Gen project, which aims to create tools to automate the flow of information during a recruitment process.We interested first to the problems posed by the routing of emails. The ability of a companie to manage efficiently and at lower cost this information flows becomes today a major issue for customer satisfaction. We propose the application of learning methods to perform automatic classification of emails to their routing, combining technical and probabilistic vector machines support. After, we present work that was conducted as part of the analysis and integration of a job ads via Internet. We present a solution capable of integrating a job ad from an automatic or assisted in order to broadcast it quickly. Based on a combination of classifiers systems driven by a Markov automate, the system gets very good results. Thereafter, we present several strategies based on vectorial and probabilistic models to solve the problem of profiling candidates according to a specific job offer to assist recruiters. We have evaluated a range of measures of similarity to rank candidatures by using ROC curves. Relevance feedback approach allows to surpass our previous results on this task, difficult, diverse and higly subjective
APA, Harvard, Vancouver, ISO, and other styles
29

Chebbi, Mohamed Ali. "Similarity learning for large scale dense image matching." Electronic Thesis or Diss., Université Gustave Eiffel, 2024. http://www.theses.fr/2024UEFL2030.

Full text
Abstract:
La thèse porte sur l’amélioration de la qualité des modèles numériques d'élévation (MNE) à partir d’imagerie aérienne et satellitaire. Notre démarche repose sur l’appariement dense d’images combinant la mesure de ressemblance et la régularisation semi-globale. Cependant, elle prévoit des corrélateurs neuronaux à la place des mesures de ressemblance classiques. Malgré les efforts de recherche considérables entrepris au cours des vingt dernières années, les mesures de ressemblance classiques (NCC, Census, etc...) sont généralement limitées surtout face aux zones d’images homogènes, proches des occlusions, ombragées et en présence de surfaces ayant des propriétés de réflectance non lambertienne. Alors que ces approches, fortement dépendantes de la notion de voisinage local, perdent de distinctivité en élargissant le contexte et face à ces scénarios difficiles, les architectures de réseaux neuronaux profonds offrent des capacités d’apprentissage étendues et peuvent appréhender des notions de similarité plus complexes capables ainsi de résoudre ces scénarios d’appariement complexes. Ce travail présente des architectures neuronales et des méthodes basées sur l’apprentissage profond pour l’appariement multi-images en photogrammétrie aérienne et satellitaire. Notre approche vise à apprendre des similarités transférables à l’ensemble des géométries de reconstruction (épipolaire, native et terrain) en œuvrant en accord avec l’a priori de nature géométrique des images. Tout d’abord, la fonction de similarité est apprise sur des paires d’images épipolaires. Ensuite, les similarités apprises sont transformées pour résoudre le problème de correspondance multi-vues sur la base de recalages épipolaires ou homographiques adaptés.Notre approche se démarque du paradigme de correspondance classique qui compense les imperfections des appariements par voisinage local avec des contraintes de surface semi-globales. Plus précisément, nos réseaux neuronaux apprennent de manière contrastive des scores de similarité globaux, expressifs et pixellaires par le biais d’architectures à large champ récepteur. Notre pipeline multi-vues ne nécessite pas de réapprentissage supplémentaire sur des jeux de données dédiés et exploite des géométries de transfert comme moyens pour calculer des descripteurs orientés robustes en géométrie native. Ces derniers sont ré-échantillonnés à chaque plan hypothétique pour évaluer les similarités le long de l’intervalle de profondeur. Contrairement à la fusion a posteriori des cartes de profondeur, notre stratégie multi-vues adopte un schéma de fusion a priori pondérant les similarités apprises par paires pour remplir puis régulariser la structure de coût. Nous établissons un équilibre de performances entre l’apprentissage profond de la similarité et la régression de bout en bout pour la mise en correspondance épipolaire et démontrons que nos modèles produisent des descripteurs généralisables pour la reconstruction de surfaces 3D multi-vues omni-scènes. En tirant parti des pipelines de correspondance multi-résolution hiérarchiques, nos corrélateurs neuronaux peuvent être facilement combinés avec des mesures de similarité classiques pour améliorer la précision des MNE. Les pipelines proposés sont implémentés dans MicMac, un logiciel photogrammétrique gratuit et open source
Dense image matching is a long standing ill-posed problem. Despite the extensive research efforts undertaken in the last twenty years, the state-of-the-art handcrafted algorithms perform poorly on featureless areas, in presence of occlusions, shadows and on non-lambertian surfaces. This is due to lack of distinctiveness of the handcrafted similarity metrics in such challenging scenarios. On the other hand, deep learning based approaches to image matching are able to learn highly non-linear similarity functions thus provide an interesting path to addressing such complex matching scenarios.In this research, we present deep learning based architectures and methods for stereo and multi-view dense image matching tailored to aerial and satellite photogrammetry. The proposed approach is driven by two key ideas. First, our goal is to develop a matching network that is as generic as possible to different sensors and acquisition scenarios. Secondly, we argue that known geometrical relationships between images can alleviate the learning phase and should be leveraged in the process. As a result, our matching pipeline follows the known two step pipeline where we first compute deep similarities between pixel correspondences, followed by depth regularization. This separation ensures “generality” or “transferability” to different scenes and acquisitions. Furthermore, our similarity functions are learnt on epipolar rectified image pairs, and to exploit the learnt embeddings in a general n-view matching problem, geometry priors are mobilized. In other words, we transform embeddings learnt on pairs of images to multi-view embeddings through a priori knowledge about the relative camera poses. This allows us to capitalize on the vast stereo matching benchmarks existing in the literature while extending the approach to multi-view scenarios. Finally, we tackle the insufficient distinctiveness of the state-of-the-art patch-based features/similarities by feeding the network with large images thus adding more context, and by proposing an adapted sample mining scheme. We establish a middle-ground between state-of-the-art similarity learning and end-to-end regression models for stereo matching and demonstrate that our models yield generalizable representations in multiple view 3D surface reconstruction from aerial and satellite acquisitions. The proposed pipelines are implemented in MicMac, a free, open-source photogrammetric software
APA, Harvard, Vancouver, ISO, and other styles
30

Morvant, Emilie. "Apprentissage de vote de majorité pour la classification supervisée et l'adaptation de domaine : approches PAC-Bayésiennes et combinaison de similarités." Phd thesis, Aix-Marseille Université, 2013. http://tel.archives-ouvertes.fr/tel-00879072.

Full text
Abstract:
De nos jours, avec l'expansion d'Internet, l'abondance et la diversité des données accessibles qui en résulte, de nombreuses applications requièrent l'utilisation de méthodes d'apprentissage automatique supervisé capables de prendre en considération différentes sources d'informations. Par exemple, pour des applications relevant de l'indexation sémantique de documents multimédia, il s'agit de pouvoir efficacement tirer bénéfice d'informations liées à la couleur, au texte, à la texture ou au son des documents à traiter. La plupart des méthodes existantes proposent de combiner ces informations multimodales, soit en fusionnant directement les descriptions, soit en combinant des similarités ou des classifieurs, avec pour objectif de construire un modèle de classification automatique plus fiable pour la tâche visée. Ces aspects multimodaux induisent généralement deux types de difficultés. D'une part, il faut être capable d'utiliser au mieux toute l'information a priori disponible sur les objets à combiner. D'autre part, les données sur lesquelles le modèle doit être appliqué ne suivent nécessairement pas la même distribution de probabilité que les données utilisées lors de la phase d'apprentissage. Dans ce contexte, il faut être à même d'adapter le modèle à de nouvelles données, ce qui relève de l'adaptation de domaine. Dans cette thèse, nous proposons plusieurs contributions fondées théoriquement et répondant à ces problématiques. Une première série de contributions s'intéresse à l'apprentissage de votes de majorité pondérés sur un ensemble de votants dans le cadre de la classification supervisée. Ces contributions s'inscrivent dans le contexte de la théorie PAC-Bayésienne permettant d'étudier les capacités en généralisation de tels votes de majorité en supposant un a priori sur la pertinence des votants. Notre première contribution vise à étendre un algorithme récent, MinCq, minimisant une borne sur l'erreur du vote de majorité en classification binaire. Cette extension permet de prendre en compte une connaissance a priori sur les performances des votants à combiner sous la forme d'une distribution alignée. Nous illustrons son intérêt dans une optique de combinaison de classifieurs de type plus proches voisins, puis dans une perspective de fusion de classifieurs pour l'indexation sémantique de documents multimédia. Nous proposons ensuite une contribution théorique pour des problèmes de classification multiclasse. Cette approche repose sur une analyse PAC-Bayésienne originale en considérant la norme opérateur de la matrice de confusion comme mesure de risque. Notre seconde série de contributions concerne la problématique de l'adaptation de domaine. Dans cette situation, nous présentons notre troisième apport visant à combiner des similarités permettant d'inférer un espace de représentation de manière à rapprocher les distributions des données d'apprentissage et des données à traiter. Cette contribution se base sur la théorie des fonctions de similarités (epsilon,gamma,tau)-bonnes et se justifie par la minimisation d'une borne classique en adaptation de domaine. Pour notre quatrième et dernière contribution, nous proposons la première analyse PAC-Bayésienne appropriée à l'adaptation de domaine. Cette analyse se base sur une mesure consistante de divergence entre distributions permettant de dériver une borne en généralisation pour l'apprentissage de votes de majorité en classification binaire. Elle nous permet également de proposer un algorithme adapté aux classifieurs linéaires capable de minimiser cette borne de manière directe.
APA, Harvard, Vancouver, ISO, and other styles
31

Morbieu, Stanislas. "Leveraging textual embeddings for unsupervised learning." Electronic Thesis or Diss., Université Paris Cité, 2020. http://www.theses.fr/2020UNIP5191.

Full text
Abstract:
Les données textuelles constituent un vivier d'information exploitable pour de nombreuses entreprises. En particulier, le web fournit une source quasiment inépuisable de données textuelles qui peuvent être utilisées à profit pour des systèmes de recommandation, de veille, de recherche d'information, etc. Les récentes avancées en traitement du langage naturel ont permit de capturer le sens des mots dans leur contexte afin d'améliorer les systèmes de traduction, de résumés, ou encore le regroupement de documents suivant des catégories prédéfinies. La majorité de ces applications reposent cependant souvent sur une intervention humaine non négligeable pour annoter des corpus : Elle consiste, par exemple, à fournir aux algorithmes des exemples d'affectation de catégories à des documents. L'algorithme apprend donc à reproduire le jugement humain et l'applique pour de nouveaux documents. L'objet de cette thèse est de tirer profit des dernières avancées qui capturent l'information sémantique du texte pour l'appliquer dans un cadre non supervisé. Les contributions s'articulent autour de trois axes principaux. Dans le premier, nous proposons une méthode pour transférer l'information capturée par un réseau neuronal pour de la classification croisée textuelle. Elle consiste à former simultanément des groupes de documents similaires et des groupes de mots cohérents. Ceci facilite l'interprétation d'un grand corpus puisqu'on peut caractériser des groupes de documents par des groupes de mots, résumant ainsi une grande volumétrie de texte. Plus précisément nous entraînons l'algorithme Paragraph Vectors sur un jeu de données augmenté en faisant varier les différents hyperparamètres, classifions les documents à partir des différentes représentations vectorielles obtenues et cherchons un consensus sur des différentes partitions. Une classification croisée contrainte de la matrice de co-occurrences termes-documents est ensuite appliquée pour conserver le partitionnement consensus obtenu. Cette méthode se révèle significativement meilleure en qualité de partitionnement des documents sur des corpus variés et a l'avantage de l'interprétation offerte par la classification croisée. Deuxièmement, nous présentons une méthode pour évaluer des algorithmes de classification croisée en exploitant des représentation vectorielles de mots appelées word embeddings. Il s’agit de vecteurs construits grâce à de gros volumes de textes, dont une caractéristique majeure est que deux mots sémantiquement proches ont des word embeddings proches selon une distance cosinus. Notre méthode permet de mesurer l'adéquation entre les partitions de documents et de mots, offrant ainsi de manière totalement non supervisée un indice de la qualité de la classification croisée. Troisièmement, nous proposons un système qui permet de recommander des petites annonces similaires lorsqu'on en consulte une. Leurs descriptions sont souvent courtes, syntaxiquement incorrectes, et l'utilisation de synonymes font qu'il est difficile pour des systèmes traditionnels de mesurer fidèlement la similarité sémantique. De plus, le fort renouvellement des annonces encore valides (produit non vendu) implique des choix permettant d’avoir un faible temps de calcul. Notre méthode, simple à implémenter, répond à ce cas d'usage et s'appuie de nouveau sur les word embeddings. L'utilisation de ceux-ci présente certains avantages mais impliquent également quelques difficultés : la création de tels vecteurs nécessite de choisir les valeurs de certains paramètres, et la différence entre le corpus sur lequel les word embeddings ont été construit et celui sur lequel ils sont utilisés fait émerger le problème des mots qui n'ont pas de représentation vectorielle. Nous présentons, pour palier ces problèmes, une analyse de l'impact des différents paramètres sur les word embeddings ainsi qu'une étude des méthodes permettant de traiter le problème de « mots en dehors du vocabulaire »
Textual data is ubiquitous and is a useful information pool for many companies. In particular, the web provides an almost inexhaustible source of textual data that can be used for recommendation systems, business or technological watch, information retrieval, etc. Recent advances in natural language processing have made possible to capture the meaning of words in their context in order to improve automatic translation systems, text summary, or even the classification of documents according to predefined categories. However, the majority of these applications often rely on a significant human intervention to annotate corpora: This annotation consists, for example in the context of supervised classification, in providing algorithms with examples of assigning categories to documents. The algorithm therefore learns to reproduce human judgment in order to apply it for new documents. The object of this thesis is to take advantage of these latest advances which capture the semantic of the text and use it in an unsupervised framework. The contributions of this thesis revolve around three main axes. First, we propose a method to transfer the information captured by a neural network for co-clustering of documents and words. Co-clustering consists in partitioning the two dimensions of a data matrix simultaneously, thus forming both groups of similar documents and groups of coherent words. This facilitates the interpretation of a large corpus of documents since it is possible to characterize groups of documents by groups of words, thus summarizing a large corpus of text. More precisely, we train the Paragraph Vectors algorithm on an augmented dataset by varying the different hyperparameters, classify the documents from the different vector representations and apply a consensus algorithm on the different partitions. A constrained co-clustering of the co-occurrence matrix between terms and documents is then applied to maintain the consensus partitioning. This method is found to result in significantly better quality of document partitioning on various document corpora and provides the advantage of the interpretation offered by the co-clustering. Secondly, we present a method for evaluating co-clustering algorithms by exploiting vector representations of words called word embeddings. Word embeddings are vectors constructed using large volumes of text, one major characteristic of which is that two semantically close words have word embeddings close by a cosine distance. Our method makes it possible to measure the matching between the partition of the documents and the partition of the words, thus offering in a totally unsupervised setting a measure of the quality of the co-clustering. Thirdly, we are interested in recommending classified ads. We present a system that allows to recommend similar classified ads when consulting one. The descriptions of classified ads are often short, syntactically incorrect, and the use of synonyms makes it difficult for traditional systems to accurately measure semantic similarity. In addition, the high renewal rate of classified ads that are still valid (product not sold) implies choices that make it possible to have low computation time. Our method, simple to implement, responds to this use case and is again based on word embeddings. The use of these has advantages but also involves some difficulties: the creation of such vectors requires choosing the values of some parameters, and the difference between the corpus on which the word embeddings were built upstream. and the one on which they are used raises the problem of out-of-vocabulary words, which have no vector representation. To overcome these problems, we present an analysis of the impact of the different parameters on word embeddings as well as a study of the methods allowing to deal with the problem of out-of-vocabulary words
APA, Harvard, Vancouver, ISO, and other styles
32

Michel, Fabrice. "Multi-Modal Similarity Learning for 3D Deformable Registration of Medical Images." Phd thesis, Ecole Centrale Paris, 2013. http://tel.archives-ouvertes.fr/tel-01005141.

Full text
Abstract:
Even though the prospect of fusing images issued by different medical imagery systems is highly contemplated, the practical instantiation of it is subject to a theoretical hurdle: the definition of a similarity between images. Efforts in this field have proved successful for select pairs of images; however defining a suitable similarity between images regardless of their origin is one of the biggest challenges in deformable registration. In this thesis, we chose to develop generic approaches that allow the comparison of any two given modality. The recent advances in Machine Learning permitted us to provide innovative solutions to this very challenging problem. To tackle the problem of comparing incommensurable data we chose to view it as a data embedding problem where one embeds all the data in a common space in which comparison is possible. To this end, we explored the projection of one image space onto the image space of the other as well as the projection of both image spaces onto a common image space in which the comparison calculations are conducted. This was done by the study of the correspondences between image features in a pre-aligned dataset. In the pursuit of these goals, new methods for image regression as well as multi-modal metric learning methods were developed. The resulting learned similarities are then incorporated into a discrete optimization framework that mitigates the need for a differentiable criterion. Lastly we investigate on a new method that discards the constraint of a database of images that are pre-aligned, only requiring data annotated (segmented) by a physician. Experiments are conducted on two challenging medical images data-sets (Pre-Aligned MRI images and PET/CT images) to justify the benefits of our approach.
APA, Harvard, Vancouver, ISO, and other styles
33

Cerda, Reyes Patricio. "Apprentissage statistique à partir de variables catégorielles non-uniformisées Similarity encoding for learning with dirty categorical variables Encoding high-cardinality string categorical variables." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS470.

Full text
Abstract:
Les données de type tabulaire contiennent souvent des variables catégorielles, considérées comme des entrées non numériques avec un nombre fixe et limité d'éléments uniques, appelés catégories. De nombreux algorithmes d’apprentissage statistique nécessitent une représentation numérique des variables catégorielles. Une étape d'encodage est donc nécessaire pour transformer ces entrées en vecteurs. Pour cela, plusieurs stratégies existent, dont la plus courante est celle de l'encodage one-hot, qui fonctionne bien dans le cadre de l'analyse statistique classique (en termes de puissance de prédiction et d'interprétation) lorsque le nombre de catégories reste faible. Cependant, les données catégorielles non-uniformisées présentent le risque d'avoir une grande cardinalité et des redondances. En effet, les entrées peuvent partager des informations sémantiques et/ou morphologiques, et par conséquent, plusieurs entrées peuvent refléter la même entité. Sans une étape de nettoyage ou d'agrégation au préalable, les méthodes d'encodage courantes peuvent perdre en efficacité du fait d'une représentation vectorielle erronée. En outre, le risque d'obtenir des vecteurs de très grandes dimensions croit avec la quantité de données, ce qui empêche leur utilisation dans l'analyse de données volumineuses. Dans ce document, nous étudions une série de méthodes d’encodage qui permettent de travailler directement sur des variables catégorielles à grande cardinalité, sans qu'il soit nécessaire de les traiter en amont. A l'aide d'expériences menées sur des données réelles et simulées, nous démontrons que les méthodes proposées dans le cadre de cette thèse améliorent l'apprentissage supervisé et ce, en autre, du fait de leur capacité à capturer correctement l'information morphologique des entrées. Même avec des données volumineuses, ces méthodes s'avèrent être performantes, et dans certains cas, elles génèrent des vecteurs facilement interprétables. Par conséquent, nos méthodes peuvent être appliquées à l'apprentissage statistique automatique (AutoML) sans aucune intervention humaine
Tabular data often contain columns with categorical variables, usually considered as non-numerical entries with a fixed and limited number of unique elements or categories. As many statistical learning algorithms require numerical representations of features, an encoding step is necessary to transform categorical entries into feature vectors, using for instance one-hot encoding. This and other similar strategies work well, in terms of prediction performance and interpretability, in standard statistical analysis when the number of categories is small. However, non-curated data give rise to string categorical variables with a very high cardinality and redundancy: the string entries share semantic and/or morphological information, and several entries can reflect the same entity. Without any data cleaning or feature engineering step, common encoding methods break down, as they tend to lose information in their vectorial representation. Also, they can create high-dimensional feature vectors, which prevent their usage in large scale settings. In this work, we study a series of categorical encodings that remove the need for preprocessing steps on high-cardinality string categorical variables. An ideal encoder should be: scalable to many categories; interpretable to end users; and capture the morphological information contained in the string entries. Experiments on real and simulated data show that the methods we propose improve supervised learning, are adapted to large-scale settings, and, in some cases, create feature vectors that are easily interpretable. Hence, they can be applied in Automated Machine Learning (AutoML) pipelines in the original string entries without any human intervention
APA, Harvard, Vancouver, ISO, and other styles
34

Hoffmann, Brice. "Développement d'approches de chémogénomique pour la prédiction des interactions protéine - ligand." Phd thesis, École Nationale Supérieure des Mines de Paris, 2011. http://pastel.archives-ouvertes.fr/pastel-00679718.

Full text
Abstract:
Cette thèse porte sur le développement de méthodes bioinformatiques permettant la prédiction des interactions protéine - ligand. L'approche employée est d'utiliser le partage entre protéines, des informations connues, à la fois sur les protéines et sur les ligands, afin d'améliorer la prédiction de ces interactions. Les méthodes proposées appartiennent aux méthodes dites de chémogénomique. La première contribution de cette thèse est le développement d'une méthode d'apprentissage statistique pour la prédiction des interactions protéines - ligands par famille. Elle est illustrée dans le cas des GPCRs. Cette méthode comprend la proposition de noyaux pour les protéines qui permettent de prendre en compte la similarité globale des GPCRs par l'utilisation de la hiérarchie issue de l'alignement des séquences de cette famille, et la similarité locale au niveau des sites de fixation des ligands de ces GPCRs grâce à l'utilisation des structures 3D connues des membres de cette famille. Pour cela un jeu de données a été créé afin d'évaluer la capacité de cette méthode à prédire correctement les interactions connues. La deuxième contribution est le développement d'une mesure de similarité entre deux sites de fixation de ligands provenant de deux protéines différentes représentés par des nuages d'atomes en 3D. Cette mesure implique la superposition des poches par rotation et la translation, avec pour but la recherche du meilleur alignement possible en maximisant le regroupement d'atomes ayant des propriétés similaires dans des régions proches de l'espace. Les performances de cette méthodes ont été mesurées à l'aide d'un premier jeu de donnés provenant de la littérature et de deux autres qui ont été créé à cet effet. L'ensemble des résultats de cette thèse montre que les approches de chémogénomique présentent de meilleures performances de prédiction que les approches classique par protéine.
APA, Harvard, Vancouver, ISO, and other styles
35

Cuan, Bonan. "Deep similarity metric learning for multiple object tracking." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSEI065.

Full text
Abstract:
Le suivi d’objets multiples dans une scène est une tâche importante dans le domaine de la vision par ordinateur, et présente toujours de très nombreux verrous. Les objets doivent être détectés et distingués les uns des autres de manière continue et simultanée. Les approches «suivi par détection» sont largement utilisées, où la détection des objets est d’abord réalisée sur toutes les frames, puis le suivi est ramené à un problème d’association entre les détections d’un même objet et les trajectoires identifiées. La plupart des algorithmes de suivi associent des modèles de mouvement et des modèles d’apparence. Dans cette thèse, nous proposons un modèle de ré-identification basé sur l’apparence et utilisant l’apprentissage de métrique de similarité. Nous faisons tout d’abord appel à un réseau siamois profond pour apprendre un maping de bout en bout, des images d’entrée vers un espace de caractéristiques où les objets sont mieux discriminés. De nombreuses configurations sont évaluées, afin d’en déduire celle offrant les meilleurs scores. Le modèle ainsi obtenu atteint des résultats de ré-identification satisfaisants comparables à l’état de l’art. Ensuite, notre modèle est intégré dans un système de suivi d’objets multiples pour servir de guide d’apparence pour l’association des objets. Un modèle d’apparence est établi pour chaque objet détecté s’appuyant sur le modèle de ré-identification. Les similarités entre les objets détectés sont alors exploitées pour la classification. Par ailleurs, nous avons étudié la coopération et les interférences entre les modèles d’apparence et de mouvement dans le processus de suivi. Un couplage actif entre ces 2 modèles est proposé pour améliorer davantage les performances du suivi, et la contribution de chacun d’eux est estimée en continue. Les expérimentations menées dans le cadre du benchmark «Multiple Object Tracking Challenge» ont prouvé l’efficacité de nos propositions et donné de meilleurs résultats de suivi que l’état de l’art
Multiple object tracking, i.e. simultaneously tracking multiple objects in the scene, is an important but challenging visual task. Objects should be accurately detected and distinguished from each other to avoid erroneous trajectories. Since remarkable progress has been made in object detection field, “tracking-by-detection” approaches are widely adopted in multiple object tracking research. Objects are detected in advance and tracking reduces to an association problem: linking detections of the same object through frames into trajectories. Most tracking algorithms employ both motion and appearance models for data association. For multiple object tracking problems where exist many objects of the same category, a fine-grained discriminant appearance model is paramount and indispensable. Therefore, we propose an appearance-based re-identification model using deep similarity metric learning to deal with multiple object tracking in mono-camera videos. Two main contributions are reported in this dissertation: First, a deep Siamese network is employed to learn an end-to-end mapping from input images to a discriminant embedding space. Different metric learning configurations using various metrics, loss functions, deep network structures, etc., are investigated, in order to determine the best re-identification model for tracking. In addition, with an intuitive and simple classification design, the proposed model achieves satisfactory re-identification results, which are comparable to state-of-the-art approaches using triplet losses. Our approach is easy and fast to train and the learned embedding can be readily transferred onto the domain of tracking tasks. Second, we integrate our proposed re-identification model in multiple object tracking as appearance guidance for detection association. For each object to be tracked in a video, we establish an identity-related appearance model based on the learned embedding for re-identification. Similarities among detected object instances are exploited for identity classification. The collaboration and interference between appearance and motion models are also investigated. An online appearance-motion model coupling is proposed to further improve the tracking performance. Experiments on Multiple Object Tracking Challenge benchmark prove the effectiveness of our modifications, with a state-of-the-art tracking accuracy
APA, Harvard, Vancouver, ISO, and other styles
36

André, Barbara. "Atlas intelligent pour guider le diagnostic en endomicroscopie : une application clinique de la reconnaissance d'images par le contenu." Phd thesis, École Nationale Supérieure des Mines de Paris, 2011. http://pastel.archives-ouvertes.fr/pastel-00640899.

Full text
Abstract:
L'Endomicrocopie Confocale par Minisondes (ECM) permet l'observation dynamique des tissus au niveau cellulaire, in vivo et in situ, pendant une endoscopie. Grâce à ce nouveau système d'imagerie, les médecins endoscopistes ont la possibilité de réaliser des "biopsies optiques" non invasives. Les biopsies traditionnelles impliquent le diagnostic ex vivo d'images histologiques par des médecins pathologistes. Le diagnostic in vivo d'images ECM est donc un véritable challenge pour les endoscopistes, qui ont en général seulement un peu d'expertise en anatomopathologie. Les images ECM sont néanmoins de nouvelles images, qui ressemblent visuellement aux images histologiques. Cette thèse a pour but principal d'assister les endoscopistes dans l'interprétation in vivo des séquences d'images ECM. Lors de l'établissement d'un diagnostic, les médecins s'appuient sur un raisonnement par cas. Afin de mimer ce processus, nous explorons les méthodes de Reconnaissance d'Images par le Contenu (CBIR) pour l'aide au diagnostique. Notre premier objectif est le développement d'un système capable d'extraire de manière automatique un certain nombre de vidéos ECM qui sont visuellement similaires à la vidéo requête, mais qui ont en plus été annotées avec des métadonnées comme par exemple un diagnostic textuel. Un tel système de reconnaissance devrait aider les endoscopistes à prendre une décision éclairée, et par là-même, à établir un diagnostic ECM plus précis. Pour atteindre notre but, nous étudions la méthode des Sacs de Mots Visuels, utilisée en vision par ordinateur. L'analyse des propriétés des données ECM nous conduit à ajuster la méthode standard. Nous mettons en œuvre la reconnaissance de vidéos ECM complètes, et pas seulement d'images ECM isolées, en représentant les vidéos par des ensembles de mosaïques. Afin d'évaluer les méthodes proposées dans cette thèse, deux bases de données ECM ont été construites, l'une sur les polypes du colon, et l'autre sur l'œsophage de Barrett. En raison de l'absence initiale d'une vérité terrain sur le CBIR appliquée à l'ECM, nous avons d'abord réalisé des évaluations indirectes des méthodes de reconnaissance, au moyen d'une classification par plus proches voisins. La génération d'une vérité terrain éparse, contenant les similarités perçues entre des vidéos par des experts en ECM, nous a ensuite permis d'évaluer directement les méthodes de reconnaissance, en mesurant la corrélation entre la distance induite par la reconnaissance et la similarité perçue. Les deux évaluations, indirecte et directe, démontrent que, sur les deux bases de données ECM, notre méthode de reconnaissance surpasse plusieurs méthodes de l'état de l'art en CBIR. En termes de classification binaire, notre méthode de reconnaissance est comparable au diagnostic établi offline par des endoscopistes experts sur la base des Polypes du Colon. Parce que diagnostiquer des données ECM est une pratique de tous les jours, notre objectif n'est pas seulement d'apporter un support pour un diagnostique ponctuel, mais aussi d'accompagner les endoscopistes sans leurs progrès. A partir des résultats de la reconnaissance, nous estimons la difficulté d'interprétation des vidéos ECM. Nous montrons l'existence d'une corrélation entre la difficulté estimée et la difficulté de diagnostic éprouvée par plusieurs endoscopistes. Cet estimateur pourrait ainsi être utilisé dans un simulateur d'entraînement, avec différents niveaux de difficulté, qui devrait aider les endoscopistes à réduire leur courbe d'apprentissage. La distance standard basée sur les mots visuels donne des résultats adéquats pour la reconnaissance de données ECM. Cependant, peu de connaissance clinique est intégrée dans cette distance. En incorporant l'information a priori sur les similarités perçues par les experts en ECM, nous pouvons apprendre une distance de similarité qui s'avère être plus juste que la distance standard. Dans le but d'apprendre la sémantique des données ECM, nous tirons également profit de plusieurs concepts sémantiques utilisés par les endoscopistes pour décrire les vidéos ECM. Des signatures sémantiques basées mots visuels sont alors construites, capables d'extraire, à partir de caractéristiques visuelles de bas niveau, des connaissances cliniques de haut niveau qui sont exprimées dans le propre langage de l'endoscopiste.
APA, Harvard, Vancouver, ISO, and other styles
37

Ngo, Duy Hoa. "Amélioration de l'alignement d'ontologies par les techniques d'apprentissage automatique, d'appariement de graphes et de recherche d'information." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2012. http://tel.archives-ouvertes.fr/tel-00767318.

Full text
Abstract:
Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul. Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang.
APA, Harvard, Vancouver, ISO, and other styles
38

Le, Boudic-Jamin Mathilde. "Similarités et divergences, globales et locales, entre structures protéiques." Thesis, Rennes 1, 2015. http://www.theses.fr/2015REN1S119/document.

Full text
Abstract:
Cette thèse s'articule autour de la détection de similarités globales et locales dans les structures protéiques. Premièrement les structures sont comparées, mesurées en termes de distance métrique dans un but de classification supervisée. Cette classification des domaines structuraux au sein de classifications hiérarchiques se fait par le biais de dominances et d'apprentissages permettant d'assigner plus rapidement et de manière exacte de nouveaux domaines. Deuxièmement, nous proposons une méthode de manière de traduire un problème biologique dans les formalisme des graphes. Puis nous résolvons ce problème via le parcours de ces graphes pour extraire les différentes sous-structures similaires. Cette méthode repose sur des notions de compatibilités entre éléments des structures ainsi que des critères de distances entre éléments. Ces techniques sont capables de détecter des événements tels que des permutations circulaires, des charnières (flexibilité) et des répétitions de motifs structuraux. Finalement nous proposons une nouvelle approche dans l'analyse fine de structures afin de faciliter la recherche de régions divergentes entre structures 3D fortement similaires
This thesis focusses on local and global similarities and divergences inside protein structures. First, structures are scored, with criteria of similarity and distance in order to provide a supervised classification. This structural domain classification inside existing hierarchical databases is possible by using dominances and learning. These methods allow to assign new domains with accuracy and exactly. Second we focusses on local similarities and proposed a method of protein comparison modelisation inside graphs. Graph traversal allows to find protein similar substructures. This method is based on compatibility between elements and criterion of distances. We can use it and detect events such that circular permutations, hinges and structural motif repeats. Finally we propose a new approach of accurate protein structure analysis that focused on divergences between similar structures
APA, Harvard, Vancouver, ISO, and other styles
39

Combier, Camille. "Mesures de similarité pour cartes généralisées." Phd thesis, Université Claude Bernard - Lyon I, 2012. http://tel.archives-ouvertes.fr/tel-00995382.

Full text
Abstract:
Une carte généralisée est un modèle topologique permettant de représenter implicitementun ensemble de cellules (sommets, arêtes, faces , volumes, . . .) ainsi que l'ensemblede leurs relations d'incidence et d'adjacence au moyen de brins et d'involutions. Les cartes généralisées sont notamment utilisées pour modéliser des images et objets3D. A ce jour il existe peu d'outils permettant l'analyse et la comparaison de cartes généralisées.Notre objectif est de définir un ensemble d'outils permettant la comparaisonde cartes généralisées.Nous définissons tout d'abord une mesure de similarité basée sur la taille de la partiecommune entre deux cartes généralisées, appelée plus grande sous-carte commune.Nous définissons deux types de sous-cartes, partielles et induites, la sous-carte induitedoit conserver toutes les involutions tandis que la sous-carte partielle autorise certaines involutions à ne pas être conservées. La sous-carte partielle autorise que les involutionsne soient pas toutes conservées en analogie au sous-graphe partiel pour lequelles arêtes peuvent ne pas être toutes présentes. Ensuite nous définissons un ensembled'opérations de modification de brins et de coutures pour les cartes généralisées ainsiqu'une distance d'édition. La distance d'édition est égale au coût minimal engendrépar toutes les successions d'opérations transformant une carte généralisée en une autrecarte généralisée. Cette distance permet la prise en compte d'étiquettes, grâce à l'opérationde substitution. Les étiquettes sont posées sur les brins et permettent d'ajouter del'information aux cartes généralisées. Nous montrons ensuite, que pour certains coûtsnotre distance d'édition peut être calculée directement à partir de la plus grande souscartecommune.Le calcul de la distance d'édition est un problème NP-difficile. Nous proposons unalgorithme glouton permettant de calculer en temps polynomial une approximation denotre distance d'édition de cartes. Nous proposons un ensemble d'heuristiques baséessur des descripteurs du voisinage des brins de la carte généralisée permettant de guiderl'algorithme glouton, et nous évaluons ces heuristiques sur des jeux de test générésaléatoirement, pour lesquels nous connaissons une borne de la distance.Nous proposons des pistes d'utilisation de nos mesures de similarités dans le domainede l'analyse d'image et de maillages. Nous comparons notre distance d'éditionde cartes généralisées avec la distance d'édition de graphes, souvent utilisée en reconnaissancede formes structurelles. Nous définissons également un ensemble d'heuristiquesprenant en compte les étiquettes de cartes généralisées modélisant des images etdes maillages. Nous mettons en évidence l'aspect qualitatif de notre appariement, permettantde mettre en correspondance des zones de l'image et des points du maillages.
APA, Harvard, Vancouver, ISO, and other styles
40

Miry, Erwan. "Similarité statistique pour le CBR textuel." Thesis, Université Laval, 2007. http://www.theses.ulaval.ca/2007/24972/24972.pdf.

Full text
Abstract:
Les courriers électroniques sont devenus au cours des dernières années un moyen de communication privilégié. Leur nombre atteint des niveaux si élevés que leur manipulation par les entreprises devient difficile manuellement et requiert des méthodes automatiques. Les systèmes de suivi automatique permettent un traitement des messages et une augmentation de la facilité pour les utilisateurs qui désirent créer un courriel en réponse à une requête, à partir de messages archivés dans la bibliothèque de l’entreprise. Un des problèmes majeurs dans ce type d’application est la sélection de courriers électroniques archivés pertinents à la requête nouvellement soumise : il est nécessaire que le texte retourné par le système qui servira de base à la rédaction d’une réponse, soit en corrélation avec le sujet de la question posée. La recherche de la similarité entre les textes est donc une des principales tâches de ce système. L’objectif de nos travaux se situe toutefois à un niveau supérieur à la simple recherche de similarité entre courriers électroniques; nous avons comme objectif d’évaluer la similarité entre des textes comportant peu de mots. Pour cela, notre étude comporte deux parties distinctes: la recherche de similarités entre des mots afin d’élargir le vocabulaire d’un texte, e le calcul de la similarité entre les documents. Notre question de recherche consiste à identifier les techniques les plus pertinentes pour évaluer la similarité textuelle, et déterminer s’il est possible d’améliorer ces techniques par des combinaisons de méthodes de calcul de la similarité sémantique et de détection des cooccurrences de mots. Lors de nos expérimentations, nous avons cherché à améliorer la similarité sémantique entre les mots. Nous avons aussi proposé plusieurs méthodes pour élargir le vocabulaire des documents basées sur les résultats de la première partie de nos travaux. Nous avons enfin mesuré la similarité sémantique entre les documents modifiés, afin de les utiliser comme base à la rédaction d’une réponse à la nouvelle requête. Notre bilan nous indique que, grâce à nos calculs, il est possible d’améliorer les résultats de calcul de la similarité entre les mots (cosinus) en filtrant les cooccurrences. Cependant, une méthode de filtrage ne garantit pas nécessairement des améliorations, et peut même dégrader la capacité de détection de similarité textuelle. Une comparaison avec la technique du tf*idf nous a permis de constater que les résultats améliorés du cosinus, que nous avons obtenus, égalent pratiquement cette technique, sans pour autant la dépasser.
E-mails have recently become a popular mean of communication for exchanges between companies and their customers. However the increasing volume of messages makes manual processing difficult to achieve and automatic methods are foreseen as a more efficient solution. Automatic management systems help users in the processing of the messages and in the creation of a response from the messages kept in the company databases. One important question in this type of application is how to select existing e-mails to respond to a new request. The creation of new response messages requires texts pertaining to the new request topics. Finding similarity between documents is also an important task. Our goal for this research effort was to study how to detect similarity between small documents. To accomplish it, we followed a two-pronged approach: - finding similarity between words in order to augment a document’s vocabulary; - estimating similarity between documents, using all the similar words resulting from the previous step. We dedicated our work to determine the most interesting techniques to detect textual similarity between documents, and to improve those techniques using cooccurrences detection and lexical semantic similarity. During our experimentations, we tried different combinations, using cooccurrences detection and lexical similarity. We proposed techniques to augment the vocabulary of each message, based on different kind of reasoning to improve the estimation of similarity between documents. Our results indicate that the proposed augmentation techniques improve significantly the estimation of document similarity. The best results were obtained when using a combination of cooccurrences filter and cosine metric. However our experiments clearly indicate these results do not overcome the performance of similarity techniques based on tf*idf weights.
APA, Harvard, Vancouver, ISO, and other styles
41

Haidar, Siba. "Comparaison des documents audiovisuelspar Matrice de Similarité." Phd thesis, Université Paul Sabatier - Toulouse III, 2005. http://tel.archives-ouvertes.fr/tel-00011510.

Full text
Abstract:
Les travaux de cette thèse concernent la comparaison des documents vidéo. Dans le domaine en pleine expansion de la vidéo numérique, les documents disponibles sont maintenant présents en quantité importante même dans les foyers. Opération de base de tout type d'analyse de contenus, en complément de la classification, de l'extraction et de la structuration, la comparaison dans le domaine de l'audiovisuel est d'une utilité qui n'est pas à démontrer.
Des approches classiques de comparaison se basent essentiellement sur l'ensemble des caractéristiques
bas niveaux des documents à comparer, en les considérant comme des vecteurs multidimensionnels. D'autres approches se basent sur la similarité des images composant la vidéo sans tenir compte de la composition temporelle du document ni de la bande
son. Le défaut que l'on peut reprocher à ces méthodes est qu'elles restreignent la comparaison à un simple opérateur binaire robuste au bruit. De tels opérateurs sont généralement utilisés afin d'identifier les différents exemplaires d'un même document. L'originalité de notre démarche réside dans le fait que nous introduisons la notion de la similarité de style
en s'inspirant des critères humains dans la comparaison des documents vidéo. Ces critères
sont plus souples, et n'imposent pas une similarité stricte de toutes les caractéristiques étudiées
à la fois.
En nous inspirant de la programmation dynamique et de la comparaison des séries chronologiques, nous définissons un algorithme d'extraction des similarités entre les séries de valeurs produites par l'analyse de caractéristiques audiovisuelles de bas-niveau. Ensuite, un second traitement générique approxime le résultat de l'algorithme de la longueur de la Plus
Longue Sous-Séquence Commune (PLSC) plus rapidement que ce dernier. Nous proposons une représentation des données issues de ces traitements sous la forme d'un schéma matriciel propre à la comparaison visuelle et immédiate de deux contenus. Cette matrice peut être également utilisée pour définir une mesure de similarité générique, applicable à des documents de même genre ou de genres hétérogènes.
Plusieurs applications ont été mises en place pour démontrer le comportement de la méthode de comparaison et de la mesure de similarité, ainsi que leur pertinence. Les expérimentations concernent essentiellement : - l'identification d'une structure organisationnelle en collection / sous-collection d'une base de documents, - la mise en évidence d'éléments
stylistiques dans un film de cinéma, - la mise en évidence de la grille de programmes d'un
flux de télévision.
APA, Harvard, Vancouver, ISO, and other styles
42

Chilowicz, Michel. "Recherche de similarité dans du code source." Phd thesis, Université Paris-Est, 2010. http://tel.archives-ouvertes.fr/tel-00587628.

Full text
Abstract:
La duplication de code source a de nombreuses origines : copie et adaptation inter-projets ou clonage au sein d'un même projet. Rechercher des correspondances de code copié permet de le factoriser dans un projet ou de mettre en évidence des situations de plagiat. Nous étudions des méthodes statiques de recherche de similarité sur du code ayant potentiellement subi des opérations d'édition telle que l'insertion, la suppression, la transposition ainsi que la factorisation et le développement de fonctions. Des techniques d'identification de similarité génomique sont examinées et adaptées au contexte de la recherche de clones de code source sous forme lexemisée. Après une discussion sur des procédés d'alignement de lexèmes et de recherche par empreintes de n-grams, est présentée une méthode de factorisation fusionnant les graphes d'appels de fonctions de projets au sein d'un graphe unique avec introduction de fonctions synthétiques exprimant les correspondances imbriquées. Elle utilise des structures d'indexation de suffixes pour la détermination de facteurs répétés. Une autre voie d'exploration permettant de manipuler de grandes bases indexées de code par arbre de syntaxe est abordée avec la recherche de sous-arbres similaires par leur hachage et leur indexation selon des profils d'abstraction variables. Des clones exacts de sous-arbres de forte proximité dans leurs arbres d'extraction peuvent alors être consolidés afin d'obtenir des correspondances approchées et étendues. En amont et en aval de la recherche de correspondances, des métriques de similarité sont définies afin de préselectionner les zones d'examen, affiner la recherche ou mieux représenter les résultats
APA, Harvard, Vancouver, ISO, and other styles
43

Omhover, Jean-François. "Recherche d'images par similarité de contenus régionaux." Paris 6, 2004. http://www.theses.fr/2004PA066254.

Full text
APA, Harvard, Vancouver, ISO, and other styles
44

Dumont, Émilie. "Similarité des séquences vidéo : application aux rushes." Nice, 2009. http://www.theses.fr/2009NICE4021.

Full text
Abstract:
Cette thèse se situe dans le contexte de l'analyse de vidéos; en particulier des vidéos appelées rushes. Les rushes d'un film sont constitués des documents originaux (bobines de film, bandes sons,. . . ) produits au tournage et issus de la caméra et de l'appareil d'enregistrement sonore. Ce sont des documents uniques, bruts, qui seront utilisés au montage et en postproduction. Nous proposons différents outils pour l'exploitation des rushes tels que des méthodes pour supprimer les séquences outils et poubelles du flux vidéo; une méthode de recherche de plans vidéos grâce à l'utilisation d'un plan vidéo; une mesure du contenu visuel d'une séquence vidéo ainsi qu'une structuration de la vidéo permettant de supprimer la redondance dans une vidéo en se basant sur l'alignement de séquences vidéos. Ensuite ces outils ont été incorporés dans des systèmes pour la création de résumés vidéo de rushes. Le premier système se base uniquement sur la mesure du contenu vidéo, le deuxième utilise l'alignement des séquences; en parallèle, nous avons développé une architecture permettant une collaboration entre laboratoires. Nous avons soumis ces différents systèmes à la campagne d'évaluation internationale TRECVID. Les résultats obtenus furent satisfaisants. Cependant cette méthode d'évaluation est manuelle, nous avons donc étudié de l'automatisation de cette évaluation
The purpose of this document is video analysis and in particular analysis of video rushes. In filmmaking, rushes is the term used to describe the raw, unedited, footage shots which are created during the making of a motion picture. We propose several tools to explore rushes. The first one is a tool to remove redundancy : the redundancy can be absolute (i. E. The content is not needed) or relative (i. E. The content is repetitive). An other method is a shot video search using a visual dictionary based on the paradigm of textual document search. In order to create video summarization, we propose a method to represent the quantity of the relevant visual content of a video sequence. A second technique is to align repetitive video sequences in order to parse the video and remove repetitive takes. At the same time, we present a collaborative architecture allowing to fuse different partner analysis in order to exploit their different competences. These systems were evaluated by TRECVID. Results encouraged us to continue on this direction. The main problem is that the TRECVID evaluations are currently performed by human judges. This creates fundamental difficulties because evaluation experiments are expensive to reproduce, and subject to the variability of human judgment. Therefore, we propose an approach to automate this evaluation procedure using the same quality criteria. Through experiments, we show a good correlation with the manual evaluation
APA, Harvard, Vancouver, ISO, and other styles
45

Hoffmann, Patrick. "Similarité sémantique inter ontologies basée sur le contexte." Phd thesis, Université Claude Bernard - Lyon I, 2008. http://tel.archives-ouvertes.fr/tel-00363300.

Full text
Abstract:
Cette thèse étudie l'intérêt du contexte pour améliorer l'interopérabilité entre ontologies hétérogènes, d'une manière qui permette leur évolution indépendante. Lors de collaborations, les organisations échangent leurs données, qui sont décrites par des concepts définis dans des ontologies. L'objectif est d'obtenir un service d'évaluation de tels concepts, basé sur le contexte.
Nous proposons une méthodologie pour déterminer, modeler et utiliser le contexte. En l'appliquant, nous découvrons trois usages du contexte qui contribuent à améliorer la réconciliation d'ontologies : Nous proposons de désambiguïser les sens pragmatiques possibles des concepts en comparant les "perspectives" avec lesquelles les concepts ont été développés ; de personnaliser en considérant le contexte des agents, constitué d'une sélection pertinente parmi les domaines et tâches de l'organisation ; d'évaluer la pertinence des données associées au concept pour la tâche qui a suscité le besoin en interopérabilité.
APA, Harvard, Vancouver, ISO, and other styles
46

Haidar, Siba. "Comparaison des documents audiovisuels par matrice de similarité." Toulouse 3, 2005. http://www.theses.fr/2005TOU30078.

Full text
Abstract:
Les travaux de cette thèse concernent la comparaison des documents vidéo. Dans le domaine en pleine expansion de la vidéo numérique, les documents disponibles sont maintenant présents en quantité importante même dans les foyers. Opération de base de tout type d'analyse de contenus, en complément de la classification, de l'extraction et de la structuration, la comparaison dans le domaine de l'audiovisuel est d'une utilité qui n'est pas à démontrer. Des approches classiques de comparaison se basent essentiellement sur l'ensemble des caractéristiques bas niveaux des documents à comparer, en les considérant comme des vecteurs multidimensionnels. D'autres approches se basent sur la similarité des images composants la vidéo sans tenir compte de la composition temporelle du document ni de la bande son. L'originalité de notre démarche réside dans le fait que nous introduisons la notion de la similarité de style en s'inspirant des critères humains dans la comparaison des documents vidéo. Ces critères sont plus souples, et n'imposent pas une similarité stricte de toutes les caractéristiques étudiées à la fois. En nous inspirant de la programmation dynamique et de la comparaison des séries chronologiques, nous définissons un algorithme d'extraction des similarités entre les caractéristiques audiovisuelles de bas-niveau. Nous proposons une représentation des données issues de ces traitements sous la forme d'un schéma matriciel propre à la comparaison visuelle et immédiate de deux contenus. Cette matrice peut être également utilisée pour définir une mesure de similarité générique. Plusieurs applications ont été mises en place pour démontrer le comportement de la méthode de comparaison et de la mesure de similarité, ainsi que leur pertinence
The work of this thesis relates to the comparison of video documents. The field of digital video is in full expansion. Videos are now present in large quantity even for personal use. The video comparison is a basic analysis operation in complement of classification, extraction and structuring of videos. Traditional approaches of comparison are primarily based on the low-level features of the videos to be compared, considered as multidimensional vectors. Other approaches are based on the similarity of frames without taking into account neither the temporal composition of the video nor the audio layer. The main disadvantage of these methods is that they reduce the comparison role to a simple operator robust to noise effects. The originality of our approach lies in the introduction of the of style similarity notion, taking as a starting point the human criteria into the comparison. These criteria are more flexible, and do not impose a strict similarity of all the studied features at the same time. We define an algorithm of extraction of the similarities between the audiovisual low-level features. The algorithm is inspired by the dynamic programming and the time series comparison methods. We propose a representation of the data resulting from this processing in the form of a matrix pattern suitable for the visual and immediate comparison of two videos. This matrix is then used to propose a generic similarity measure. We developed several applications to demonstrate the behavior of the comparison method and the similarity measure
APA, Harvard, Vancouver, ISO, and other styles
47

Petitcunot, Pierre. "Problèmes de similarité et spectre étendu d'un opérateur." Thesis, Lille 1, 2008. http://www.theses.fr/2008LIL10046/document.

Full text
Abstract:
Dans ce mémoire on s'intéresse à quelques problèmes de similarités ainsi qu'au spectre étendu d'un opérateur. Dans la première partie, on donne des critères de similarité à certaines classes d'isométries partielles et on obtient par exemple le résultat suivant. Soit T un opérateur sur H un espace de Hilbert. T est similaire à la somme directe d'un opérateur de Jordan et d'une isométrie si et seulement si T est à puissances bornées, T a une ascente finie et il existe un opérateur S E [appartenant à] B(H) à puissances bornées tel que Tn Sn Tn =Tn , pour tout n de N . Ces résultats peuvent être vus comme des résultats partiels pour un problème ouvert posé par Badea et Mbekhta en 2005. Dans la seconde partie, on obtient un critère de similarité conjointe à deux contractions qu'on applique pour obtenir des résultats de perturbation d'opérateurs conjointement similaires à des contractions. Le spectre étendu d'un opérateur est traité dans le dernier chapitre. Quelques liens avec d'autres spectres d'un opérateur sont proposés avant d'étudier le comportement du spectre étendu de certaines classes d'opérateurs. Enfin, on utilise le spectre étendu pour donner des critères d'hypercyclicité qu'on comparera à celui de Godefroy-Shapiro
Ln this thesis, we study some similarity problems and the extended spectrum of an operator. ln the first part, we give criteria of similarity to some classes of partial isometries. For example, we obtain the following result. Let T be an operator on H an Hilbert space. T is similar to the direct sum of a Jordan operator and an isometry if and only if T is power-bounded, T has a finite as cent and there exists a power~bounded operator S E B(H) so that TnsnTn = Tn, for all n of No This results can be seen as partial results to an open problem of Badea and Mbekhta (2005) . ln the second part, we obtain a criterion of joint similarity to two contractions that we apply to have results of pertubation of operators jointly similar to contractions. The extended spectrum is the subject of the last part. Some of its links with other spectra of an operator are proposed before studying the behaviour of the extended spectrum of sorne classes of operators. Finally we use the extended spectrum to give criteria of hypercyclicity that we will compare to a criterion of Godefroy and Shapiro
APA, Harvard, Vancouver, ISO, and other styles
48

D'Arcy, Jean-François. "Effets mnésiques sur la similarité et l'apprentissage de catégories." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1997. http://www.collectionscanada.ca/obj/s4/f2/dsk2/ftp02/NQ32609.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Kupin, Stanislav. "Similarité à un opérateur normal et certains problèmes d'interpolation." Bordeaux 1, 2000. http://www.theses.fr/2000BOR10524.

Full text
Abstract:
La these est composee de deux parties. La premiere partie est consacree a l'analyse spectrale des perturbations nucleaires contractives des operateurs unitaires. D'abord, nous donnons (avec s. Treil') une reponse negative a une conjecture de nikolski et benamara. Puis nous demontrons un critere de l'existence de la decomposition inconditionnellement convergente pour des contractions faibles. Ensuite nous appliquons le resultat a l'etude des operateurs dissipatifs integraux. Dans la deuxieme partie nous montrons que de nombreux problemes d'interpolation (par exemple, le probleme de 4 blocs et le probleme du relevement du commutant) peuvent etre consideres comme de cas particuliers du probleme abstrait d'interpolation. Puis, en collaboration avec p. Yuditskii, nous explorons les problemes d'interpolation du type nevanlinna-pick dans les domaines infiniment connexes.
APA, Harvard, Vancouver, ISO, and other styles
50

Shortridge-Baillot, Joan. "Similarité et distincitivité en mémoire à court terme verbale." Grenoble 2, 1999. http://www.theses.fr/1999GRE29036.

Full text
Abstract:
Dans le cadre d'une conception multidéterministe de l'empan verbal, ce travail tente de démontrer que certains facteurs, associés à la mémoire à long terme, permettraient d'expliquer certaines caractéristiques de l'empan difficilement explicables dans le cadre du modèle actuellement admis. Le travail expérimental focalise plus précisémént sur un effet considéré comme caractéristique de la MCT verbale, l'effet de similarité phonologique. Classiquement interprété en termes de la perturbation du processus de répétition subvocale, cet effet est considéré comme preuve d'encodage phonologique à ce niveau. Notre hypothèse alternative propose que cet effet n'est pas nécessairement spécifique à la MCT verbale et indicatif d'un encodage phonologique, mais peut s'expliquer par des effets de similarité et de distinctivité qui ont été observés dans les tâches mnésiques en général. . . Ces travaux étayent l'hypothèse que l'effet de similarité phonologique peut s'expliquer dans le cadre conceptuel plus vaste du rôle de la similarité -distinctivité dans la tâche mnésique et ouvre des possibilités d'un complémént explicatif concernant le fonctionnnement de la MCT verbale.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography