Dissertations / Theses on the topic 'Recherche de similarité'

To see the other types of publications on this topic, follow the link: Recherche de similarité.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Recherche de similarité.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Chilowicz, Michel. "Recherche de similarité dans du code source." Phd thesis, Université Paris-Est, 2010. http://tel.archives-ouvertes.fr/tel-00587628.

Full text
Abstract:
La duplication de code source a de nombreuses origines : copie et adaptation inter-projets ou clonage au sein d'un même projet. Rechercher des correspondances de code copié permet de le factoriser dans un projet ou de mettre en évidence des situations de plagiat. Nous étudions des méthodes statiques de recherche de similarité sur du code ayant potentiellement subi des opérations d'édition telle que l'insertion, la suppression, la transposition ainsi que la factorisation et le développement de fonctions. Des techniques d'identification de similarité génomique sont examinées et adaptées au contexte de la recherche de clones de code source sous forme lexemisée. Après une discussion sur des procédés d'alignement de lexèmes et de recherche par empreintes de n-grams, est présentée une méthode de factorisation fusionnant les graphes d'appels de fonctions de projets au sein d'un graphe unique avec introduction de fonctions synthétiques exprimant les correspondances imbriquées. Elle utilise des structures d'indexation de suffixes pour la détermination de facteurs répétés. Une autre voie d'exploration permettant de manipuler de grandes bases indexées de code par arbre de syntaxe est abordée avec la recherche de sous-arbres similaires par leur hachage et leur indexation selon des profils d'abstraction variables. Des clones exacts de sous-arbres de forte proximité dans leurs arbres d'extraction peuvent alors être consolidés afin d'obtenir des correspondances approchées et étendues. En amont et en aval de la recherche de correspondances, des métriques de similarité sont définies afin de préselectionner les zones d'examen, affiner la recherche ou mieux représenter les résultats
APA, Harvard, Vancouver, ISO, and other styles
2

Omhover, Jean-François. "Recherche d'images par similarité de contenus régionaux." Paris 6, 2004. http://www.theses.fr/2004PA066254.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Michaud, Dorian. "Indexation bio-inspirée pour la recherche d'images par similarité." Thesis, Poitiers, 2018. http://www.theses.fr/2018POIT2288/document.

Full text
Abstract:
La recherche d'images basée sur le contenu visuel est un domaine très actif de la vision par ordinateur, car le nombre de bases d'images disponibles ne cesse d'augmenter.L’objectif de ce type d’approche est de retourner les images les plus proches d'une requête donnée en terme de contenu visuel.Notre travail s'inscrit dans un contexte applicatif spécifique qui consiste à indexer des petites bases d'images expertes sur lesquelles nous n'avons aucune connaissance a priori.L’une de nos contributions pour palier ce problème consiste à choisir un ensemble de descripteurs visuels et de les placer en compétition directe. Nous utilisons deux stratégies pour combiner ces caractéristiques : la première, est pyschovisuelle, et la seconde, est statistique.Dans ce contexte, nous proposons une approche adaptative non supervisée, basée sur les sacs de mots et phrases visuels, dont le principe est de sélectionner les caractéristiques pertinentes pour chaque point d'intérêt dans le but de renforcer la représentation de l'image.Les tests effectués montrent l'intérêt d'utiliser ce type de méthodes malgré la domination des méthodes basées réseaux de neurones convolutifs dans la littérature.Nous proposons également une étude, ainsi que les résultats de nos premiers tests concernant le renforcement de la recherche en utilisant des méthodes semi-interactives basées sur l’expertise de l'utilisateur
Image Retrieval is still a very active field of image processing as the number of available image datasets continuously increases.One of the principal objectives of Content-Based Image Retrieval (CBIR) is to return the most similar images to a given query with respect to their visual content.Our work fits in a very specific application context: indexing small expert image datasets, with no prior knowledge on the images. Because of the image complexity, one of our contributions is the choice of effective descriptors from literature placed in direct competition.Two strategies are used to combine features: a psycho-visual one and a statistical one.In this context, we propose an unsupervised and adaptive framework based on the well-known bags of visual words and phrases models that select relevant visual descriptors for each keypoint to construct a more discriminative image representation.Experiments show the interest of using this this type of methodologies during a time when convolutional neural networks are ubiquitous.We also propose a study about semi interactive retrieval to improve the accuracy of CBIR systems by using the knowledge of the expert users
APA, Harvard, Vancouver, ISO, and other styles
4

Risser-Maroix, Olivier. "Similarité visuelle et apprentissage de représentations." Electronic Thesis or Diss., Université Paris Cité, 2022. http://www.theses.fr/2022UNIP7327.

Full text
Abstract:
L’objectif de cette thèse CIFRE est de développer un moteur de recherche par image, basé sur la vision par ordinateur, afin d’assister les officiers des douanes. En effet, nous constatons, paradoxalement, une augmentation des menaces sécuritaires (terrorisme, trafic, etc.) couplée d’une diminution des effectifs en Douane. Les images de cargos acquises par des scanners à rayons X permettent déjà l’inspection d’un chargement sans nécessiter l’ouverture et la fouille complète d’un chargement contrôlé. En proposant automatiquement des images similaires, un tel moteur de recherche permettrait d’aider le douanier dans sa prise de décision face à des signatures visuelles de produits peu fréquents ou suspects. Grâce à l’essor des techniques modernes en intelligence artificielle (IA), notre époque subit de grands changements : l’IA transforme tous les secteurs de l’économie. Certains voient dans cet avènement de la "robotisation" la déshumanisation de la force de travail, voire son remplacement. Cependant, réduire l’utilisation de l’IA à la simple recherche de gains de productivité serait réducteur. En réalité, l’IA pourrait permettre d’augmenter la capacité de travail des humains et non à les concurrencer en vue de les remplacer. C’est dans ce contexte, la naissance de l’Intelligence Augmentée, que s’inscrit cette thèse. Ce manuscrit consacré à la question de la similarité visuelle se décompose en deux parties. Deux cas pratiques où la collaboration entre l’Homme et l’IA est bénéfique sont ainsi proposés. Dans la première partie, le problème de l’apprentissage de représentations pour la recherche d’images similaires fait encore l’objet d’investigations approfondies. Après avoir implémenté un premier système semblable à ceux proposés par l’état de l’art, l’une des principales limitations est pointée du doigt : le biais sémantique. En effet, les principales méthodes contemporaines utilisent des jeux de données d’images couplées de labels sémantiques uniquement. Les travaux de la littérature considèrent que deux images sont similaires si elles partagent le même label. Cette vision de la notion de similarité, pourtant fondamentale en IA, est réductrice. Elle sera donc remise en question à la lumière des travaux en psychologie cognitive afin de proposer une amélioration : la prise en compte de la similarité visuelle. Cette nouvelle définition permet une meilleure synergie entre le douanier et la machine. Ces travaux font l’objet de publications scientifiques et d’un brevet. Dans la seconde partie, après avoir identifié les composants clefs permettant d’améliorer les performances du système précédemment proposé, une approche mêlant recherche empirique et théorique est proposée. Ce second cas, l’intelligence augmentée est inspirée des développements récents en mathématiques et physique. D’abord appliquée à la com- préhension d’un hyperparamètre important (la température), puis à une tâche plus large (la classification), la méthode proposée permet de fournir une intuition sur l’importance et le rôle de facteurs corrélés à la variable étudiée (ex. hyperparamètre, score, etc.). La chaîne de traitement ainsi mise en place a démontré son efficacité en fournissant une solution hautement explicable et en adéquation avec des décennies de recherches en apprentissage automatique. Ces découvertes permettront l’amélioration des solutions précédemment développées
The objective of this CIFRE thesis is to develop an image search engine, based on computer vision, to assist customs officers. Indeed, we observe, paradoxically, an increase in security threats (terrorism, trafficking, etc.) coupled with a decrease in the number of customs officers. The images of cargoes acquired by X-ray scanners already allow the inspection of a load without requiring the opening and complete search of a controlled load. By automatically proposing similar images, such a search engine would help the customs officer in his decision making when faced with infrequent or suspicious visual signatures of products. Thanks to the development of modern artificial intelligence (AI) techniques, our era is undergoing great changes: AI is transforming all sectors of the economy. Some see this advent of "robotization" as the dehumanization of the workforce, or even its replacement. However, reducing the use of AI to the simple search for productivity gains would be reductive. In reality, AI could allow to increase the work capacity of humans and not to compete with them in order to replace them. It is in this context, the birth of Augmented Intelligence, that this thesis takes place. This manuscript devoted to the question of visual similarity is divided into two parts. Two practical cases where the collaboration between Man and AI is beneficial are proposed. In the first part, the problem of learning representations for the retrieval of similar images is still under investigation. After implementing a first system similar to those proposed by the state of the art, one of the main limitations is pointed out: the semantic bias. Indeed, the main contemporary methods use image datasets coupled with semantic labels only. The literature considers that two images are similar if they share the same label. This vision of the notion of similarity, however fundamental in AI, is reductive. It will therefore be questioned in the light of work in cognitive psychology in order to propose an improvement: the taking into account of visual similarity. This new definition allows a better synergy between the customs officer and the machine. This work is the subject of scientific publications and a patent. In the second part, after having identified the key components allowing to improve the performances of thepreviously proposed system, an approach mixing empirical and theoretical research is proposed. This secondcase, augmented intelligence, is inspired by recent developments in mathematics and physics. First applied tothe understanding of an important hyperparameter (temperature), then to a larger task (classification), theproposed method provides an intuition on the importance and role of factors correlated to the studied variable(e.g. hyperparameter, score, etc.). The processing chain thus set up has demonstrated its efficiency byproviding a highly explainable solution in line with decades of research in machine learning. These findings willallow the improvement of previously developed solutions
APA, Harvard, Vancouver, ISO, and other styles
5

Damak, Leïla. "Corps du consommateur et design du produit : recherche d'une similarité ou d'une complémentarité ?" Paris 9, 1996. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1996PA090029.

Full text
Abstract:
Cette recherche s'est donnée pour objectif de rapprocher certains aspects corporels du consommateur de la composante "corporelle" du design des produits. A travers une série d'études empiriques, nous avons identifié l'existence d'une recherche de similarité ou de complémentarité entre le corps du consommateur et les formes de produit préférées en mettant en évidence le rôle de l'image du corps et ses corrélats
The purpose of this research is to propose and illustrate the self-congruity theory by studying the relationship between body aspects of the consumer and "body" aspects of a product design, where "body" equal the physical shape of any selected consumer product. Several studies had shown that the physical features of any selected product design (or the product form) congruent with the consumer's body characteristics would be influenced by body image and its correlates
APA, Harvard, Vancouver, ISO, and other styles
6

Daoudi, Imane. "Recherche par similarité dans les grandes bases de données multimédia : application à la recherche par le contenu dans les bases d'images." Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0057/these.pdf.

Full text
Abstract:
L’émergence des données numériques multimédia ne cesse d’augmenter. L’accès, le partage, le stockage et la recherche de ces données sont devenues des besoins réels et les problématiques sont nombreuses et variées. Afin de rendre cette masse d’information facilement exploitable pour tout utilisateur, il est nécessaire de disposer de techniques d’indexation et de recherche rapides et efficaces. Mes travaux de thèse s’inscrivent dans le domaine des données multimédia et plus précisément des images fixes. L’objectif principal est de développer une méthode performante d’indexation et de recherche des k plus proches voisins (kppv) qui soit adaptée à la recherche d’image par le contenu et aux propriétés des descripteurs d’images (grand volume, grande dimension, hétérogénéité, etc. ). Il s’agit d’une part, d’apporter des réponses aux problèmes de passage à l’échelle et de la malédiction de la dimension et d’autre part de traiter les problèmes de mesure de similarité qui se posent, et qui sont liés à la nature des données manipulées. Notre première proposition consiste en l’utilisation d’une structure d’indexation multidimensionnelle basée sur l’approximation ou filtrage, par une amélioration de la méthode RA-Blocks. Elle repose sur un algorithme de découpage de l’espace de données qui améliore notablement la capacité de stockage de l’index ainsi que le temps de la recherche. Dans un deuxième temps, nous proposons une méthode d’indexation multidimensionnelle adaptée à des données hétérogènes (couleur, texture, forme). Notre méthode combine une technique non linéaire de la réduction de la dimension à une structure d’indexation multidimensionnelle basée sur l’approche approximation. Cette combinaison permet de répondre à travers, un formaliste unique, aux différents verrous que nous nous sommes fixés de lever
[The emergence of digital multimedia data is increasing. Access, sharing and retrieval of these data have become the real needs. This requires the use of powerful tools and search engine for fast and efficient access to data. The spectacular growth of technologies and numeric requires the use of powerful tools and search engine for fast and efficient access to data. My thesis work is in the field of multimedia data especially images. The main objectives is to develop a fast and efficient indexing and searching method of the k nearest neighbour which is adapted for applications in Content-based image retrieval (CBIR) and for properties of image descriptors (high volume, large dimension, etc. ). The main idea is on one hand, to provide answers to the problems of scalability and the curse of dimensionality and the other to deal with similarity problems that arise in indexing and CBIR. We propose in this thesis two different approaches. The first uses a multidimensional indexing structure based on approximation approach or filtering, which is an improvement in the RA-Blocks method. The proposed method is based on the proposal of an algorithm of subdividing the data space which improves the storage capacity of the index and the CPU times. In a second approach, we propose a multidimensional indexing method suitable for heterogeneous data (colour, texture, shape). The second proposed method combines a non linear dimensionality reduction technique with a multidimensional indexing approach based on approximation. This combination allows one hand to deal with the curse of dimensionality scalability problems and also to exploit the properties of the non-linear space to find suitable similarity measurement for the nature of manipulated data. ]
APA, Harvard, Vancouver, ISO, and other styles
7

Zahid, Youssef. "Recherche de similarité d'images à la base du modèle 2D string, application aux radiographies pulmonaires." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1999. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape7/PQDD_0005/MQ44991.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Hoonakker, Frank. "Graphes condensés de réactions, applications à la recherche par similarité, la classification et la modélisation." Université Louis Pasteur (Strasbourg) (1971-2008), 2008. https://publication-theses.unistra.fr/restreint/theses_doctorat/2008/HOONAKKER_Frank_2008.pdf.

Full text
Abstract:
Ce travail est consacré au développement de nouvelles méthodes de fouille de données dans le domaine des réactions en utilisant le concept de Graphe Condensé de Réaction (CGR). Le CGR est un graphe en 2D qui condense l’information contenue dans les réactifs et les produits d’une réaction. Grâce à la présence des liaisons conventionnelles (simples, doubles, etc. ) et dynamiques (coupure d’une liaison simple, transformation d’une double en simple etc. ), le CGR permet de condenser une réaction (incluant plusieurs molécules) en une pseudo-molécule. Ainsi, le CGR permettra d’appliquer des approches de chemoinformatique déjà développées pour les molécules. Trois applications possibles des CGRs ont été exploréees : – la classification non supervisée des réactions basées sur des algorithmes de clustering, – la recherche de réactions par similarité, – la modélisation structure-réactivité (QSRR, Quantitative Structure Reactivity Relationships). Ces méthodes, testées sur quatre bases de données contenant entre 1 000 et 200 000 réactions, ont démontré l’efficacité de l’approche et des logiciels développés. Un système d’optimisation de conditions réactionnelles a ainsi été implémenté et un brevet a été déposé aux États-Unis
This work is devoted to the developpement of new methods of mining of chemical reactions based on the Condensed Graph of Reaction (CGR) approach. A CGR integrates an information about all reactants and products of a given chemical reaction into one 2D molecular graph. Due to the application of both conventional (simple, double, etc. ) and dynamical (single to double, broken single, etc. ) bond types, a CGR ”condenses” a reaction (involving many molecules) into one pseudo-molecule. This formally allows one to apply to CGRs the chemoinformatics approaches earlier developed for individual compounds. Three possible applications of CGRs were considered: – unsupervised classification of reactions based on clustering algorithms; – reactions similarity search, and – Quantitative Structure Reactivity Relationships (QSRR). Model calculations performed on four databases containing from 1 000 to 200 000 reactions demonstrated high efficiency of the developed approaches and software tools. An system for optimizing reactions condition has been designed, and patented in the USA
APA, Harvard, Vancouver, ISO, and other styles
9

Negrel, Romain. "Représentations optimales pour la recherche dans les bases d'images patrimoniales." Thesis, Cergy-Pontoise, 2014. http://www.theses.fr/2014CERG0703/document.

Full text
Abstract:
Depuis plusieurs décennies, le développement des technologies de numérisation et de stockage ont permis la mise en œuvre de nombreux projets de numérisation du patrimoine culturel.L'approvisionnement massif et continu de ces bases de données numériques du patrimoine culturel entraîne de nombreux problèmes d'indexation.En effet, il n'est plus possible d'effectuer une indexation manuelle de toutes les données.Pour indexer et rendre accessible facilement les données, des méthodes d'indexation automatique et d'aide à l'indexation se sont développées depuis plusieurs années.Cependant, les méthodes d'indexation automatique pour les documents non-textuels (image, vidéo, son, modèle 3D, …) sont encore complexes à mettre en œuvre pour de grands volumes de données.Dans cette thèse, nous nous intéressons en particulier à l'indexation automatique d'images.Pour effectuer des tâches d'indexation automatique ou d'aide à l'indexation, il est nécessaire de construire une méthode permettant d'évaluer la similarité entre deux images.Nos travaux sont basés sur les méthodes à signatures d'image ; ces méthodes consistent à résumer le contenu visuel de chaque image dans une signature (vecteur unique), puis d'utiliser ces signatures pour calculer la similarité entre deux images.Pour extraire les signatures, nous utilisons la chaîne d'extraction suivante : en premier, nous extrayons de l'image un grande nombre de descripteurs locaux ; puis nous résumons l'ensemble de ces descripteurs dans une signature de grande dimension ; enfin nous réduisons fortement la dimension de la signature.Les signatures de l'état de l'art basées sur cette chaîne d'extraction permettent d'obtenir de très bonnes performance en indexation automatique et en aide à l'indexation.Cependant, les méthodes de l'état de l'art ont généralement de forts coûts mémoires et calculatoires qui rendent impossible leurs mise en œuvre sur des grands volumes de données.Dans cette thèse, notre objectif est double : d'une part nous voulons améliorer les signatures d'images pour obtenir de très bonnes performances dans les problèmes d'indexation automatique ; d'autre part, nous voulons réduire les coûts de la chaîne de traitement, pour permettre le passage à l'échelle.Nous proposons des améliorations d'une signature d'image de l'état de l'art nommée VLAT (Vectors of Locally Aggregated Tensors).Ces améliorations permettent de rendre la signature plus discriminante tout en réduisant sa dimension.Pour réduire la dimension des signatures, nous effectuons une projection linéaire de la signature dans un espace de petite dimension.Nous proposons deux méthodes pour obtenir des projecteurs de réduction de dimension tout en conservant les performances des signatures d'origine.Notre première méthode consiste à calculer les projecteurs qui permettent d'approximer le mieux possible les scores de similarités entre les signatures d'origine.La deuxième méthode est basée sur le problème de recherche de quasi-copies ; nous calculons les projecteurs qui permettent de respecter un ensemble de contraintes sur le rang des images dans la recherche par rapport à l'image requête.L'étape la plus coûteuse de la chaîne d'extraction est la réduction de dimension de la signature à cause de la grande dimension des projecteurs.Pour les réduire, nous proposons d'utiliser des projecteurs creux en introduisant une contrainte de parcimonie dans nos méthodes de calcul des projecteurs.Comme il est généralement complexe de résoudre un problème d'optimisation avec une contrainte de parcimonie stricte, nous proposons pour chacun des problèmes une méthode pour obtenir une approximation des projecteurs creux recherchés.L'ensemble de ces travaux font l'objet d'expériences montrant l'intérêt pratique des méthodes proposées par comparaison avec les méthodes de l'état de l'art
In the last decades, the development of scanning and storing technologies resulted in the development of many projects of cultural heritage digitization.The massive and continuous flow of numerical data in cultural heritage databases causes many problems for indexing.Indeed, it is no longer possible to perform a manual indexing of all data.To index and ease the access to data, many methods of automatic and semi-automatic indexing have been proposed in the last years.The current available methods for automatic indexing of non-textual documents (images, video, sound, 3D model, ...) are still too complex to implement for large volumes of data.In this thesis, we focus on the automatic indexing of images.To perform automatic or semi-automatic indexing, it is necessary to build an automatic method for evaluating the similarity between two images.Our work is based on image signature methods ; these methods involve summarising the visual content of each image in a signature (single vector), and then using these signatures to compute the similarity between two images.To extract the signatures, we use the following pipeline: First, we extract a large number of local descriptors of the image; Then we summarize all these descriptors in a large signature; Finally, we strongly reduce the dimensionality of the resulting signature.The state of the art signatures based on this pipeline provide very good performance in automatic indexing.However, these methods generally incur high storage and computational costs that make their implementation impossible on large volumes of data.In this thesis, our goal is twofold : First, we wish to improve the image signatures to achieve very good performance in automatic indexing problems ; Second, we want to reduce the cost of the processing chain to enable scalability.We propose to improve an image signature of the state of the art named VLAT (Vectors of Locally Aggregated Tensors).Our improvements increase the discriminative power of the signature.To reduce the size of the signatures, we perform linear projections of the signatures in a lower dimensional space.We propose two methods to compute the projectors while maintaining the performance of the original signatures.Our first approach is to compute the projectors that best approximate the similarities between the original signatures.The second method is based on the retrieval of quasi-copies; We compute the projectors that meet the constraints on the rank of retrieved images with respect to the query image.The most expensive step of the extraction pipeline is the dimentionality reduction step; these costs are due to the large dimentionality of the projectors.To reduce these costs, we propose to use sparse projectors by introducing a sparsity constraint in our methods.Since it is generally complex to solve an optimization problem with a strict sparsity constraint, we propose for each problem a method for approximating sparse projectors.This thesis work is the subject of experiments showing the practical value of the proposed methods in comparison with existing methods
APA, Harvard, Vancouver, ISO, and other styles
10

Fotsoh, Tawaofaing Armel. "Recherche d’entités nommées complexes sur le web : propositions pour l’extraction et pour le calcul de similarité." Thesis, Pau, 2018. http://www.theses.fr/2018PAUU3003/document.

Full text
Abstract:
Les récents développements des nouvelles technologies de l’information et de la communication font du Web une véritable mine d’information. Cependant, les pages Web sont très peu structurées. Par conséquent, il est difficile pour une machine de les traiter automatiquement pour en extraire des informations pertinentes pour une tâche ciblée. C’est pourquoi les travaux de recherche s’inscrivant dans la thématique de l’Extraction d’Information dans les pages web sont en forte croissance. Aussi, l’interrogation de ces informations, généralement structurées et stockées dans des index pour répondre à des besoins d’information précis correspond à la Recherche d’Information (RI). Notre travail de thèse se situe à la croisée de ces deux thématiques. Notre objectif principal est de concevoir et de mettre en œuvre des stratégies permettant de scruter le web pour extraire des Entités Nommées (EN) complexes (EN composées de plusieurs propriétés pouvant être du texte ou d’autres EN) de type entreprise ou de type événement, par exemple. Nous proposons ensuite des services d’indexation et d’interrogation pour répondre à des besoins d’informations. Ces travaux ont été réalisés au sein de l’équipe T2I du LIUPPA, et font suite à une commande de l’entreprise Cogniteev, dont le cœur de métier est centré sur l’analyse du contenu du Web. Les problématiques visées sont, d’une part, l’extraction d’EN complexes sur le Web et, d’autre part, l’indexation et la recherche d’information intégrant ces EN complexes. Notre première contribution porte sur l’extraction d’EN complexes dans des textes. Pour cette contribution, nous prenons en compte plusieurs problèmes, notamment le contexte bruité caractérisant certaines propriétés (pour un événement par exemple, la page web correspondante peut contenir deux dates : la date de l’événement et celle de mise en vente des billets). Pour ce problème en particulier, nous introduisons un module de détection de blocs qui permet de focaliser l’extraction des propriétés sur des blocs de texte pertinents. Nos expérimentations montrent une nette amélioration des performances due à cette approche. Nous nous sommes également intéressés à l’extraction des adresses, où la principale difficulté découle du fait qu’aucun standard ne se soit réellement imposé comme modèle de référence. Nous proposons donc un modèle étendu et une approche d’extraction basée sur des patrons et des ressources libres.Notre deuxième contribution porte sur le calcul de similarité entre EN complexes. Dans l’état de l’art, ce calcul se fait généralement en deux étapes : (i) une première calcule les similarités entre propriétés et (ii) une deuxième agrège les scores obtenus pour le calcul de la similarité globale. En ce qui concerne cette première étape, nous proposons une fonction de calcul de similarité entre EN spatiale, l’une représentée par un point et l’autre par un polygone. Elle complète l’état de l’art. Notons que nos principales propositions se situent au niveau de la deuxième étape. Ainsi, nous proposons trois techniques pour l’agrégation des scores intermédiaires. Les deux premières sont basées sur la somme pondérée des scores intermédiaires (combinaison linéaire et régression logistique). La troisième exploite les arbres de décisions pour agréger les scores intermédiaires. Enfin, nous proposons une dernière approche basée sur le clustering et le modèle vectoriel de Salton pour le calcul de similarité entre EN complexes. Son originalité vient du fait qu’elle ne nécessite pas de passer par le calcul de scores de similarités intermédiaires
Recent developments in information technologies have made the web an important data source. However, the web content is very unstructured. Therefore, it is a difficult task to automatically process this web content in order to extract relevant information. This is a reason why research work related to Information Extraction (IE) on the web are growing very quickly. Similarly, another very explored research area is the querying of information extracted on the web to answer an information need. This other research area is known as Information Retrieval (IR). Our research work is at the crossroads of both areas. The main goal of our work is to develop strategies and techniques for crawling the web in order to extract complex Named Entities (NEs) (NEs with several properties that may be text or other NEs). We then propose to index them and to query them in order to answer information needs. This work was carried out within the T2I team of the LIUPPA laboratory, in collaboration with Cogniteev, a company which core business is focused on the analysis of web content. The issues we had to deal with were the extraction of complex NEs on the web and the development of IR services supplied by the extracted data. Our first contribution is related to complex NEs extraction from text content. For this contribution, we take into consideration several problems, in particular the noisy context characterizing some properties (the web page describing an event for example, may contain more than one dates: the event’s date and the date of ticket’s sales opening). For this particular problem, we introduce a block detection module that focuses property's extraction on relevant text blocks. Our experiments show an improvement of system’s performances. We also focused on address extraction where the main issue arises from the fact that there is not a standard way for writing addresses in general and on the web in particular. We therefore propose a pattern-based approach which uses some lexicons for extracting addresses from text, regardless of proprietary resources.Our second contribution deals with similarity computation between complex NEs. In the state of the art, this similarity computation is generally performed in two steps: (i) first, similarities between properties are calculated; (ii) then the obtained similarities are aggregated to compute the overall similarity. Our main proposals focuses on the second step. We propose three techniques for aggregating property’s similarities. The first two are based on the weighted sum of these property’s similarities (simple linear combination and logistic regression). The third technique however, uses decision trees for the aggregation. Finally, we also propose a last approach based on clustering and Salton vector model. This last approach evaluates the similarity at the complex NE level without computing property’s similarities. We also propose a similarity computation function between spatial EN, one represented by a point and the other by a polygon. This completes those of the state of the art
APA, Harvard, Vancouver, ISO, and other styles
11

Joly, Alexis. "Recherche par similarité statistique dans une grande base de signatures locales pour l'identification rapide d'extraits vidéo." La Rochelle, 2005. http://www.theses.fr/2005LAROS144.

Full text
Abstract:
Le domaine de l'indexation vidéo par le contenu s'intéresse à l'ensemble des techniques utiles pour analyser et exploiter des stocks de vidéos sans passer par des descriptions textuelles extérieures aux documents dont on dispose. Plus particulièrement, les travaux de cette thèse traitent du problème de la détection de copies basée sur le contenu. Pour résoudre conjointement les problèmes de qualité et de rapidité de la détection, liés à l'augmentation de la taille du catalogue de référence, nous avons proposé une méthode complète et efficace. Celle-ci tient compte à la fois des aspects traitement de l'image, des aspects base de données et de leurs interactions. La première partie du mémoire est consacrée à la présentation du contexte particulier de la détection de copies en vidéo et aux signatures utilisées pour caractériser le contenu des vidéos. L'originalité de notre approche est qu'elle est basée sur l'utilisation conjointe de signatures locales et d'une mesure de similarité globale calculée après la recherche des signatures similaires dans la base. Cette mesure globale n'est pas un simple vote comme dans les approches classiques car elle est précédée d'une étape de recalage originale entre l'objet candidat et les objets retournés par la recherche dans la base. La deuxième partie présente le coeur théorique du travail. Il s'agit d'une nouvelle méthode d'indexation et de recherche de descripteurs numériques s'intégrant dans le cadre de la recherche par similarité approximative. Il a en effet récemment été montré qu'une faible perte contrôlée dans la qualité des résultats de la recherche pouvait permettre des accélérations importantes du temps de recherche. Le principe de la technique présentée est d'étendre ce paradigme à la recherche à -près, contrairement aux autres approches qui s'intéressent uniquement à la recherche approximative des K plus proches voisins. L'originalité est de déterminer les régions pertinentes de l'espace selon un modèle théorique des distorsions que subissent les descripteurs, par des requêtes dites statistiques. Seule une portion de l'espace donnant une probabilité forte et contrôlée de trouver la réponse cherchée est visitée. Celle-ci est déterminée par une courbe de Hilbert et la partition qu'elle induit, simplifiant ainsi fortement l'accès à la base de descripteurs. L'évaluation expérimentale de la technique a montré que celle-ci est sous-linéaire avec un comportement asymptotique linéaire (mais que l'on observe que pour des tailles de base énormes) et que les performances en qualité sont stables. Il est également montré que les requêtes statistiques apportent une accélération conséquente par rapport aux requêtes à -près exactes. La troisième partie est consacrée à l'évaluation du système dans son ensemble et à la présentation de trois applications. Les expérimentations ont tout d'abord montré que le modèle théorique, bien que simple, permet un contrôle suffisant de la probabilité de retrouver un descripteur dans la pratique. Elles ont ensuite montré que la recherche approximative des descripteurs était particulièrement rentable lorsque l'on utilise des signatures locales puisque la perte de certains descripteurs n'influencent que très peu la qualité globale de la détection tout en accélérant fortement la recherche. Il a enfin été montré que la méthode globale était quasiment invariante à de très fortes augmentations de la quantité de vidéos dans la base (jusqu'à trois ordres de grandeur). L'approche proposée a été complètement intégrée et validée dans un système applicatif réel dont l'ampleur est sans précédent (le catalogue de référence contient jusqu'à 40 000 heures de vidéo, soit 500 fois plus que la moyenne des quantités utilisées dans l'état de l'art). Cela a soulevé des questionnements relatifs à l'utilisation des résultats issus de catalogues de référence aussi volumineux et d'envisager des pistes pour en extraire des informations de nature sémantique
Content-based video indexing deals with techniques used to analyse and to exploit video databases without needs of any additional textual description. The work presented in this report is focused more precisely on content-based video copy detection, which is one of the emerging multimedia applications for which there is a need of a concerted effort from the database community and the computer vision community. To overcome the difficulties due to the use of very large databases, both in terms of robustness and speed, we propose a complete original and efficient strategy. The first part of this report presents the particular context of copy detection and the signatures used to describe the content of the videos. The originality of our method is that it is based both on local signatures and on a global similarity measure computed after the search in the signatures database. This similarity measure is not only a vote like other classical local approaches but it includes a registration step between candidate objects and objects retrieved by the search. The second part presents the main contribution of the thesis: A new indexing and retrieval technique belonging to the approximate similarity search techniques family. Recent works shows that trading quality for time can be widely profitable to speed-up descriptors similarity search. Whereas all other approximate techniques deal with K Nearest Neighbors search, the principle of our method is to extend the approximate paradigm to range queries. The main originality consists in determining relevant regions of the space according a theoritical model for the distortions undergone by the signatures. The method allows to determine the optimal region of the space with a high controlled probability to contain the good answer. This search paradigm is called statistical query. In practice, to simplify the access to signatures, the relevant regions are determined by using an Hilbert space filling curve and the space partition that induces. The experiments show that the technique is sublinear in database size with an assymptotically linear behavior (but only for huge databases) and that the quality performances are stable. Furthermore, they highlight that statistical queries provide a very high speed-up compared to classical exact range queries. The third part is focused on the global system assessment and the description of three applications. The experiments show that the simple theoretical distortion model is efficient enough to control the effective probability to retrieve a descriptor. They also point out that approximate similarity search is particularly profitable when using local signatures since the lost of some search results does not affect the global robustness of the detection. Furthermore, the detection results are almost invariant to strong database size growing (three orders of magnitude). The proposed approach was integrated in a difered real-time TV monitoring system which is able to control 40 000 hours of videos. The high quantity and variability of the results of this system open new data mining perspectives
APA, Harvard, Vancouver, ISO, and other styles
12

Casagrande, Annette. "Proposition d'une mesure de voisinage entre textes : Application à la veille stratégique." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00773087.

Full text
Abstract:
La veille anticipative stratégique et intelligence collective (VASIC) proposée par Lesca est une méthode aidant les entreprises à se mettre à l'écoute de leur environnement pour anticiper des opportunités ou des risques. Cette méthode nécessite la collecte d'informations. Or, avec le développement des technologies de l'information, les salariés font face à une surabondance d'informations. Afin d'aider à pérenniser le dispositif de veille stratégique, il est nécessaire de mettre en place des outils pour gérer la surinformation. Dans cette thèse, nous proposons une mesure de voisinage pour estimer si deux informations sont proches ; nous avons créé un prototype, nommé Alhena, basé sur cette mesure. Nous démontrons les propriétés de notre mesure ainsi que sa pertinence dans le cadre de la veille stratégique. Nous montrons également que le prototype peut servir dans d'autres domaines tels que la littérature, l'informatique et la psychologie. Ce travail est pluridisciplinaire : il aborde des aspects de veille stratégique (en sciences de gestion), de la recherche d'informations, d'informatique linguistique et de mathématiques. Nous nous sommes attachés à partir d'un problème concret en sciences de gestion à proposer un outil qui opérationnalise des techniques informatiques et mathématiques en vue d'une aide à la décision (gain de temps, aide à la lecture,...).
APA, Harvard, Vancouver, ISO, and other styles
13

Lannes, Romain. "Recherche de séquences environnementales inconnues d’intérêt médical/biologique par l’utilisation de grands réseaux de similarité de séquences." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS232.

Full text
Abstract:
L’objectif de cette thèse a été d’identifier des micro-organismes encore inconnus présents dans divers environnements et de caractériser certains de leurs métabolismes. Cette diversité non identifiée, à la fois taxonomique et fonctionnelle, est communément appelée matière noire microbienne. J’ai utilisé et développé de nouvelles méthodes de réseaux, et notamment des réseaux de similarité de séquences, afin d’exploiter de très grands jeux de données de séquences, issus de projets de métagénomique. En particulier, mon travail a mis en évidence le rôle écologique de micro-organismes ultra-petits dans certaines voies métaboliques autotrophes des océans. Il montre également que les CPR et DPANN, bactéries et archées ultra-petites récemment découvertes, participent à la dynamique des communautés microbiennes via des systèmes de quorum sensing homologues à ceux d’organismes mieux caractérisés. Une application des réseaux de similarité de séquences à des données de métabarcoding a également révélé une diversité jusque là inconnue d’Holozoa, qui pourrait nous permettre de mieux comprendre la transition vers la multicellularité des Metazoa. Enfin, j’ai développé une méthode et un logiciel destiné à la recherche d’homologues distants de protéines d’intérêt dans de très grands jeux de données, tels que ceux issus de la métagénomique. Cette méthode, maintenant validée, devrait permettre de rechercher des séquences appartenant à des organismes encore inconnus et très divergents, dans l’espoir de découvrir de nouveaux phylums profonds, voire même de nouveaux domaines du vivant
The objective of this thesis was to identify as yet unknown microorganisms present in various environments and to characterize some of their metabolisms. This unidentified diversity, both taxonomic and functional, is commonly referred to as microbial dark matter. I have used and developed new network methods, including sequence similarity networks, to exploit very large sequence datasets from metagenomic projects. In particular, my work has highlighted the ecological role of ultra-small micro-organisms in some autotrophic metabolic pathways in the oceans. It also shows that CPR and DPANN, recently discovered ultra-small bacteria and archaea, participate in the dynamics of microbial communities through quorum sensing systems similar to those of better characterized organisms. An application of sequence similarity networks to meta-barcoding data also revealed a previously unknown diversity of Holozoans, which could allow us to better understand the transition to multicellularity of Metazoans. Finally, I have developed a method and software for searching for remote homologs of proteins of interest in very large datasets, such as those from metagenomics. This method, now validated, should make it possible to search for sequences belonging to still unknown and very divergent organisms, in the hope of discovering new deep branching phyla, or even new domains of life
APA, Harvard, Vancouver, ISO, and other styles
14

Hoàng, Nguyen Vu. "Prise en compte des relations spatiales contextuelles dans la recherche d'images par contenu visuel." Paris 9, 2011. http://basepub.dauphine.fr/xmlui/handle/123456789/8202.

Full text
Abstract:
Cette thèse est consacrée à l'étude de méthodes de recherche par similarité des images dans une collection. Les images auxquelles nous nous intéressons sont quelconques, ce qui implique que les processus que nous utilisons doivent pouvoir s'exécuter sans être contraints par un quelconque modèle d'apparence visuelle. Nous nous sommes appuyés sur les relations spatiales entre les entités présentes dans les images qui peuvent être des objets symboliques ou des descripteurs visuels. La première partie de cette thèse est consacrée à une synthèse des techniques de relations spatiales. Dans la suite de cette étude, nous proposons notre approche Δ-TSR, notre première contribution, qui permet de faire une recherche par similarité de contenu visuel en utilisant les relations triangulaires entre les entités dans les images. Dans nos expériences, les entités sont des caractéristiques visuelles locales basées sur les points saillants représentés dans le modèle Bag-Of-Features. Cette approche améliore non seulement la qualité des images retournées mais aussi le temps d'exécution par rapport à des approches de la littérature. La seconde partie est dédiée à l'étude du contexte de l'image. L'ensemble des relations entre les entités dans une image permet de produire une description globale que nous appelons le contexte. La prise en compte des relations spatiales contextuelles dans la recherche par similarité des images pourraient permettre d'améliorer la qualité de recherche en limitant les fausses alarmes. Dans le cadre de notre travail, nous avons défini le contexte d'image par la présence des catégories d'entité et leurs relations spatiales dans l'image. Nous avons étudié les différentes relations entre les catégories d'entité d'une base d'images symboliques de contenu hétérogène. Cette étude statistique, notre deuxième contribution, nous permet de créer une cartographie de leurs relations spatiales. Elle peut être intégrée dans un graphe de connaissance des relations contextuelles, notre troisième contribution. Ce graphe permet de décrire de façon générale des connaissances sur les catégories d'entité. Le raisonnement spatial sur ce graphe de connaissance peut nous aider à améliorer les tâches dans le traitement d'image comme la détection et la localisation d'une catégorie à l'aide de la présence d'une autre référence. Pour la suite, ce modèle peut être appliqué à représenter le contexte d'une image. La recherche par similarité basée sur le contexte peut être réalisée par la comparaison de graphes. La similarité contextuelle des deux images est la similarité de leurs graphes. Ce travail a été évalué sur la base d'images symboliques LabelMe. Les expériences ont montré sa pertinence pour la recherche d'images par le contexte
This thesis is focused on the study of methods for image retrieval by visual content in collection of heterogeneous contents. We are interested in the description of spatial relationships between the entities present in the images that can be symbolic objects or visual primitives such as interest points. The first part of this thesis is dedicated to a state of the art on the description of spatial relationship techniques. As a result of this study, we propose the approach Δ-TSR, our first contribution, which allows similarity search based on visual content by using the triangular relationships between entities in images. In our experiments, the entities are local visual features based on salient points represented in a bag of features model. This approach improves not only the quality of the images retrieval but also the execution time in comparison with other approaches in the literature. The second part is dedicated to the study of the image context. The spatial relationships between entities in an image allow creating the global description of the image that we call the image context. Taking into account the contextual spatial relationships in the similarity search of images can allow improving the retrieval quality by limiting false alarms. We defined the context of image as the presence of entity categories and their spatial relationships in the image. We studied the relationships between different entity categories on LabelMe, a state of the art of symbolic images databases of heterogeneous content. This statistical study, our second contribution, allows creating a cartography of their spatial relationships. It can be integrated in a graph-based model of the contextual relationships, our third contribution. This graph describes the general knowledge of every entity categories. Spatial reasoning on this knowledge graph can help improving tasks of image processing such as detection and localization of an entity category by using the presence of another reference. Further, this model can be applied to represent the context of an image. The similarity search based on context can be achieved by comparing the graphs, then, contextual similarity between two images is evaluated by the similarity between their graphs. This work was evaluated on the symbolic image database of LabelMe. The experiments showed its relevance for image retrieval by context
APA, Harvard, Vancouver, ISO, and other styles
15

Iltache, Samia. "Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats." Thesis, Toulouse 2, 2018. http://www.theses.fr/2018TOU20121.

Full text
Abstract:
L’expansion du web et le développement des technologies de l’information ont contribué à la prolifération des documents numériques en ligne. Cette disponibilité de l’information présente l’avantage de rendre la connaissance accessible à tous mais soulève de nombreux problèmes quant à l’accès à l’information pertinente, répondant à un besoin utilisateur. Un premier problème est lié à l’extraction de l’information utile parmi celle qui est disponible. Un second problème concerne l’appropriation de ces connaissances qui parfois, se traduit par du plagiat. L’objectif de cette thèse est le développement d’un modèle permettant de mieux caractériser les documents afin d’en faciliter l’accès mais aussi de détecter ceux présentant un risque de plagiat. Ce modèle s’appuie sur des ontologies de domaine pour la classification des documents et pour le calcul de la similarité des documents appartenant à un même domaine. Nous nous intéressons plus spécifiquement aux articles scientifiques, et notamment à leurs résumés, textes courts et relativement structurés. Il s’agit dès lors de déterminer comment évaluer la proximité/similarité sémantique de deux articles à travers l'examen de leurs résumés respectifs. Considérant qu’une ontologie de domaine regroupe les connaissances relatives à un domaine scientifique donné, notre processus est basé sur deux actions :(i) Une classification automatique des documents dans un domaine choisi parmi plusieurs domaines candidats. Cette classification détermine le sens d’un document à partir du contexte global dans lequel s’inscrit son contenu. (ii) Une comparaison des textes réalisée sur la base de la construction de ce que nous appelons le périmètre sémantique de chaque résumé et sur un enrichissement mutuel effectué lors de la comparaison des graphes des résumés. La comparaison sémantique des résumés s’appuie sur une segmentation de leur contenu respectif en zones, unités documentaires, reflétant leur structure logique
The expansion of the web and the development of different information technologies have contributed to the proliferation of digital documents online. This availability of information has the advantage of making knowledge accessible to all. However, many problems emerged regarding access to relevant information that meets a user's need. The first problem is related to the extraction of the useful available information. A second problem concerns the use of this knowledge which sometimes results in plagiarism.The aim of this thesis is the development of a model that better characterizes documents to facilitate their access and also to detect those with a risk of plagiarism. This model is based on domain ontologies for the classification of documents and for calculating the similarity of documents belonging to the same domain as well. We are particularly interested in scientific papers, specifically their abstracts, short texts that are relatively well structured. The problem is, therefore, to determine how to assess the semantic proximity/similarity of two papers by examining their respective abstracts. Forasmuch as the domain ontology provides a useful way to represent knowledge relative to a given domain, our process is based on two actions:(i) An automatic classification of documents in a domain selected from several candidate domains. This classification determines the meaning of a document from the global context in which its content is used. (ii) A comparison of the texts performed on the basis of the construction of the semantic perimeter of each abstract and on a mutual enrichment performed when comparing the graphs of the abstracts. The semantic comparison of the abstracts is based on a segmentation of their respective content into zones, documentary units, reflecting their logical structure. It is on the comparison of the conceptual graphs of the zones playing the same role that the calculation of the similarity of the abstracts relies
APA, Harvard, Vancouver, ISO, and other styles
16

Kouomou-Choupo, Anicet. "Améliorer la recherche par similarité dans une grande base d'images fixes par des techniques de fouilles de données." Phd thesis, Université Rennes 1, 2006. http://tel.archives-ouvertes.fr/tel-00524418.

Full text
Abstract:
Les images fixes peuvent, entre autres, être décrites au niveau du pixel par des descripteurs visuels globaux de couleur, de texture ou de forme. La recherche par le contenu exploite et combine alors ces descripteurs dont le coût de calcul est d'autant plus important que la taille de la base d'images est grande. Les résultats de la recherche sont ensuite classés en fonction de leur similarité à la requête soumise et présentés à l'utilisateur sous forme de liste ordonnée. Un sous-ensemble de descripteurs pourrait cependant suffire à répondre à une recherche par similarité beaucoup plus rapidement, tout en gardant une qualité acceptable des résultats de recherche. Nous proposons pour cela une méthode de sélection automatique des descripteurs visuels qui exploite les règles d'association pour élaborer des stratégies d'exécution réduisant le temps de la recherche par le contenu dans de grandes bases d'images fixes. Dans cette thèse, nous présentons également comment une recherche par le contenu peut être adaptée pour proposer des résultats intermédiaires qui sont fusionnés de façon progressive avec l'avantage pour l'utilisateur, d'une part, de ne pas attendre que toute la base ait été parcourue avant de fournir un résultat et, d'autre part, de lui permettre de stopper la requête en cours d'exécution. Les expérimentations conduites sur des bases d'images réelles montrent que notre méthode améliore notablement les temps de réponse. Elles confirment aussi l'intérêt de la combinaison des descripteurs globaux pour la recherche d'images par le contenu.
APA, Harvard, Vancouver, ISO, and other styles
17

Kouomou, Choupo Anicet. "Améliorer la recherche par similarité dans une grande base d'images fixes par des techniques de fouille de données." Rennes 1, 2006. https://tel.archives-ouvertes.fr/tel-00524418.

Full text
Abstract:
Les images fixes peuvent, entre autre, être décrites au niveau pixel par des descripteurs visuels globaux de couleur, de texture ou de forme. La recherche par le contenu exploite et combine alors ces descripteurs dont le coût de calcul est d'autant plus important que la taille de la base d'images est grande. Les résultats de la recherche sont ensuite classés en fonction de leur similarité à la requête soumise et présentés à l'utilisateur sous forme de liste ordonnée. Un sous-ensemble de descripteurs pourrait cependant suffire à répondre à une recherche par similarité beaucoup plus rapidement, tout en gardant une qualité acceptable des résultats de recherche. Nous proposons pour cela une méthode de sélection automatique des descripteurs visuels qui exploite les règles d'association pour élaborer des stratégies d'exécution réduisant le temps de la recherche par le contenu dans de grandes bases d'images fixes. Dans cette thèse, nous présentons également comment une recherche par le contenu peut être adaptée pour proposer des résultats intermédiaires qui sont fusionnés de façon progressive avec l'avantage pour l'utilisateur, d'une part, de ne pas attendre que toute la base ait été parcourue avant de fournir un résultat et, d'autre part, de lui permettre de stopper la requête en cours d'exécution. Les expérimentations conduites sur des bases d'images réelles montrent que notre méthode améliore notablement les temps de réponse. Elles confirment aussi l'intérêt de la combinaison des descripteurs globaux pour la recherche d'images par le contenu.
APA, Harvard, Vancouver, ISO, and other styles
18

Zhou, Zhyiong. "Recherche d'images par le contenu application à la proposition de mots clés." Thesis, Poitiers, 2018. http://www.theses.fr/2018POIT2254.

Full text
Abstract:
La recherche d'information dans des masses de données multimédia et l'indexation de ces grandes bases d'images par le contenu sont des problématiques très actuelles. Elles s'inscrivent dans un type de gestion de données qu'on appelle le Digital Asset Management (ou DAM) ; Le DAM fait appel à des techniques de segmentation d'images et de classification de données. Nos principales contributions dans cette thèse peuvent se résumer en trois points :- Analyse des utilisations possibles des différentes méthodes d'extraction des caractéristiques locales en exploitant la technique de VLAD.- Proposition d'une nouvelle méthode d'extraction de l'information relative à la couleur dominante dans une image.- Comparaison des Machine à Supports de Vecteur (SVM - Support Vector Machine) à différents classifieurs pour la proposition de mots clés d'indexation. Ces contributions ont été testées et validées sur des données de synthèse et sur des données réelles. Nos méthodes ont alors été largement utilisées dans le système DAM ePhoto développé par la société EINDEN, qui a financé la thèse CIFRE dans le cadre de laquelle ce travail a été effectué. Les résultats sont encourageants et ouvrent de nouvelles perspectives de recherche
The search for information in masses of multimedia data and the indexing of these large databases by the content are very current problems. They are part of a type of data management called Digital Asset Management (or DAM) ; The DAM uses image segmentation and data classification techniques.Our main contributions in this thesis can be summarized in three points : - Analysis of the possible uses of different methods of extraction of local characteristics using the VLAD technique.- Proposed a new method for extracting dominant color information in an image.- Comparison of Support Vector Machines (SVM) to different classifiers for the proposed indexing keywords. These contributions have been tested and validated on summary data and on actual data. Our methods were then widely used in the DAM ePhoto system developed by the company EINDEN, which financed the CIFRE thesis in which this work was carried out. The results are encouraging and open new perspectives for research
APA, Harvard, Vancouver, ISO, and other styles
19

Abbadeni, Noureddine. "Recherche d'images basée sur le contenu visuel : représentations multiples, similarité et fusion de résultats : cas des images de texture." Thèse, Université de Sherbrooke, 2005. http://savoirs.usherbrooke.ca/handle/11143/5045.

Full text
Abstract:
Cette thèse traite de la recherche d’images basée sur le contenu visuel, thème de recherche d’un intérêt certain pour de nombreuses applications ayant toutes en commun l’utilisation et la recherche de l’information visuelle. Nous présentons, dans le cadre de cette thèse, un nouvel algorithme de recherche de textures dans lequel nous traitons les problèmes de représentations multiples du contenu, le problème de la similarité entre les images ainsi que le problème de la fusion de résultats provenant des différentes représentations considérées. Pour ce qui est de la représentation du contenu, deux modèles sont proposés : le modèle autorégressif et un modèle perceptuel basé sur un ensemble de caractéristiques perceptuelles telles que la granularité et la directionalité. Le modèle perceptuel est considéré selon deux points de vue : les images originales et la fonction d’autocovariance associée aux images originales. En ce qui concerne la similarité, un nouveau modèle de similarité basé sur le modèle de Gower est introduit. Cette mesure de similarité est flexible et peut se décliner en plusieurs variantes : une variante non pondérée, une variante pondérée et une variante hiérarchique. Compte tenu de la complexité des images de texture, les différents modèles et points de vue considérés sont mis à contribution à travers des techniques de fusion de résultats appropriées afin de représenter différentes facettes de l’information texturale et ainsi améliorer les performances de recherche. Les techniques de fusion de résultats sont aussi utilisées pour dégager une ébauche de solution au problème de l’invariance à travers une approche par requêtes multiples. Les expérimentations et l’évaluation des modèles proposés dans cette thèse montrent des résultats très appréciables.
APA, Harvard, Vancouver, ISO, and other styles
20

Zargayouna, Haïfa. "Indexation sémantique de documents XML." Paris 11, 2005. http://www.theses.fr/2005PA112365.

Full text
Abstract:
Les documents XML, posent de nouveaux défis et imposent de nouvelles méthodes de traitement d'information. Ils présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans différents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Le Web sémantique repose sur la capacité de XML à définir des balises "personnalisées" et de standards pour décrire formellement la signification de laterminologie employée dans les documents Web. L'intérêt de l'utilisation de l'ontologie en Recherche d'information a redoublé avec le Web sémantique. Nous nous inscrivons dans cette optique en défendant la thèse qu'une description fine des documents est coûteuse et qu'il serait utile d'avoir une représentation intermédiaire pour retrouver les informations pertinentes. L'objectif de nos travaux est de proposer des méthodes qui mettent à profit la structure et le contenu sémantique des documents. Le modèle que nous proposons repose sur : 1. Un modèle générique qui permet d'indexer des documents qui possèdent des structures hétérogènes et qui permet de retrouver et d'apparier ces structures. 2. Un langage de requête qui à la différence des langages de requêtes qui existent est plus intuitif et repose sur une syntaxe XML. Notre langage permet de poser des requêtes vagues sur la structure et sur le contenu ainsi que des requêtes simples mots-clés. La prise en compte de la sémantique est totalement transparente à l'utilisateur
XML documents address new challenges and impose new methods for accessing information. They present the advantage of an explicit structure which facilitates their presentation and their exploitation in various contexts. The aim of Semi-structured Information Retrieval (SIR) is to take this structure into account and to integrate it to the representation of the content of semi-structured documents. The Semantic Web (SW) relies on the capacity of XML to define “personalised” tags and standards to describe the signification of the terminology used by means of formal ontologies. The use of ontologies in Information Retrieval has gained interest with the SW. We aim at showing that it is useful to have an intermediate representation of documents as a formal description of the textual content is expensive. In this work we propose new methods that take advantage of the structure and semantics of the documents. The proposed model relies on: 1. A generic model which allows to index documents with heterogeneous structure and provides a matching of these structures. 2. A query language which, unlike the existing query languages, is intuitive and has an XML syntax. The proposed language enables to ask requests on semi-structured documents by keywords and with vague conditions on structure. The semantics are handled in a completely transparent way for the user
APA, Harvard, Vancouver, ISO, and other styles
21

Peterlongo, Pierre. "Filtrage de séquences d'ADN pour la recherche de longues répétitions multiples." Phd thesis, Université de Marne la Vallée, 2006. http://tel.archives-ouvertes.fr/tel-00132300.

Full text
Abstract:
La génomique moléculaire fait face en ce début de siècle à de nouvelles situations qu'elle doit prendre en compte. D'une part, depuis une dizaine d'années, la quantité de données disponibles croît
de manière exponentielle. D'autre part, la recherche dans le domaine
implique de nouvelles questions dont les formulations in silico
génèrent des problèmes algorithmiquement difficiles à résoudre.

Parmi ces problèmes, certains concernent notamment l'étude de réarrangements génomiques dont les duplications et les éléments transposables. Ils imposent que l'on soit en mesure de détecter précisément et efficacement de longues répétitions approchées et multiples dans les génomes. Par répétition multiple, nous désignons
des répétitions ayant au moins deux copies dans une séquence d'ADN, ou ayant des copies dans au moins deux séquences d'ADN distinctes. De plus, ces répétitions sont approchées dans le sens où des erreurs existent entre les copies d'une même répétition.

La recherche de répétitions approchées multiples peut être résolue par des algorithmes d'alignements multiples locaux mais ceux-ci présentent une complexité exponentielle en la taille de l'entrée, et ne sont donc pas applicables à des données aussi grandes que des génomes. C'est pourquoi, de nouvelles techniques doivent être créées pour répondre à ces nouveaux besoins.

Dans cette thèse, une approche de filtrage des séquences d'ADN est
proposée. Le but d'une telle approche est de supprimer rapidement et
efficacement, parmi des textes représentant des séquences d'ADN, de
larges portions ne pouvant pas faire partie de répétitions. Les données filtrées, limitées en majorité aux portions pertinentes, peuvent alors être fournies en entrée d'un algorithme d'alignement multiple local.


Les filtres proposés appliquent une condition nécessaire aux séquences pour n'en conserver que les portions qui la respectent. Les travaux que nous présentons ont porté sur la création de conditions de filtrage, à la fois efficaces et simples à appliquer d'un point de vue algorithmique. À partir de ces conditions de filtrage, deux filtres, Nimbus et Ed'Nimbus, ont été créés. Ces filtres sont appelés exacts car il ne suppriment jamais de données contenant effectivement des occurrences de répétitions respectant les caractéristiques fixées par un utilisateur. L'efficacité du point de vue de la simplicité d'application et de celui de la précision du filtrage obtenu, conduit à de très bons résultats en pratique. Par exemple, le temps utilisé par des algorithmiques de recherche de répétitions ou d'alignements multiples peut être réduit de plusieurs ordres de grandeur en utilisant les filtres proposés.

Il est important de noter que les travaux présentés dans cette thèse
sont inspirés par une problématique biologique mais ils sont également généraux et peuvent donc être appliqués au filtrage de tout type de textes afin d'y détecter de grandes portions répétées.
APA, Harvard, Vancouver, ISO, and other styles
22

Dorval, Thierry. "Approches saillantes et psycho-visuelles pour l'indexation d'images couleurs." Paris 6, 2004. http://www.theses.fr/2004PA066096.

Full text
APA, Harvard, Vancouver, ISO, and other styles
23

Luca, Aurélie de. "Espaces chimiques optimaux pour la recherche par similarité, la classification et la modélisation de réactions chimiques représentées par des graphes condensés de réactions." Thesis, Strasbourg, 2015. http://www.theses.fr/2015STRAF027.

Full text
Abstract:
Cette thèse vise à développer une approche basée sur le concept de Graphe Condensé de Réaction (GCR) capable de (i) sélectionner un espace optimal de descripteurs séparant au mieux différentes classes de réactions, et (ii) de préparer de nouveaux descripteurs pour la modélisation « structure–réactivité ». Cette méthodologie a été appliquée à la recherche par similarité dans une base de données contenant 8 classes de réaction différentes; et à la cartographie de son espace chimique en utilisant des cartes de Kohonen et de cartes topographiques génératives. La seconde partie de la thèse porte sur le développement de modèles prédictifs pour le pKa et pour des conditions optimales pour différents types de réaction de Michael impliquant à la fois les descripteurs d’effet électronique et des descripteurs calculés sur les GCR
This thesis aims to develop an approach based on the Condensed Graph of Reaction (CGR) method able to (i) select an optimal descriptor space the best separating different reaction classes, and (ii) to prepare special descriptors to be used in obtaining predictive structure-reactivity models. This methodology has been applied to similarity search studies in a database containing 8 different reaction classes, and to visualization of its chemical space using Kohonen maps and Generative Topographic Mapping. Another part of the thesis concerns development of predictive models for pKa and for optimal conditions for different types of Michael reaction involving both CGR-based and Electronic Effect Descriptors
APA, Harvard, Vancouver, ISO, and other styles
24

Chaouch, Mohamed. "Recherche par le contenu d'objets 3D." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005168.

Full text
Abstract:
Aujourd'hui, grâce aux technologies récentes de numérisation et de modélisation 3D, des bases d'objets 3D de taille de plus en plus grande deviennent disponibles. La recherche par le contenu apparaît être une solution nécessaire pour structurer, gérer ces données multimédia, et pour naviguer dans ces grandes bases. Dans ce contexte, nous nous sommes intéressés plus particulièrement aux trois phases qui constituent le processus de la recherche par le contenu : la normalisation, l'extraction de la signature, et la mesure de similarité entre objets 3D. La première partie de la thèse porte sur la normalisation d'objets 3D, en particulier sur la recherche de la pose optimale. Nous proposons une nouvelle méthode d'alignement d'objets 3D basée sur la symétrie de réflexion et la symétrie de translation locale. L'approche repose sur les propriétés intéressantes de l'analyse en composantes principales vis-à-vis des symétries de réflexion pour retrouver d'éventuels axes d'alignement optimaux parmi les axes principaux. La deuxième partie de la thèse est consacrée à l'étude des descripteurs de forme et des mesures de similarité associées. Dans un premier temps, nous proposons un nouveau descripteur 3D dérivé de la transformée de Gauss, appelé 3D Gaussian descriptor. Calculé sur une partition de l'espace englobant l'objet, ce descripteur permet de caractériser localement la géométrie de la surface. Dans un deuxième temps, nous avons étudié les approches multi-vues caractérisant l'objet 3D à partir des images de projection. Nous introduisons une technique d'amélioration, appelée Enhanced Multi-views Approach, pouvant s'appliquer à la plupart des approches multi-vues. Des valeurs de pertinence sont définies et introduites dans la mesure de similarité afin de pondérer les contributions des projections dans la description de la forme 3D. La dernière méthode d'indexation que nous proposons, appelée Depth Line Approach, est une approche multi-vues fondée sur les images de profondeur. Pour les caractériser, nous introduisons une méthode de transcodage qui transforme les lignes de profondeur extraites en séquence d'états. Pour permettre une comparaison efficace, la mesure de similarité associée se base sur la programmation dynamique.
APA, Harvard, Vancouver, ISO, and other styles
25

Chaouch, Mohamed. "Recherche par le contenu d'objets 3D." Phd thesis, Paris, ENST, 2009. https://pastel.hal.science/pastel-00005168.

Full text
Abstract:
Dans cette thèse, nous nous sommes intéressés aux trois phases qui constituent le processus de la recherche par le contenu : la normalisation, l'extraction de la signature, et la mesure de similarité. La première partie de la thèse porte sur la normalisation d'objets 3D, en particulier sur la recherche de la pose optimale. Nous proposons une nouvelle méthode d'alignement basée sur la symétrie de réflexion et la symétrie de translation locale. L'approche repose sur les propriétés intéressantes de l'analyse en composantes principales vis-à-vis des symétries de réflexion pour retrouver d'éventuels axes d'alignement optimaux. La deuxième partie est consacrée à l'étude des descripteurs de forme et des mesures de similarité associées. Dans un premier temps, nous proposons un nouveau descripteur 3D dérivé de la transformée de Gauss, appelé 3D Gaussian descriptor. Calculé sur une partition de l'espace englobant l'objet, ce descripteur permet de caractériser localement la géométrie de la surface. Dans un deuxième temps, nous avons étudié les approches multi-vues caractérisant l'objet 3D à partir des images de projection. Nous introduisons une technique d'amélioration, appelée Enhanced Multi-views Approach, pouvant s'appliquer à la plupart des approches multi-vues. Des valeurs de pertinence sont définies et introduites dans la mesure de similarité afin de pondérer les contributions des projections. La dernière méthode d'indexation proposée, la Depth Line Approach, est une approche multi-vues fondée sur les images de profondeur. Pour les caractériser, nous introduisons une méthode de transcodage qui transforme les lignes de profondeur extraites en séquence d'états
This thesis deals with 3D shape similarity search. We focus on the main steps of the 3D shape matching process: normalization of 3D models, signature extraction from models, and similarity measure. The first part of the thesis concerns the normalization of 3D models, in particular the search for the optimal pose. We propose a new alignment method of 3D models based on the reflective symmetry and the local translational symmetry. We use the properties of the principal component analysis with respect to the planar reflective symmetry in order to select the eventual optimal alignment axes. The second part of the thesis is dedicated to the shape descriptors and the associated similarity measures. Firstly, we propose a new 3D descriptor, called 3D Gaussian descriptor, which is derived from the Gauss transform. Based on a partition of the enclosing 3D model space, this descriptor provides a local characterization of the boundary of the shape. Secondly, we study the multi-views based approaches that characterize the 3D model using their projection images. We introduce an augmented approach, named Enhanced Multi-views Approach, which can be applied in most of the multi-views descriptors. The relevance indices are defined and used in the similarity computation in order to normalize the contributions of the projections in the 3D-shape description. Finally, we propose a robust 3D shape indexing approach, called Depth Line Approach, which is based on the appearance of a set of depth-buffer images. To extract a compact signature, we introduce a sequencing method that transforms the depth lines into sequences. Retrieval is improved by using dynamic programming to compare sequence
APA, Harvard, Vancouver, ISO, and other styles
26

Trouvilliez, Benoît. "Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits." Thesis, Artois, 2013. http://www.theses.fr/2013ARTO0403/document.

Full text
Abstract:
Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction
This Ph.D. thesis is about the establishment of textual data similarities in the client relation domain. Two subjects are mainly considered : - the automatic analysis of short messages in response of satisfaction surveys ; - the search of products given same criteria expressed in natural language by a human through a conversation with a program. The first subject concerns the statistical informations from the surveys answers. The ideas recognized in the answers are identified, organized according to a taxonomy and quantified. The second subject concerns the transcription of some criteria over products into queries to be interpreted by a database management system. The number of criteria under consideration is wide, from simplest criteria like material or brand, until most complex criteria like color or price. The two subjects meet on the problem of establishing textual data similarities thanks to NLP techniques. The main difficulties come from the fact that the texts to be processed, written in natural language, are short ones and with lots of spell checking errors and negations. Establishment of semantic similarities between words (synonymy, antonymy, ...) and syntactic relations between syntagms (conjunction, opposition, ...) are other issues considered in our work. We also study in this Ph. D. thesis automatic clustering and classification methods in order to analyse answers to satisfaction surveys
APA, Harvard, Vancouver, ISO, and other styles
27

Aimé, Xavier. "Gradients de prototypicalité, mesures de similarité et de proximité sémantique : une contribution à l'Ingénierie des Ontologies." Phd thesis, Université de Nantes, 2011. http://tel.archives-ouvertes.fr/tel-00660916.

Full text
Abstract:
En psychologie cognitive, la notion de prototype apparaît de manière centrale dans les représentations conceptuelles. Dans le cadre de nos travaux, nous proposons d'introduire cette notion au sein des activités relevant de l'Ingénierie des Ontologies et de ses modèles de représentation. L'approche sémiotique que nous avons développée est fondée sur les trois dimensions d'une conceptualisation que sont l'intension (les propriétés), l'expression (les termes), et l'extension (les instances). Elle intègre, en sus de l'ontologie, des connaissances supplémentaires propres à l'utilisateur (pondération des propriétés, corpus, instances). Pratiquement, il s'agit de pondérer les liens "is-a", les termes et les instances d'une hiérarchie de concepts, au moyen de gradients de prototypicalité respectivement conceptuelle, lexicale et extensionnelle. Notre approche a été mise en oeuvre dans un système industriel de gestion documentaire et de recherche d'information pour la société Tennaxia - société de veille juridique dans le domaine de l'Environnement. Elle a conduit au développement d'une ontologie du domaine Hygiène-Sécurité-Environnement, et de deux applications logicielles : l'application TooPrag dédiée au calcul des différents gradients de prototypicalité, et le moteur de Recherche d'Information sémantique Theseus qui exploite les gradients de prototypicalité. Nous avons enfin étendu notre approche à la définition de deux nouvelles mesures sémantiques, en nous inspirant des lois de similarité et de proximité de la théorie de la perception : Semiosem, une mesure de similarité, et Proxem, une mesure de proximité.
APA, Harvard, Vancouver, ISO, and other styles
28

Benmokhtar, Rachid. "Fusion multi-niveaux pour l'indexation et la recherche multimédia par le contenu sémantique." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005321.

Full text
Abstract:
Aujourd'hui, l'accès aux documents dans les bases de données, d'archives et sur Internet s'effectue principalement grâce à des données textuelles : nom de l'image ou mots-clés. Cette recherche est non exempte de fautes plus ou moins graves : omission, orthographe, etc. Les progrès effectués dans le domaine de l'analyse d'images et de l'apprentissage automatique permettent d'apporter des solutions comme l'indexation et la recherche à base des caractéristiques telles que la couleur, la forme, la texture, le mouvement, le son et le texte. Ces caractéristiques sont riches en informations et notamment d'un point de vue sémantique. Cette thèse s'inscrit dans le cadre de l'indexation automatique par le contenu sémantique des documents multimédia: plans vidéo et images-clés. L'indexation consiste à extraire, représenter et organiser efficacement le contenu des documents d'une base de données. L'état de l'art du domaine est confronté au «fossé sémantique» qui sépare les représentations visuelles brutes (bas-niveau) et conceptuelles (haut-niveau). Pour limiter les conséquences de cette problématique, nous avons introduit dans le système plusieurs types de descripteurs, tout en prenant à notre avantage les avancées scientifiques dans le domaine de l'apprentissage automatique et de la ``fusion multi-niveaux''. En effet, la fusion est utilisée dans le but de combiner des informations hétérogènes issues de plusieurs sources afin d'obtenir une information globale, plus complète, de meilleure qualité, permettant de mieux décider et d'agir. Elle peut être appliquée sur plusieurs niveaux du processus de classification. Dans cette thèse, nous avons étudié la fusion bas-niveau (précoce), la fusion haut-niveau (tardive), ainsi qu'à un niveau décisionnel basé sur l'ontologie et la similarité inter-concepts dit de raisonnement. Les systèmes proposés ont été validés sur les données de TRECVid (projet NoE K-Space) et les vidéos de football issues d'Orange-France Télécom Labs (projet CRE-Fusion). Les résultats révèlent l'importance de la fusion sur chaque niveau du processus de classification, en particulier, l'usage de la théorie des évidences.
APA, Harvard, Vancouver, ISO, and other styles
29

Ralalason, Bachelin. "Représentation multi-facette des documents pour leur accès sémantique." Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00550650.

Full text
Abstract:
La recherche d'information (RI) est un domaine prépondérant dans la vie contemporaine car elle permet de disposer d'éléments d'informations qui permettent d'agir et de prendre des décisions face à une situation donnée. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maîtrisons pas. La disponibilité et la pertinence de ces nouvelles informations ont donc une très grande influence sur la prise de décision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots représentatifs des documents afin de permettre leur recherche ultérieure. Dans ces méthodes, les documents et les requêtes sont considérées comme des sacs de mots, non porteurs de sens. L'une des méthodes innovantes actuelles est l'indexation et la recherche sémantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considérant la sémantique des éléments textuels. Nous nous intéressons à cet aspect de la RI en considérant une indexation et une recherche à base d'ontologies de domaine. Les solutions que nous proposons visent à améliorer la pertinence des réponses d'un système par rapport au thème de la recherche. Le discours contenu dans un document ou dans une requête ne sont pas les seuls éléments à prendre en compte pour espérer mieux satisfaire l'utilisateur. D'autres éléments relatifs au contexte de sa recherche doivent aussi être pris en compte. La granularité des informations à restituer à l'utilisateur est un autre aspect. Nous nous sommes intéressés à ces différents aspects et avons développé un méta-modèle de représentation multi-facette des documents en vue de leur accès sémantique. Dans notre modèle, le document est vu selon différentes dimensions dont la structure logique, la structure physique, la sémantique des contenus ainsi que leurs évolutions dans le temps. Nous avons également proposé des mesures de similarité sémantique entre concepts et une fonction de similarité entre les graphes d'annotation des requêtes et ceux des documents. Pour évaluer et valider nos solutions, nous avons instancié ce modèle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons également évalué les résultats en termes de rappel/précision des fonctions que nous avons proposées et montré leur supériorité par rapport à l'état de l'art.
APA, Harvard, Vancouver, ISO, and other styles
30

Ngo, Duy Hoa. "Enhancing Ontology Matching by Using Machine Learning, Graph Matching and Information Retrieval Techniques." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20096/document.

Full text
Abstract:
Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul.Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang
In recent years, ontologies have attracted a lot of attention in the Computer Science community, especially in the Semantic Web field. They serve as explicit conceptual knowledge models and provide the semantic vocabularies that make domain knowledge available for exchange and interpretation among information systems. However, due to the decentralized nature of the semantic web, ontologies are highlyheterogeneous. This heterogeneity mainly causes the problem of variation in meaning or ambiguity in entity interpretation and, consequently, it prevents domain knowledge sharing. Therefore, ontology matching, which discovers correspondences between semantically related entities of ontologies, becomes a crucial task in semantic web applications.Several challenges to the field of ontology matching have been outlined in recent research. Among them, selection of the appropriate similarity measures as well as configuration tuning of their combination are known as fundamental issues that the community should deal with. In addition, verifying the semantic coherent of the discovered alignment is also known as a crucial task. Furthermore, the difficulty of the problem grows with the size of the ontologies. To deal with these challenges, in this thesis, we propose a novel matching approach, which combines different techniques coming from the fields of machine learning, graph matching and information retrieval in order to enhance the ontology matching quality. Indeed, we make use of information retrieval techniques to design new effective similarity measures for comparing labels and context profiles of entities at element level. We also apply a graph matching method named similarity propagation at structure level that effectively discovers mappings by exploring structural information of entities in the input ontologies. In terms of combination similarity measures at element level, we transform the ontology matching task into a classification task in machine learning. Besides, we propose a dynamic weighted sum method to automatically combine the matching results obtained from the element and structure level matchers. In order to remove inconsistent mappings, we design a new fast semantic filtering method. Finally, to deal with large scale ontology matching task, we propose two candidate selection methods to reduce computational space.All these contributions have been implemented in a prototype named YAM++. To evaluate our approach, we adopt various tracks namely Benchmark, Conference, Multifarm, Anatomy, Library and Large BiomedicalOntologies from the OAEI campaign. The experimental results show that the proposed matching methods work effectively. Moreover, in comparison to other participants in OAEI campaigns, YAM++ showed to be highly competitive and gained a high ranking position
APA, Harvard, Vancouver, ISO, and other styles
31

Linardi, Michele. "Variable-length similarity search for very large data series : subsequence matching, motif and discord detection." Electronic Thesis or Diss., Sorbonne Paris Cité, 2019. http://www.theses.fr/2019USPCB056.

Full text
Abstract:
Les séries de données ou série chronologique (suite de valeurs numériques représentant l’évolution d’une quantité) sont devenues l’un des types de données les plus importants et les plus populaires, omniprésents dans presque tous les domaines scientifiques. Au cours des deux dernières décennies, mais de manière encore plus évidente au cours de cette dernière période, l’intérêt porté à ce type de données s’accroît rapidement. La raison en est principalement due aux récents progrès des technologies de détection, de mise en réseau, de traitement de données et de stockage, qui ont considérablement aidé le processus de génération et de collecte de grandes quantités de séries de données. La recherche de similarité de séries de données est devenue une opération fondamentale au cœur de plusieurs algorithmes d’analyse et applications liées aux collections de séries de données. De nombreuses solutions à différents problèmes d’exploration de données, telles que le regroupement (clustering), la mise en correspondance des sous-séquences (subsequence matching), l’imputation des valeurs manquantes (imputation of missing values), la découverte de motifs (motif discovery) et la détection d’anomalies (discord discovery) sont basés sur l’utilisation de la recherche de similarité. À cet égard, toutes les solutions sur mesure pour les problèmes susmentionnés nécessitent la connaissance préalable de la longueur de la série, sur laquelle une recherche de similarité est effectuée. Dans ce scénario, l’utilisateur doit connaître la longueur des résultats attendus, ce qui est souvent une hypothèse irréaliste. Cet aspect est donc très important. Dans plusieurs cas, la longueur est un paramètre critique qui influence sensiblement la qualité du résultat final. En détail, nous avons noté que les index de séries de données permettent d’effectuer une recherche de similarité rapide. Néanmoins, tous les index existants ne peuvent répondre qu’aux requêtes d’une seule longueur (fixées au moment de la construction de l’index), ce qui constitue une limite sévère. Dans cette thèse, nous proposons d’abord ULISSE, le premier index de série de données conçue pour répondre aux requêtes de recherche de similarité de longueur variable. Notre contribution est double. Premièrement, nous introduisons une nouvelle technique de représentation, qui résume efficacement et succinctement plusieurs séquences de différentes longueurs. Sur la base de l’index proposé, nous décrivons des algorithmes efficaces pour la recherche de similarité approximative et exacte, combinant des visites d’index sur disque et des analyses séquentielles en mémoire. Notre approche prend en charge les séquences non normalisées et normalisées, et peut être utilisée sans modification avec la distance Euclidienne et la déformation temporelle dynamique (DTW), pour répondre aux requêtes de type : κ-NN et ε-range. Nous évaluons notre approche de manière expérimentale en utilisant plusieurs jeux de données synthétiques et réels. Les résultats montrent que ULISSE s’est révélé de nombreuse fois plus efficace en termes de coût d’espace et de temps, par rapport aux approches concurrentes. Par la suite, nous introduisons un nouveau framework, qui fournit un algorithme de recherche exacte de motifs (séquences fréquentes) et d’anomalies, qui trouve efficacement tous les motifs et les anomalies de tailles différentes. L’évaluation expérimentale que nous avons effectuée sur plusieurs ensembles de données réelles montre que nos approches sont jusqu’à des ordres de grandeur plus rapides que les alternatives. Nous démontrons en outre que nous pouvons supprimer la contrainte irréaliste d’effectuer des analyses en utilisant une longueur prédéfinie, ce qui conduit à des résultats plus intuitifs et exploitables, qui auraient autrement été manqués
Data series (ordered sequences of real valued points, a.k.a. time series) has become one of the most important and popular data-type, which is present in almost all scientific fields. For the last two decades, but more evidently in this last period the interest in this data-type is growing at a fast pace. The reason behind this is mainly due to the recent advances in sensing, networking, data processing and storage technologies, which have significantly assisted the process of generating and collecting large amounts of data series. Data series similarity search has emerged as a fundamental operation at the core of several analysis tasks and applications related to data series collections. Many solutions to different data mining problems, such as Clustering, Subsequence Matching, Imputation of Missing Values, Motif Discovery, and Anomaly detection work by means of similarity search. Data series indexes have been proposed for fast similarity search. Nevertheless all existing indexes can only answer queries of a single length (fixed at index construction time), which is a severe limitation. In this regard, all solutions for the aforementioned problems require the prior knowledge of the series length, on which similarity search is performed. Consequently, the user must know the length of the expected results, which is often an unrealistic assumption. This aspect is thus of paramount importance. In several cases, the length is a critical parameter that heavily influences the quality of the final outcome. In this thesis, we propose scalable solutions that enable variable-length analysis of very large data series collections. We propose ULISSE, the first data series index structure designed for answering similarity search queries of variable length. Our contribution is two-fold. First, we introduce a novel representation technique, which effectively and succinctly summarizes multiple sequences of different length. Based on the proposed index, we describe efficient algorithms for approximate and exact similarity search, combining disk based index visits and in-memory sequential scans. Our approach supports non Z-normalized and Z-normalized sequences, and can be used with no changes with both Euclidean Distance and Dynamic Time Warping, for answering both κ-NN and ε-range queries. We experimentally evaluate our approach using several synthetic and real datasets. The results show that ULISSE is several times, and up to orders of magnitude more efficient in terms of both space and time cost, when compared to competing approaches. Subsequently, we introduce a new framework, which provides an exact and scalable motif and discord discovery algorithm that efficiently finds all motifs and discords in a given range of lengths. The experimental evaluation we conducted over several diverse real datasets show that our approaches are up to orders of magnitude faster than the alternatives. We moreover demonstrate that we can remove the unrealistic constraint of performing analytics using a predefined length, leading to more intuitive and actionable results, which would have otherwise been missed
APA, Harvard, Vancouver, ISO, and other styles
32

Navarro, Emmanuel. "Métrologie des graphes de terrain, application à la construction de ressources lexicales et à la recherche d'information." Phd thesis, Institut National Polytechnique de Toulouse - INPT, 2013. http://tel.archives-ouvertes.fr/tel-01020232.

Full text
Abstract:
Cette thèse s'organise en deux parties : une première partie s'intéresse aux mesures de similarité (ou de proximité) définies entre les sommets d'un graphe, une seconde aux méthodes de clustering de graphe biparti. Une nouvelle mesure de similarité entre sommets basée sur des marches aléatoires en temps courts est introduite. Cette méthode a l'avantage, en particulier, d'être insensible à la densité du graphe. Il est ensuite proposé un large état de l'art des similarités entre sommets, ainsi qu'une comparaison expérimentale de ces différentes mesures. Cette première partie se poursuit par la proposition d'une méthode robuste de comparaison de graphes partageant le même ensemble de sommets. Cette méthode est mise en application pour comparer et fusionner des graphes de synonymie. Enfin une application d'aide à la construction de ressources lexicales est présentée. Elle consiste à proposer de nouvelles relations de synonymie à partir de l'ensemble des relations de synonymie déjà existantes. Dans une seconde partie, un parallèle entre l'analyse formelle de concepts et le clustering de graphe biparti est établi. Ce parallèle conduit à l'étude d'un cas particulier pour lequel une partition d'un des groupes de sommets d'un graphe biparti peut-être déterminée alors qu'il n'existe pas de partitionnement correspondant sur l'autre type de sommets. Une méthode simple qui répond à ce problème est proposée et évaluée. Enfin Kodex, un système de classification automatique des résultats d'une recherche d'information est présenté. Ce système est une application en RI des méthodes de clustering vues précédemment. Une évaluation sur une collection de deux millions de pages web montre les avantages de l'approche et permet en outre de mieux comprendre certaines différences entre méthodes de clustering.
APA, Harvard, Vancouver, ISO, and other styles
33

Ngo, Duy Hoa. "Amélioration de l'alignement d'ontologies par les techniques d'apprentissage automatique, d'appariement de graphes et de recherche d'information." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2012. http://tel.archives-ouvertes.fr/tel-00767318.

Full text
Abstract:
Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul. Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang.
APA, Harvard, Vancouver, ISO, and other styles
34

Kessler, Rémy. "Traitement automatique d'informations appliqué aux ressources humaines." Phd thesis, Université d'Avignon, 2009. http://tel.archives-ouvertes.fr/tel-00453642.

Full text
Abstract:
Depuis les années 90, Internet est au coeur du marché du travail. D'abord mobilisée sur des métiers spécifiques, son utilisation s'étend à mesure qu'augmente le nombre d'internautes dans la population. La recherche d'emploi au travers des « bourses à l'emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d'informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d'information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d'outils pour automatiser les flux d'informations lors d'un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d'une entreprise à gérer efficacement et à moindre coût ces flux d'informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l'application des méthodes d'apprentissage afin d'effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l'analyse et l'intégration d'une offre d'emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d'intégrer une offre d'emploi d'une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d'assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures. L'utilisation d'un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité.
APA, Harvard, Vancouver, ISO, and other styles
35

Poulard, Fabien B. "Détection de dérivation de texte." Nantes, 2011. http://www.theses.fr/2011NANT2023.

Full text
Abstract:
L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identifcation des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la défiinition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle multidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse
Thanks to the Internet, the production and publication of content is possible with ease and speed. This possibility raises the issue of controling the origins of this content. This work focuses on detecting derivation links between texts. A derivation link associates a derivative text and the pre-existing texts from which it was written. We focused on the task of identifying derivative texts given a source text for various forms of derivation. Our rst contribution is the denition of a theoretical framework denes the concept of derivation as well as a model framing the dierent forms of derivation. Then, we set up an experimental framework consisting of free software tools, evaluation corpora and evaluation metrics based on IR. The Piithie and Wikinews corpora we have developed are to our knowledge the only ones in French for the evaluation of the detection of derivation links. Finally, we explored dierent methods of detection based on the signature-based approach. In particular, we have introduced the notions of specicity and invariance to guide the choice of descriptors used to modelize the texts in the expectation of their comparison. Our results show that the choice of motivated descriptors, including linguistically motivated ones, can reduce the size of the modelization of texts, and therefore the cost of the method, while oering performances comparable to the much more voluminous state of the art approach
APA, Harvard, Vancouver, ISO, and other styles
36

Zaharia, Alexandra. "Identification des motifs de voisinage conservés dans des contextes métaboliques et génomiques." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS275/document.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre de la biologie des systèmes et porte plus particulièrement sur un problème relatif aux réseaux biologiques hétérogènes. Elle se concentre sur les relations entre le métabolisme et le contexte génomique, en utilisant une approche de fouille de graphes.Il est communément admis que des étapes enzymatiques successives impliquant des produits de gènes situés à proximité sur le chromosome traduisent un avantage évolutif du maintien de cette relation de voisinage au niveau métabolique ainsi que génomique. En conséquence, nous choisissons de nous concentrer sur la détection de réactions voisines catalysées par des produits de gènes voisins, où la notion de voisinage peut être modulée en autorisant que certaines réactions et/ou gènes soient omis. Plus spécifiquement, les motifs recherchés sont des trails de réactions (c'est-à-dire des séquences de réactions pouvant répéter des réactions, mais pas les liens entre elles) catalysées par des produits de gènes voisins. De tels motifs de voisinage sont appelés des motifs métaboliques et génomiques.De plus, on s'intéresse aux motifs de voisinage métabolique et génomique conservés, c'est-à-dire à des motifs similaires pour plusieurs espèces. Parmi les variations considérées pour un motif conservé, on considère l'absence/présence de réactions et/ou de gènes, ou leur ordre différent.Dans un premier temps, nous proposons des algorithmes et des méthodes afin d'identifier des motifs de voisinage métabolique et génomique conservés. Ces méthodes sont implémentées dans le pipeline libre CoMetGeNe (COnserved METabolic and GEnomic NEighborhoods). À l'aide de CoMetGeNe, on analyse une sélection de 50 espèces bactériennes, en utilisant des données issues de la base de connaissances KEGG.Dans un second temps, un développement de la détection de motifs conservés est exploré en prenant en compte la similarité chimique entre réactions. Il permet de mettre en évidence une classe de modules métaboliques conservés, caractérisée par le voisinage des gènes intervenants
This thesis fits within the field of systems biology and addresses a problem related to heterogeneous biological networks. It focuses on the relationship between metabolism and genomic context through a graph mining approach.It is well-known that succeeding enzymatic steps involving products of genes in close proximity on the chromosome translate an evolutionary advantage in maintaining this neighborhood relationship at both the metabolic and genomic levels. We therefore choose to focus on the detection of neighboring reactions being catalyzed by products of neighboring genes, where the notion of neighborhood may be modulated by allowing the omission of several reactions and/or genes. More specifically, the sought motifs are trails of reactions (meaning reaction sequences in which reactions may be repeated, but not the links between them). Such neighborhood motifs are referred to as metabolic and genomic patterns.In addition, we are also interested in detecting conserved metabolic and genomic patterns, meaning similar patterns across multiple species. Among the possible variations for a conserved pattern, the presence/absence of reactions and/or genes may be considered, or the different order of reactions and/or genes.A first development proposes algorithms and methods for the identification of conserved metabolic and genomic patterns. These methods are implemented in an open-source pipeline called CoMetGeNe (COnserved METabolic and GEnomic NEighborhoods). By means of this pipeline, we analyze a data set of 50 bacterial species, using data extracted from the KEGG knowledge base.A second development explores the detection of conserved patterns by taking into account the chemical similarity between reactions. This allows for the detection of a class of conserved metabolic modules in which neighboring genes are involved
APA, Harvard, Vancouver, ISO, and other styles
37

Lully, Vincent. "Vers un meilleur accès aux informations pertinentes à l’aide du Web sémantique : application au domaine du e-tourisme." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUL196.

Full text
Abstract:
Cette thèse part du constat qu’il y a une infobésité croissante sur le Web. Les deux types d’outils principaux, à savoir le système de recherche et celui de recommandation, qui sont conçus pour nous aider à explorer les données du Web, connaissent plusieurs problématiques dans : (1) l’assistance de la manifestation des besoins d’informations explicites, (2) la sélection des documents pertinents, et (3) la mise en valeur des documents sélectionnés. Nous proposons des approches mobilisant les technologies du Web sémantique afin de pallier à ces problématiques et d’améliorer l’accès aux informations pertinentes. Nous avons notamment proposé : (1) une approche sémantique d’auto-complétion qui aide les utilisateurs à formuler des requêtes de recherche plus longues et plus riches, (2) des approches de recommandation utilisant des liens hiérarchiques et transversaux des graphes de connaissances pour améliorer la pertinence, (3) un framework d’affinité sémantique pour intégrer des données sémantiques et sociales pour parvenir à des recommandations qualitativement équilibrées en termes de pertinence, diversité et nouveauté, (4) des approches sémantiques visant à améliorer la pertinence, l’intelligibilité et la convivialité des explications des recommandations, (5) deux approches de profilage sémantique utilisateur à partir des images, et (6) une approche de sélection des meilleures images pour accompagner les documents recommandés dans les bannières de recommandation. Nous avons implémenté et appliqué nos approches dans le domaine du e-tourisme. Elles ont été dûment évaluées quantitativement avec des jeux de données vérité terrain et qualitativement à travers des études utilisateurs
This thesis starts with the observation that there is an increasing infobesity on the Web. The two main types of tools, namely the search engine and the recommender system, which are designed to help us explore the Web data, have several problems: (1) in helping users express their explicit information needs, (2) in selecting relevant documents, and (3) in valuing the selected documents. We propose several approaches using Semantic Web technologies to remedy these problems and to improve the access to relevant information. We propose particularly: (1) a semantic auto-completion approach which helps users formulate longer and richer search queries, (2) several recommendation approaches using the hierarchical and transversal links in knowledge graphs to improve the relevance of the recommendations, (3) a semantic affinity framework to integrate semantic and social data to yield qualitatively balanced recommendations in terms of relevance, diversity and novelty, (4) several recommendation explanation approaches aiming at improving the relevance, the intelligibility and the user-friendliness, (5) two image user profiling approaches and (6) an approach which selects the best images to accompany the recommended documents in recommendation banners. We implemented and applied our approaches in the e-tourism domain. They have been properly evaluated quantitatively with ground-truth datasets and qualitatively through user studies
APA, Harvard, Vancouver, ISO, and other styles
38

Peng, Botao. "Parrallel data series indexing and similarity search on modern hardware." Electronic Thesis or Diss., Université Paris Cité, 2020. http://www.theses.fr/2020UNIP5193.

Full text
Abstract:
La recherche de similarité de séries de données est une opération essentielle pour plusieurs applications dans de nombreux domaines. Cependant, les techniques de pointe ne parviennent pas à fournir les performances temporelles requises, que ce soit pour réaliser une exploration interactive des séries de données, ou simplement une analyse de grandes collections de données. Au cours de ma thèse, nous présentons les premières solutions d'indexation de séries de données conçues pour tirer parti intrinsèquement du matériel moderne, afin d'accélérer les temps de traitement de la recherche de similarité pour les données sur disque et en mémoire. En particulier, nous développons de nouveaux algorithmes utilisant les architectures SIMD (multi-core, multi-socket et Single Instruction Multiple Data), ainsi que des algorithmes adaptés pour l’utilisation des unités de traitement graphique (GPU). Nos expériences réalisées sur un panel de données synthétiques et réelles démontrent que nos approches sont d’ordres de grandeur plus rapides que les solutions de pointe utilisant les données enregistrées sur disque et en mémoire. Plus précisément, notre solution sur disque peut répondre à des requêtes de recherche de similitude exacte sur des ensembles de données de 100 Go en 15 secondes, et pour notre solution en mémoire en moins de 36 millisecondes, ce qui permet pour la première fois une exploration interactive de données en temps réel sur des grandes collections de séries de données
Data series similarity search is a core operation for several data series analysis applications across many different domains. However, the state-of-the-art techniques fail to deliver the time performance required for interactive exploration, or analysis of large data series collections. In this Ph.D. work, we present the first data series indexing solutions that are designed to inherently take advantage of modern hardware, in order to accelerate similarity search processing times for both on-disk and in-memory data. In particular, we develop novel algorithms for multi-core, multi-socket, and Single Instruction Multiple Data (SIMD) architectures, as well as algorithms for Graphics Processing Units (GPUs). Our experiments on a variety of synthetic and real data demonstrate that our approaches are up to orders of magnitude faster than the state-of-the-art solutions for both disk-resident and in-memory data. More specifically, our on-disk solution can answer exact similarity search queries on 100GB datasets in ∼ 15 seconds, and our in-memory solution in as low as 36 milliseconds, which enables for the first time real-time, interactive data exploration on very large data series collections
APA, Harvard, Vancouver, ISO, and other styles
39

Muhammad, Fuad Muhammad Marwan. "Similarity Search in High-dimensional Spaces with Applications to Time Series Data Mining and Information Retrieval." Phd thesis, Université de Bretagne Sud, 2011. http://tel.archives-ouvertes.fr/tel-00619953.

Full text
Abstract:
Nous présentons l'un des principaux problèmes dans la recherche d'informations et de data mining, ce qui est le problème de recherche de similarité. Nous abordons ce problème dans une perspective essentiellement métrique. Nous nous concentrons sur des données de séries temporelles, mais notre objectif général est de développer des méthodes et des algorithmes qui peuvent être étendus aux autres types de données. Nous étudions de nouvelles méthodes pour traiter le problème de recherche de similarité dans des espaces haut-dimensionnels. Les nouvelles méthodes et algorithmes que nous introduisons sont largement testés et ils montrent une supériorité sur les autres méthodes et algorithmes dans la littérature.
APA, Harvard, Vancouver, ISO, and other styles
40

Morère, Olivier André Luc. "Deep learning compact and invariant image representations for instance retrieval." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066406.

Full text
Abstract:
Nous avons précédemment mené une étude comparative entre les descripteurs FV et CNN dans le cadre de la recherche par similarité d’instance. Cette étude montre notamment que les descripteurs issus de CNN manquent d’invariance aux transformations comme les rotations ou changements d’échelle. Nous montrons dans un premier temps comment des réductions de dimension (“pooling”) appliquées sur la base de données d’images permettent de réduire fortement l’impact de ces problèmes. Certaines variantes préservent la dimensionnalité des descripteurs associés à une image, alors que d’autres l’augmentent, au prix du temps d’exécution des requêtes. Dans un second temps, nous proposons la réduction de dimension emboitée pour l’invariance (NIP), une méthode originale pour la production, à partir de descripteurs issus de CNN, de descripteurs globaux invariants à de multiples transformations. La méthode NIP est inspirée de la théorie pour l’invariance “i-theory”, une théorie mathématique proposée il y a peu pour le calcul de transformations invariantes à des groupes au sein de réseaux de neurones acycliques. Nous montrons que NIP permet d’obtenir des descripteurs globaux compacts (mais non binaires) et robustes aux rotations et aux changements d’échelle, que NIP est plus performants que les autres méthodes à dimensionnalité équivalente sur la plupart des bases de données d’images. Enfin, nous montrons que la combinaison de NIP avec la méthode de hachage RBMH proposée précédemment permet de produire des codes binaires à la fois compacts et invariants à plusieurs types de transformations. La méthode NIP+RBMH, évaluée sur des bases de données d’images de moyennes et grandes échelles, se révèle plus performante que l’état de l’art, en particulier dans le cas de descripteurs binaires de très petite taille (de 32 à 256 bits)
Image instance retrieval is the problem of finding an object instance present in a query image from a database of images. Also referred to as particular object retrieval, this problem typically entails determining with high precision whether the retrieved image contains the same object as the query image. Scale, rotation and orientation changes between query and database objects and background clutter pose significant challenges for this problem. State-of-the-art image instance retrieval pipelines consist of two major steps: first, a subset of images similar to the query are retrieved from the database, and second, Geometric Consistency Checks (GCC) are applied to select the relevant images from the subset with high precision. The first step is based on comparison of global image descriptors: high-dimensional vectors with up to tens of thousands of dimensions rep- resenting the image data. The second step is computationally highly complex and can only be applied to hundreds or thousands of images in practical applications. More discriminative global descriptors result in relevant images being more highly ranked, resulting in fewer images that need to be compared pairwise with GCC. As a result, better global descriptors are key to improving retrieval performance and have been the object of much recent interest. Furthermore, fast searches in large databases of millions or even billions of images requires the global descriptors to be compressed into compact representations. This thesis will focus on how to achieve extremely compact global descriptor representations for large-scale image instance retrieval. After introducing background concepts about supervised neural networks, Restricted Boltzmann Machine (RBM) and deep learning in Chapter 2, Chapter 3 will present the design principles and recent work for the Convolutional Neural Networks (CNN), which recently became the method of choice for large-scale image classification tasks. Next, an original multistage approach for the fusion of the output of multiple CNN is proposed. Submitted as part of the ILSVRC 2014 challenge, results show that this approach can significantly improve classification results. The promising perfor- mance of CNN is largely due to their capability to learn appropriate high-level visual representations from the data. Inspired by a stream of recent works showing that the representations learnt on one particular classification task can transfer well to other classification tasks, subsequent chapters will focus on the transferability of representa- tions learnt by CNN to image instance retrieval…
APA, Harvard, Vancouver, ISO, and other styles
41

Poulard, Fabien. "Détection de dérivation de texte." Phd thesis, Université de Nantes, 2011. http://tel.archives-ouvertes.fr/tel-00590708.

Full text
Abstract:
L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identification des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la définition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle mulitidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse.
APA, Harvard, Vancouver, ISO, and other styles
42

Zapletal, Eric. "Un environnement collaboratif sur Internet pour l'aide au consensus en anatomie pathologie : la plateforme IDEM." Paris 6, 2006. http://www.theses.fr/2006PA066590.

Full text
APA, Harvard, Vancouver, ISO, and other styles
43

Wang, Peng. "Historical handwriting representation model dedicated to word spotting application." Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET4019/document.

Full text
Abstract:
L’objectif du travail de thèse est de proposer un modèle de représentation des écritures dans les images de documents du patrimoine sans recourir à une transcription des textes. Ce modèle, issu d’une étude très complète des méthodes actuelles de caractérisation des écritures, est à la base d’une proposition de scénario de recherche par similarité de mots, indépendante du scripteur et ne nécessitant pas d’apprentissage. La recherche par similarité proposée repose sur une structure de graphes intégrant des informations sur la topologie, la morphologie locale des mots et sur le contexte extrait du voisinage de chaque point d’intérêt. Un graphe est construit à partir du squelette décrit en chaque point sommet par le contexte de formes, descripteur riche et compact. L’extraction de mots est assurée par une première étape de localisation grossière de régions candidates, décrites par une séquence déduite d’une représentation par graphes liée à des critères topologiques de voisinage. L’appariement entre mots repose ensuite sur une distance dynamique et un usage adapté du coût d’édition approximé entre graphes rendant compte de la nature bi-dimensionnelle de l’écriture. L’approche a été conçue pour être robuste aux distorsions de l’écriture et aux changements de scripteurs. Les expérimentations sont réalisées sur des bases de documents manuscrits patrimoniaux exploitées dans les compétitions de word-spotting. Les performances illustrent la pertinence de la proposition et ouvrent des voies nouvelles d’investigation dans des domaines d’applications autour de la reconnaissance de symboles et d’écritures iconographiques
As more and more documents, especially historical handwritten documents, are converted into digitized version for long-term preservation, the demands for efficient information retrieval techniques in such document images are increasing. The objective of this research is to establish an effective representation model for handwriting, especially historical manuscripts. The proposed model is supposed to help the navigation in historical document collections. Specifically speaking, we developed our handwriting representation model with regards to word spotting application. As a specific pattern recognition task, handwritten word spotting faces many challenges such as the high intra-writer and inter-writer variability. Nowadays, it has been admitted that OCR techniques are unsuccessful in handwritten offline documents, especially historical ones. Therefore, the particular characterization and comparison methods dedicated to handwritten word spotting are strongly required. In this work, we explore several techniques that allow the retrieval of singlestyle handwritten document images with query image. The proposed representation model contains two facets of handwriting, morphology and topology. Based on the skeleton of handwriting, graphs are constructed with the structural points as the vertexes and the strokes as the edges. By signing the Shape Context descriptor as the label of vertex, the contextual information of handwriting is also integrated. Moreover, we develop a coarse-to-fine system for the large-scale handwritten word spotting using our representation model. In the coarse selection, graph embedding is adapted with consideration of simple and fast computation. With selected regions of interest, in the fine selection, a specific similarity measure based on graph edit distance is designed. Regarding the importance of the order of handwriting, dynamic time warping assignment with block merging is added. The experimental results using benchmark handwriting datasets demonstrate the power of the proposed representation model and the efficiency of the developed word spotting approach. The main contribution of this work is the proposed graph-based representation model, which realizes a comprehensive description of handwriting, especially historical script. Our structure-based model captures the essential characteristics of handwriting without redundancy, and meanwhile is robust to the intra-variation of handwriting and specific noises. With additional experiments, we have also proved the potential of the proposed representation model in other symbol recognition applications, such as handwritten musical and architectural classification
APA, Harvard, Vancouver, ISO, and other styles
44

Philippeau, Jérémy. "Apprentissage de similarités pour l'aide à l'organisation de contenus audiovisuels." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/564/.

Full text
Abstract:
Dans une optique d'adaptation aux nouveaux usages de consultation d'archives audiovisuelles, nous souhaitons aider un utilisateur issu du grand public à organiser des contenus audiovisuels, c'est-à-dire les classifier, les caractériser, les identifier ou les ordonner. Pour ce faire, nous proposons d'utiliser un vocabulaire autre que ce que l'on pourrait trouver dans une notice documentaire de l'Ina, afin de répondre à des envies qui ne sont pas facilement définissables avec des mots. Nous avons conçu pour cela une interface graphique qui s'appuie sur un formalisme de graphe dédié à l'expression d'une tâche organisationnelle. La similarité numérique est un bon outil au regard des éléments que nous manipulons, à savoir des objets informationnels présentés sur un écran d'ordinateur et des valeurs descriptives de " bas niveau " audio et vidéo extraites de manière automatique. Nous avons choisi de prédire la similarité entre ces éléments grâce à un modèle statistique. Parmi les nombreux modèles existants, la prédiction statistique basée sur la régression univariée et fondée
In the perspective of new usages in the field of the access to audiovisual archives, we have created a semi-automatic system that helps a user to organize audiovisual contents while performing tasks of classification, characterization, identification and ranking. To do so, we propose to use a new vocabulary, different from the one already available in INA documentary notices, to answer needs which can not be easily defined with words. We have conceived a graphical interface based on graph formalism designed to express an organisational task. The digital similarity is a good tool in respect with the handled elements which are informational objects shown on the computer screen and the automatically extracted audio and video low-level features. We have made the choice to estimate the similarity between those elements with a predictive process through a statistical model. Among the numerous existing models, the statistical prediction based on the univaried regression and on support vectors has been chosen. H)
APA, Harvard, Vancouver, ISO, and other styles
45

Morère, Olivier André Luc. "Deep learning compact and invariant image representations for instance retrieval." Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066406.

Full text
Abstract:
Nous avons précédemment mené une étude comparative entre les descripteurs FV et CNN dans le cadre de la recherche par similarité d’instance. Cette étude montre notamment que les descripteurs issus de CNN manquent d’invariance aux transformations comme les rotations ou changements d’échelle. Nous montrons dans un premier temps comment des réductions de dimension (“pooling”) appliquées sur la base de données d’images permettent de réduire fortement l’impact de ces problèmes. Certaines variantes préservent la dimensionnalité des descripteurs associés à une image, alors que d’autres l’augmentent, au prix du temps d’exécution des requêtes. Dans un second temps, nous proposons la réduction de dimension emboitée pour l’invariance (NIP), une méthode originale pour la production, à partir de descripteurs issus de CNN, de descripteurs globaux invariants à de multiples transformations. La méthode NIP est inspirée de la théorie pour l’invariance “i-theory”, une théorie mathématique proposée il y a peu pour le calcul de transformations invariantes à des groupes au sein de réseaux de neurones acycliques. Nous montrons que NIP permet d’obtenir des descripteurs globaux compacts (mais non binaires) et robustes aux rotations et aux changements d’échelle, que NIP est plus performants que les autres méthodes à dimensionnalité équivalente sur la plupart des bases de données d’images. Enfin, nous montrons que la combinaison de NIP avec la méthode de hachage RBMH proposée précédemment permet de produire des codes binaires à la fois compacts et invariants à plusieurs types de transformations. La méthode NIP+RBMH, évaluée sur des bases de données d’images de moyennes et grandes échelles, se révèle plus performante que l’état de l’art, en particulier dans le cas de descripteurs binaires de très petite taille (de 32 à 256 bits)
Image instance retrieval is the problem of finding an object instance present in a query image from a database of images. Also referred to as particular object retrieval, this problem typically entails determining with high precision whether the retrieved image contains the same object as the query image. Scale, rotation and orientation changes between query and database objects and background clutter pose significant challenges for this problem. State-of-the-art image instance retrieval pipelines consist of two major steps: first, a subset of images similar to the query are retrieved from the database, and second, Geometric Consistency Checks (GCC) are applied to select the relevant images from the subset with high precision. The first step is based on comparison of global image descriptors: high-dimensional vectors with up to tens of thousands of dimensions rep- resenting the image data. The second step is computationally highly complex and can only be applied to hundreds or thousands of images in practical applications. More discriminative global descriptors result in relevant images being more highly ranked, resulting in fewer images that need to be compared pairwise with GCC. As a result, better global descriptors are key to improving retrieval performance and have been the object of much recent interest. Furthermore, fast searches in large databases of millions or even billions of images requires the global descriptors to be compressed into compact representations. This thesis will focus on how to achieve extremely compact global descriptor representations for large-scale image instance retrieval. After introducing background concepts about supervised neural networks, Restricted Boltzmann Machine (RBM) and deep learning in Chapter 2, Chapter 3 will present the design principles and recent work for the Convolutional Neural Networks (CNN), which recently became the method of choice for large-scale image classification tasks. Next, an original multistage approach for the fusion of the output of multiple CNN is proposed. Submitted as part of the ILSVRC 2014 challenge, results show that this approach can significantly improve classification results. The promising perfor- mance of CNN is largely due to their capability to learn appropriate high-level visual representations from the data. Inspired by a stream of recent works showing that the representations learnt on one particular classification task can transfer well to other classification tasks, subsequent chapters will focus on the transferability of representa- tions learnt by CNN to image instance retrieval…
APA, Harvard, Vancouver, ISO, and other styles
46

Kessler, Rémy. "Traitement automatique d’informations appliqué aux ressources humaines." Thesis, Avignon, 2009. http://www.theses.fr/2009AVIG0167/document.

Full text
Abstract:
Depuis les années 90, Internet est au coeur du marché du travail. D’abord mobilisée sur des métiers spécifiques, son utilisation s’étend à mesure qu’augmente le nombre d’internautes dans la population. La recherche d’emploi au travers des « bourses à l’emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d’informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d’information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d’outils pour automatiser les flux d’informations lors d’un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d’une entreprise à gérer efficacement et à moindre coût ces flux d’informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l’application des méthodes d’apprentissage afin d’effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l’analyse et l’intégration d’une offre d’emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d’intégrer une offre d’emploi d’une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d’assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d’effectuer un classement pertinent des candidatures. L’utilisation d’un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité
Since the 90s, Internet is at the heart of the labor market. First mobilized on specific expertise, its use spreads as increase the number of Internet users in the population. Seeking employment through "electronic employment bursary" has become a banality and e-recruitment something current. This information explosion poses various problems in their treatment with the large amount of information difficult to manage quickly and effectively for companies. We present in this PhD thesis, the work we have developed under the E-Gen project, which aims to create tools to automate the flow of information during a recruitment process.We interested first to the problems posed by the routing of emails. The ability of a companie to manage efficiently and at lower cost this information flows becomes today a major issue for customer satisfaction. We propose the application of learning methods to perform automatic classification of emails to their routing, combining technical and probabilistic vector machines support. After, we present work that was conducted as part of the analysis and integration of a job ads via Internet. We present a solution capable of integrating a job ad from an automatic or assisted in order to broadcast it quickly. Based on a combination of classifiers systems driven by a Markov automate, the system gets very good results. Thereafter, we present several strategies based on vectorial and probabilistic models to solve the problem of profiling candidates according to a specific job offer to assist recruiters. We have evaluated a range of measures of similarity to rank candidatures by using ROC curves. Relevance feedback approach allows to surpass our previous results on this task, difficult, diverse and higly subjective
APA, Harvard, Vancouver, ISO, and other styles
47

Al-Natsheh, Hussein. "Text Mining Approaches for Semantic Similarity Exploration and Metadata Enrichment of Scientific Digital Libraries." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE2062.

Full text
Abstract:
Pour les scientifiques et chercheurs, s’assurer que la connaissance est accessible pour pouvoir être réutilisée et développée est un point crucial. De plus, la façon dont nous stockons et gérons les articles scientifiques et leurs métadonnées dans les bibliothèques numériques détermine la quantité d’articles pertinents que nous pouvons découvrir et auxquels nous pouvons accéder en fonction de la signification réelle d’une requête de recherche. Cependant, sommes-nous en mesure d’explorer tous les documents scientifiques sémantiquement pertinents avec les systèmes existants de recherche d’information au moyen de mots-clés ? Il s’agit là de la question essentielle abordée dans cette thèse. L’objectif principal de nos travaux est d’élargir ou développer le spectre des connaissances des chercheurs travaillant dans un domaine interdisciplinaire lorsqu’ils utilisent les systèmes de recherche d’information des bibliothèques numériques multidisciplinaires. Le problème se pose cependant lorsque de tels chercheurs utilisent des mots-clés de recherche dépendant de la communauté dont ils sont issus alors que d’autres termes scientifiques sont attribués à des concepts pertinents lorsqu’ils sont utilisés dans des communautés de recherche différentes. Afin de proposer une solution à cette tâche d’exploration sémantique dans des bibliothèques numériques multidisciplinaires, nous avons appliqué plusieurs approches de fouille de texte. Tout d’abord, nous avons étudié la représentation sémantique des mots, des phrases, des paragraphes et des documents pour une meilleure estimation de la similarité sémantique. Ensuite, nous avons utilisé les informations sémantiques des mots dans des bases de données lexicales et des graphes de connaissance afin d’améliorer notre approche sémantique. En outre, la thèse présente quelques implémentations de cas d’utilisation du modèle que nous avons proposé
For scientists and researchers, it is very critical to ensure knowledge is accessible for re-use and development. Moreover, the way we store and manage scientific articles and their metadata in digital libraries determines the amount of relevant articles we can discover and access depending on what is actually meant in a search query. Yet, are we able to explore all semantically relevant scientific documents with the existing keyword-based search information retrieval systems? This is the primary question addressed in this thesis. Hence, the main purpose of our work is to broaden or expand the knowledge spectrum of researchers working in an interdisciplinary domain when they use the information retrieval systems of multidisciplinary digital libraries. However, the problem raises when such researchers use community-dependent search keywords while other scientific names given to relevant concepts are being used in a different research community.Towards proposing a solution to this semantic exploration task in multidisciplinary digital libraries, we applied several text mining approaches. First, we studied the semantic representation of words, sentences, paragraphs and documents for better semantic similarity estimation. In addition, we utilized the semantic information of words in lexical databases and knowledge graphs in order to enhance our semantic approach. Furthermore, the thesis presents a couple of use-case implementations of our proposed model
APA, Harvard, Vancouver, ISO, and other styles
48

Francois, Nicolas. "Alignement, séquence consensus, recherche de similarités : complexité et approximabilité." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2005. http://tel.archives-ouvertes.fr/tel-00108020.

Full text
Abstract:
Dans ce mémoire, nous étudions la complexité algorithmique de plusieurs problèmes combinatoires
concernant la comparaison de séquences biologiques. Nous nous pla¸cons successivement du point de vue de
chacune des trois principales théories de la complexité algorithmique : la NP-complétude, l'approximabilité
et la complexité paramétrique.
Dans un premier temps, nous considérons plusieurs formes du problème de l'extraction des motifs communs
à un ensemble de séquences donné. Les motifs communs permettent, en pratique, de classifier les protéines
grâce à leur structure primaire, par exemple en fabriquant des séquences consensus.
En particulier, le problème de la médiane (resp. du centre) pour la distance d'édition consiste à rechercher
une séquence consensus minimisant la somme (resp. le maximum) des distances d'édition la séparant de
chacune des séquences prises en entrée. Nous affinons les résultats connus sur la difficulté de chacun de ces
deux problèmes : nous montrons, par exemple, qu'ils sont tous les deux W[1]-difficiles lorsqu'on les
paramétrise par le nombre des séquences étudiées et ce, même dans le cas d'un alphabet binaire. Nous
considérons également le problème de la plus longue sous-séquence commune. Ce problème a été
exhaustivement étudié dans sa forme usuelle. Or, on trouve dans la nature des séquences d'ADN et d'ARN
circulaires qu'il est utile de comparer. Dans ce mémoire, nous menons à bien la première étude du problème
de la plus longue sous-séquence commune à plusieurs séquences circulaires et/ou non orientées.
Dans un second temps, nous considérons plusieurs problèmes liés à la recherche de similarités approchées
entre séquences biologiques. C'est dans ce domaine que l'application de l'informatique à la biologie
moléculaire a été la plus fructueuse. En pratique les similarités permettent de déterminer les propriétés des
molécules nouvellement séquencées à l'aide de celles des séquences déjà annotées. En effet, une similarité en
séquence entraîne généralement une similarité en structure ou en fonction.
La plupart des nombreux logiciels dédiés à la détection de similarités locales, mettent en oeuvre des filtres
heuristiques : deux portions de séquences ne possédant pas certains motifs spécifiques en commun sont
considérées d'emblée comme dissimilaires. Le choix des motifs conditionne la sensibilité et la sélectivité du
filtre associé. Dans ce mémoire nous considérons un certain type de motifs appelé graine. Il s'agit en fait de
sous-chaînes à trous.
Nous étudions plusieurs problèmes algorithmiques liés à la conception de bonnes graines. En particulier,
nous montrons que le problème suivant est NP-difficile : étant donnés deux entiers naturels k, m et une
graine, décider si le filtre associé est sans perte lorsque l'on restreint la notion de similarité aux paires de
mots de même longueur m, séparés par une distance de Hamming au plus k. Notons que plusieurs
algorithmes exponentiels ont été proposés pour des généralisations de ce problème.
APA, Harvard, Vancouver, ISO, and other styles
49

Nicolas, François. "Alignement, séquence, consensus, recherche de similarités : complexité et approximabilité." Montpellier 2, 2005. http://www.theses.fr/2005MON20179.

Full text
APA, Harvard, Vancouver, ISO, and other styles
50

Albitar, Shereen. "De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM4343/document.

Full text
Abstract:
Cette thèse porte sur l’impact de l’usage de la sémantique dans le processus de la classification supervisée de textes. Cet impact est évalué au travers d’une étude expérimentale sur des documents issus du domaine médical et en utilisant UMLS (Unified Medical Language System) en tant que ressource sémantique. Cette évaluation est faite selon quatre scénarii expérimentaux d’ajout de sémantique à plusieurs niveaux du processus de classification. Le premier scénario correspond à la conceptualisation où le texte est enrichi avant indexation par des concepts correspondant dans UMLS ; le deuxième et le troisième scénario concernent l’enrichissement des vecteurs représentant les textes après indexation dans un sac de concepts (BOC – bag of concepts) par des concepts similaires. Enfin le dernier scénario utilise la sémantique au niveau de la prédiction des classes, où les concepts ainsi que les relations entre eux, sont impliqués dans la prise de décision. Le premier scénario est testé en utilisant trois des méthodes de classification: Rocchio, NB et SVM. Les trois autres scénarii sont uniquement testés en utilisant Rocchio qui est le mieux à même d’accueillir les modifications nécessaires. Au travers de ces différentes expérimentations nous avons tout d’abord montré que des améliorations significatives pouvaient être obtenues avec la conceptualisation du texte avant l’indexation. Ensuite, à partir de représentations vectorielles conceptualisées, nous avons constaté des améliorations plus modérées avec d’une part l’enrichissement sémantique de cette représentation vectorielle après indexation, et d’autre part l’usage de mesures de similarité sémantique en prédiction
The main interest of this research is the effect of using semantics in the process of supervised text classification. This effect is evaluated through an experimental study on documents related to the medical domain using the UMLS (Unified Medical Language System) as a semantic resource. This evaluation follows four scenarios involving semantics at different steps of the classification process: the first scenario incorporates the conceptualization step where text is enriched with corresponding concepts from UMLS; both the second and the third scenarios concern enriching vectors that represent text as Bag of Concepts (BOC) with similar concepts; the last scenario considers using semantics during class prediction, where concepts as well as the relations between them are involved in decision making. We test the first scenario using three popular classification techniques: Rocchio, NB and SVM. We choose Rocchio for the other scenarios for its extendibility with semantics. According to experiment, results demonstrated significant improvement in classification performance using conceptualization before indexing. Moderate improvements are reported using conceptualized text representation with semantic enrichment after indexing or with semantic text-to-text semantic similarity measures for prediction
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography