Einloggen

Thematische Bibliographien / Recherche automatique / Dissertationen

Um die anderen Arten von Veröffentlichungen zu diesem Thema anzuzeigen, folgen Sie diesem Link: Recherche automatique.

Dissertationen zum Thema „Recherche automatique“

Autor: Grafiati

Veröffentlicht am 18. Mai 2024

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit Top-50 Dissertationen für die Forschung zum Thema "Recherche automatique" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Sehen Sie die Dissertationen für verschiedene Spezialgebieten durch und erstellen Sie Ihre Bibliographie auf korrekte Weise.

1

Pradilla, Magdalena. „Recherche de descripteurs en indexation automatique des documents /“. Paris : Centre de recherche en informatique appliquée aux sciences sociales, 1987. http://catalogue.bnf.fr/ark:/12148/cb34973730h.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

2

Moreau, Fabienne. „Revisiter le couplage traitement automatique des langues et recherche d'information“. Phd thesis, Université Rennes 1, 2006. http://tel.archives-ouvertes.fr/tel-00524514.

Der volle Inhalt der Quelle

Annotation:

La principale difficulté des systèmes de recherche d'information (SRI) est d'établir une correspondance entre l'information recherchée par un utilisateur et celle contenue dans leur base documentaire. Pour y parvenir, ils tentent généralement un appariement des mots de la requête posée avec ceux représentant le contenu des documents. Un tel mécanisme, fondé sur une simple comparaison de chaînes de caractères, ne permet cependant pas de prendre en compte le fait qu'un même mot peut posséder plusieurs sens et qu'une même idée peut être formulée de différentes manières. Pour pallier ces difficultés, une solution assez naturelle est de se tourner vers le traitement automatique des langues (TAL) qui, en considérant les mots non comme des chaînes de caractères mais comme des entités linguistiques à part entière, doit offrir un appariement requête-document plus pertinent. Les résultats des nombreux travaux proposant d'enrichir la RI par des informations linguistiques sont toutefois souvent décevants, peu tranchés et contradictoires. Pour comprendre ces faibles résultats et savoir comment les améliorer, nous abordons le couplage TAL-RI sous des angles nouveaux. Contrairement aux autres études, nous choisissons d'exploiter pleinement la richesse de la langue en combinant plusieurs informations linguistiques appartenant aux niveaux morphologique, syntaxique et sémantique. Afin de tester l'intérêt de coupler ces informations, nous proposons une plate-forme intégrant en parallèle ces multiples indices ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces connaissances, et, via une analyse originale des corrélations qu'elles présentent, des cas de complémentarité intéressants. Grâce à une méthode d'apprentissage supervisé qui fusionne les listes de résultats fournis par chaque index linguistique et s'adapte automatiquement aux caractéristiques des requêtes, nous prouvons, par des résultats plus stables qu'habituellement, le gain effectif du couplage d'informations linguistiques multi-niveaux. Enfin, nous proposons une méthode novatrice d'acquisition par apprentissage non supervisé d'informations morphologiques qui permet d'accroître encore l'impact de ces connaissances efficaces sur les performances de notre SRI. Nous montrons ainsi qu'en construisant des outils plus souples et plus adaptés aux contraintes de la RI, l'apport du TAL dans ce domaine est réel.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

3

Riadh, Ksantini. „Analyse multirésolution et recherche d'images“. Sherbrooke : Université de Sherbrooke, 2003.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

4

Haddoud, Mounia. „Indexation et extraction de termes-clés pour la recherche d'information“. Rouen, 2016. http://www.theses.fr/2016ROUES010.

Der volle Inhalt der Quelle

Annotation:

Dans cette thèse, je me suis intéressée à deux problèmes de fouille de textes : l’extraction automatique de termes-clés dans des documents textuels et la classification de textes. Pour le problème d’extraction automatique de termes-clés, j’ai défini une nouvelle mesure, le DPM-index, qui discrimine les phrases (n-grammes) qui se chevauchent dans un document. J’ai aussi développé un nouveau système d’extraction de termes-clés basé sur l’apprentissage supervisé qui combine 18 descripteurs statistiques. J’ai expérimentalement comparé mes résultats à ceux de 21 méthodes d’extraction de termes-clés sur le corpus d’articles scientifiques SemEval-2010/Task-5. Ma méthode augmente d’un taux de 13 % la reconnaissance des termes-clés mesurée par le F-score. En particulier, le DPM-index augmente la reconnaissance de mon système d’extraction de termes-clés de 9%. Je montre également que quel que soit le paradigme d’apprentissage supervisé (boosting, bagging et régression) sur ces données pour combiner les 18 descripteurs mon système obtient les meilleurs performances. Pour le problème de classification de textes dans des catégories prédéfinies, j’ai proposé 80 métriques de pondération de termes jamais utilisées pour ce problème et je les ai comparé à 16 métriques de la littérature. Alors que de nombreux travaux antérieurs ont montré l’intérêt d’utiliser une métrique particulière, mes expérimentations suggèrent que les résultats obtenus par ces métriques peuvent être fortement dépendants de la distribution des documents dans les catégories et des mesures de performances utilisées. La solution que j’ai proposée consiste à combiner les métriques proposées afin d’améliorer la qualité de la classification. Plus précisément, j’ai montré sur trois types de corpus différents (ayant des distributions catégorielles différentes) que l’utilisation d’un classifieur SVM qui combine les sorties de classifieurs SVM (qui utilisent chacun une métrique de pondération différente) classe mieux les documents quel que soit le type corpus et quelles que soit les mesures de performance utilisées. La seconde contribution principale apportée au problème de classification est une représentation étendue des termes d’un document dans un espace vectoriel qui permet d’améliorer la prédiction de mon classifieur de textes
In this thesis, I focused on two text mining problems : automatic keyphrase extraction in text documents and texts classification. For the automatic keyphrase extraction problem, i define the document phrase maximality index (DPM-index), a new measure to discriminate overlapping keyphrase candidates in a text document. As an application i developed a supervised learning system which uses 18 statistical features, among them the DPMindex and 5 other new features. I experimentally compare my results to those of 21 keyphrase extraction methods on SemEval-2010/Task-5 scientific articles corpus. When all the systems extract 10 keyphrases per document, my method enhances by 13% the F-Score of the best system. In particular, the DPM-index feature increases the F-Score of my keyphrase extraction system by a rate of 9%. This makes the DPM-index contribution comparable to that of the well-known TFIDF measure on such a system. For the text classification problem, i propose 80 metrics never used for the term weighting problem and compare them to 16 functions of the literature. A large number of these metrics were initially proposed for other data mining problems : feature selection, classification rules and term collocations. While many previous works have shown the merits of using a particular metric, my experience suggests that the results obtained by such metrics can be highly dependent on the label distribution on the corpus and on the performance measures used (microaveraged or macroaveraged F1-Score). The solution I propose consists in combining the metrics in order to improve the classification. More precisely, i show that using a SVM classifier which combines the outputs of SVM classifiers that utilize different metrics performs well in all situations. The second main contribution is an extended term representation for the vector space model that improves significantly the prediction of the text classifier

APA, Harvard, Vancouver, ISO und andere Zitierweisen

5

Claveau, Vincent. „Acquisition automatique de lexiques sémantiques pour la recherche d'information“. Phd thesis, Université Rennes 1, 2003. http://tel.archives-ouvertes.fr/tel-00524646.

Der volle Inhalt der Quelle

Annotation:

De nombreuses applications du traitement automatique des langues (recherche d'information, traduction automatique, etc.) requièrent des ressources sémantiques spécifiques à leur tâche et à leur domaine. Pour répondre à ces besoins spécifiques, nous avons développé ASARES, un système d'acquisition d'informations sémantiques lexicales sur corpus. Celui-ci répond à un triple objectif : il permet de fournir des résultats de bonne qualité, ses résultats et le processus ayant conduit à leur extraction sont interprétables, et enfin, il est assez générique et automatique pour être aisément portable d'un corpus à un autre. Pour ce faire, ASARES s'appuie sur une technique d'apprentissage artificiel symbolique --- la programmation logique inductive --- qui lui permet d'inférer des patrons d'extraction morphosyntaxiques et sémantiques à partir d'exemples des éléments lexicaux sémantiques que l'on souhaite acquérir. Ces patrons sont ensuite utilisés pour extraire du corpus de nouveaux éléments. Nous montrons également qu'il est possible de combiner cette approche symbolique avec des techniques d'acquisition statistiques qui confèrent une plus grande automaticité à ASARES. Pour évaluer la validité de notre méthode, nous l'avons appliquée à l'extraction d'un type de relations sémantiques entre noms et verbes définies au sein du Lexique génératif appelées relations qualia. Cette tâche d'acquisition revêt deux intérêts principaux. D'une part, ces relations ne sont définies que de manière théorique ; l'interprétabilité linguistique des patrons inférés permet donc d'en préciser le fonctionnement et les réalisations en contexte. D'autre part, plusieurs auteurs ont noté l'intérêt de ce type de relations dans le domaine de la recherche d'information pour donner accès à des reformulations sémantiquement équivalentes d'une même idée. Grâce à une expérience d'extension de requêtes, nous vérifions expérimentalement cette affirmation : nous montrons que les résultats d'un système de recherche exploitant ces relations qualia, acquises par ASARES, sont améliorés de manière significative quoique localisée.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

6

Morneau, Maxime. „Recherche d'information sémantique et extraction automatique d'ontologie du domaine“. Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23828/23828.pdf.

Der volle Inhalt der Quelle

Annotation:

Il peut s'avérer ardu, même pour une organisation de petite taille, de se retrouver parmi des centaines, voir des milliers de documents électroniques. Souvent, les techniques employées par les moteurs de recherche dans Internet sont utilisées par les entreprises voulant faciliter la recherche d'information dans leur intranet. Ces techniques reposent sur des méthodes statistiques et ne permettent pas de traiter la sémantique contenue dans la requête de l'usager ainsi que dans les documents. Certaines approches ont été développées pour extraire cette sémantique et ainsi, mieux répondre à des requêtes faites par les usagers. Par contre, la plupart de ces techniques ont été conçues pour s'appliquer au Web en entier et non pas sur un domaine en particulier. Il pourrait être intéressant d'utiliser une ontologie pour représenter un domaine spécifique et ainsi, être capable de mieux répondre aux questions posées par un usager. Ce mémoire présente notre approche proposant l'utilisation du logiciel Text- To-Onto pour créer automatiquement une ontologie décrivant un domaine. Cette même ontologie est par la suite utilisée par le logiciel Sesei, qui est un filtre sémantique pour les moteurs de recherche conventionnels. Cette méthode permet ainsi d'améliorer la pertinence des documents envoyés à l'usager.
It can prove to be diffcult, even for a small size organization, to find information among hundreds, even thousands of electronic documents. Most often, the methods employed by search engines on the Internet are used by companies wanting to improve information retrieval on their intranet. These techniques rest on statistical methods and do not make it possible neither to evaluate the semantics contained in the user requests, nor in the documents. Certain methods were developed to extract this semantics and thus, to improve the answer given to requests. On the other hand, the majority of these techniques were conceived to be applied on the entire World Wide Web and not on a particular field of knowledge, like corporative data. It could be interesting to use domain specific ontologies in trying to link a specific query to related documents and thus, to be able to better answer these queries. This thesis presents our approach which proposes the use of the Text-To-Onto software to automatically create an ontology describing a particular field. Thereafter, this ontology is used by the Sesei software, which is a semantic filter for conventional search engines. This method makes it possible to improve the relevance of documents returned to the user.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

7

Méger, Nicolas. „Recherche automatique des fenêtres temporelles optimales des motifs séquentiels“. Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0095/these.pdf.

Der volle Inhalt der Quelle

Annotation:

Ce mémoire concerne l'extraction sous contraintes de motifs dans une séquence d'événements. Les motifs extraits sont des règles d'épisodes. L'apport principal réside dans la détermination automatique de la fenêtre temporelle optimale de chaque règle d'épisodes. Nous proposons de n'extraire que les règles pour lesquelles il existe une telle fenêtre. Ces règles sont appelées FLM-règles. Nous présentons un algorithme, WinMiner, pour extraire les FLM-règles, sous les contraintes de support minimum, de confiance minimum, et de gap maximum. Les preuves de la correction de cet algorithme sont fournies. Nous proposons également une mesure d'intérêt dédiée qui permet de sélectionner les FLM-règles pour lesquelles il existe une forte dépendance entre corps et tête de règle. Deux applications de cet algorithme sont décrites. L'une concerne des données médicales tandis que l'autre a été réalisée sur des données sismiques
This work addresses the problem of mining patterns under constraints in event sequences. Extracted patterns are episode rules. Our main contribution is an automatic search for optimal time window of each one of the episode rules. We propose to extract only rules having such an optimal time window. These rules are termed FLM-rules. We present an algorithm, WinMiner, that aims to extract FLM-rules, given a minimum support threshold, a minimum confidence threshold and a maximum gap constraint. Proofs of the correctness of this algorithm are supplied. We also propose a dedicated interest measure that aims to select FLM-rules such that their heads and bodies can be considered as dependant. Two applications are described. The first one is about mining medical datasets while the other one deals with seismic datasets

APA, Harvard, Vancouver, ISO und andere Zitierweisen

8

Méger, Nicolas Boulicaut Jean-François Rigotti Christophe. „Recherche automatique des fenêtres temporelles optimales des motifs séquentiels“. Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=meger.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

9

Grivolla, Jens. „Apprentissage et décision automatique en recherche documentaire : prédiction de difficulté de requêtes et sélection de modèle de recherche“. Avignon, 2006. http://www.theses.fr/2006AVIG0142.

Der volle Inhalt der Quelle

Annotation:

Cette thèse se situe dans la problématique de la recherche documentaire. Dans ce domaine, chaque besoin en information est exprimé par un utilisateur sous la forme d'une requête en langage naturel. Il existe différentes approches pour traiter ces requêtes, mais les systèmes actuels utilisent généralement une méthode unique, indépendante des caractéristiques de la requête. On peut pourtant montrer de façon expérimentale que la performance relative d'une technique de recherche sur une autre peut varier considérablement suivant la requête traitée. Nous avons abordé cette thématique en proposant des méthodes qui permettent de repérer automatiquement les requêtes qui posent des difficultés particulières au système utilisé, afin de permettre un traitement spécifique et adapté. Nous avons ainsi dégagé un certain nombre de fonctions de prédiction de qualité qui obtiennent des résultats comparables à ceux publiés récemment par d'autres équipes de recherche. La particularité et originalité de ce travail a consisté à étudier la combinaison de ces différentes mesures. En utilisant des méthodes de classification automatique, nous avons obtenu des prédictions relativement fiables sur la base de mesures qui individuellement ont un pouvoir de discrimination considérablement plus faible. Au-delà de la prédiction de difficulté des requêtes, nous avons utilisé nos méthodes pour adapter le processus de recherche à la requête posée
This thesis is centered around the subject of information retrieval, with a focus on those queries that are particularly difficult to handle for current retrieval systems. In the application and evaluation settings we were concerned with, a user expresses his information need as a natural language query. There are different approaches for treating those queries, but current systems typically use a single approach for all queries, without taking into account the specific properties of each query. However, it has been shown that the performance of one strategy relative to another can vary greatly depending on the query. We have approached this problem by proposing methods that will permit to automatically identify those queries that will pose particular difficulties to the retrieval system, in order to allow for a specific treatment. This research topic was very new and barely starting to be explored at the beginning of my work, but has received much attention these last years. We have developed a certain number of quality predictor functions that obtain results comparable to those published recently by other research teams. However, the ability of individual predictors to accurately classify queries by their level of difficulty remains rather limited. The major particularity and originality of our work lies in the combination of those different measures. Using methods of automatic classification with corpus-based training, we have been able to obtain quite reliable predictions, on the basis of measures that individually are far less discriminant. We have also adapted our approach to other application settings, with very encouraging results. We have thus developed a method for the selective application of query expansion techniques, as well as the selection of the most appropriate retrieval model for each query

APA, Harvard, Vancouver, ISO und andere Zitierweisen

10

Koutchoukali, Mohamed Mehdi. „Configuration automatique du moteur de recherche d'images via la sélection des paramètres de la recherche“. Thèse, Université du Québec à Trois-Rivières, 2014. http://depot-e.uqtr.ca/7343/1/030673542.pdf.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

11

Candillier, Laurent Gilleron Rémi. „Apprentissage automatique de profils de lecteurs“. [S.l.] : [s.n.], 2001. http://www.univ-lille1.fr/bustl-grisemine/pdf/memoires/A2001-6.pdf.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

12

Loupy, Claude de. „Evaluation de l'apport de connaissances linguistiques en desambigui͏̈sation sémantique et recherche documentaire“. Avignon, 2000. http://www.theses.fr/2000AVIGA001.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

13

Hajj, Hassan Ali. „Détection multidimensionnelle au test paramétrique avec recherche automatique des causes“. Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM085/document.

Der volle Inhalt der Quelle

Annotation:

Aujourd'hui, le contrôle des procédés de fabrication est une tâche essentielle pour assurer une production de haute qualité. A la fin du processus de fabrication du semi-conducteur, un test électrique, appelé test paramétrique (PT), est effectuée. PT vise à détecter les plaques dont le comportement électrique est anormal, en se basant sur un ensemble de paramètres électriques statiques mesurées sur plusieurs sites de chaque plaque. Le but de ce travail est de mettre en place un système de détection dynamique au niveau de PT, pour détecter les plaques anormales à partir d'un historique récent de mesures électriques. Pour cela, nous développons un système de détection en temps réel basé sur une technique de réapprentissage optimisée, où les données d'apprentissage et le modèle de détection sont mis à jour à travers une fenêtre temporelle glissante. Le modèle de détection est basé sur les machines à vecteurs supports à une classe (1-SVM), une variante de l'algorithme d'apprentissage statistique SVM largement utilisé pour la classification binaire. 1-SVM a été introduit dans le cadre des problèmes de classification à une classe pour la détection des anomalies. Pour améliorer la performance prédictive de l'algorithme de classification 1-SVM, deux méthodes de sélection de variables ont été développées. La première méthode de type filtrage est basé sur un score calculé avec le filtre MADe,une approche robuste pour la détection univariée des valeurs aberrantes. La deuxième méthode de type wrapper est une adaptation à l'algorithme 1-SVM de la méthode d'élimination récursive des variables avec SVM (SVM-RFE). Pour les plaques anormales détectées, nous proposons une méthode permettant de déterminer leurs signatures multidimensionnelles afin d'identifier les paramètres électriques responsables de l'anomalie. Finalement, nous évaluons notre système proposé sur des jeux de données réels de STMicroelecronics, et nous le comparons au système de détection basé sur le test de T2 de Hotelling, un des systèmes de détection les plus connus dans la littérature. Les résultats obtenus montrent que notre système est performant et peut fournir un moyen efficient pour la détection en temps réel
Nowadays, control of manufacturing process is an essential task to ensure production of high quality. At the end of the semiconductor manufacturing process, an electric test, called Parametric Test (PT), is performed. The PT aims at detecting wafers whose electrical behavior is abnormal, based on a set of static electrical parameters measured on multiple sites of each wafer. The purpose of this thesis is to develop a dynamic detection system at PT level to detect abnormal wafers from a recent history of electrical measurements. For this, we develop a real time detection system based on an optimized learning technique, where training data and detection model are updated through a moving temporal window. The detection scheme is based on one class Support Vector Machines (1-SVM), a variant of the statistical learning algorithm SVM widely used for binary classification. 1-SVM was introduced in the context of one class classification problems for anomaly detection. In order to improve the predictive performance of the 1-SVM classification algorithm, two variable selection methods are developed. The first one is a filter method based on a calculated score with MADe filter, a robust approach for univariate outlier detection. The second one is of wrapper type that adapts the SVM Recursive Feature Elimination method (SVM-RFE) to the 1-SVM algorithm. For detected abnormal wafers, we propose a method to determine their multidimensional signatures to identify the electrical parameters responsible for the anomaly. Finally, we evaluate our proposed system on real datasets of STMicroelecronics and compare it to the detection system based on Hotelling's T2 test, one of the most known detection systems in the literature. The results show that our system yields very good performance and can provide an efficient way for real-time detection

APA, Harvard, Vancouver, ISO und andere Zitierweisen

14

Moreau, Fabienne Sébillot Pascale. „Revisiter le couplage traitement automatique des langues et recherche d'information“. [S.l.] : [s.n.], 2006. ftp://ftp.irisa.fr/techreports/theses/2006/moreau.pdf.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

15

Gurtner, Karine. „Extraction automatique de connaissances à partir de corpus de textes“. Paris 7, 2000. http://www.theses.fr/2000PA077104.

Der volle Inhalt der Quelle

Annotation:

L'extraction automatique de connaissances réalisée dans cette thèse consiste à repérer certains événements présents dans un texte. Ces événements sont constitués par un verbe ou un substantif représentant l'action et des entités factuelles représentant les circonstances de cette action (acteur et date de l'action par exemple). Indépendamment de la conception proprement dite du système d'extraction, plusieurs réflexions préalables ont été menées sur les applications de la recherche documentaire et de l'extraction automatique de connaissances, notamment sur les applications à la recherche littéraire. L'étude menée a entraîné la recherche des procédures d'analyse existantes et fait ressortir les difficultés propres à chaque langue pour le Traitement Automatique du Langage Naturel. La méthode d'extraction des connaissances utilisée est fondée sur une analyse syntaxique du texte puis sur un repérage des mots ou des catégories grammaticales introduisant systématiquement le même type d'entités factuelles. Le système comporte quatre étages. Après avoir repéré et étiqueté les entités factuelles selon leur type (noms de personnes, noms de lieux, noms de sociétés, dates ou mesures), puis les avoir comparées entre elles, une réflexion a été menée sur la manière dont les liaisons entre ces entités factuelles et leur liaison à l'action pourraient être repérées. Nous avons alors abouti, au quatrième étage du système, à la transformation de toutes les informations obtenues précédemment en une base de données. Les problèmes relatifs à la réalisation des deux derniers étages du système qui permettraient de réaliser les liaisons et donc de structurer les connaissances sous forme de base de données ont été mis en évidence. Cette recherche et les difficultés rencontrées ont révélé que le travail effectué débouchait sur d'autres applications.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

16

Vinot, Romain. „Classification automatique de textes dans des catégories non thématiques“. Phd thesis, Télécom ParisTech, 2004. http://pastel.archives-ouvertes.fr/pastel-00000812.

Der volle Inhalt der Quelle

Annotation:

La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classification faiblement supervisée qui détecte des sous-classes et sélectionne les plus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à flux temporel à partir du calcul du taux d'activité des sous-classes.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

17

Bilhaut, Frédérik. „Analyse automatique de structures thématiques discursives - Application à la recherche d'information“. Phd thesis, Université de Caen, 2006. http://tel.archives-ouvertes.fr/tel-00258766.

Der volle Inhalt der Quelle

Annotation:

Cette thèse s'inscrit dans le domaine du traitement automatique des langues, et concerne l'analyse sémantique de la structure du discours. Nous nous attachons plus particulièrement au problème de l'analyse thématique, qui vise l'étude de la structure des textes selon des critères relatifs à la répartition de leur contenu informationnel. Cette tâche revêt une importance capitale dans la perspective de l'accès assisté à l'information, qui constitue notre principale visée applicative. Le concept même de "thème" étant à la fois complexe et assez rarement considéré en tant qu'objet d'étude dans le domaine de la recherche d'information, la première partie du mémoire est consacrée à une vaste étude bibliographique autour des notions de thème, de topique, de sujet ou encore d'à propos, tant en linguistique qu'en sciences de l'information ou en traitement des langues. Nous en dégageons les lignes de force qui fondent notre approche du thème comme objet discursif, sémantique et structuré. Nous proposons sur cette base différents modèles et procédés s'attachant d'abord au traitement sémantique des documents géographiques, puis à l'analyse automatique des cadres de discours spatio-temporels au sens de Michel Charolles. Nous généralisons ces travaux en introduisant les notions de thème discursif composite et d'axe sémantique. Nous terminons en présentant LinguaStream, environnement d'expérimentation intégré que nous avons conçu pour faciliter l'élaboration de modèles linguistiques opérationnels, et qui nous conduit à proposer des principes méthodologiques originaux.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

18

El, Jed Olfa. „WebSum : système de résumé automatique de réponses des moteurs de recherche“. Toulouse 3, 2006. http://www.theses.fr/2006TOU30145.

Der volle Inhalt der Quelle

Annotation:

Cette thèse s’inscrit dans le cadre général de la recherche d’information et plus précisément, dans le cadre de la classification et l’organisation des documents Web. Notre objectif est de développer un système de résumé automatique des réponses d’un moteur de recherche dans un style encyclopédique (WebSum). Ce type de résumé vise à classer les réponses issues d’une recherche d’information à l’aide d’un moteur de recherche, selon les différents thèmes ou ce que nous appelons dans nos travaux, les facettes de la requête utilisateur. Pour réaliser cet objectif, nous proposons : Une méthode d’identification des facettes structurantes d’une requête donnée qui s’inspire du Lexique Génératif de Pustejovsky (Pustejovsky, 1995) ; Une approche de classification des réponses d’un moteur de recherche autour des différentes facettes de la requête ; Une méthode d’évaluation de la pertinence des pages Web permettant de trier, à l’intérieur d’une même facette, les réponses selon un ordre de pertinence
This thesis lies within the general framework of the information retrieval and more precisely, within the framework of the web document classification and organization. Our objective is to develop a system of automatic summarizing of the search engine answers in the encyclopaedic style (WebSum). This type of summary aims at classifying the search engine answers according to the various topics or what we call in our work, facets of the user query. To carry out this objective, we propose : - A method of identification of the facets of a given query based on the generative lexicon; - An approach of classification of the search engine answers under this various facets; - And a method of evaluation of the relevance of the web pages

APA, Harvard, Vancouver, ISO und andere Zitierweisen

19

Bouzayani, Abdessalem. „Extension automatique de l'annotation d'images pour la recherche et la classification“. Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0045/document.

Der volle Inhalt der Quelle

Annotation:

Cette thèse traite le problème d’extension d’annotation d’images. En effet, la croissance rapide des archives de contenus visuels disponibles a engendré un besoin en techniques d’indexation et de recherche d’information multimédia. L’annotation d’images permet l’indexation et la recherche dans des grandes collections d’images d’une façon facile et rapide. À partir de bases d’images partiellement annotées manuellement, nous souhaitons compléter les annotations de ces bases, grâce à l’annotation automatique, pour pouvoir rendre plus efficaces les méthodes de recherche et/ou classification d’images. Pour l’extension automatique d’annotation d’images, nous avons utilisé les modèles graphiques probabilistes. Le modèle proposé est un mélange de distributions multinomiales et de mélanges de Gaussiennes où nous avons combiné des caractéristiques visuelles et textuelles. Pour réduire le coût de l’annotation manuelle et améliorer la qualité de l’annotation obtenue, nous avons intégré des retours utilisateur dans notre modèle. Les retours utilisateur ont été effectués en utilisant l’apprentissage dans l’apprentissage, l’apprentissage incrémental et l’apprentissage actif. Pour combler le problème du fossé sémantique et enrichir l’annotation d’images, nous avons utilisé une hiérarchie sémantique en modélisant de nombreuses relations sémantiques entre les mots-clés d’annotation. Nous avons donc présenté une méthode semi-automatique pour construire une hiérarchie sémantique à partie d’un ensemble de mots-clés. Après la construction de la hiérarchie, nous l’avons intégré dans notre modèle d’annotation d’images. Le modèle obtenu avec la hiérarchie est un mélange de distributions de Bernoulli et de mélanges de Gaussiennes
This thesis deals the problem of image annotation extension. Indeed, the fast growth of available visual contents has led a need for indexing and searching of multimedia information methods. Image annotation allows indexing and searching in a large collection of images in an easy and fast way. We wish, from partially manually annotated images databases, complete automatically the annotation of these sets, in order to make methods of research and / or classification of images more efficient. For automatic image annotation extension, we use probabilistic graphical models. The proposed model is based on a mixture of multinomial distributions and mixtures of Gaussian where we have combined visual and textual characteristics. To reduce the cost of manual annotation and improve the quality of the annotation obtained, we have incorporated user feedback into our model. User feedback was done using learning in learning, incremental learning and active learning. To reduce the semantic gap problem and to enrich the image annotation, we use a semantic hierarchy by modeling many semantic relationships between keywords. We present a semi-automatic method to build a semantic hierarchy from a set of keywords. After building the hierarchy, we integrate it into our image annotation model. The model obtained with this hierarchy is a mixture of Bernoulli distributions and Gaussian mixtures

APA, Harvard, Vancouver, ISO und andere Zitierweisen

20

Bueno, Steve. „L'activation automatique de la mémoire sémantique“. Aix-Marseille 1, 2002. http://www.theses.fr/2002AIX10068.

Der volle Inhalt der Quelle

Annotation:

L'objectif de cette thèse était d'étudier sous différents angles d'approche le phénomène d'amorçage. Dans ce but, plusieurs facteurs, connus pour leur impact sur l'activation du lexique mental, ont été manipulés. Il s'agissait du délai de présentation de mots amorces, de la nature de la tâche expérimentale ainsi que des liens lexicaux entre les mots. Les experiences réalisées ont permis d'observer que l'activation du lexique pouvait rapidement être mise en place ( dès 43 ms) lorsque les mots partageaient un chevauchement sémantique important et non pas lorsqu'ils étaient associés. La nature de la tâche expérimentale était primordiale dans l'observation de cet effet puisqu'il a été démontré que la tâche de catégorisation sémantique permettait une activation des mots sémantiquement reliés à ce délai bref alors que la tâche de décision lexicale n'y parvenait pas. La tâche de décision lexicale est pourtant très répandue dans le cadre d'étude. Ceci nous a conduits à reconsidérer l'emploi massif de cette tâche dans l'étude des effets d'amorçage précoces. Néanmoins, la tâche de décision lexicale demeure un outil fiable que la tâche de catégorisation sémantique lorsqu'il s'agit d'étudier des délais d'activation plus longs (à partir de 71 ms). De plus nous avons opérer une nette distinction entre le matériel associatif et le matériel sémantique présents dans cette thèse afin de clairement délimiter la contribution de chacunn d'eux dans le phénomène d'amorçage. Ainsi il paraît que la relation sémantique est plus efficace que la relation associative dans l'observation des effets d'amorçage automatiques. Ces résultats sont en accord avec plusieurs modèles de l'organisation du lexique et/ou de l'amorçage, notamment le modèle de diffusion de l'activation, le modèle HAL (Burgess et collaborateurs) mais aussi les modèles connexionnistes tels que ceux de Plaut (1995) ou Cree,McRae, et McNorgan (1999).

APA, Harvard, Vancouver, ISO und andere Zitierweisen

21

Lambolez, Pierre-Yves. „Recherche d'informations pour la maintenance logicielle“. Toulouse 3, 1994. http://www.theses.fr/1994TOU30201.

Der volle Inhalt der Quelle

Annotation:

Le travail presente ici s'inscrit dans le contexte de la maintenance logicielle de gros projets industriels du monde spatial. Dans ce cadre, un enorme volume de documents est produit et le mainteneur se trouve confronte a un probleme de recherche d'information, tant dans des documents en langage naturel que dans des codes sources. Afin d'offrir un support a cette activite, nous proposons un systeme generique de recherche d'information. La genericite est necessaire car les formats et les formalismes issus du developpement sont multiples et le mainteneur qui n'a pas pris part a ces choix est tenu de s'y adapter. Le systeme propose est constitue d'une chaine generique d'analyse de documents basee sur un moteur de reecriture syntaxique, d'une chaine generique d'indexation basee sur un moteur de reecriture lexicale et d'un frontal fenetre de requete

APA, Harvard, Vancouver, ISO und andere Zitierweisen

22

Abdul, Rauf Sadaf. „Sélection de corpus en traduction automatique statistique“. Phd thesis, Université du Maine, 2012. http://tel.archives-ouvertes.fr/tel-00732984.

Der volle Inhalt der Quelle

Annotation:

Dans notre monde de communications au niveau international, la traduction automatique est devenue une technologie clef incontournable. Plusieurs approches existent, mais depuis quelques années la dite traduction automatique statistique est considérée comme la plus prometteuse. Dans cette approche, toutes les connaissances sont extraites automatiquement à partir d'exemples de traductions, appelés textes parallèles, et des données monolingues en langue cible. La traduction automatique statistique est un processus guidé par les données. Ceci est communément avancé comme un grand avantage des approches statistiques puisque l'intervention d'être humains bilingues n'est pas nécessaire, mais peut se retourner en un problème lorsque ces données nécessaires au développement du système ne sont pas disponibles, de taille insuffisante ou dont le genre ne convient pas. Les recherches présentées dans cette thèse sont une tentative pour surmonter un des obstacles au déploiement massif de systèmes de traduction automatique statistique : le manque de corpus parallèles. Un corpus parallèle est une collection de phrases en langues source et cible qui sont alignées au niveau de la phrase. La plupart des corpus parallèles existants ont été produits par des traducteurs professionnels. Ceci est une tâche coûteuse, en termes d'argent, de ressources humaines et de temps. Dans la première partie de cette thèse, nous avons travaillé sur l'utilisation de corpus comparables pour améliorer les systèmes de traduction statistique. Un corpus comparable est une collection de données en plusieurs langues, collectées indépendamment, mais qui contiennent souvent des parties qui sont des traductions mutuelles. La taille et la qualité des contenus parallèles peuvent variées considérablement d'un corpus comparable à un autre, en fonction de divers facteurs, notamment la méthode de construction du corpus. Dans tous les cas, il n'est pas aisé d'identifier automatiquement des parties parallèles. Dans le cadre de cette thèse, nous avons développé une telle approche qui est entièrement basée sur des outils librement disponibles. L'idée principale de notre approche est l'utilisation d'un système de traduction automatique statistique pour traduire toutes les phrases en langue source du corpus comparable. Chacune de ces traductions est ensuite utilisée en tant que requête afin de trouver des phrases potentiellement parallèles. Cette recherche est effectuée à l'aide d'un outil de recherche d'information. En deuxième étape, les phrases obtenues sont comparées aux traductions automatiques afin de déterminer si elles sont effectivement parallèles à la phrase correspondante en langue source. Plusieurs critères ont été évalués tels que le taux d'erreur de mots ou le "translation edit rate (TER)". Nous avons effectué une analyse expérimentale très détaillée afin de démontrer l'intérêt de notre approche. Les corpus comparables utilisés se situent dans le domaine des actualités, plus précisément, des dépêches d'actualités des agences de presse telles que "Agence France Press (AFP)", "Associate press" ou "Xinua News". Ces agences publient quotidiennement des actualités en plusieurs langues. Nous avons pu extraire des textes parallèles à partir de grandes collections de plus de trois cent millions de mots pour les paires de langues français/anglais et arabe/anglais. Ces textes parallèles ont permis d'améliorer significativement nos systèmes de traduction statistique. Nous présentons également une comparaison théorique du modèle développé dans cette thèse avec une autre approche présentée dans la littérature. Diverses extensions sont également étudiées : l'extraction automatique de mots inconnus et la création d'un dictionnaire, la détection et suppression 1 d'informations supplémentaires, etc. Dans la deuxième partie de cette thèse, nous avons examiné la possibilité d'utiliser des données monolingues afin d'améliorer le modèle de traduction d'un système statistique...

APA, Harvard, Vancouver, ISO und andere Zitierweisen

23

Kermad, Chafik. „Segmentation d'image: recherche d'une mise en oeuvre automatique par coopération de méthodes“. Phd thesis, Université Rennes 1, 1997. http://tel.archives-ouvertes.fr/tel-00008781.

Der volle Inhalt der Quelle

Annotation:

La thématique de recherche dans laquelle s'inscrit cette thèse est celle de la segmentation d'images. Les travaux menés ont permis la conception et le développement d'un système d'analyse adaptable à plusieurs catégories d'images dont les régions peuvent être de nature uniforme et/ou texturée. Un intérêt tout particulier a été accordé à l'aspect automatique et non-supervisé du dispositif. L'architecture du système proposé combine deux concepts. Le premier, fondé sur un procédé d'intégration d'informations issues de différentes méthodes, permet de tirer parti des avantages de chacune d'elles. Le second concept s'inspire de la perception active par l'introduction d'une boucle de retour dans le système afin de corriger et d'ajuster les paramètres de contrôle des différentes techniques de segmentation. Le principe de la coopération proposée introduit un mécanisme de vérification de la cohérence par comparaison des résultats des méthodes qui coopèrent. Cet aspect fait défaut à un bon nombre d'approches coopératives. Le système mis au point est composé de deux modules. Le premier est dédié à l'extraction de régions uniformes ou faiblement texturées. Le principe est fondé sur une coopération itérative entre une méthode de détection de contours et une méthode d'extraction de régions. Ces deux méthodes sont itérées avec des critères de plus en plus tolérants jusqu'à la convergence vers des résultats cohérents et stables. La cohérence est contrôlée et vérifiée en minimisant une mesure de dissimilarité entre les contours et les régions. Le but est ainsi de fournir une solution optimale au sens de la compatibilité entre les deux segmentations. Le second module localise les primitives « textures » afin de réactualiser et corriger les primitives « contours » et « régions » extraites par le premier module. Cette localisation s'appuie sur une classification automatique par multi-seuillage exploitant certains mécanismes de la perception visuelle, et sur une fusion des régions multi-seuillées basée sur la minimisation d'un critère de similarité. L'efficacité de l'approche mise au point s'est traduite, dans la plupart des cas examinés, par une détection cohérente des éléments représentatifs de l'image.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

24

KERMAD, CHAFIK DJALAL. „Segmentation d'images : recherche d'une mise en uvre automatique par cooperation de methodes“. Rennes 1, 1997. http://www.theses.fr/1997REN10109.

Der volle Inhalt der Quelle

Annotation:

Dans le cadre de ce memoire, nous avons developpe un systeme de segmentation adapte a l'analyse de plusieurs types d'images, riches en details et dont les regions peuvent etre de nature uniforme et/ou texturee. Un interet tout particulier a ete accorde a l'aspect automatique et non-supervise du dispositif. Ceci implique, d'une part, la multiplication des traitements, et d'autre part, l'adoption d'une demarche progressive ou la formation des primitives s'opere de maniere cooperative et guidee. Le systeme mis au point entre dans le cadre des methodes cooperatives. L'architecture du systeme propose combine deux concepts. Le premier, fonde sur un procede d'integration d'informations issues de differentes methodes, permet de tirer parti des avantages de chacune d'elles. Le second concept s'inspire de la perception active par l'introduction d'une boucle de retour dans le systeme afin de corriger et d'ajuster les parametres de controle des differentes techniques de segmentation. Le principe de la cooperation proposee introduit un mecanisme de verification de la coherence par comparaison des resultats des methodes qui cooperent. Cet aspect fait defaut a un bon nombre d'approches cooperatives. Le systeme developpe est compose de deux modules. Le premier est dedie a l'extraction de regions uniformes ou faiblement texturees. Le principe est fonde sur une cooperation iterative entre une methode de detection de contours et une methode d'agregation de points. Ces deux methodes sont iterees avec des criteres de plus en plus tolerants jusqu'a la convergence vers des resultats coherents et stables. La coherence est realisee en minimisant une distance de similarite entre les contours et les regions. Le but est ainsi de fournir une solution optimale au sens de la compatibilite entre les deux segmentations. Le second module localise les primitives textures afin de reactualiser et corriger les primitives contours et regions extraites par le premier module. Cette localisation s'appuie sur une classification automatique par multi-seuillage exploitant certains mecanismes de la perception visuelle, et sur une fusion des regions multi-seuillees minimisant un critere de similarite. L'efficacite de notre approche s'est traduite, dans la plupart des cas examines, par une detection coherente des elements representatifs de l'image. Elle a ete particulierement constatee lors de la comparaison avec d'autres methodes. Mots-cles : segmentation d'images, cooperation de methodes, detection de contours, analyse de textures, perception du contraste, adaptativite, mesure de la coherence, distance entre images de contours, evaluation des resultats de segmentation.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

25

LAMMALI, NASSIMA. „Recherche automatique du reseau hydrographique a l'aide du modele numerique de terrain“. Toulouse 3, 1989. http://www.theses.fr/1989TOU30006.

Der volle Inhalt der Quelle

Annotation:

L'objectif de notre travail est la cartographie automatique du reseau hydrographique a partir d'un modele numerique de terrain (m. N. T. ). Cette etude se place dans le cadre d'un systeme expert en cartographie. Nous presentons deux methodes de recherche du reseau hydrographique. La premiere construit des composantes annexes a partir d'un ensemble de "points de drainage" obtenu a partir de methodes existantes originales et experimentees. Les m. N. T. Presentant beaucoup d'imperfections au niveau des talwegs nous proposons une seconde methode qui permet de pallier a ce probleme; les grandes structures du relief et plus particulierement les "fonds grandes vallees" sont localisees, le reseau hydrographique en sera deduit

APA, Harvard, Vancouver, ISO und andere Zitierweisen

26

Soulé-Dupuy, Chantal. „Systèmes de recherche d'informations : le système videotex Infodiab : mécanismes d'indexation et d'interrogation“. Toulouse 3, 1990. http://www.theses.fr/1990TOU30019.

Der volle Inhalt der Quelle

Annotation:

Les travaux de recherche presentes dans ce memoire consistent en la realisation d'un systeme de recherche d'informations textuelles, infodiab, utilisant le langage naturel comme source d'information et comme moyen d'interrogation. Ce systeme repond a certaines contraintes liees au public vise (grand public), a l'outil videotex et au contexte medical de l'application. Notre contribution a alors permis: la construction d'un modele de representation des connaissances lexicales et semantiques au moyen d'un thesaurus; la mise en uvre d'une procedure d'indexation automatique des informations textuelles de la base permettant l'organisation de mots simples et composes, de syntagmes et de relations semantiques entre ces mots et groupes de mots (synonymie, hierarchie); l'elaboration d'une procedure d'interrogation souple et conviviale destinee a tout utilisateur. Ces procedures reposent essentiellement sur des analyses morpholexicales et statistiques. Aussi, apres avoir resitue les systemes de recherche d'informations dans les differents contextes amenant a leur developpement, nous introduisons les principaux concepts propres au domaine de la recherche d'information. Nous presentons enfin les mecanismes d'indexation et d'interrogation mis en uvre dans infodiab ainsi que les extensions en cours d'etude en vue d'eventuelles optimisations du processus de recherche

APA, Harvard, Vancouver, ISO und andere Zitierweisen

27

Tawbe, Bilal. „Recherche d'images couleur à partir de leurs histogrammes“. Sherbrooke : Université de Sherbrooke, 1999.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

28

Tirilly, Pierre. „Traitement automatique des langues pour l'indexation d'images“. Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00516422.

Der volle Inhalt der Quelle

Annotation:

Bien que s'inscrivant dans un cadre global de recherche d'information (RI) classique, l'indexation d'image ne tire que peu parti des nombreux travaux existants en RI textuelle et en traitement automatique des langues (TAL). Nous identifions deux niveaux auxquels de tels travaux peuvent s'intégrer aux systèmes d'indexation d'images. Le premier niveau est celui de la description du contenu visuel des images. Pour y intégrer des techniques de TAL, nous adoptons la description des images par mots visuels proposée par Sivic et Zisserman. Cette représentation soulève deux problématiques similaires aux problématiques classiques de la RI textuelle~: le choix des termes d'indexation les plus pertinents pour décrire les documents et la prise en compte des relations entre ces termes. Pour répondre à la première de ces problématiques nous proposons une étude des stop-lists et des pondérations dans le cadre de l'indexation d'images. Cette étude montre que, contrairement au cas des textes, il n'existe pas de pondération optimale pour tous types de requêtes, et que la pondération doit être choisie en fonction de la requête. Pour la seconde, nous utilisons des modèles de langues, outil classique du TAL que nous adaptons au cas des images, pour dépasser l'hypothèse d'indépendance des termes dans un cadre de classification d'images. Nos expérimentations montrent que prendre en compte des relations géométriques entre mots visuels permet d'améliorer les performances des systèmes. Le second niveau étudié est l'indexation sémantique des images : il est possible d'utiliser des méthodes de TAL sur des textes accompagnant les images pour obtenir des descriptions textuelles de celles-ci. Dans un premier temps, nous montrons que les descripteurs classiques d'images ne permettent pas d'obtenir des systèmes d'annotation d'images efficaces. Puis nous proposons une méthode d'annotation qui contourne cet écueil en se basant sur des descripteurs textuels et visuels de haut-niveau~: nous extrayons des textes des entités nommées, que nous mettons en relation avec des concepts visuels détectés dans les images afin d'annoter celles-ci. Nous validons notre approche sur un corpus réel et de grande taille composé d'articles de presse.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

29

Tollari, Sabrina. „Indexation et recherche d'images par fusion d'informations textuelles et visuelles“. Toulon, 2006. http://www.theses.fr/2006TOUL0013.

Der volle Inhalt der Quelle

Annotation:

Du fait du nombre exponentiel d'images disponibles, les Systèmes de Recherche d'Images sur la recherche d'images (SRIin) doivent être echelonnables tout en réduisant le fossé sémantique. Les SRIm pour le web utilisent le texte associé, ce qui assure seulement l'échelonnabilité, et ceux basés sur le contenu mettent en défaut la similitude sémantique. Les SRIm robustes devraient extraire et fusionner les informations textuelles et visuelles des images généralement mal étiquetées et mal segmentées. Dans cette optique, nous, proposons deux méthodes echelonnables que nous testons sur COREL (images 10K, 150 mots). Premièrement, nous montrons qu'un système bayésien léger et rapide d'auto-annotation avec un index visuel de type "Vector Approximation-Files" améliore de +29% le score a priori. Puis, nous proposons pour ces images mal étiquetées une méthode de réduction adaptative du nombre de dimensions visuelles en fonction du concept, fondée sur l'hypothèse que ceux-ci sont présentés avec des contextes visuels suffisamment variables. Nous prouvons théoriquement et expérimentalement que l'approximation de l'analyse linéaire discriminante (ALDA) reste dans ces conditions efficace et qu'elle améliore les classifi¬cations hiérarchiques ascendantes de 59% en ne sélectionnant que 10% des dimensions visuelles. Puis nous la comparons à l'approximation de la diversité marginale maximale (AMMD), Cette thèse démontre l'intérêt de considérer des traits visuels en fonction du concepts, et donne des méthodes pour les extraire dans le cas réel de grandes bases d'images mal étiquetées, ouvrant de nouvelles perspectives pour des analyses textuo-visuelles du web
Because of the exponential growing number of images, Image Retrieval Systems flmRS) must be scalable while reducing as much as possible the semantic gap. Usual web ImRS scan the associated text which only ensures scalability, on the other hand content based systems do not optimize semantic similarity. Robust ImRS may extract and merge textual arid visual informations from generally iniss-labeled and miss-segmented images. Therefore we propose two scalable approximation methods tested on COREL database (10K images, 150 words). We first train with miss-labeled images a simple bayesian image auto-annotation model using visual index based on Vector Approximation Files. This model is very fast and is better than priors (+29%). Second, we propose an adaptive reduction of the visual dimension for miss-labeled images. It relies on the hypothesis that each concept in a general image database is included in various visual contexts. We show theoritically under this weak assumption that we can approximate the Linear Discriminant Analysis (ALDA) and classification results using a simple ascendant hierarchical classification. Results demonstrate ALDA efficiency enhancing classification by 59% while selec¬ting only 10% of the visual dimensions. Approximation of Maximal Marginal Diversity (AMMD) is also proposed. This thesis demonstrates the interest of considering concept dependant visual features, and gives methods to extract them from real miss-labeled and miss-segmented large image databases, opening new perpectives for textuo-visual web analyses

APA, Harvard, Vancouver, ISO und andere Zitierweisen

30

Kherfi, Mohammed Lamine. „Rôle du contre-exemple dans le retour de pertinence en recherche d'images“. Sherbrooke : Université de Sherbrooke, 2002.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

31

Farooque, Mahfuza. „Techniques de déduction automatique vues comme recherche de preuve en calcul des séquents“. Phd thesis, Ecole Polytechnique X, 2013. http://pastel.archives-ouvertes.fr/pastel-00961344.

Der volle Inhalt der Quelle

Annotation:

Le raisonnement assisté par ordinateur joue un rôle crucial en informatique et en logique mathématique, de la programmation logique à la déduction automatique, en passant par les assistants à la démonstration. Le but de cette thèse est la conception d'un cadre général où différentes techniques de raisonnement assisté par ordinateur peuvent être implémentées, pour que ces dernières puissent collaborer, être généralisées, et être implémentées de manière plus sûre. Le cadre que je propose est un calcul des séquents appelé LKp(T), qui généralise un système de la littérature à la présence d'une théorie pour laquelle nous avons une procédure de décision, comme l'arithmétique linéaire. Cette thèse développe la méta-théorie de LKp(T), avec par exemple la propriété de complétude logique. Nous montrons ensuite comment le système spécifie une procédure de recherche de preuve qui émule une technique connue du domaine de la Satisfiabilité-modulo-théories appelée DPLL(T). Enfin, les tableaux de clauses et les tableaux de connexions sont d'autres techniques populaires en déduction automatique, d'une nature relativement différente de DPLL. Cette thèse décrit donc également comment ces techniques de tableaux peuvent être décrites en termes de recherche de preuve dans LKp(T). La simulation est donnée à la fois pour la logique propositionnelle et la logique du premier ordre, ce qui ouvre de nouvelles perspectives de généralisation et de collaboration entre les techniques de tableaux et DPLL, même en présence d'une théorie.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

32

Ouddan, Mohammed Amine. „Indexation et recherche des documents code source basées sur une caractérisation structuro-sémantique : application à la détection de plagiats“. Université de Marne-la-Vallée, 2007. http://www.theses.fr/2007MARN0340.

Der volle Inhalt der Quelle

Annotation:

La caractérisation du contenu d’un code source est une tâche très complexe en raison de la similitude qui existe entre les projets informatiques. Les différentes techniques de plagiat qui sont appliqués sur ce type de documents rendent la tâche de détection des plagiats de plus en plus difficile. Nous proposons un système multilangages de détection de plagiats basé sur une approche de caractérisation à deux niveaux, le premier niveau se porte sur l’aspect syntaxique du code permettant une caractérisation structurelle du code, et le second niveau concerne son aspect fonctionnel permettant une caractérisation sémantique. Notre approche se base sur la notion de Grammaire à Actions concrétisée par un module permettant d’accéder au contenu structurel et sémantique du code par le biais de la grammaire du langage dont ce code est écrit. Les actions de ce module consistent à traduire un code du langage source vers un langage de caractérisation où le code est représenté par un ensemble de séquences dites caractéristiques. Dans le premier niveau de caractérisation nous parlons de séquences structurelles et dans le second niveau nous parlons de séquences génétiques. Nous appliquons par la suite les techniques d’alignement de séquences pour mesurer le taux de similarité entre deux séquences caractéristiques, qui est considéré comme une abstraction au taux de plagiat entre les codes caractérisés
Source code characterization is a very complex task due the amount of similarity between computer science assignments. The various transformations that occur within a plagiarized code make the plagiarism detection more difficult. We propose a multilanguage source code retrieval system for plagiarism detection which is based on twolevel characterization approach. The first level reflects the syntactic feature of the code allowing a structural characterization of its content, and the second level relates to its functional feature allowing a semantic characterization. Our approach is based on the concept of Grammar with Actions which consists to assign significance to the parsing process in a context of characterization, and at the same time, allowing access to the structural and semantic content of the code using the grammar of its programming language. The aim idea is to translate the source code into a set of symbols sequences called characteristic sequences. In the first level of characterization we talk about structural sequences and in the second level we talk about genetic sequences. In order to quantify the similarity between characteristic sequences, we use sequence alignment techniques where the similarity rate is considered as an abstraction of the plagiarism rate between the characterized codes

APA, Harvard, Vancouver, ISO und andere Zitierweisen

33

Notin, Jean-Marc. „Recherche et construction de preuves en logique non-commutative“. Nancy 1, 2004. http://www.theses.fr/2004NAN10183.

Der volle Inhalt der Quelle

Annotation:

La logique NL étend la logique linéaire en y ajoutant des connecteurs non-commutatifs. Sa particularité vient des interactions entre les connecteurs commutatifs et non-commutatifs. Une première étude nous a conduit à analyser ces interactions dans le cadre des réseaux de preuve. Leur prise en compte lors de la recherche de preuves par composition (construction) nécessite l'introduction de structures spécifiques (labels, graphes de dépendances). Nous proposons ainsi plusieurs algorithmes de construction de réseaux de preuve pour le fragment multiplicatif de NL. Une autre approche étudiée est celle de la recherche de preuves par décomposition, mise en oeuvre en particulier dans le cadre des méthodes des connexions. En utilisant des labels associés aux sous-formules, et des contraintes exprimées sur ces labels, nous proposons une caractérisation par les connexions pour MNL. La méthode des connexions associée peut être vue comme un nouvel algorithme de construction de réseaux de preuve
Partially commutative logics allow to express properties mixing concurency and sequentiality. Thus, the logic NL extends linear logic with non-commutative connectives. The characteristic of NL comes from the interactions between commutative and non-commutative connectives. A first study led us to analyze these interactions within the framework of proof nets. Taking such interactions into account during top-down proof search (proof nets construction) requires the introduction of specific structures (labels, dependency sets). Thus, we propose several algorithms for building proof nets in the multiplicative fragment of NL (MNL). Another studied approach is bottom-up proof search, in particular within the framework of connection methods. By using labels associated with the subformulas, and constraints expressed on these labels, we propose a connection characterization for MNL. The associated connection method can be seen like a new algorithm for proof nets construction in MNL

APA, Harvard, Vancouver, ISO und andere Zitierweisen

34

Hallab, Mohamed. „Hypertextualisation automatique multilingue à partir des fréquences de N-grammes“. Paris 8, 2001. http://www.theses.fr/2001PA082019.

Der volle Inhalt der Quelle

Annotation:

Nous présentons une méthode multi-langues et multi-écritures pour l'analyse de textes et la génération automatique de liens hypertextuels. Cette méthode caractérise les textes par des vecteurs de fréquences de h-codes de N-grammes. Les données initiales sont filtrées et pondérées avant leur analyse par la méthode de classification non supervisée K-means axiales. Les liens hypertextuels sont la conséquence de cette classification : ils s'établissent d'une part entre les différents éléments d'une même classe, et d'autre part entre les noeuds-thèmes et les noeuds de base (noeuds-documents et noeuds-mots). A l'issue de la classification, une carte globale des thèmes peut être proposée à l'utilisateur comme interface de navigation dans le corpus. Ce travail principel est prolongé par un système d'interrogation bilingue français-anglais. Nous présentons également d'autres prolongements de notre méthode de N-grammes : i) l'approximation lexicale de chaînes de caractères basée sur un indice d'inclusion calculé à partir de fréquences de N-grammes, puis sur un indice de séquence, ii) l'aide à l'indexation par surlignage automatique des termes candidats

APA, Harvard, Vancouver, ISO und andere Zitierweisen

35

Bougouin, Adrien. „Indexation automatique par termes-clés en domaines de spécialité“. Nantes, 2015. https://archive.bu.univ-nantes.fr/pollux/show/show?id=50037b84-7248-4a67-a1c0-ecc3f737a44f.

Der volle Inhalt der Quelle

Annotation:

Les termes-clés, ou mots-clés, sont des mots ou des expressions qui représentent le contenu d’un document. Ils en donnent une représentation synthétique et permettent de l’indexer pour la recherche d’information. Cette thèse s’intéresse à l’indexation automatique par termes-clés de documents en domaines de spécialité. La tâche est difficile à réaliser et les méthodes actuelles peinent encore à atteindre des résultats satisfaisants. Notre démarche s’organise en deux temps. Dans un premier temps, nous nous intéressons à l’indexation par termes-clés en général. Nous proposons une méthode pour sélectionner des termes-clés candidats dans un document en nous focalisant sur la catégorie des adjectifs qu’ils peuvent contenir, puis proposons uneméthode pour les ordonner par importance. Cette dernière, TopicRank, se situe en aval de la sélection des candidats. C’est une méthode à base de graphe qui groupe les termes-clés candidats véhiculant le même sujet, projette les sujets dans un graphe et extrait un terme-clé par sujet. Nos expériences montrent que TopicRank est significativement meilleur que les précédentes méthodes à base de graphe. Dans un second temps, nous adaptons notre travail à l’indexation par termes-clés en domaines de spécialité. Nous étudions la méthodologie d’indexation manuelle de documentalistes et la simulons à l’aide de TopicCoRank. TopicCoRank ajoute à TopicRank un graphe qui représente le domaine de spécialité du document. Grâce à ce second graphe, TopicCoRank possède la rare capacité à fournir des termes-clés qui n’apparaissent pas dans les documents. Appliqué à quatre domaines de spécialité, TopicCoRank améliore significativement TopicRank
Keyphrases are words or multi-word expressions that represent the content of a document. Keyphrases give a synoptic view of a document and help to index it for information retrieval. This Ph. D thesis focuses on domain-specific automatic keyphrase annotation. Automatic keyphrase annotation is still a difficult task, and current systems do not achieve satisfactory results. Our work is divided in two steps. First, we propose a keyphrase candidate selection method that focuses on the categories of adjectives relevant within keyphrases and propose a method to rank them according to their importance within the document. This method, TopicRank, is a graph-based method that clusters keyphrase candidates into topics, ranks the topics and extracts one keyphrase per important topic. Our experiments show that TopicRank significantly outperforms other graph-basedmethods for automatic keyphrase annotation. Second, we focus on domain-specific documents and adapt our previous work. We study the best practice of manual keyphrase annotation by professional indexers andmimic it with a newmethod, TopicCoRank. TopicCoRank adds a new graph representing the specific domain to the topic graph of TopicRank. Leveraging this second graph, TopicCoRank possesses the rare ability to provide keyphrases that do not occur within documents. Applied on four corpora of four specific domains, TopicCoRank significantly outperforms TopicRank

APA, Harvard, Vancouver, ISO und andere Zitierweisen

36

Bigi, Brigitte. „Contribution à la modélisation du langage pour des applications de recherche documentaire et de traitement de la parole“. Avignon, 2000. http://www.theses.fr/2000AVIG0125.

Der volle Inhalt der Quelle

Annotation:

En classification thématique, l'objectif est d'assigner un label thématique à un segment de texte parmi un ensemble de labels possibles. Le modèle proposé repose sur la comparaison entre la distribution statique des mots clés de chaque thème et la distribution statistique des mots contenus dans la mémoire cache d'un texte à un instant donné. Cette évaluation évolue dans le temps avec la prise en compte de nouveaux mots dans le cache. Appliqué à des textes dictés, ce modèle permet une reconnaissance rapide des thèmes. Nous montrons également que l'utilisation d'une combinaison linéaire d'un modèle bigramme général avec des modèles thématiques apporte un gain substantiel de perplexite. En segmentation thematique, on cherche à déterminer les frontières entre paragraphes de thèmes différents. Pour repérer les changements de thème, on utilise le modèle à base de mémoire cache developpé pour la classification thématique, associé à une programmation dynamique. D'autres nouvelles méthodes ont également été testées afin que la segmentation ne nécessite pas de connaissances préalables sur les thèmes. Pour ce faire, on donne de nouvelles représentations de l'histoire d'un mot. L'ensemble des résultats ainsi obtenus montre que différentes stratégies doivent être utilisées selon les valeurs de rappel et de précision que l'on souhaite. Le but en expansion de requête est d'ajouter de nouveaux termes pertinents à la requête d'un utilisateur, afin de rendre plus précise les reponses du système de recherche documentaire. Notre modèle évalue une mesure de divergence entre la distribution de probabilités des termes représentatifs des documents fournis par le systeme avec la requête initiale, et la distribution de ces mêmes termes dans la collection entière. Ceci permet d'attribuer un score à des termes candidats qui formeront la requête étendue

APA, Harvard, Vancouver, ISO und andere Zitierweisen

37

Simon, François. „Evaluation de la performabilité des systèmes de production et des systèmes temps réel par réseaux de Petri stochastiques géneralisé“. Mulhouse, 1996. http://www.theses.fr/1996MULH0456.

Der volle Inhalt der Quelle

Annotation:

Cette thèse décrit les travaux réalisés dans le domaine de la modélisation et de l'évaluation de la performabilité (performance-disponibilité) de systèmes informatiques temps réel et des systèmes de production à l'aide de modèles bases sur les réseaux de Petri stochastiques généralisés (rdpsg). Le modèle du système est décomposé en deux sous-systèmes, l'un décrivant le comportement vis-à-vis des fautes et des réparations (modèle de structure), l'autre modélisant l'aspect performance et les caractéristiques temps réel. Nous montrons la génération automatique du modèle de structure qui donne les multiples cas de défaillances pour lesquels nous proposons une méthode pour réduire le nombre de vérification du critère d'opportunité (probabilité de respect de la contrainte temporelle spécifiée). L'analyse se concentre en premier sur les configurations de fonctionnement dégradées. Cette étape du processus de modélisation est appelée vérification intra configuration. Ensuite, la vérification inter configurations concerne les passages entre les configurations qui sont classées par type d'éléments défaillants. La méthode est illustrée sur trois exemples ayant fait l'objet de publications. Le premier système est un atelier flexible de production de tambour d'impression ayant une structure à tolérance de fautes avec machines redondantes et fonctionnant en parallèle. Le deuxième est un système de production de portière à structure série qui est analysé par modèles équivalents. Le troisième système à base de transputers présente des caractéristiques temps réel pour lequel l'aspect répartition de taches est approfondi.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

38

Longo, Laurence. „Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes : méthode basée sur l'identification automatique des chaînes de référence“. Phd thesis, Université de Strasbourg, 2013. http://tel.archives-ouvertes.fr/tel-00939243.

Der volle Inhalt der Quelle

Annotation:

Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d'un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence - séquence d'expressions référentielles se rapportant à la même entité du discours (e.g. Paul...il...cet homme) - ont fait l'objet d'une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d'introduction, de maintien et de changement thématique). Ainsi, à partir d'une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes, éditoriaux, roman), nous avons développé un module d'identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

39

Vallès-Parlangeau, Nathalie. „Recherche d'événements articulatoires pertinents pour l'annotation automatique de la base de données multisensorielles ACCOR“. Toulouse 3, 1998. http://www.theses.fr/1998TOU30295.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

40

Sabri, Mohamed. „Filtrage et restauration en traitement des images numériques : recherche d'une mise en œuvre automatique“. Rennes 1, 1991. http://www.theses.fr/1991REN10027.

Der volle Inhalt der Quelle

Annotation:

Le problème de restitution d’une scène à partir d’une image numérique dégradée, sans information à priori, pose des difficultés d’ordre théorique et pratique, dues aux bruits sur les données. Ce mémoire présente une contribution à l’automatisation des opérations d’identification des sources de dégradation, de filtrage et de restauration, à partir de l’image observée seule. La modélisation des sources de dégradation par l’étude du mécanisme de formation de l’image d’une part, et la modélisation des images 2-D par des champs stochastiques d’autre part servent de base à l’élaboration d’un outil d’analyse et au développement d’algorithmes de traitement. Des algorithmes de filtrage de bruits, de natures diverses et plus particulièrement les bruits multiplicatifs, ont été étudiés. L’utilisation d’opérateurs locaux nous a permis de tenir compte de l’aspect préservation des contours. Plusieurs méthodes de restauration d’images floues, notamment un filtrage de Kalman 2-D semi-récursifs, ont été prospectées. Une identification du flou basée sur celle d’un processus ARMA, et une estimation de la nature du bruit basée sur la notion d’homogénéité locale sont proposées ; un traitement optimal approprié est ensuite appliqué. Nos résultats sont comparés avec ceux obtenus à partir d’algorithmes connus en traitement d’image.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

41

Sakji, Saoussen. „Recherche d'information et indexation automatique des médicaments à l'aide de plusieurs terminologies de santé“. Rouen, 2010. http://www.theses.fr/2010ROUES032.

Der volle Inhalt der Quelle

Annotation:

L'utilisation des données médicales et l'accès à une information concise sont devenus des enjeux majeurs, non seulement pour les professionnels de santé mais aussi pour le grand public. Pour faciliter à atteindre cet objectif, plusieurs terminologies médicales ont été développées. Ces dernières sont employées généralement pour des finalités différentes. Par exemple, la classification ATC est utilisée pour classer les médicaments, la nomenclature SNOMED pour lke codage clinique, les classifications CIM-10 et CCAM pour le codage épidémiologique puis médico-économique, le thésaurus MeSH pour la bibliographie. . . Ainsi, dans un contexte appliqué au domaine de la recherche d'information médicale, les objectifs de cette thèse ont été la création d'un modèle de recherche utilisant plusieurs terminologies médicales, dans un premier temps. Cet univers multi-terminologique permet d'améliorer la qualité de l'information restituée selon les propres connaissances des utilisateurs. Ensuite, nous avons été amenés à concevoir une approche d'indexation auttomatique, par la classification ATC, pour les ressources du Portail d'Information sur les Médicaments (PIM), conçu dans le cadre du projet européen PSIP. Cette indexation a pour but d'améliorer l'indexation des médicaments afin de fournir à l'utilisateur une information plus fine et détaillée. Enfin, nous avons modifié notre algorithme de recherche afin de l'adapter à notre nouvelle structure multi-terminologique.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

42

Roussey, Catherine. „Une Méthode d'indexation sémantique adaptée aux corpus multilingues“. Lyon, INSA, 2001. http://theses.insa-lyon.fr/publication/2001ISAL0059/these.pdf.

Der volle Inhalt der Quelle

Annotation:

Ces travaux de thèse s'inscrivent dans la problématique générale liée à l'indexation d'un corpus de texte pour la recherche d'information multilingue. Le but de l'indexation est d'identifier la connaissance contenue dans un texte et de la représenter par des mots clés appelés descripteurs. Or, la composante multilingue ajoute une complexité supplémentaire au processus d'indexation car une étape de traduction est obligatoire pour représenter document et requête par des descripteurs appartenant au même espace d'indexation. Pour traduire correctement un terme, il est préférable de reconnaître le concept dénoté par celui-ci. Actuellement, une recherche d'information pertinente représente le contenu des documents par des concepts et non plus par des termes. Cette thèse propose une méthode d'indexation sémantique pour les documents XML permettant de caractériser le contenu documentaire par des connaissances, non dépendante de la langue des documents. Ces connaissances sont déclinées en deux types : - Les connaissances du domaine sont utilisées pour représenter les documents et les requêtes dans le même espace de représentation non dépendant des langues. - Les connaissances terminologiques constituent plusieurs langages de présentation des connaissances du domaine. Nous avons défini notre propre modèle de représentation des connaissances intitulé les graphes sémantiques. Ce modèle est un enrichissement du modèle des graphes conceptuels de Sowa. Premièrement, notre modèle différencie les connaissances du domaine, des connaissances terminologiques. Deuxièmement, une fonction de comparaison de graphes adaptée aux besoins réels de la recherche d'information est proposée. Notre méthode d'indexation se veut générique car elle peut être utilisée aussi bien dans un système de recherche d'information multilingue que dans un hypertexte à base de connaissances. Pour valider notre proposition, un prototype, appelé SyDoM, a été implanté, répondant aux besoins d'une bibliothèque virtuelle
This thesis deals with indexing problems of a multilingual corpus in an information retrieval system. Indexing procedure identifies the knowledge related to a text and represents it by keywords called descriptors. However, multilinguality increases the complexity of the indexing procedure because some "translation" is necessary to represent documents and queries in the same indexing space. To find a good translation of a term, the concept denoted by this term should be identified. Currently, pertinent information retrieval aims at representing the document semantics by concepts instead of terms. This thesis proposes a semantic indexing method for XML-encoded documents based on knowledge describing the document content, whatever the document language is. Our method indexes documents using two types of knowledge: - Domain knowledge, which composes a pivot language, used to represent documents and queries in the same indexing space not dependent on the languages. - Terminological knowledge, which is organized in several vocabularies (one per language). Terminological knowledge is related to domain knowledge and constitutes some presentation languages used to visualize the domain knowledge in several languages. In order to manipulate our indices, we define our own knowledge representation model entitled the semantic graphs. This model is an enrichment of the Sowa model of conceptual graphs by differentiating domain knowledge from terminological knowledge, but also by proposing a comparison function of graphs more adapted to the purpose information retrieval. Our indexing method can be used as well in a multilingual information retrieval system as in a knowledge hypertext. That's why we claim that our indexing method is generic. To validate our proposition, a prototype, called SyDoM, was developed, dedicated for the needs of virtual library

APA, Harvard, Vancouver, ISO und andere Zitierweisen

43

Roussey, Catherine Pinon Jean-Marie. „Une Méthode d'indexation sémantique adaptée aux corpus multilingues“. Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=roussey.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

44

Omhover, Jean-François. „Recherche d'images par similarité de contenus régionaux“. Paris 6, 2004. http://www.theses.fr/2004PA066254.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

45

Pessiot, Jean-François. „Apprentissage automatique pour l'extraction de caractéristiques : application au partitionnement de documents, au résumé automatique et au filtrage collaboratif“. Paris 6, 2008. http://www.theses.fr/2008PA066218.

Der volle Inhalt der Quelle

Annotation:

En apprentissage statistique, le choix de la représentation des données est crucial et a motivé le développement de méthodes permettant de modifier la représentation initiale des données. Dans cette thèse, nous étudions la problématique du choix de la représentation des données au travers de l'extraction de documents et le résumé automatique de texte. En extraction multi-tâches, nous proposons également des algorithmes d'apprentissage pour la régression et pour l'ordonnancement d'instances. Nous appliquons nos deux modèles au filtrage collaboratif, d'abord vu comme un problème de prédiction de notes, puis comme un problème de prédiction d'ordre.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

46

Joly, Alexis. „Recherche par similarité statistique dans une grande base de signatures locales pour l'identification rapide d'extraits vidéo“. La Rochelle, 2005. http://www.theses.fr/2005LAROS144.

Der volle Inhalt der Quelle

Annotation:

Le domaine de l'indexation vidéo par le contenu s'intéresse à l'ensemble des techniques utiles pour analyser et exploiter des stocks de vidéos sans passer par des descriptions textuelles extérieures aux documents dont on dispose. Plus particulièrement, les travaux de cette thèse traitent du problème de la détection de copies basée sur le contenu. Pour résoudre conjointement les problèmes de qualité et de rapidité de la détection, liés à l'augmentation de la taille du catalogue de référence, nous avons proposé une méthode complète et efficace. Celle-ci tient compte à la fois des aspects traitement de l'image, des aspects base de données et de leurs interactions. La première partie du mémoire est consacrée à la présentation du contexte particulier de la détection de copies en vidéo et aux signatures utilisées pour caractériser le contenu des vidéos. L'originalité de notre approche est qu'elle est basée sur l'utilisation conjointe de signatures locales et d'une mesure de similarité globale calculée après la recherche des signatures similaires dans la base. Cette mesure globale n'est pas un simple vote comme dans les approches classiques car elle est précédée d'une étape de recalage originale entre l'objet candidat et les objets retournés par la recherche dans la base. La deuxième partie présente le coeur théorique du travail. Il s'agit d'une nouvelle méthode d'indexation et de recherche de descripteurs numériques s'intégrant dans le cadre de la recherche par similarité approximative. Il a en effet récemment été montré qu'une faible perte contrôlée dans la qualité des résultats de la recherche pouvait permettre des accélérations importantes du temps de recherche. Le principe de la technique présentée est d'étendre ce paradigme à la recherche à -près, contrairement aux autres approches qui s'intéressent uniquement à la recherche approximative des K plus proches voisins. L'originalité est de déterminer les régions pertinentes de l'espace selon un modèle théorique des distorsions que subissent les descripteurs, par des requêtes dites statistiques. Seule une portion de l'espace donnant une probabilité forte et contrôlée de trouver la réponse cherchée est visitée. Celle-ci est déterminée par une courbe de Hilbert et la partition qu'elle induit, simplifiant ainsi fortement l'accès à la base de descripteurs. L'évaluation expérimentale de la technique a montré que celle-ci est sous-linéaire avec un comportement asymptotique linéaire (mais que l'on observe que pour des tailles de base énormes) et que les performances en qualité sont stables. Il est également montré que les requêtes statistiques apportent une accélération conséquente par rapport aux requêtes à -près exactes. La troisième partie est consacrée à l'évaluation du système dans son ensemble et à la présentation de trois applications. Les expérimentations ont tout d'abord montré que le modèle théorique, bien que simple, permet un contrôle suffisant de la probabilité de retrouver un descripteur dans la pratique. Elles ont ensuite montré que la recherche approximative des descripteurs était particulièrement rentable lorsque l'on utilise des signatures locales puisque la perte de certains descripteurs n'influencent que très peu la qualité globale de la détection tout en accélérant fortement la recherche. Il a enfin été montré que la méthode globale était quasiment invariante à de très fortes augmentations de la quantité de vidéos dans la base (jusqu'à trois ordres de grandeur). L'approche proposée a été complètement intégrée et validée dans un système applicatif réel dont l'ampleur est sans précédent (le catalogue de référence contient jusqu'à 40 000 heures de vidéo, soit 500 fois plus que la moyenne des quantités utilisées dans l'état de l'art). Cela a soulevé des questionnements relatifs à l'utilisation des résultats issus de catalogues de référence aussi volumineux et d'envisager des pistes pour en extraire des informations de nature sémantique
Content-based video indexing deals with techniques used to analyse and to exploit video databases without needs of any additional textual description. The work presented in this report is focused more precisely on content-based video copy detection, which is one of the emerging multimedia applications for which there is a need of a concerted effort from the database community and the computer vision community. To overcome the difficulties due to the use of very large databases, both in terms of robustness and speed, we propose a complete original and efficient strategy. The first part of this report presents the particular context of copy detection and the signatures used to describe the content of the videos. The originality of our method is that it is based both on local signatures and on a global similarity measure computed after the search in the signatures database. This similarity measure is not only a vote like other classical local approaches but it includes a registration step between candidate objects and objects retrieved by the search. The second part presents the main contribution of the thesis: A new indexing and retrieval technique belonging to the approximate similarity search techniques family. Recent works shows that trading quality for time can be widely profitable to speed-up descriptors similarity search. Whereas all other approximate techniques deal with K Nearest Neighbors search, the principle of our method is to extend the approximate paradigm to range queries. The main originality consists in determining relevant regions of the space according a theoritical model for the distortions undergone by the signatures. The method allows to determine the optimal region of the space with a high controlled probability to contain the good answer. This search paradigm is called statistical query. In practice, to simplify the access to signatures, the relevant regions are determined by using an Hilbert space filling curve and the space partition that induces. The experiments show that the technique is sublinear in database size with an assymptotically linear behavior (but only for huge databases) and that the quality performances are stable. Furthermore, they highlight that statistical queries provide a very high speed-up compared to classical exact range queries. The third part is focused on the global system assessment and the description of three applications. The experiments show that the simple theoretical distortion model is efficient enough to control the effective probability to retrieve a descriptor. They also point out that approximate similarity search is particularly profitable when using local signatures since the lost of some search results does not affect the global robustness of the detection. Furthermore, the detection results are almost invariant to strong database size growing (three orders of magnitude). The proposed approach was integrated in a difered real-time TV monitoring system which is able to control 40 000 hours of videos. The high quantity and variability of the results of this system open new data mining perspectives

APA, Harvard, Vancouver, ISO und andere Zitierweisen

47

Toma, Adrian. „Classes d'objets et recherche d'information“. Paris 13, 2007. http://www.theses.fr/2007PA131008.

Der volle Inhalt der Quelle

Annotation:

Cette thèse met en avant l’amélioration du processus de recherche d’information sur le Web par l’emploi des classes d’objets. Les disfonctionnements des outils de recherche proviennent principalement du fait pour le traitement automatique du corpus on a recours à des techniques linguistiques statistiques. Les imprécisions du découpage en mots, l’élimination erronée des mots vides sémantiquement, la polysémie des langues ou le figement sont autant de problèmes dont la solution réside dans l’utilisation d’une nouvelle technologie linguistique, le modèle des classes d’objets. Nous étudions la formalisation informatique des classes d'objets linguistiques, en réalisant une comparaison des notions de classe d’objets en linguistique et en informatique (programmation orientée objet). Dans la représentation informatique des classes – sous forme de bases de données ou fichiers XML – nous exploitons également les hiérarchies que les classes forment à travers les relations d’héritage. Nous nous intéressons aussi à la représentation informatique des domaines ainsi qu’à leur hiérarchie. Nous proposons l’emploi des classes d’objets dans l’amélioration du positionnement des pages Web, dans la reformulation de la requête ainsi que dans l’indexation des fichiers. L’utilisation des classes d’objets dans l’amélioration du positionnement se réalise par le traitement sémantique du contenu qui se sert des dictionnaires électroniques classes d’objets. Le traitement automatique de la requête se fait en ciblant le domaine de l’interrogation à l’aide de la hiérarchie des classes d’objets. Le prototype de logiciel que nous avons réalisé est illustré à l’aide des exemples. Nous analysons ensuite l’indexation « intelligente » des documents, basée sur le modèle des classes d’objets. Son unité d’indexation est non plus le mot mais la structure minimale d’indexation, extraite du schéma d’arguments. Nous montrons ensuite les avantages que ce type d’indexation fournit à la recherche d’information
The aim of this thesis is the study of the improvement of the information retrieval process on the Internet, using a new linguistic theory of the semantico-syntactical classes. The main linguistic problems confronting the information retrieval are the polymorphism and the polysemy of natural languages. Same topic documents use different expressions, while there are several keyword variants for the same given topic. Due to search keys ambiguity, the intended sense of the request is not always reflected by the retrieved documents. The implementation in informatics of the linguistic concept of classes has to go through a first phase where a comparison is drawn between these notions in computer science and in linguistics. We also suggest the use of hierarchy of classes as well as of domains and of domains’hierarchies. The classes are structured in databases and the hierarchies are encoded in graphs. The importance of the document ranking draws our interest towards the use of the linguistic classes in automatic semantic content analysis in order to improve document’s estimated relevance. We show how automatic query reformulation and expansion based on semantico-syntactical classes improves the retrieval by focusing the process on the request’s inferred topic and by adding to the initial keywords other relevant concepts. The software we developed uses the hierarchy of the classes to detect the request’s topic; we then show how to use the dictionary based on linguistic classes to expand the query. We show examples on how cross-lingual query expansion benefits from the use of linguistic classes. Since the linguistic problems of the information retrieval are also rooted in the document indexing, we suggest and analyse a new indexing technique that has semantics at its core. The index entry is no longer the decontextualized and therefore meaningless word but a new concept of minimal indexing structure issued from the way predicates are described in the linguistic classes’theory

APA, Harvard, Vancouver, ISO und andere Zitierweisen

48

Lutfi, Rania. „Indexation intelligente et recherche par le contenu de l'audio“. Nantes, 2003. http://www.theses.fr/2003NANT2028.

Der volle Inhalt der Quelle

Annotation:

La numérisation croissante des contenus audiovisuels s'accompagne de la production d'outils généraux pour rechercher de l'information. Ce sera le rôle majeur d'un SGBD audio. Toutefois, les SGBDs actuels, les moteurs de recherche basés sur le contenu et plus particulièrement, les travaux dans le cadre des archives radiophoniques demeurent limités. Il devient donc crucial de pouvoir définir des techniques automatiques (ou au moins semi-automatiques) d'indexation/de recherche par le contenu audiovisuel. Cette thèse s'intéresse exclusivement aux documents audio. L'objectif est de concevoir, mettre en oeuvre et expérimenter, un système d'indexation et de recherche par le conrenu de l'audio. . .

APA, Harvard, Vancouver, ISO und andere Zitierweisen

49

Kessler, Rémy. „Traitement automatique d'informations appliqué aux ressources humaines“. Phd thesis, Université d'Avignon, 2009. http://tel.archives-ouvertes.fr/tel-00453642.

Der volle Inhalt der Quelle

Annotation:

Depuis les années 90, Internet est au coeur du marché du travail. D'abord mobilisée sur des métiers spécifiques, son utilisation s'étend à mesure qu'augmente le nombre d'internautes dans la population. La recherche d'emploi au travers des « bourses à l'emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d'informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d'information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d'outils pour automatiser les flux d'informations lors d'un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d'une entreprise à gérer efficacement et à moindre coût ces flux d'informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l'application des méthodes d'apprentissage afin d'effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l'analyse et l'intégration d'une offre d'emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d'intégrer une offre d'emploi d'une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d'assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d'effectuer un classement pertinent des candidatures. L'utilisation d'un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

50

Domingues, Catherine. „Etude d'outils informatiques et linguistiques pour l'aide à la recherche automatique d'information dans un corpus documentaire“. Marne-la-Vallée, 2001. http://www.theses.fr/2001MARN0104.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!