Log in

Relevant bibliographies by topics / Mots de données / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Mots de données.

Dissertations / Theses on the topic 'Mots de données'

Author: Grafiati

Published: 25 May 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Mots de données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Pelfrêne, Johann. "Extraction de mots approchés." Rouen, 2004. http://www.theses.fr/2004ROUES013.

Full text

Abstract:

La réprésentation des facteurs d'un texte s'effectue de différentes manières (arbre, table, automate des suffixes), cependant il n'est pas connu de structure d'index pour des mots contenant des erreurs. Nous proposons l'étude de mots approchés au sens du joker, dont un résultat récent montrait que le nombre de mots à jokers maximaux non redondants était linéaire en la taille du texte duquel ces mots sont extraits. Nous introduisons ainsi les mots primitifs, permettant de diminuer le nombre de mots à jokers d'intérêts. Comme les maximaux non redondants, les primitifs forment une base permettant de déduire les autres mots maximaux. Nous montrons cependant que le nombre de primitifs et conséquemment le nombre de maximaux non redondants n'est pas linéaire, mais exponentiel. Nous présentons des propriétés de ces mots, un algorithme d'extraction des mots primitifs, et un algorithme de décision de la primitivité étant donné un mot et un texte. Ces algorithmes sont étendus à l'extraction dans plusieurs textes, à la miseà jour après ajout d'un nouveau texte, et aux caractères ambigus. Nous introduisons une notion de score réduisant le nombre de mots retenus
Indexing structures are wellknown for exact subwords (suffix array, tree, automaton), however no indexing structure is known for approximate patterns. We study patterns with don't cares, for which a recent result proposed a linear bound of the number of maximal irredundant patterns with don't cares. We introduce the primitive patterns, allowing to reduce the number of interesting patterns that can be extracted from a given text. Like the maximal irredundant patterns, the primitive patterns form a basis for the maximal patterns. We show therefore that the number of primitive patterns, and consequently the number of maximal irredundant ones, is not linear but exponential. This work presents properties of such patterns, an extraction algorithm, and an algorithm which decides the primitivity without computing the basis. These algorithms are extended to the extraction in multiple texts, to the update after adding a new text, and to ambiguous characters for which the don't care character is a special case. We introduce a scoring scheme, reducing the number of conserved patterns

APA, Harvard, Vancouver, ISO, and other styles

2

Vieilleribière, Adrien. "Transformations de mots, d'arbres et de statistiques." Paris 11, 2008. http://www.theses.fr/2008PA112238.

Full text

Abstract:

Nous vivons dans un monde d'échange où les erreurs sont partout. Il est donc essentiel de pouvoir vérifier approximativement si on est « proche » ou « loin » de satisfaire une propriété particulière. La motivation est alors de développer des techniques pour s'échanger des données gigantesques mais aussi imparfaites. Le sujet de cette thèse est l'étude de traitements approchés, qui prennent en compte les erreurs, et la comparaison, du point de vue de la complexité, entre traitements exacts et approchés. D'un point de vue théorique, le cœur de l'échange de donnée est la transformation de mots et d'arbres. Cette thèse montre que l'on sait décider l'équivalence approchée des machines à états finis pour une distance particulière, puis étend la décision à un type de transducteurs linéaires d’arbres inspirés par XSLT. Pour ce faire, une méthode d'approximation des instances (mots ou arbres), des automates, et des transducteurs linéaires de ces instances est proposée. Son intérêt majeur est la possibilité de pouvoir relier la distance d'édition avec déplacements entre deux transducteurs à la distance géométrique (la norme L_1) entre leurs représentations. Cette approximation géométrique permet aussi de décider de la consistance approchée d'une instance en temps constant, ie indépendamment de la taille de l'entrée. L’implémentation d’un nouvel outil de visualisation et d’échange de structures est finalement illustrée : les transducteurs pondérés simulent le calcul de certaines distances, et des transductions sont proposées pour la création de cartes d’audience et la visualisation de résultats de requêtes OLAP
We live in a world of exchange where errors are everywhere. Being able to verify approximately if a property is close or far to be satisfied is essential therefore. This leads to develop techniques to exchange huge and imperfect data. The subject of this thesis is the study of approximated processes that are taking errors into account, and of the comparison between exact and approximated processes as far as complexity is concerned. From a theoretical point of view, the heart of data exchange is the transformation of words and trees. This thesis shows that it is possible to decide the approximate equivalence of Finite State Machines for a particular distance, and extends the decision to a type of linear tree transducers inspired by XSLT. To that end, a method to approximate instances (word or tree), languages and transducers of these instances is introduced. Its main interest lies in the possibility of linking the edit distance with moves between two transducers with the geometrical distance (L1 norm) between their embeddings. This geometrical embedding also enables to decide the approximate consistency of an instance in constant time, i. E. Independently from the input size. Finally, the implementation of data exchange is illustrated: weighted transductions are used to simulate computations of distances between languages, and tree transductions are used to build maps of log files and to visualize results of an OLAP query

APA, Harvard, Vancouver, ISO, and other styles

3

Laurence, Grégoire. "Normalisation et Apprentissage de Transductions d'Arbres en Mots." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2014. http://tel.archives-ouvertes.fr/tel-01053084.

Full text

Abstract:

Le stockage et la gestion de données sont des questions centrales en infor- matique. La structuration sous forme d'arbres est devenue la norme (XML, JSON). Pour en assurer la pérennité et l'échange efficace des données, il est nécessaire d'identifier de nouveaux mécanismes de transformations automati- sables. Nous nous concentrons sur l'étude de transformations d'arbres en mots représentées par des machines à états finies. Nous définissons les transducteurs séquentiels d'arbres en mots ne pouvant utiliser qu'une et unique fois chaque nœud de l'arbre d'entrée pour décider de la production. En réduisant le problème d'équivalence des transducteurs séquentiels à celui des morphismes appliqués à des grammaires algébriques (Plandowski, 95), nous prouvons qu'il est décidable en temps polynomial. Cette thèse introduit la notion de transducteur travailleur, forme norma- lisée de transducteurs séquentiels, cherchant à produire la sortie le "plus tôt possible" dans la transduction. A l'aide d'un algorithme de normalisation et de minimisation, nous prouvons qu'il existe un représentant canonique, unique transducteur travailleur minimal, pour chaque transduction de notre classe. La décision de l'existence d'un transducteur séquentiel représentant un échantillon, i.e. paires d'entrées et sorties d'une transformation, est prouvée NP-difficile. Nous proposons un algorithme d'apprentissage produisant à par- tir d'un échantillon le transducteur canonique le représentant, ou échouant, le tout en restant polynomial. Cet algorithme se base sur des techniques d'infé- rence grammaticales et sur l'adaptation du théorème de Myhill-Nerode.

APA, Harvard, Vancouver, ISO, and other styles

4

Clément, Julien. "Algorithmes, mots et textes aléatoires." Habilitation à diriger des recherches, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00913127.

Full text

Abstract:

Dans ce mémoire, j'examine différents aspects d'un objet simple mais omniprésent en informatique: la séquence de symboles (appelée selon le contexte mot ou chaîne de caractères). La notion de mot est au carrefour de domaines comme la théorie de l'information et la théorie des langages. S'il est simple, il reste fondamental: nous n'avons, au plus bas niveau, que cela à disposition puisqu'il arrive toujours un moment où une donnée doit être encodée en symboles stockables en mémoire. La quantité d'information croissante de données mise à disposition et qu'on peut stocker, par exemple des génomes d'individus ou des documents numérisés, justifie que les algorithmes et les structures de données qui les manipulent soient optimisés. En conséquence, les besoins d'analyse se font sentir pour guider le choix et la conception des programmes qui manipulent ces données. L'analyse en moyenne est ici particulièrement adaptée puisque les données atteignent une variété et des volumes tellement importants que c'est le cas typique qui traduit le mieux la complexité et non pas le cas le pire. Cela évidemment pose le problème de la modélisation de données qui reste encore très épineux. En effet on souhaite deux choses contradictoires: un modèle au plus près des données, qui traduise vraiment leurs spécificités, mais aussi un modèle permettant de donner des résultats, c'est-à-dire de prédire les performances (et on comprend vite que le modèle doit donc rester relativement simple pour qu'il subsiste un espoir de le traiter!). Les méthodes sont le plus souvent celles de la combinatoire analytique et font appel à un objet mathématique, les séries génératrices, pour mener les analyses à bien.

APA, Harvard, Vancouver, ISO, and other styles

5

Sablayrolles, Jean-François. "Les néologismes du français contemporain : traitement théorique et analyses de données." Paris 8, 1996. http://www.theses.fr/1996PA081066.

Full text

Abstract:

L'objectif de ce travail consiste a examiner la place des neologismes dans l'interlocution et les traitements de la neologie dans les theories linguistiques. Cet examen conduit a comparer les definitions donnees par des dictionnaires et encyclopedies de la fin du siecle dernier et de l'epoque contemporaison d'une centaine de typologies etablies dans ces memes periodes amene a envisager les concepts mis en place dans plusieurs modeles linguistiques contemporains, structuralistes ou generativistes. La diversite des solutions proposees et les difficultes qu'elles rencontrent poussent a s'interroger sur la nature de l'unite linguistique pertinente. La notion de mot, controversee et insuffisante, est abandonnee au profit de la lexie, unite fonctionnelle memorisee en competence. C'est ensuite la notion de nouveaute qui est examinee sous deux aspects: nouveau pour qui et nouveau par rapport a quoi? la constitution et l'examen de six corpus de plusieurs origines (divers, hebdomadaires, un roman de r. Jorif, le burelain, les chroniques de ph. Meyer, le monde et des neologismes recueillis dans un lycee) permettent de tester les definitions adoptees et de confirmer, pour l'essentiel, des hypotheses emises sur les inegalites des membres de la communaute linguistique face au phenomene neologique. Tout le monde ne creee pas autant de neologismes, ni les memes. Des analyses complementaires suscitees par l'examen des donnees envisagent l'existence de circonstances favorables a la neologie, puis de causes qui poussent un locuteur a creer une nouvelle lexie et a propos desquelles l'interpretant fait des hypotheses. Enfin des considerations liees a la circulation du dire precisent le concept de mouveaute et montrent les incertitudes qui pesent sur l'avenir des lexies creees par un locuteur donne dans des circonstances donnees
The aim of the present work is to examine the place of neologisms in interlocution and the treatments of neology in linguistic theories. This examination induces to compare the definitions given by some dictionaries and encylopedias of the end of the last century and of nowadays. Then the comparison between about a hundred typologies made in these same periods leads to consider the concepts set in several contemporary linguistic models, whether structuralist or generativist. Diversity of the proposed solutions and the dificulties they encounter egg to inquire about the nature of the relevant linguistic unity. The notion of word, debated and insufficient, is leaved on behalf of lexie, functional unity memorized in competence,then,it is the notion of newness which is examined from two points of view:new for whom and new when compared with what? the formation and examination of six corpus from different origines (miscellaneous, weekly papers, a novel by r. Jorif, le burelain, the chronicles of ph. Meyer,le monde, and neologisms collected in a lycee) allow to test the taken up definitions and to bear out, for the maint points, some expressed hypothesis about the inequalities between membres of the linguistic community facing the neologic phenomenon. Everybody does not create as many neologisms nor the same ones. Complementary analysis, caused by the examination of the facts, consider the existence of circumstances propitious to neology, then of causes which egg the locuteur to create a new lexie and about which the interpretant makes hypothesis. At last, considerations connected with the circulation du dire specify the concept of newness and show the incertitudes which bear on the future of lexies created by a definite locuteur in definite circumstances

APA, Harvard, Vancouver, ISO, and other styles

6

Thuilier, Juliette. "Contraintes préférentielles et ordre des mots en français." Phd thesis, Université Paris-Diderot - Paris VII, 2012. http://tel.archives-ouvertes.fr/tel-00781228.

Full text

Abstract:

Cette thèse propose une approche expérimentale de la linguistique à travers l'étude de la notion de contrainte préférentielle et son application à deux phénomènes d'ordre en français : la position de l'adjectif épithète ainsi que l'ordre relatif des deux compléments sous-catégorisés par le verbe et apparaissant en position postverbale. Les contraintes préférentielles sont définies comme des contraintes qui n'affectent pas la grammaticalité mais l'acceptabilité des phrases. Nous émettons l'hypothèse selon laquelle ces contraintes constituent des propriétés spécifiques à la langue dont il faut rendre compte dans le champ de la linguistique. Sur le plan méthodologique, l'étude de ces contraintes est rendue problématique par leur nature : étant donné qu'elles n'agissent pas sur la grammaticalité des phrases, elles échappent aux méthodes traditionnelles de la syntaxe (introspection et jugement de grammaticalité). Il est donc nécessaire de définir des outils permettant leur description et leur analyse. Les méthodes envisagées sont l'analyse statistique de données de corpus, inspirée des travaux de Bresnan et al. (2007) et de Bresnan & Ford (2010), et, dans une moindre mesure, l'expérimentation psycholinguistique. En ce qui concerne la position de l'adjectif, nous testons la plupart des contraintes rencontrées dans la littérature et nous proposons une analyse statistique de données extraites du corpus French Treebank. Nous montrons notamment l'importance de l'item adjectival ainsi que de l'item nominal avec lequel il se combine. Certaines contraintes syntaxiques concernant la configuration du syntagme adjectival et du syntagme nominal jouent également un rôle dans le choix de la position. Le travail concernant l'ordre relatif des compléments du verbe est mené sur un échantillon de phrases extraites de deux corpus journalistiques (French Treebank et Est-Républicain) et de deux corpus d'oral (ESTER et C-ORAL-ROM). Nous montrons l'importante influence du poids des constituants dans le choix de l'ordre : l'ordre court avant long, caractéristique d'une langue SVO comme le français, est respecté dans plus de 86% des cas. Nous mettons également à jour le rôle fondamental du lemme verbal associé à sa classe sémantique, annotée à partir du dictionnaire de Dubois & Dubois-Charlier (1997). Enfin, en nous appuyant sur l'analyse des données de corpus ainsi que sur deux questionnaires d'élicitation de jugement d'acceptabilité, il semble que ni caractère animé, ni l'opposition 'donné/nouveau' (Prince, 1981) n'ait une influence sur l'ordre des compléments, ce qui semble aller à l'encontre d'observations faites dans d'autres langues comme l'anglais ou l'allemand.

APA, Harvard, Vancouver, ISO, and other styles

7

Goyet, Louise. "Développement des capacités de segmentation de la parole continue en mots, chez les enfants francophones : données électrophysiologiques et comportementales." Paris 5, 2010. http://www.theses.fr/2010PA05H104.

Full text

Abstract:

L'acquisition du lexique (des mots) constitue une étape nécessaire pour le développement du langage. Cependant, pour acquérir un lexique, il est nécessaire que les jeunes enfants soient capables d'extraire et de découper dans le flux continu de paroles des unités de son, correspondant à la forme sonore des mots. Cette capacité d'extraction ou de découpage de ces formes sonores porte le nom de processus de segmentation. Ce processus de segmentation des unités sonores n'est pas trivial, parce que la parole est un signal continu de sons, et que les pauses entre les mots sont rares et enfin parce que les enfants entendent rarement des mots isolés. Par conséquent, comment les enfants vont-ils segmenter des mots dans la parole continue? Quels sont les mécanismes sous-jacents à ces processus de segmentation? Pour répondre à ces questions, il faut noter qu'il a été établi dans la littérature (Saffran et al. , 1996a ; Jusczyk et al. , 1999b) qu'à partir d'un âge précoce (8 mois), les jeunes enfants disposent de multiples procédures de segmentation leur permettant de découper la parole en mots, qui s'appuient sur différents indices phonologiques: prosodie/rythme, indices allophoniques, contraintes phonotactiques et les informations distributionnelles. La problématique de ce travail de thèse porte sur l'étude de la sensibilité des jeunes enfants francophones à un indice majeur de segmentation spécifique: la prosodie/ rythme. Plus précisément, ce travail s'inscrit dans la continuité de l'hypothèse d'initialisation rythmique (Nazzi et al. , 1998) selon laquelle, pour segmenter la parole, les jeunes enfants s'appuieraient sur l'unité rythmique de leur langue maternelle (l'unité trochaïque pour les langues à stress : anglais, allemand, hollandais ; l'unité syllabique pour les langues syllabiques : français, italien, espagnol). Ainsi les travaux de Nazzi et al. (2006) ont montré qu'à 12 mois, les enfants francophones segmentent les mots en syllabes indépendantes, puis à 16 mois, en unités cohérentes. Afin de réévaluer l'ensemble de ces problématiques, nous avons utilisé deux méthodes expérimentales: une méthode électrophysiologique (ERPs: event-related potentials) et une méthode comportementale (HPP: Headturn Préférence Procédure ou méthode du regard préférentiel). L'objectif de ce travail de thèse est tout d'abord de réévaluer au cours du développement de l'enfant l'hypothèse d'initialisation rythmique (segmentation syllabique), puis la segmentation du mot comme une unité cohérente, auprès d'enfants francophones âgés de 8 et de 12 mois (Nazzi et al. , 2006), et enfin d'analyser comment interagit l'utilisation de ces différentes indices de segmentation et par conséquent, leur impact sur le processus de segmentation. Les résultats de cette recherche ont permis de valider l'hypothèse d'initialisation rythmique chez ces enfants francophones, et par ailleurs de montrer que l'utilisation des indices de segmentation varie selon leur rôle respectif dans le signal de parole
The acquisition of the lexicon (words) constitutes a main stage in language development. However in order to acquire the lexicon of their native language, infants must learn to identify and to segment word forms in continuous speech. This ability to extract word forms into continuous speech is called: the word segmentation. This word segmentation ability is thus crucial for language acquisition. However, accessing word forms would not be an issue if word boundaries were clearly marked at the acoustic level, or if words were (often) presented in isolation. So how, infants could segment fluent speech? What are developmental origin of segmentation abilities and the underlying mechanisms involved? Numerous studies have shown that segmentation abilities emerge around 8 months (Saffran et al. , 1996 ; Jusczyk et al. , 1999b), develop during the following months, and rely on infants' processing of various word boundary cues (allophonic, phonotactic, prosody/rhythmic, Transitional Probability cues) which relative weight changes across development. The goal of this PHd research is to focus on the rhythmic main unit segmentation cue which depends on the native language rhythmic type (Jusczyk et al. , 1999 ; Nazzi et al. , 2006). Furthermore, these researches will fit into the continuity of the solution of the bootstrapping issues, in the form of the early rhythmic segmentation hypothesis (Nazzi et al. , 1998). This hypothesis states that infants rely on the underlying rhythmic unit of their native language at the onset of segmentation abilities (the trochaic unit for stress-based languages: English, German and Dutch, the syllable for syllable-based languages: French, Italian, Spanish). For French, behavioural evidence (Nazzi et al. 2006) showed that infants could use the rhythmic unit appropriate to their native language (the syllable) to segment fluent speech by 12 months of age (word are segmented into syllable units), but failed to show whole word segmentation at that age, (ability which emerge at 16 months). Given the implications of such findings, the goal of this PHd research will be to study and to re-evaluates during the development, the early rhythmic segmentation hypothesis (the syllabic segmentation), the issue of whole word and the interaction of the use of various segmentation cues and by consequence their impact on word segmentation. To evaluate this, we used two experimental methods: an electrophysiological one (High density ERPs: event-related potentials), and a behavioural one (HPP ; Headturn Preference Procedure), by testing French-learning 8 and 12-month-olds on bisyllabic word segmentation. The results of the research confirm, for these French-learning infants, the rhythmic-based segmentation hypothesis, which postulate that French-learning infants rely on syllables to segment fluent speech, and in addition, the results show that the use of these cues, differs according to their respective weight into the fluent speech

APA, Harvard, Vancouver, ISO, and other styles

8

Andreewsky, Marina. "Construction automatique d'un système de type expert pour l'interrogation de bases de données textuelles." Paris 11, 1989. http://www.theses.fr/1989PA112310.

Full text

Abstract:

Notre thèse décrit la construction d’un système d’aide à l’interrogation de bases de données textuelles en naturel, le système FASE. Pour une base donnée, FASE génère automatiquement des suites de mots sémantiquement importants de son vocabulaire. Celles-ci sont organisées en arborescence: la racine correspond aux termes généraux de la base et les feuilles aux termes spécifiques d’un petit nombre de documents. Les arborescences sont créées à l'aide de deux modules : le premier, à caractère linguistique, attribue un fichier inverse des mots sémantiques à chaque base traitée. Il comprend une analyse morpho-syntaxique et le traitement de certaines formes de négation et de synonymie. Le second créé, à partir du fichier inverse, des chaînes de mots importants de la base qui recouvrent tous les documents concernés à une étape donnée. Cette procédure permet également d’effectuer une classification automatique de la base textuelle traitée. L'interrogation d'une base consiste en un parcours sélectif de l’arborescence, de la racine à une feuille, c'est-à-dire du niveau le plus général au niveau le plus spécifique. A chaque étape, le système présente à l'utilisateur une suite de mots caractéristiques d'un ensemble de plus en plus restreint de documents. Celui-ci sélectionne les mots les plus proches du sujet qui l'intéresse et le système calcule dynamiquement la nouvelle suite de mots à proposer. Aucune requête n'est à formuler: le système guide la recherche et permet de converger vers les documents correspondants aux validations successives.

APA, Harvard, Vancouver, ISO, and other styles

9

Sebastian, Tom. "Evaluation of XPath queries on XML streams with networks of early nested word automata." Thesis, Lille 1, 2016. http://www.theses.fr/2016LIL10037/document.

Full text

Abstract:

Dans cette thèse, notre défi sera de trouver la réponse à la question : comment répondre à des requêtes XPath sur des flux XML avec une faible latence, une couverture complète, une grande efficacité temporelle et un faible coût mémoire? Dans cette thèse, nous proposons dans un premier temps une approximation de l’algorithme de réponse au plus-tôt pour les requêtes XPath par une compilation en un automate de mots imbriqués. Nous rapproche ainsi de la latence et d’une empreinte mémoire optimales. Dans un deuxième temps, nous proposons une définition formelle de XPath 3.0. Celle-ci est obtenue en faisant correspondre XPath au nouveau langage λXP que nous introduirons. Nous montrons par la suite comment compiler des requêtes λXP en des réseaux d’automates de mots imbriqués, et développons des algorithmes de streaming pour ces derniers. Dans un troisième temps, nous allons développer un algorithme pour la projection de flux XML en fonction de la requête définie par un automate de mots imbriqués. Ainsi serons- nous en mesure de faire en sorte que notre algorithme soit temporellement très efficace. Nous avons implémenté tous nos algorithmes avec l’objectif visé d’obtenir un outil de streaming applicable dans l’industrie, et les avons testés sur les benchmarks habituels. Notre algorithme surpasse toutes les approches précédemment établies en termes d’efficacité temporelle, de couverture et de latence
The challenge that we tackle in this thesis is the problem of how to answer XPath queries on XML streams with low latency, full coverage, high time efficiency, and low memory costs. We first propose to approximate earliest query answering for navigational XPath queries by compilation to early nested word automata. It turns out that this leads to almost optimal latency and memory consumption. Second, we contribute a formal semantics of XPath 3.0. It is obtained by mapping XPath to the new query language λXP that we introduce. We then show how to compile λXP queries to networks of early nested word automata, and develop streaming algorithms for the latter. Thereby we obtain a streaming algorithm that indeed covers all of XPath 3.0. Third, we develop an algorithm for projecting XML streams with respect to the query defined by an early nested word automaton. Thereby we are able to make our streaming algorithms highly time efficient. We have implemented all our algorithms with the objective to obtain an industrially applicable streaming tool. It turns out that our algorithms outperform all previous approaches in time efficiency, coverage, and latency

APA, Harvard, Vancouver, ISO, and other styles

10

Bonis, Thomas. "Algorithmes d'apprentissage statistique pour l'analyse géométrique et topologique de données." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS459/document.

Full text

Abstract:

Dans cette thèse, on s'intéresse à des algorithmes d'analyse de données utilisant des marches aléatoires sur des graphes de voisinage, ou graphes géométriques aléatoires, construits à partir des données. On sait que les marches aléatoires sur ces graphes sont des approximations d'objets continus appelés processus de diffusion. Dans un premier temps, nous utilisons ce résultat pour proposer un nouvel algorithme de partitionnement de données flou de type recherche de modes. Dans cet algorithme, on définit les paquets en utilisant les propriétés d'un certain processus de diffusion que l'on approche par une marche aléatoire sur un graphe de voisinage. Après avoir prouvé la convergence de notre algorithme, nous étudions ses performances empiriques sur plusieurs jeux de données. Nous nous intéressons ensuite à la convergence des mesures stationnaires des marches aléatoires sur des graphes géométriques aléatoires vers la mesure stationnaire du processus de diffusion limite. En utilisant une approche basée sur la méthode de Stein, nous arrivons à quantifier cette convergence. Notre résultat s'applique en fait dans un cadre plus général que les marches aléatoires sur les graphes de voisinage et nous l'utilisons pour prouver d'autres résultats : par exemple, nous arrivons à obtenir des vitesses de convergence pour le théorème central limite. Dans la dernière partie de cette thèse, nous utilisons un concept de topologie algébrique appelé homologie persistante afin d'améliorer l'étape de "pooling" dans l'approche "sac-de-mots" pour la reconnaissance de formes 3D
In this thesis, we study data analysis algorithms using random walks on neighborhood graphs, or random geometric graphs. It is known random walks on such graphs approximate continuous objects called diffusion processes. In the first part of this thesis, we use this approximation result to propose a new soft clustering algorithm based on the mode seeking framework. For our algorithm, we want to define clusters using the properties of a diffusion process. Since we do not have access to this continuous process, our algorithm uses a random walk on a random geometric graph instead. After proving the consistency of our algorithm, we evaluate its efficiency on both real and synthetic data. We then deal tackle the issue of the convergence of invariant measures of random walks on random geometric graphs. As these random walks converge to a diffusion process, we can expect their invariant measures to converge to the invariant measure of this diffusion process. Using an approach based on Stein's method, we manage to obtain quantitfy this convergence. Moreover, the method we use is more general and can be used to obtain other results such as convergence rates for the Central Limit Theorem. In the last part of this thesis, we use the concept of persistent homology, a concept of algebraic topology, to improve the pooling step of the bag-of-words approach for 3D shapes

APA, Harvard, Vancouver, ISO, and other styles

11

Ouksili, Hanane. "Exploration et interrogation de données RDF intégrant de la connaissance métier." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLV069.

Full text

Abstract:

Un nombre croissant de sources de données est publié sur le Web, décrites dans les langages proposés par le W3C tels que RDF, RDF(S) et OWL. Une quantité de données sans précédent est ainsi disponible pour les utilisateurs et les applications, mais l'exploitation pertinente de ces sources constitue encore un défi : l'interrogation des sources est en effet limitée d'abord car elle suppose la maîtrise d'un langage de requêtes tel que SPARQL, mais surtout car elle suppose une certaine connaissance de la source de données qui permet de cibler les ressources et les propriétés pertinentes pour les besoins spécifiques des applications. Le travail présenté ici s'intéresse à l'exploration de sources de données RDF, et ce selon deux axes complémentaires : découvrir d'une part les thèmes sur lesquels porte la source de données, fournir d'autre part un support pour l'interrogation d'une source sans l'utilisation de langage de requêtes, mais au moyen de mots clés. L'approche d'exploration proposée se compose ainsi de deux stratégies complémentaires : l'exploration thématique et la recherche par mots clés. La découverte de thèmes dans une source de données RDF consiste à identifier un ensemble de sous-graphes, non nécessairement disjoints, chacun représentant un ensemble cohérent de ressources sémantiquement liées et définissant un thème selon le point de vue de l'utilisateur. Ces thèmes peuvent être utilisés pour permettre une exploration thématique de la source, où les utilisateurs pourront cibler les thèmes pertinents pour leurs besoins et limiter l'exploration aux seules ressources composant les thèmes sélectionnés. La recherche par mots clés est une façon simple et intuitive d'interroger les sources de données. Dans le cas des sources de données RDF, cette recherche pose un certain nombre de problèmes, comme l'indexation des éléments du graphe, l'identification des fragments du graphe pertinents pour une requête spécifique, l'agrégation de ces fragments pour former un résultat, et le classement des résultats obtenus. Nous abordons dans cette thèse ces différents problèmes, et nous proposons une approche qui permet, en réponse à une requête mots clés, de construire une liste de sous-graphes et de les classer, chaque sous-graphe correspondant à un résultat pertinent pour la requête. Pour chacune des deux stratégies d'exploration d'une source RDF, nous nous sommes intéressés à prendre en compte de la connaissance externe, permettant de mieux répondre aux besoins des utilisateurs. Cette connaissance externe peut représenter des connaissances du domaine, qui permettent de préciser le besoin exprimé dans le cas d'une requête, ou de prendre en compte des connaissances permettant d'affiner la définition des thèmes. Dans notre travail, nous nous sommes intéressés à formaliser cette connaissance externe et nous avons pour cela introduit la notion de pattern. Ces patterns représentent des équivalences de propriétés et de chemins dans le graphe représentant la source. Ils sont évalués et intégrés dans le processus d'exploration pour améliorer la qualité des résultats
An increasing number of datasets is published on the Web, expressed in languages proposed by the W3C to describe Web data such as RDF, RDF(S) and OWL. The Web has become a unprecedented source of information available for users and applications, but the meaningful usage of this information source is still a challenge. Querying these data sources requires the knowledge of a formal query language such as SPARQL, but it mainly suffers from the lack of knowledge about the source itself, which is required in order to target the resources and properties relevant for the specific needs of the application. The work described in this thesis addresses the exploration of RDF data sources. This exploration is done according to two complementary ways: discovering the themes or topics representing the content of the data source, and providing a support for an alternative way of querying the data sources by using keywords instead of a query formulated in SPARQL. The proposed exploration approach combines two complementary strategies: thematic-based exploration and keyword search. Theme discovery from an RDF dataset consists in identifying a set of sub-graphs which are not necessarily disjoints, and such that each one represents a set of semantically related resources representing a theme according to the point of view of the user. These themes can be used to enable a thematic exploration of the data source where users can target the relevant theme and limit their exploration to the resources composing this theme. Keyword search is a simple and intuitive way of querying data sources. In the case of RDF datasets, this search raises several problems, such as indexing graph elements, identifying the relevant graph fragments for a specific query, aggregating these relevant fragments to build the query results, and the ranking of these results. In our work, we address these different problems and we propose an approach which takes as input a keyword query and provides a list of sub-graphs, each one representing a candidate result for the query. These sub-graphs are ordered according to their relevance to the query. For both keyword search and theme identification in RDF data sources, we have taken into account some external knowledge in order to capture the users needs, or to bridge the gap between the concepts invoked in a query and the ones of the data source. This external knowledge could be domain knowledge allowing to refine the user's need expressed by a query, or to refine the definition of themes. In our work, we have proposed a formalization to this external knowledge and we have introduced the notion of pattern to this end. These patterns represent equivalences between properties and paths in the dataset. They are evaluated and integrated in the exploration process to improve the quality of the result

APA, Harvard, Vancouver, ISO, and other styles

12

Badr, Georges. "Modèle théorique et outil de simulation pour une meilleure évaluation des claviers logiciels augmentés d'un système de prédiction de mots." Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1549/.

Full text

Abstract:

Les claviers logiciels se sont démocratisés pour rendre possible la saisie de textes en mobilité sur des dispositifs dépourvus de claviers physiques tels que les téléphones portables nouvelle génération. Cependant, ces claviers présentent plusieurs inconvénients comme la lenteur de la saisie et la fatigue engendrées pour les utilisateurs déficients moteurs. La solution intuitive était d'allier ces logiciels à des listes contenant les mots susceptibles de continuer la saisie d'un mot initié par l'utilisateur. Bien que ces listes, dites listes de prédiction, réduisent le nombre de clics et le nombre d'opérations, la vitesse de saisie de l'utilisateur a diminué. Une expérimentation outillée d'un système de suivi du regard a ainsi permis de déterminer des " stratégies " de fonctionnement de l'utilisateur face à une liste de mots. Ces résultats ont ainsi permis d'affiner les modèles de prédiction de manière à réduire l'écart séparant les performances prédites des performances réellement enregistrées. A partir des constats effectués lors de la première expérimentation, nous proposons deux variantes de l'utilisation des listes de prédiction de mots. La première propose un nouveau moyen d'interagir avec la liste de mots et permet ainsi de maximiser l'utilisation de celle-ci. La seconde évalue un repositionnement de la liste de mots de manière à réduire le nombre de mouvements oculaires vers la liste. Ces deux évolutions, évaluées théoriquement puis au moyen d'une expérimentation utilisateur, permettent ainsi d'améliorer les performances de saisie par rapport à une liste de prédiction de mots classique
Predictive model and simulation tool for a best evaluation of soft keyboard augmented by words prediction list The software keyboards are used to enable text input in mobility and for devices without physical keyboards, such as the new generation of mobile phones. However, these keyboards have several drawbacks such as slowness text entry and fatigue generated for motor impaired users. The solution was to combine software keyboard to lists containing the words likely to continue the word introduced by the user. While these lists, so-called prediction lists, reduce the number of clicks and the number of operations, the speed of user input has decreased. An experiment with an eye tracking system has identified the "strategies" of the user while using and searching a list of words. These results were helpful to refine the prediction models in order to reduce the gap between the performance predicted and the performance actually recorded. Based on observations made during the first experiment, we propose two variants of the use of word prediction list. The first proposes a new way to interact with the list of words and allows maximum use of it. The second evaluates a repositioning of the list of words in order to reduce the number of eye movements to the list. These two propositions were theoretically and experimentally evaluated by users. These software can improve the input performances compared with a classic word prediction list

APA, Harvard, Vancouver, ISO, and other styles

13

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00522278/en/.

Full text

Abstract:

La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.

APA, Harvard, Vancouver, ISO, and other styles

14

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM048.

Full text

Abstract:

La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle
This dissertation delves into the use of textual metadata for image understanding. We seek to exploit this additional textual information as weak supervision to improve the learning of recognition models. There is a recent and growing interest for methods that exploit such data because they can potentially alleviate the need for manual annotation, which is a costly and time-consuming process. We focus on two types of visual data with associated textual information. First, we exploit news images that come with descriptive captions to address several face related tasks, including face verification, which is the task of deciding whether two images depict the same individual, and face naming, the problem of associating faces in a data set to their correct names. Second, we consider data consisting of images with user tags. We explore models for automatically predicting tags for new images, i. E. Image auto-annotation, which can also used for keyword-based image search. We also study a multimodal semi-supervised learning scenario for image categorisation. In this setting, the tags are assumed to be present in both labelled and unlabelled training data, while they are absent from the test data. Our work builds on the observation that most of these tasks can be solved if perfectly adequate similarity measures are used. We therefore introduce novel approaches that involve metric learning, nearest neighbour models and graph-based methods to learn, from the visual and textual data, task-specific similarities. For faces, our similarities focus on the identities of the individuals while, for images, they address more general semantic visual concepts. Experimentally, our approaches achieve state-of-the-art results on several standard and challenging data sets. On both types of data, we clearly show that learning using additional textual information improves the performance of visual recognition systems

APA, Harvard, Vancouver, ISO, and other styles

15

Cappuzzo, Riccardo. "Deep learning models for tabular data curation." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS047.

Full text

Abstract:

La conservation des données est un sujet omniprésent et de grande envergure, qui touche tous les domaines, du monde universitaire à l'industrie. Les solutions actuelles reposent sur le travail manuel des utilisateurs du domaine, mais elles ne sont pas adaptées. Nous étudions comment appliquer l'apprentissage profond à la conservation des données tabulaires. Nous concentrons notre travail sur le développement de systèmes de curation de données non supervisés et sur la conception de systèmes de curation qui modélisent intrinsèquement les valeurs catégorielles dans leur forme brute. Nous implémentons d'abord EmbDI pour générer des embeddings pour les données tabulaires, et nous traitons les tâches de résolution d'entités et de correspondance de schémas. Nous passons ensuite au problème de l'imputation des données en utilisant des réseaux neuronaux graphiques dans un cadre d'apprentissage multi-tâches appelé GRIMP
Data retention is a pervasive and far-reaching topic, affecting everything from academia to industry. Current solutions rely on manual work by domain users, but they are not adequate. We are investigating how to apply deep learning to tabular data curation. We focus our work on developing unsupervised data curation systems and designing curation systems that intrinsically model categorical values in their raw form. We first implement EmbDI to generate embeddings for tabular data, and address the tasks of entity resolution and schema matching. We then turn to the data imputation problem using graphical neural networks in a multi-task learning framework called GRIMP

APA, Harvard, Vancouver, ISO, and other styles

16

Ramiandrisoa, Iarivony. "Extraction et fouille de données textuelles : application à la détection de la dépression, de l'anorexie et de l'agressivité dans les réseaux sociaux." Thesis, Toulouse 3, 2020. http://www.theses.fr/2020TOU30191.

Full text

Abstract:

Notre recherche porte essentiellement sur des tâches ayant une finalité applicative : détection de la dépression et de l'anorexie d'une part et détection de l'agressivité d'autre part ; cela à partir de messages postés par des utilisateurs de plates-formes de type réseaux sociaux. Nous avons également proposé une méthode non supervisée d'extraction de termes-clés. Notre première contribution porte sur l'extraction automatique de termes-clés dans des documents scientifiques ou articles de presse. Plus précisément, nous améliorons une méthode non supervisée à base de graphes. Nous avons évalué notre approche sur onze collections de données dont cinq contenant des documents longs, quatre contenants des documents courts et enfin deux contenant des documents de type article de presse. Nous avons montré que notre proposition permet d'améliorer les résultats dans certains contextes. La deuxième contribution de cette thèse est une solution pour la détection au plus tôt de la dépression et de l'anorexie. Nous avons proposé des modèles utilisant des classifieurs, s'appuyant sur la régression logistique ou les forêts d'arbres de décision, basés sur (a) des caractéristiques et (b) le plongement de phrases. Nous avons évalué nos modèles sur les collections de données de la tâche eRisk. Nous avons observé que les modèles basés sur les caractéristiques sont très performants lorsque la mesure de précision est considérée, soit pour la détection de la dépression, soit pour la détection de l'anorexie. Le modèle utilisant le plongement de phrases, quant à lui, est plus performant lorsque l'on mesure la détection au plus tôt (ERDE_50) et le rappel. Nous avons aussi obtenu de bons résultats par rapport à l'état de l'art : meilleurs résultats sur la précision et ERDE_50 pour la détection de la dépression, et sur la précision et le rappel pour la détection de l'anorexie. Notre dernière contribution concerne la détection de l'agression dans les messages postés par des utilisateurs sur les réseaux sociaux. Nous avons réutilisé les mêmes modèles que ceux utilisés pour la détection de la dépression ou de l'anorexie. À cela, nous avons ajouté d'autres modèles basés sur l'apprentissage profond. Nous avons évalué nos modèles sur les collections de données de la tâche internationale TRAC. Nous avons observé que nos modèles, utilisant l'apprentissage profond, fournissent de meilleurs résultats que nos modèles utilisant des classifieurs classiques. Nos résultats dans cette partie de la thèse sont comparables à l'état de l'art du domaine. Nous avons toutefois obtenu le meilleur résultat sur une des collections de données
Our research mainly focuses on tasks with an application purpose: depression and anorexia detection on the one hand and aggression detection on the other; this from messages posted by users on a social media platform. We have also proposed an unsupervised method of keyphrases extraction. These three pieces of work were initiated at different times during this thesis work. Our first contribution concerns the automatic keyphrases extraction from scientific documents or news articles. More precisely, we improve an unsupervised graph-based method to solve the weaknesses of graph-based methods by combining existing solutions. We evaluated our approach on eleven data collections including five containing long documents, four containing short documents and finally two containing news articles. We have shown that our proposal improves the results in certain contexts. The second contribution of this thesis is to provide a solution for early depression and anorexia detection. We proposed models that use classical classifiers, namely logistic regression and random forest, based on : (a) features and (b) sentence embedding. We evaluated our models on the eRisk data collections. We have observed that feature-based models perform very well on precision-oriented measures both for depression or anorexia detection. The model based on sentence embedding is more efficient on ERDE_50 and recall-oriented measures. We also obtained better results compared to the state-of-the-art on precision and ERDE_50 for depression detection, and on precision and recall for anorexia detection. Our last contribution is to provide an approach for aggression detection in messages posted by users on social networks. We reused the same models used for depression or anorexia detection to create models. We added other models based on deep learning approach. We evaluated our models on the data collections of TRAC shared task. We observed that our models using deep learning provide better results than our models using classical classifiers. Our results in this part of the thesis are in the middle (fifth or ninth results) compared to the competitors. We still got the best result on one of the data collections

APA, Harvard, Vancouver, ISO, and other styles

17

Arruda, Lima Katia. "Vers une éthique pour les médias numériques : défis entre le public et le privé : que faisons-nous en fin de compte avec les mots?" Thèse, Université de Sherbrooke, 2017. http://hdl.handle.net/11143/11623.

Full text

Abstract:

Notre problématique centrale concerne le défi éthico-discursif d’une communication qui soit appropriée aux sociétés démocratiques, sur la base de la distinction entre argumentation légitime (persuasion/appropriation) et manipulation (abus/violence). Dans un monde compris comme « globalisé », un tel défi rencontre le problème cognitiviste de traiter les dichotomies entre universel/contextuel, objectif/subjective, public/privé (etc.) dans notre vivre-ensemble, lequel se trouve maintenant largement médiatisé par les technologies numériques. Il faut noter également que tout ce qui vaut pour des actions, en général, vaut également pour la discussion en tant qu’action fondamentale et constitutive des sociétés humaines, où les interlocuteurs sont supposés s’exprimer ouvertement, ainsi que tenir bien compte de leurs points de vue réciproques afin d’arriver, d’une façon simultanément raisonnable et critique, à un accord en suivant une discussion critique (Habermas 1992). La communication légitime aurait ce pouvoir, malgré le défi du « paradoxe de l’argumentation » tel que souligné par Philippe Breton (2008), de dépasser les points de vue individuels des interlocuteurs, afin d’arriver à un résultat partagé qui consisterait en une intégration dans un tout universalisable (consensus – Apel 1994). (Ex.: la constitution d’un pays, les lois internationales comme la Carte des Droits Fondamentaux de l’Homme et qui sait, par la suite, une Magna Carta pour l’Internet.) Ces éléments, posés dans la première partie du texte, viennent nous préparer pour la seconde partie, consacrée à une éthique pour les médias numériques. Notre objectif est donc de lier une préoccupation d’éthique et de philosophie politique, incluant une préoccupation centrale pour l’argumentation, avec celle de la question des mécanismes dont nous disposons, ou devrions disposer, sur la question complexe et difficile de ce qu’on peut appeler l’éthique de la protection de la vie privée de la personne sur internet. Les premiers points sont traités dans la partie A, pour en venir à l’éthique des médias numériques dans la partie B. Conclusions :  Le paradigme proposé par l’éthique discursive offre une approche possible de la communication afin de la comprendre de façon moins réductionniste (c.-à-d., plus holistique), ce qui est mieux approprié à un monde qui se comprend de plus en plus comme « globalisé ».  La synthèse du modèle triadique « composé », selon Peirce-Mead-Grize-Breton, se présente comme un outil éclairant pour cette prise en compte, dans la mesure où elle fournir un cadre interprétatif et critique.  Selon ce cadre théorique on analyse les régulations au Canada et au Brésil, en utilisant le model triangulaire adapté du triangle argumentatif de Breton.  Une Magna Carta « universalisable » pour l’Internet devient une piste envisagée, en soulignant ces trois principes centraux: - neutralité de la toile; - protection de la liberté d’expression; - protection des données personnelles, liée au droit de la vie privée (« privacy »).
Abstract : We confront the tension between legitimacy vs. manipulation in persuasive discourse: the old tricky aporia of argumentation, dating back to the ancient Greeks when they first founded democracy. This has been more recently highlighted by Philippe Breton (2008) as the subtle “paradox of argumentation,” which concerns the dynamics of human language as a valuable hermeneutical enterprise, one susceptible to (mis) interpretations as well as to phenomena of critical dissent and controversies. Our main questions subsequently turn around the central concern of how we may promote democratic participation and discussion, in the era of the Internet, in ways that can work to motivate the improvement of our inter-subjective communicative performances in healthy and legitimate manners, instead of facilitating corruption via blunt censorship or other manipulative tricks. As we consider dialogue and argumentation to be the most crucial traits of the democratic enterprise, we also discuss the role played by American pragmatism to the nourishment of such democratic ideal. Particularly, we focus on the theoretical approaches proposed by Peirce and Mead concerning autonomy and reflexivity, not without mentioning its champion on education, John Dewey, whose works have all been preoccupied with the maintenance and development of the main axes for good functioning democratic societies, namely: education, science, and communication. To better reflect about this, we integrate into Breton’s triangle a Peirce-Mead semiotic “triadic” approach that supports autonomy, so as to propose a compounded model that is able to both encompass the rich possibilities of communication and, on the other hand, delimit as much as possible the range of interactive dialogism, peculiar to human language, so as to foster ethical (legitimate) exchanges. All these elements considered in Part A prepare the terrain for the subsequent considerations developed in Part B, regarding an ethics for digital media. Conclusions: • The paradigm proposed by Discourse Ethics, under the light of a semiotic approach on autonomy, reflexivity and the self, is suggested as a reliable theoretical framework of departure. • This has led us to a compounded ‘triadic’ model that incorporates the most relevant aspects from the views of Peirce, Mead, Grize and Breton. • Then, in Part B, concerning the challenges brought by Digital Media to contemporary societies, we conclude that the more of one’s privacy an individual is required to relinquish for governments and/or companies (no matter the reasons involved), the more transparency by those handling one’s sensitive information should be required to be provided, in return. • All this in order to prevent manipulation and abuses of power as much as possible, so as to keep a balanced ‘communicative triangle’ among interlocutors (according to the proposed triangular model), essential for democracies to be maintained and thrive, so as to rend possible the adoption of a Magna Carta for the Internet that would be globally acceptable and focused on the three main principles of: - net neutrality; - freedom of expression; - privacy protection.

APA, Harvard, Vancouver, ISO, and other styles

18

Dao, Ngoc Bich. "Réduction de dimension de sac de mots visuels grâce à l’analyse formelle de concepts." Thesis, La Rochelle, 2017. http://www.theses.fr/2017LAROS010/document.

Full text

Abstract:

La réduction des informations redondantes et/ou non-pertinentes dans la description de données est une étape importante dans plusieurs domaines scientifiques comme les statistiques, la vision par ordinateur, la fouille de données ou l’apprentissage automatique. Dans ce manuscrit, nous abordons la réduction de la taille des signatures des images par une méthode issue de l’Analyse Formelle de Concepts (AFC), qui repose sur la structure du treillis des concepts et la théorie des treillis. Les modèles de sac de mots visuels consistent à décrire une image sous forme d’un ensemble de mots visuels obtenus par clustering. La réduction de la taille des signatures des images consiste donc à sélectionner certains de ces mots visuels. Dans cette thèse, nous proposons deux algorithmes de sélection d’attributs (mots visuels) qui sont utilisables pour l’apprentissage supervisé ou non. Le premier algorithme, RedAttSansPerte, ne retient que les attributs qui correspondent aux irréductibles du treillis. En effet, le théorème fondamental de la théorie des treillis garantit que la structure du treillis des concepts est maintenue en ne conservant que les irréductibles. Notre algorithme utilise un graphe d’attributs, le graphe de précédence, où deux attributs sont en relation lorsque les ensembles d’objets à qui ils appartiennent sont inclus l’un dans l’autre. Nous montrons par des expérimentations que la réduction par l’algorithme RedAttsSansPerte permet de diminuer le nombre d’attributs tout en conservant de bonnes performances de classification. Le deuxième algorithme, RedAttsFloue, est une extension de l’algorithme RedAttsSansPerte. Il repose sur une version approximative du graphe de précédence. Il s’agit de supprimer les attributs selon le même principe que l’algorithme précédent, mais en utilisant ce graphe flou. Un seuil de flexibilité élevé du graphe flou entraîne mécaniquement une perte d’information et de ce fait une baisse de performance de la classification. Nous montrons par des expérimentations que la réduction par l’algorithme RedAttsFloue permet de diminuer davantage l’ensemble des attributs sans diminuer de manière significative les performances de classification
In several scientific fields such as statistics, computer vision and machine learning, redundant and/or irrelevant information reduction in the data description (dimension reduction) is an important step. This process contains two different categories : feature extraction and feature selection, of which feature selection in unsupervised learning is hitherto an open question. In this manuscript, we discussed about feature selection on image datasets using the Formal Concept Analysis (FCA), with focus on lattice structure and lattice theory. The images in a dataset were described as a set of visual words by the bag of visual words model. Two algorithms were proposed in this thesis to select relevant features and they can be used in both unsupervised learning and supervised learning. The first algorithm was the RedAttSansPerte, which based on lattice structure and lattice theory, to ensure its ability to remove redundant features using the precedence graph. The formal definition of precedence graph was given in this thesis. We also demonstrated their properties and the relationship between this graph and the AC-poset. Results from experiments indicated that the RedAttsSansPerte algorithm reduced the size of feature set while maintaining their performance against the evaluation by classification. Secondly, the RedAttsFloue algorithm, an extension of the RedAttsSansPerte algorithm, was also proposed. This extension used the fuzzy precedence graph. The formal definition and the properties of this graph were demonstrated in this manuscript. The RedAttsFloue algorithm removed redundant and irrelevant features while retaining relevant information according to the flexibility threshold of the fuzzy precedence graph. The quality of relevant information was evaluated by the classification. The RedAttsFloue algorithm is suggested to be more robust than the RedAttsSansPerte algorithm in terms of reduction

APA, Harvard, Vancouver, ISO, and other styles

19

Bui, Quang Anh. "Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes." Thesis, La Rochelle, 2015. http://www.theses.fr/2015LAROS010/document.

Full text

Abstract:

Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes
The objective of our thesis is to build an omni-language word retrieval system for scanned documents. We place ourselves in the context where the content of documents is homogenous and the prior knowledge about the document (the language, the writer, the writing style, etc.) is not known. Due to this system, user can freely and intuitively compose his/her query. With the query created by the user, he/she can retrieve words in homogenous documents of any language, without finding an occurrence of the word to search. The key of our proposed system is the invariants, which are writing pieces that frequently appeared in the collection of documents. The invariants can be used in query making process in which the user selects and composes appropriate invariants to make the query. They can be also used as structural descriptor to characterize word images in the retrieval process. We introduce in this thesis our method for automatically extracting invariants from document collection, our evaluation method for evaluating the quality of invariants and invariant’s applications in the query making process as well as in the retrieval process

APA, Harvard, Vancouver, ISO, and other styles

20

Marie, Damien. "Anatomie du gyrus de Heschl et spécialisation hémisphérique : étude d'une base de données de 430 sujets témoins volontaire sains." Thesis, Bordeaux 2, 2013. http://www.theses.fr/2013BOR22072/document.

Full text

Abstract:

Cette thèse concerne l’anatomie macroscopique des gyri de Heschl (GH) en relation avec la Préférence Manuelle (PM) et la Spécialisation Hémisphérique (SH) pour le langage étudiée dans une base de données multimodale dédiée à l’étude de la SH (la BIL&GIN), équilibrée pour le sexe et la PM. Le GH, situé à la surface du lobe temporal, abrite l’aire auditive primaire. Des études ont montré que le volume du GH est asymétrique gauche, et que le GH gauche (GHG) covarie avec les performances phonologiques et avec la quantité de cortex dévolu au traitement temporel des sons, suggérant une relation entre GHG et SH pour le langage. Pourtant l’anatomie des GH, très variable en terme de gyrification, est mal connue. Nous avons : 1- Décrit la distribution inter-hémisphérique de la gyrification des GH sur les images IRM anatomiques de 430 sujets. 2- Etudié les variations de surface et d’asymétrie du premier gyrus ou GH antérieur (GHa), montré sa diminution en présence de duplication et l’existence d’une asymétrie gauche pour les configurations les plus fréquentes avec GHG unique. Les gauchers présentaient moins de duplications droites et une perte de l’asymétrie gauche de GHa. 3- Testé si la variance de l’anatomie du GH expliquait la variabilité interindividuelle des asymétries mesurées en IRM fonctionnel pendant une tâche d’écoute de mots chez 281 sujets, et si les différences anatomiques liées à la PM étaient en relation avec une diminution de la SH pour le langage des gauchers. La distribution du nombre de GH expliquait 11% de la variance de l’asymétrie fonctionnelle du GH, les configurations à GHG unique étant les plus asymétriques gauches, sans effet de la PM sur la latéralisation fonctionnelle du GH
This thesis concerns the macroscopical anatomy of Heschl’s gyri (HG) in relation with Manual Preference (MP) and the Hemispheric Specialization (HS) for language studied in a multimodal database dedicated to the investigation of HS and balanced for sex and MP (BIL&GIN). HG, located on the surface of the temporal lobe, hosts the primary auditory cortex. Previous studies have shown that HG volume is leftward asymmetrical and that the left HG (LHG) covaries with phonological performance and with the amount of cortex dedicated to the processing of the temporal aspects of sounds, suggesting a relationship between LHG and HSL. However HG anatomy is highly variable and little known. In this thesis we have: 1- Described HG inter-hemispheric gyrification pattern on the anatomical MRI images of 430 healthy participants. 2- Studied the variation of the first or anterior HG (aHG) surface area and its asymmetry and shown its reduction in the presence of duplication and that its leftward asymmetry was present only in the case of a single LHG. Left-handers exhibited a lower incidence of right duplication and a loss of aHG leftward asymmetry. 3- Tested whether the variance of HG anatomy explained the interindividual variability of asymmetries measured with fMRI during the listening of a list of words in 281 participants, and whether differences in HG anatomy with MP were related to decreased HS for language in left-handers. HG inter-hemispheric gyrification pattern explained 11% of the variance of HG functional asymmetry, the patterns including a unique LHG being those with the strongest leftward asymmetry. There was no incidence of MP on HG functional lateralization

APA, Harvard, Vancouver, ISO, and other styles

21

Kooli, Nihel. "Rapprochement de données pour la reconnaissance d'entités dans les documents océrisés." Thesis, Université de Lorraine, 2016. http://www.theses.fr/2016LORR0108/document.

Full text

Abstract:

Cette thèse traite de la reconnaissance d'entités dans les documents océrisés guidée par une base de données. Une entité peut être, par exemple, une entreprise décrite par son nom, son adresse, son numéro de téléphone, son numéro TVA, etc. ou des méta-données d'un article scientifique tels que son titre, ses auteurs et leurs affiliations, le nom de son journal, etc. Disposant d'un ensemble d'entités structurées sous forme d'enregistrements dans une base de données et d'un document contenant une ou plusieurs de ces entités, nous cherchons à identifier les entités contenues dans le document en utilisant la base de données. Ce travail est motivé par une application industrielle qui vise l'automatisation du traitement des images de documents administratifs arrivant en flux continu. Nous avons abordé ce problème comme un problème de rapprochement entre le contenu du document et celui de la base de données. Les difficultés de cette tâche sont dues à la variabilité de la représentation d'attributs d'entités dans la base et le document et à la présence d'attributs similaires dans des entités différentes. À cela s'ajoutent les redondances d'enregistrements et les erreurs de saisie dans la base de données et l'altération de la structure et du contenu du document, causée par l'OCR. Devant ces problèmes, nous avons opté pour une démarche en deux étapes : la résolution d'entités et la reconnaissance d'entités. La première étape consiste à coupler les enregistrements se référant à une même entité et à les synthétiser dans un modèle entité. Pour ce faire, nous avons proposé une approche supervisée basée sur la combinaison de plusieurs mesures de similarité entre attributs. Ces mesures permettent de tolérer quelques erreurs sur les caractères et de tenir compte des permutations entre termes. La deuxième étape vise à rapprocher les entités mentionnées dans un document avec le modèle entité obtenu. Nous avons procédé par deux manières différentes, l'une utilise le rapprochement par le contenu et l'autre intègre le rapprochement par la structure. Pour le rapprochement par le contenu, nous avons proposé deux méthodes : M-EROCS et ERBL. M-EROCS, une amélioration/adaptation d'une méthode de l'état de l'art, consiste à faire correspondre les blocs de l'OCR avec le modèle entité en se basant sur un score qui tolère les erreurs d'OCR et les variabilités d'attributs. ERBL consiste à étiqueter le document par les attributs d'entités et à regrouper ces labels en entités. Pour le rapprochement par les structures, il s'agit d'exploiter les relations structurelles entre les labels d'une entité pour corriger les erreurs d'étiquetage. La méthode proposée, nommée G-ELSE, consiste à utiliser le rapprochement inexact de graphes attribués modélisant des structures locales, avec un modèle structurel appris pour cet objectif. Cette thèse étant effectuée en collaboration avec la société ITESOFT-Yooz, nous avons expérimenté toutes les étapes proposées sur deux corpus administratifs et un troisième corpus extrait du Web
This thesis focuses on entity recognition in documents recognized by OCR, driven by a database. An entity is a homogeneous group of attributes such as an enterprise in a business form described by the name, the address, the contact numbers, etc. or meta-data of a scientific paper representing the title, the authors and their affiliation, etc. Given a database which describes entities by its records and a document which contains one or more entities from this database, we are looking to identify entities in the document using the database. This work is motivated by an industrial application which aims to automate the image document processing, arriving in a continuous stream. We addressed this problem as a matching issue between the document and the database contents. The difficulties of this task are due to the variability of the entity attributes representation in the database and in the document and to the presence of similar attributes in different entities. Added to this are the record redundancy and typing errors in the database, and the alteration of the structure and the content of the document, caused by OCR. To deal with these problems, we opted for a two-step approach: entity resolution and entity recognition. The first step is to link the records referring to the same entity and to synthesize them in an entity model. For this purpose, we proposed a supervised approach based on a combination of several similarity measures between attributes. These measures tolerate character mistakes and take into account the word permutation. The second step aims to match the entities mentioned in documents with the resulting entity model. We proceeded by two different ways, one uses the content matching and the other integrates the structure matching. For the content matching, we proposed two methods: M-EROCS and ERBL. M-EROCS, an improvement / adaptation of a state of the art method, is to match OCR blocks with the entity model based on a score that tolerates the OCR errors and the attribute variability. ERBL is to label the document with the entity attributes and to group these labels into entities. The structure matching is to exploit the structural relationships between the entity labels to correct the mislabeling. The proposed method, called G-ELSE, is based on local structure graph matching with a structural model which is learned for this purpose. This thesis being carried out in collaboration with the ITESOFT-Yooz society, we have experimented all the proposed steps on two administrative corpuses and a third one extracted from the web

APA, Harvard, Vancouver, ISO, and other styles

22

Rihany, Mohamad. "Keyword Search and Summarization Approaches for RDF Dataset Exploration." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG030.

Full text

Abstract:

Un nombre croissant de sources de données sont publiées sur le web, exprimées dans les langages proposés par le W3C comme RDF, RDF (S) et OWL. Ces sources représentent un volume de données sans précédent disponible pour les utilisateurs et les applications. Afin d’identifier les sources les plus pertinentes et de les utiliser, il est nécessaire d’en connaître le contenu, par exemple au moyen de requêtes écrites en Sparql, le langage d’interrogation proposé par le W3C pour les sources de données RDF. Mais cela nécessite, en plus de la maîtrise du langage Sparql, de disposer de connaissances sur le contenu de la source en termes de ressources, classes ou propriétés qu’elle contient. L’objectif de ma thèse est d’étudier des approches permettant de fournir un support à l’exploration d’une source de données RDF. Nous avons proposé deux approches complémentaires, la recherche mots-clés et le résumé d’un graphe RDF.La recherche mots-clés dans un graphe RDF renvoie un ou plusieurs sous-graphes en réponse à une requête exprimée comme un ensemble de termes à rechercher. Chaque sous-graphe est l’agrégation d’éléments extraits du graphe initial, et représente une réponse possible à la requête constituée par un ensemble de mots-clés. Les sous-graphes retournés peuvent être classés en fonction de leur pertinence. La recherche par mot-clé dans des sources de données RDF soulève les problèmes suivants : (i) l’identification pour chaque mot-clé de la requête des éléments correspondants dans le graphe considéré, en prenant en compte les différences de terminologies existant entre les mots-clés et les termes utilisés dans le graphe RDF, (ii) la combinaison des éléments de graphes retournés pour construire un sous-graphe résultat en utilisant des algorithmes d’agrégation capable de déterminer la meilleure façon de relier les éléments du graphe correspondant à des mots-clés, et enfin (iii), comme il peut exister plusieurs éléments du graphe qui correspondent à un même mot-clé, et par conséquent plusieurs sous-graphes résultat, il s’agit d’évaluer la pertinence de ces sous-graphes par l’utilisation de métriques appropriées. Dans notre travail, nous avons proposé une approche de recherche par mot-clé qui apporte des solutions aux problèmes ci-dessus.Fournir une vue résumée d’un graphe RDF peut être utile afin de déterminer si ce graphe correspond aux besoins d’un utilisateur particulier en mettant en évidence ses éléments les plus importants ; une telle vue résumée peut faciliter l’exploration du graphe. Dans notre travail, nous avons proposé une approche de résumé originale fondée sur l’identification des thèmes sous-jacents dans un graphe RDF. Notre approche de résumé consiste à extraire ces thèmes, puis à construire le résumé en garantissant que tous les thèmes sont représentés dans le résultat. Cela pose les questions suivantes : (i) comment identifier les thèmes dans un graphe RDF ? (ii) quels sont les critères adaptés pour identifier les éléments les plus pertinents dans les sous-graphes correspondants à un thème ? (iii) comment connecter les éléments les plus pertinents pour créer le résumé d’une thème ? et enfin (iv) comment générer un résumé pour le graphe initial à partir des résumés de thèmes ? Dans notre travail, nous avons proposé une approche qui fournit des réponses à ces questions et qui produit une représentation résumée d’un graphe RDF garantissant que chaque thème y est représenté proportionnellement à son importance dans le graphe initial
An increasing number of datasets are published on the Web, expressed in the standard languages proposed by the W3C such as RDF, RDF (S), and OWL. These datasets represent an unprecedented amount of data available for users and applications. In order to identify and use the relevant datasets, users and applications need to explore them using queries written in SPARQL, a query language proposed by the W3C. But in order to write a SPARQL query, a user should not only be familiar with the query language but also have knowledge about the content of the RDF dataset in terms of the resources, classes or properties it contains. The goal of this thesis is to provide approaches to support the exploration of these RDF datasets. We have studied two alternative and complementary exploration techniques, keyword search and summarization of an RDF dataset. Keyword search returns RDF graphs in response to a query expressed as a set of keywords, where each resulting graph is the aggregation of elements extracted from the source dataset. These graphs represent possible answers to the keyword query, and they can be ranked according to their relevance. Keyword search in RDF datasets raises the following issues: (i) identifying for each keyword in the query the matching elements in the considered dataset, taking into account the differences of terminology between the keywords and the terms used in the RDF dataset, (ii) combining the matching elements to build the result by defining aggregation algorithms that find the best way of linking matching elements, and finally (iii), finding appropriate metrics to rank the results, as several matching elements may exist for each keyword and consequently several graphs may be returned. In our work, we propose a keyword search approach that addresses these issues. Providing a summarized view of an RDF dataset can help a user in identifying if this dataset is relevant to his needs, and in highlighting its most relevant elements. This could be useful for the exploration of a given dataset. In our work, we propose a novel summarization approach based on the underlying themes of a dataset. Our theme-based summarization approach consists of extracting the existing themes in a data source, and building the summarized view so as to ensure that all these discovered themes are represented. This raises the following questions: (i) how to identify the underlying themes in an RDF dataset? (ii) what are the suitable criteria to identify the relevant elements in the themes extracted from the RDF graph? (iii) how to aggregate and connect the relevant elements to create a theme summary? and finally, (iv) how to create the summary for the whole RDF graph from the generated theme summaries? In our work, we propose a theme-based summarization approach for RDF datasets which answers these questions and provides a summarized representation ensuring that each theme is represented proportionally to its importance in the initial dataset

APA, Harvard, Vancouver, ISO, and other styles

23

Lebboss, Georges. "Contribution à l’analyse sémantique des textes arabes." Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080046/document.

Full text

Abstract:

La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet
The Arabic language is poor in electronic semantic resources. Among those resources there is Arabic WordNet which is also poor in words and relationships.This thesis focuses on enriching Arabic WordNet by synsets (a synset is a set of synonymous words) taken from a large general corpus. This type of corpus does not exist in Arabic, so we had to build it, before subjecting it to a number of pretreatments.We developed, Gilles Bernard and myself, a method of word vectorization called GraPaVec which can be used here. I built a system which includes a module Add2Corpus, pretreatments, word vectorization using automatically generated frequency patterns, which yields a data matrix whose rows are the words and columns the patterns, each component representing the frequency of a word in a pattern.The word vectors are fed to the neural model Self Organizing Map (SOM) ;the classification produced constructs synsets. In order to validate the method, we had to create a gold standard corpus (there are none in Arabic for this area) from Arabic WordNet, and then compare the GraPaVec method with Word2Vec and Glove ones. The result shows that GraPaVec gives for this problem the best results with a F-measure 25 % higher than the others. The generated classes will be used to create new synsets to be included in Arabic WordNet

APA, Harvard, Vancouver, ISO, and other styles

24

Nguyen, Nhu Khoa. "Emerging Trend Detection in News Articles." Electronic Thesis or Diss., La Rochelle, 2023. http://www.theses.fr/2023LAROS003.

Full text

Abstract:

Dans le domaine de la finance, l'information joue un rôle extrêmement important dans la prise de décisions en matière d'investissement. En effet, une meilleure connaissance du contexte peut conduire à l'élaboration d'approches plus appropriées quant à la manière d'investir et à la valeur de l'investissement. En outre, être capable d'identifier les thématiques émergentes fait partie intégrante de ce domaine, car ceci peut aider à prendre de l'avance sur les autres investisseurs, et donc à obtenir des avantages concurrentiels considérables. Pour identifier les thèmes susceptibles d'émerger à l'avenir, des sources telles que les rapports financiers annuels, les données des marchés boursiers ou encore les résumés des réunions de la direction sont examinés par des experts financiers professionnels. Des sources d'information fiables provenant d'éditeurs de presse réputés peuvent également être utilisées pour détecter les thèmes émergents. Contrairement aux médias sociaux, les articles de ces éditeurs jouissent d'une crédibilité et d'une qualité élevées. Ainsi, lorsqu'ils sont analysés en grande quantité, il est probable que l'on découvre des informations dormantes/cachées sur les tendances ou ce qui peut devenir des tendances futures. Cependant, en raison de la grande quantité d'informations générées chaque jour, il est devenu plus exigeant et difficile d'analyser les données manuellement tout en détectant les tendances au plus vite. Notre recherche explore et analyse des données de différentes sources de qualité, telles que des résumés de publications scientifiques et un ensemble de données d'articles d'actualité fournis par Bloomberg, appelé Event-Driven Feed (EDF), afin d'expérimenter la détection des tendances émergentes. En raison de l'énorme quantité de données disponibles réparties sur de longues périodes de temps, elle encourage l'utilisation d'une approche contrastive pour mesurer la divergence entre le contexte environnant, passé et présent des mots et des phrases extraits, comparant ainsi la similarité entre les représentations vectorielles uniques de chaque intervalle pour découvrir des évolutions dans l'utilisation des termes qui peuvent conduire à la découverte d'une nouvelle tendance émergente. Les résultats expérimentaux révèlent que l'évaluation de l'évolution dans le temps du contexte des termes est susceptible de détecter les tendances critiques et les points d'émergence. On découvre également que l'évaluation de l'évolution du contexte sur une longue période est préférable à la simple comparaison des deux points les plus proches dans le temps
In the financial domain, information plays an utmost important role in making investment/business decisions as good knowledge can lead to crafting correct approaches in how to invest or if the investment is worth it. Moreover, being able to identify potential emerging themes/topics is an integral part of this field, since it can help get a head start over other investors, thus gaining a huge competitive advantage. To deduce topics that can be emerging in the future, data such as annual financial reports, stock market, and management meeting summaries are usually considered for review by professional financial experts. Reliable sources of information coming from reputable news publishers, can also be utilized for the purpose of detecting emerging themes. Unlike social media, articles from these publishers have high credibility and quality, thus when analyzed in large sums, it is likely to discover dormant/hidden information about trends or what can become future trends. However, due to the vast amount of information generated each day, it has become more demanding and difficult to analyze the data manually for the purpose of trend identification. Our research explores and analyzes data from different quality sources, such as scientific publication abstracts and a provided news article dataset from Bloomberg called Event-Driven Feed (EDF) to experiment on Emerging Trend Detection. Due to the enormous amount of available data spread over extended time periods, it encourages the use of contrastive approaches to measuring the divergence between past and present surrounding context of extracted words and phrases, thus comparing the similarity between unique vector representations of each interval to discover movement in word usage that can lead to the discovery of new trend. Experimental results reveal that the assessment of context change through time of selected terms is able to detect critical emerging trends and points of emergence. It is also discovered that assessing the evolution of context over a long time span is better than just contrasting the two most recent points in time

APA, Harvard, Vancouver, ISO, and other styles

25

Exibard, Léo. "Automatic synthesis of systems with data." Electronic Thesis or Diss., Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0312.

Full text

Abstract:

Nous interagissons régulièrement avec des machines qui réagissent en temps réel à nos actions (robots, sites web etc). Celles-ci sont modélisées par des systèmes réactifs, caractérisés par une interaction constante avec leur environnement. L'objectif de la synthèse réactive est de générer automatiquement un tel système à partir de la description de son comportement afin de remplacer la phase de développement bas-niveau, sujette aux erreurs, par l'élaboration d'une spécification haut-niveau.Classiquement, on suppose que les signaux d'entrée de la machine sont en nombre fini. Un tel cadre échoue à modéliser les systèmes qui traitent des données issues d'un ensemble infini (un identifiant unique, la valeur d'un capteur, etc). Cette thèse se propose d'étendre la synthèse réactive au cas des mots de données. Nous étudions un modèle adapté à ce cadre plus général, et examinons la faisabilité des problèmes de synthèse associés. Nous explorons également les systèmes non réactifs, où l'on n'impose pas à la machine de réagir en temps réel
We often interact with machines that react in real time to our actions (robots, websites etc). They are modelled as reactive systems, that continuously interact with their environment. The goal of reactive synthesis is to automatically generate a system from the specification of its behaviour so as to replace the error-prone low-level development phase by a high-level specification design.In the classical setting, the set of signals available to the machine is assumed to be finite. However, this assumption is not realistic to model systems which process data from a possibly infinite set (e.g. a client id, a sensor value, etc.). The goal of this thesis is to extend reactive synthesis to the case of data words. We study a model that is well-suited for this more general setting, and examine the feasibility of its synthesis problem(s). We also explore the case of non-reactive systems, where the machine does not have to react immediately to its inputs

APA, Harvard, Vancouver, ISO, and other styles

26

Ehrhart, Hélène. "Essais sur la composition des recettes fiscales dans les pays en développement." Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00638775.

Full text

Abstract:

Cette thèse s'intéresse à la composition des recettes fiscales dans les pays en développement et étudie ses déterminants et ses conséquences. La première partie analyse les facteurs d'économie politique qui influent sur la composition des recettes fiscales, en considérant l'impact de la multiplication des élections et de la démocratisation, tandis que la deuxième partie examine les conséquences des choix de composition des recettes fiscales en termes de stabilisation des recettes fiscales et de bien-être social. Plusieurs résultats émergent. Les élections ont une influence significative sur la composition des recettes fiscales puisque les recettes issues des taxes indirectes connaissent une baisse juste avant les élections (Chapitre 1). Ces manipulations visant à favoriser les réélections apparaissent plus modérées dans les pays où la démocratie est établie de plus longue date. De plus, le Chapitre 2 a établit que l'existence d'un régime politique plus démocratique, avec des contraintes sur l'exécutif fortes, permet d'accroître les recettes de fiscalité intérieure qui sont nécessaires pour pallier la baisse des recettes tarifaires. La seconde partie de la thèse révèle des résultats intéressants sur les effets de la composition des recettes fiscales sur la stabilisation des recettes fiscales et sur ses conséquences sociales. Le Chapitre 3 a souligné l'importance de la lutte contre l'instabilité des recettes fiscales dans la mesure où elle induit de l'instabilité des dépenses publiques ce qui affaiblit le niveau de l'investissement public. La contribution plus accrue des taxes sur la consommation aux recettes fiscales a été identifiée comme stabilisant les recettes fiscales. En outre, le chapitre 4 a démontré que la taxe sur la valeur ajoutée permet de réduire significativement l'instabilité des recettes fiscales dans les pays en développement l'ayant adoptée. L'incidence sociale des taxes sur la consommation a été comparée à celle des tarifs douaniers dans le Chapitre 5 et il apparaît que les tarifs douaniers sont plus régressifs que les taxes sur la consommation au Burkina Faso.

APA, Harvard, Vancouver, ISO, and other styles

27

Marchand, Morgane. "Domaines et fouille d'opinion : une étude des marqueurs multi-polaires au niveau du texte." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112026/document.

Full text

Abstract:

Cette thèse s’intéresse à l’adaptation d’un classifieur statistique d’opinion au niveau du texte d’un domaine à un autre. Cependant, nous exprimons notre opinion différemment selon ce dont nous parlons. Un même mot peut ne pas désigner pas la même chose ou bien ne pas avoir la même connotation selon le thème de la discussion. Si ces mots ne sont pas détectés, ils induiront des erreurs de classification.Nous appelons donc marqueurs multi-polaires des mots ou bigrammes dont la présence indique une certaine polarité du texte entier, différente selon le domaine du texte. Cette thèse est consacrées à leur étude. Ces marqueurs sont détectés à l’aide d’un test du khi2 lorsque l’on dispose d’annotations au niveau du texte dans les deux domaines d’intérêt. Nous avons également proposé une méthode de détection semi-supervisé. Nous utilisons une collections de mots pivots auto-épurés afin d’assurer une polarité stable d’un domaine à un autre.Nous avons également vérifié la pertinence linguistique des mots sélectionnés en organisant une campagne d’annotation manuelle. Les mots ainsi validés comme multi-polaires peuvent être des éléments de contexte, des mots exprimant ou expliquant une opinion ou bien désignant l’objet sur lequel l’opinion est portée. Notre étude en contexte a également mis en lumière trois causes principale de changement de polarité : le changement de sens, le changement d’objet et le changement d’utilisation.Pour finir, nous avons étudié l’influence de la détection des marqueurs multi-polaires sur la classification de l’opinion au niveau du texte par des classifieurs automatiques dans trois cas distincts : adaptation d’un domaine source à un domaine cible, corpus multi-domaine, corpus en domaine ouvert. Les résultats de ces expériences montrent que plus le transfert initial est difficile, plus la prise en compte des marqueurs multi-polaires peut améliorer la classification, allant jusqu’à plus cinq points d’exactitude
In this thesis, we are studying the adaptation of a text level opinion classifier across domains. Howerver, people express their opinion in a different way depending on the subject of the conversation. The same word in two different domains can refer to different objects or have an other connotation. If these words are not detected, they will lead to classification errors.We call these words or bigrams « multi-polarity marquers ». Their presence in a text signals a polarity wich is different according to the domain of the text. Their study is the subject of this thesis. These marquers are detected using a khi2 test if labels exist in both targeted domains. We also propose a semi-supervised detection method for the case with labels in only one domain. We use a collection of auto-epurated pivot words in order to assure a stable polarity accross domains.We have also checked the linguistic interest of the selected words with a manual evaluation campaign. The validated words can be : a word of context, a word giving an opinion, a word explaining an opinion or a word wich refer to the evaluated object. Our study also show that the causes of the changing polarity are of three kinds : changing meaning, changing object or changing use.Finally, we have studyed the influence of multi-polarity marquers on opinion classification at text level in three different cases : adaptation of a source domain to a target domain, multi-domain corpora and open domain corpora. The results of our experiments show that the potential improvement is bigger when the initial transfer was difficult. In the favorable cases, we improve accurracy up to five points

APA, Harvard, Vancouver, ISO, and other styles

28

Boroş, Emanuela. "Neural Methods for Event Extraction." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS302/document.

Full text

Abstract:

Du point de vue du traitement automatique des langues (TAL), l’extraction des événements dans les textes est la forme la plus complexe des processus d’extraction d’information, qui recouvrent de façon plus générale l’extraction des entités nommées et des relations qui les lient dans les textes. Le cas des événements est particulièrement ardu car un événement peut être assimilé à une relation n-aire ou à une configuration de relations. Alors que la recherche en extraction d’information a largement bénéficié des jeux de données étiquetés manuellement pour apprendre des modèles permettant l’analyse des textes, la disponibilité de ces ressources reste un problème important. En outre, de nombreuses approches en extraction d’information fondées sur l’apprentissage automatique reposent sur la possibilité d’extraire à partir des textes de larges en sembles de traits définis manuellement grâce à des outils de TAL élaborés. De ce fait, l’adaptation à un nouveau domaine constitue un défi supplémentaire. Cette thèse présente plusieurs stratégies pour améliorer la performance d’un système d’extraction d’événements en utilisant des approches fondées sur les réseaux de neurones et en exploitant les propriétés morphologiques, syntaxiques et sémantiques des plongements de mots. Ceux-ci ont en effet l’avantage de ne pas nécessiter une modélisation a priori des connaissances du domaine et de générer automatiquement un ensemble de traits beaucoup plus vaste pour apprendre un modèle. Nous avons proposé plus spécifiquement différents modèles d’apprentissage profond pour les deux sous-tâches liées à l’extraction d’événements : la détection d’événements et la détection d’arguments. La détection d’événements est considérée comme une sous-tâche importante de l’extraction d’événements dans la mesure où la détection d’arguments est très directement dépendante de son résultat. La détection d’événements consiste plus précisément à identifier des instances d’événements dans les textes et à les classer en types d’événements précis. En préalable à l’introduction de nos nouveaux modèles, nous commençons par présenter en détail le modèle de l’état de l’art qui en constitue la base. Des expériences approfondies sont menées sur l’utilisation de différents types de plongements de mots et sur l’influence des différents hyperparamètres du modèle en nous appuyant sur le cadre d’évaluation ACE 2005, standard d’évaluation pour cette tâche. Nous proposons ensuite deux nouveaux modèles permettant d’améliorer un système de détection d’événements. L’un permet d’augmenter le contexte pris en compte lors de la prédiction d’une instance d’événement (déclencheur d’événement) en utilisant un contexte phrastique, tandis que l’autre exploite la structure interne des mots en profitant de connaissances morphologiques en apparence moins nécessaires mais dans les faits importantes. Nous proposons enfin de reconsidérer la détection des arguments comme une extraction de relation d’ordre supérieur et nous analysons la dépendance de cette détection vis-à-vis de la détection d’événements
With the increasing amount of data and the exploding number data sources, the extraction of information about events, whether from the perspective of acquiring knowledge or from a more directly operational perspective, becomes a more and more obvious need. This extraction nevertheless comes up against a recurring difficulty: most of the information is present in documents in a textual form, thus unstructured and difficult to be grasped by the machine. From the point of view of Natural Language Processing (NLP), the extraction of events from texts is the most complex form of Information Extraction (IE) techniques, which more generally encompasses the extraction of named entities and relationships that bind them in the texts. The event extraction task can be represented as a complex combination of relations linked to a set of empirical observations from texts. Compared to relations involving only two entities, there is, therefore, a new dimension that often requires going beyond the scope of the sentence, which constitutes an additional difficulty. In practice, an event is described by a trigger and a set of participants in that event whose values are text excerpts. While IE research has benefited significantly from manually annotated datasets to learn patterns for text analysis, the availability of these resources remains a significant problem. These datasets are often obtained through the sustained efforts of research communities, potentially complemented by crowdsourcing. In addition, many machine learning-based IE approaches rely on the ability to extract large sets of manually defined features from text using sophisticated NLP tools. As a result, adaptation to a new domain is an additional challenge. This thesis presents several strategies for improving the performance of an Event Extraction (EE) system using neural-based approaches exploiting morphological, syntactic, and semantic properties of word embeddings. These have the advantage of not requiring a priori modeling domain knowledge and automatically generate a much larger set of features to learn a model. More specifically, we proposed different deep learning models for two sub-tasks related to EE: event detection and argument detection and classification. Event Detection (ED) is considered an important subtask of event extraction since the detection of arguments is very directly dependent on its outcome. ED specifically involves identifying instances of events in texts and classifying them into specific event types. Classically, the same event may appear as different expressions and these expressions may themselves represent different events in different contexts, hence the difficulty of the task. The detection of the arguments is based on the detection of the expression considered as triggering the event and ensures the recognition of the participants of the event. Among the difficulties to take into account, it should be noted that an argument can be common to several events and that it does not necessarily identify with an easily recognizable named entity. As a preliminary to the introduction of our proposed models, we begin by presenting in detail a state-of-the-art model which constitutes the baseline. In-depth experiments are conducted on the use of different types of word embeddings and the influence of the different hyperparameters of the model using the ACE 2005 evaluation framework, a standard evaluation for this task. We then propose two new models to improve an event detection system. One allows increasing the context taken into account when predicting an event instance by using a sentential context, while the other exploits the internal structure of words by taking advantage of seemingly less obvious but essentially important morphological knowledge. We also reconsider the detection of arguments as a high-order relation extraction and we analyze the dependence of arguments on the ED task

APA, Harvard, Vancouver, ISO, and other styles

29

Bose, Sougata. "On decision problems on word transducers with origin semantics." Thesis, Bordeaux, 2021. http://www.theses.fr/2021BORD0073.

Full text

Abstract:

La sémantique d'origine pour les transducteurs de mots a été introduite par Bojańczyk en 2014 afin d'obtenir une caractérisation indépendante de la machine pour les fonctions mot à mot définies par les transducteurs. Notre objectif principal était d'étudier certains problèmes de décision classiques pour les transducteurs dans la sémantique d'origine, tels que le problème d'inclusion et d'équivalence. Nous avons montré que ces problèmes deviennent décidables dans la sémantique d'origine, même si la version classique est indécidable.Motivé par l'observation que la sémantique d'origine est plus fine que la sémantique classique, nous avons défini les resynchroniseurs comme un moyen de décrire les distorsions d'origine et d'étudier les problèmes ci-dessus de manière relaxée. Nous avons étendu le modèle des resynchroniseurs rationnels, introduit par Filiot et al. pour les transducteurs unidirectionnels, aux resynchroniseurs réguliers, qui fonctionnent pour des classes de transducteurs plus grandes.Nous avons étudié les deux variantes du problème d’inclusion relative à une resynchronisation, qui demande si un transducteur est contenu dans un autre jusqu'à une distorsion spécifiée par un resynchroniseur. Nous avons montré que le problème peut être résolu lorsque le resynchroniseur fait partie de l'entrée. Lorsque le resynchroniseur n'est pas spécifié dans l'entrée, nous avons cherché à synthétiser un tel resynchroniseur, chaque fois que cela était possible. Nous appelons cela le problème de synthèse pour les resynchroniseurs et nous montrons qu'il est indécidable en général. Nous avons identifié quelques cas restreints où le problème devient décidable. Nous avons également étudié le problème de resynchronisabilité unidirectionnelle, qui demande si un transducteur bidirectionnel donné est resynchronisable dans un transducteur unidirectionnel, et nous avons montré que ce problème est également décidable
The origin semantics for word transducers was introduced by Bojańczyk in 2014 in order to obtain a machine-independent characterization for word-to-word functions defined by transducers. Our primary goal was to study some classical decision problems for transducers in the origin semantics, such as the containment and the equivalence problem. We showed that these problems become decidable in the origin semantics, even though the classical version is undecidable.Motivated by the observation that the origin semantics is more fine-grained than classical semantics, we defined resynchronizers as a way to describe distortions of origins, and to study the above problems in a more relaxed way. We extended the model of rational resynchronizers, introduced by Filiot et al. for one-way transducers, to regular resynchronizers, which work for larger classes of transducers.We studied the two variants of the containment up to resynchronizer problem, which asks if a transducer is contained in another up to a distortion specified by a resynchronizer. We showed that the problem is decidable when the resynchronizer is given as part of the input. When the resynchronizer is not specified in the input, we aimed to synthesize such a resynchronizer, whenever possible. We call this the synthesis problem for resynchronizers and show that it is undecidable in general. We identified some restricted cases when the problem becomes decidable. We also studied the one-way resynchronizability problem, which asks whether a given two-way transducer is resynchronizable in a one-way transducer, and showed that this problem is decidable as well

APA, Harvard, Vancouver, ISO, and other styles

30

Tran, Hoang Tung. "Automatic tag correction in videos : an approach based on frequent pattern mining." Thesis, Saint-Etienne, 2014. http://www.theses.fr/2014STET4028/document.

Full text

Abstract:

Nous présentons dans cette thèse un système de correction automatique d'annotations (tags) fournies par des utilisateurs qui téléversent des vidéos sur des sites de partage de documents multimédia sur Internet. La plupart des systèmes d'annotation automatique existants se servent principalement de l'information textuelle fournie en plus de la vidéo par les utilisateurs et apprennent un grand nombre de "classifieurs" pour étiqueter une nouvelle vidéo. Cependant, les annotations fournies par les utilisateurs sont souvent incomplètes et incorrectes. En effet, un utilisateur peut vouloir augmenter artificiellement le nombre de "vues" d'une vidéo en rajoutant des tags non pertinents. Dans cette thèse, nous limitons l'utilisation de cette information textuelle contestable et nous n'apprenons pas de modèle pour propager des annotations entre vidéos. Nous proposons de comparer directement le contenu visuel des vidéos par différents ensembles d'attributs comme les sacs de mots visuels basés sur des descripteurs SIFT ou des motifs fréquents construits à partir de ces sacs. Nous proposons ensuite une stratégie originale de correction des annotations basées sur la fréquence des annotations des vidéos visuellement proches de la vidéo que nous cherchons à corriger. Nous avons également proposé des stratégies d'évaluation et des jeux de données pour évaluer notre approche. Nos expériences montrent que notre système peut effectivement améliorer la qualité des annotations fournies et que les motifs fréquents construits à partir des sacs de motifs fréquents sont des attributs visuels pertinents
This thesis presents a new system for video auto tagging which aims at correcting the tags provided by users for videos uploaded on the Internet. Most existing auto-tagging systems rely mainly on the textual information and learn a great number of classifiers (on per possible tag) to tag new videos. However, the existing user-provided video annotations are often incorrect and incomplete. Indeed, users uploading videos might often want to rapidly increase their video’s number-of-view by tagging them with popular tags which are irrelevant to the video. They can also forget an obvious tag which might greatly help an indexing process. In this thesis, we limit the use this questionable textual information and do not build a supervised model to perform the tag propagation. We propose to compare directly the visual content of the videos described by different sets of features such as SIFT-based Bag-Of-visual-Words or frequent patterns built from them. We then propose an original tag correction strategy based on the frequency of the tags in the visual neighborhood of the videos. We have also introduced a number of strategies and datasets to evaluate our system. The experiments show that our method can effectively improve the existing tags and that frequent patterns build from Bag-Of-visual-Words are useful to construct accurate visual features

APA, Harvard, Vancouver, ISO, and other styles

31

Doucet, Antoine. "Extraction, Exploitation and Evaluation of Document-based Knowledge." Habilitation à diriger des recherches, Université de Caen, 2012. http://tel.archives-ouvertes.fr/tel-01070505.

Full text

Abstract:

Les travaux présentés dans ce mémoire gravitent autour du document numérique : Extraction de connaissances, utilisation de connaissances et évaluation des connaissances extraites, d'un point de vue théorique aussi bien qu'expérimental. Le fil directeur de mes travaux de recherche est la généricité des méthodes produites, avec une attention particulière apportée à la question du passage à l'échelle. Ceci implique que les algorithmes, principalement appliqués au texte dans ce mémoire, fonctionnent en réalité pour tout type de donnée séquentielle. Sur le matériau textuel, la généricité et la robustesse algorithmique des méthodes permettent d'obtenir des approches endogènes, fonctionnant pour toute langue, pour tout genre et pour tout type de document (et de collection de documents). Le matériau expérimental couvre ainsi des langues utilisant différents alphabets, et des langues appartenant à différentes familles linguistiques. Les traitements peuvent d'ailleurs être appliqués de la même manière au grain phrase, mot, ou même caractère. Les collections traitées vont des dépêches d'agence de presse aux ouvrages numérisés, en passant par les articles scientifiques. Ce mémoire présente mes travaux en fonction des différentes étapes du pipeline de traitement des documents, de leur appréhension à l'évaluation applicative. Le document est ainsi organisé en trois parties décrivant des contributions en : extraction de connaissances (fouille de données séquentielle et veille multilingue) ; exploitation des connaissances acquises, par des applications en recherche d'information, classification et détection de synonymes via un algorithme efficace d'alignement de paraphrases ; méthodologie d'évaluation des systèmes d'information dans un contexte de données massives, notamment l'évaluation des performances des systèmes de recherche d'information sur des bibliothèques numérisées.

APA, Harvard, Vancouver, ISO, and other styles

32

Firoozeh, Nazanin. "Semantic-oriented Recommandation for Content Enrichment." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD033.

Full text

Abstract:

Cette thèse présente une méthode originale permettant d’enrichir le contenu d'un document non structuré par rapport à un domaine d'intérêt à l’aide de techniques de traitement du langage naturel et de recherche d'information. Il s'agit de minimiser l'écart sémantique existant entre le document et le domaine considérés. La méthode s'appuie sur une collection d’enrichissement constituée automatiquement en lien avec le domaine d'intérêt et procède par extraction de mots-clés et détection de thèmes (topics). L’enrichissement est assuré par l'utilisateur à partir des thèmes désambiguïsés qui lui sont proposés, ceux-ci étant représentés par des ensembles discriminants de mots-clés sémantiquement pertinents et étiquetés avec des mots-clés représentatifs. La méthode d’enrichissement proposé a été appliquée à des pages web. Elle est robuste au bruit indépendant du domaine considéré et facile transporter dans différentes langues. Elle est pauvre en connaissances mais elle exploite les résultats de moteurs de recherche de manière optimisée. L'approche a été testée sur différentes langues. L'évaluation a été conduite sur le français et sur 10 domaines différents. Les résultats ont été évalués par des utilisateurs dans un contexte applicatif réel et par comparaison avec des approches de références. On observe une bonne précision des résultats et une bonne cohérence sémantique au sein de chaque thème, avec une amélioration significative par rapport aux méthodes d'extraction des mots-clé et de détection de thèmes de l'état de l'art
In this thesis, we aim at enriching the content of an unstructured document with respect to a domain of interest. The goal is to minimize the vocabulary and informational gap between the document and the domain. Such an enrichment which is based on Natural Language Processing and Information Retrieval technologies has several applications. As an example, flling in the gap between a scientifc paper and a collection of highly cited papers in a domain helps the paper to be better acknowledged by the community that refers to that collection. Another example is to fll in the gap between a web page and the usual keywords of visitors that are interested in a given domain so as it is better indexed and referred to in that domain, i.e. more accessible for those visitors. We propose a method to fll that gap. We first generate an enrichment collection, which consists of the important documents related to the domain of interest. The main information of the enrichment collection is then extracted, disambiguated and proposed to a user,who performs the enrichment. This is achieved by decomposing the problem into two main components of keyword extraction and topic detection. We present a comprehensive study over different approaches of each component. Using our findings, we propose approaches for extracting keywords from web pages, detecting their under lying topics, disambiguating them and returning the ones related to the domain of interest. The enrichment is performed by recommending discriminative sets of semantically relevant keywords, i.e. topics, to a user. The topics are labeled with representative keywords and have a level of granularity that is easily interpretable. Topic keywords are ranked by importance. This helps to control the length of the document, which needs to be enriched, by targeting the most important keywords of each topic. Our approach is robust to the noise in web pages. It is also knowledge-poor and domain-independent. It, however, exploits search engines for generating the required data but is optimized in the number of requests sent to them. In addition, the approach is easily tunable to different languages. We have implemented the keyword extraction approach in 12 languages and four of them have been tested over various domains. The topic detection approach has been implemented and tested on English and French. However, it is on French language that the approaches have been tested on a large scale : the keyword extraction on roughly 400 domains and the topic detection on 80 domains.To evaluate the performance of our enrichment approach, we focused on French and we performed different experiments on the proposed keyword extraction and topic detection methods. To evaluate their robustness, we studied them on 10 topically diverse domains.Results were evaluated through both user-based evaluations on a real application context and by comparing with baseline approaches. Our results on the keyword extraction approach showed that the statistical features are not adequate for capturing words importance within a web page. In addition, we found our proposed approach of keyword extraction to be effective when applied on real applications. The evaluations on the topic detection approach also showed that it can electively filter out the keywords which are not related to a target domain and that it labels the topics with representative and discriminative keywords. In addition, the approach achieved a high precision in preserving the semantic consistency of the keywords within each topic. We showed that our approach out performs a baseline approach, since the widely-used co-occurrence feature between keywords is notivenough for capturing their semantic similarity and consequently for detecting semantically consistent topics

APA, Harvard, Vancouver, ISO, and other styles

33

El, Aouad Sara. "Personalized, Aspect-based Summarization of Movie Reviews." Electronic Thesis or Diss., Sorbonne université, 2019. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2019SORUS019.pdf.

Full text

Abstract:

Les sites web de critiques en ligne aident les utilisateurs à décider quoi acheter ou quels hôtels choisir. Ces plateformes permettent aux utilisateurs d’exprimer leurs opinions à l’aide d’évaluations numériques et de commentaires textuels. Les notes numériques donnent une idée approximative du service. D'autre part, les commentaires textuels donnent des détails complets, ce qui est fastidieux à lire. Dans cette thèse, nous développons de nouvelles méthodes et algorithmes pour générer des résumés personnalisés de critiques de films, basés sur les aspects, pour un utilisateur donné. Le premier problème que nous abordons consiste à extraire un ensemble de mots liés à un aspect des critiques de films. Notre évaluation montre que notre méthode est capable d'extraire même des termes impopulaires qui représentent un aspect, tels que des termes composés ou des abréviations. Nous étudions ensuite le problème de l'annotation des phrases avec des aspects et proposons une nouvelle méthode qui annote les phrases en se basant sur une similitude entre la signature d'aspect et les termes de la phrase. Le troisième problème que nous abordons est la génération de résumés personnalisés, basés sur les aspects. Nous proposons un algorithme d'optimisation pour maximiser la couverture des aspects qui intéressent l'utilisateur et la représentativité des phrases dans le résumé sous réserve de contraintes de longueur et de similarité. Enfin, nous réalisons trois études d’utilisateur qui montrent que l’approche que nous proposons est plus performante que la méthode de pointe en matière de génération de résumés
Online reviewing websites help users decide what to buy or places to go. These platforms allow users to express their opinions using numerical ratings as well as textual comments. The numerical ratings give a coarse idea of the service. On the other hand, textual comments give full details which is tedious for users to read. In this dissertation, we develop novel methods and algorithms to generate personalized, aspect-based summaries of movie reviews for a given user. The first problem we tackle is extracting a set of related words to an aspect from movie reviews. Our evaluation shows that our method is able to extract even unpopular terms that represent an aspect, such as compound terms or abbreviations, as opposed to the methods from the related work. We then study the problem of annotating sentences with aspects, and propose a new method that annotates sentences based on a similarity between the aspect signature and the terms in the sentence. The third problem we tackle is the generation of personalized, aspect-based summaries. We propose an optimization algorithm to maximize the coverage of the aspects the user is interested in and the representativeness of sentences in the summary subject to a length and similarity constraints. Finally, we perform three user studies that show that the approach we propose outperforms the state of art method for generating summaries

APA, Harvard, Vancouver, ISO, and other styles

34

Julien, Robert. "Magmatologie des trois phases d'édification du massif du Mont-Dore (Massif Central, France) : données volcanologiques sur le site de Croizat." Paris 11, 1988. http://www.theses.fr/1988PA112092.

Full text

Abstract:

La série inferieure (4,7 à 3,0 m. A) constitue un volcan en bouclier à dominance basaltique. Un bombement du socle, bordé de dômes trachytiques et comenditiques, s'individualise vers 3,8 m. A. La série moyenne (3,0 à 1,5 mA) débute par une puissante émission de nappes de ponces rhyolitiques entrainant la formation de la caldeira de la Haute-Dordogne. Les lignées magmatiques, sursaturées et sous-saturées en silice qui s'individualisent par différenciation des basaltes et des hamites ne s'isolent l'une de l'autre que tardivement. Les ordanchites doivent leur sous-saturation à une contamination des magmas doreitiques par des fluides alumino-sodiques, peu avant leur arrivée en surface. La réactivation tectonique du s. E. De la caldeira amène la partie supérieure (1,5-0,2 m. A) essentiellement trachy-andesitique. Les paramètres fondamentaux gouvernant l'évolution magmatique des 3 cycles sont l'enrichissement en eau et en silice.

APA, Harvard, Vancouver, ISO, and other styles

35

Coste, Marion. "Une leçon de musique donnée aux mots : ruser avec les frontières dans l'œuvre de Michel Butor." Thesis, Sorbonne Paris Cité, 2015. http://www.theses.fr/2015USPCA109/document.

Full text

Abstract:

La musique a beaucoup influencé l’écriture de Michel Butor, dont les œuvres traduisent bien souvent dans l’art littéraire des structures musicales, comme celles du contrepoint (fugue, thème et variations), de la musique sérielle ou du jazz. Ce travail a l’ambition de montrer la métamorphose de ces structures musicales dans les textes, tout particulièrement complexe lorsqu’il s’agit de traduire la simultanéité inhérente à la polyphonie musicale.Cette pratique musicale de l’écriture bouleverse les structures littéraires conventionnelles, s’associant ainsi aux innovations caractéristiques du Nouveau Roman (changements fréquents de narrateur, fragmentation du récit) et proposant aussi de nouvelles contraintes qui mènent l’écriture à des formes inédites : concerts-conférences, formes mobiles, œuvres radiophoniques. Cela transforme aussi notre perception du temps, non plus linéaire mais cyclique, ainsi que nos habitudes de lecture en nous impliquant dans la construction de l’œuvre.Enfin, l’influence de la musique permet de créer ce que j’ai nommé des cosmos culturels, inventant des connexions entre des cultures éloignées les unes des autres dans le temps ou l’espace, dans un geste d’hospitalité et de générosité caractéristique de l’œuvre butorienne. L’écrivain propose souvent de voir dans cette hospitalité littéraire un modèle éthique, voire politique. Les différents genres littéraires pratiqués par Michel Butor sont étudiés à travers quelques œuvres qui témoignent des diverses modalités de l’influence musicale sur l’écriture de Michel Butor : le roman, les œuvres mobiles, les dialogues avec des œuvres d’art, l’opéra Votre Faust et les récits de rêve sont rapprochés de tendances musicales familières à l’écrivain
Music has much influenced the writing of Michel Butor whose works often translate musical structures into literary art. These can be the counterpoint (fugue, theme and variation), serial music or jazz. This way of working shows the metamorphosis of these musical structures in the texts, particularly complex when the writer has to translate the simultaneousness inherent in musical polyphony. This musical practise of writing upsets the conventional literary structures, thus associating with innovations which characterise the Nouveau Roman (frequent change of narrators, fragmentation of the narrative) and also proposing new constraints that lead the writing into novel forms: conference-concerts, mobile forms, radio works. This practise also modifies our reading habits, compelling the reader to be responsible for the construction of the work and our perception of time which is no longer linear but cyclical. Lastly, the influence of music enables to create what I have called cultural cosmoses, inventing connections between cultures usually isolated in time or space, in a gesture of hospitality and generosity which is characteristic of the works of Michel Butor. The writer sees this literary hospitality as an ethic, or politic model. The different literary genres practised by Michel Butor are studied through a few works which testify to the various modalities of the musical influence on the writing of Michel Butor: the novel, the mobile works, the dialogues with art works, the opera Your Faust and the narrations of dreams are related to the musical trends familiar to the the writer

APA, Harvard, Vancouver, ISO, and other styles

36

Lasserre, Marine. "De l'intrusion d'un lexique allogène : l'exemple des éléments néoclassiques." Thesis, Toulouse 2, 2016. http://www.theses.fr/2016TOU20012/document.

Full text

Abstract:

Les éléments empruntés au grec ancien ou au latin entrant dans les formations traditionnellement appelées composés néoclassiques sont souvent, dans la littérature, regroupés dans une même catégorie d’éléments. Cette thèse se concentre sur les formations impliquant onze éléments finaux (en français), logie, logue¬, cratie, crate, phobie, phobe, phone, phage, vore, cide et cole. Ces formations donnent lieu en français à de longues listes de lexèmes et semblent disponibles pour la création lexicale en dehors du vocabulaire savant. L’étude de ces éléments est effectuée dans le cadre de la Morphologie Constructionnelle (Booij 2010). Une base de données a été constituée pour analyser ces éléments : baptisée NεoClassy, elle regroupe les lexèmes formés au moyen de ces éléments finaux et récoltés dans des ressources dictionnairiques et sur la Toile. Les analyses effectuées sur cette base de données ont mis au jour des contraintes morphophonologiques et des contraintes sémantiques pesant sur ces formations. Une analyse distributionnelle a par ailleurs montré un comportement similaire entre certaines constructions néoclassiques de NεoClassy et les dérivés. Les schémas impliquant des éléments néoclassiques finaux et les schémas dans lesquels des éléments natifs finaux sont spécifiés sont intégrés dans un même modèle, sur la base de critères phonologiques, sémantiques et lexicaux. Les éléments néoclassiques ne font ainsi pas partie d’une classe homogène ; certains sont considérés comme des thèmes supplétifs de lexèmes quand d’autres ont un comportement similaire à celui des affixes
Such elements as those borrowed from Ancient Greek or Latin, which enter into so-called neoclassical compounds, are often, in the literature, grouped together in a unique class of elements. This dissertation focuses on formations that involve eleven French final elements logie, logue¬, cratie, crate, phobie, phobe, phone, phage, vore, cide and cole. In French, those constructions generatelarge sets of lexemes and appear to be available for lexical creation aside from learned vocabulary. The study of these elements is conducted within the framework of Constructed Morphology (Booij 2010). A database, called NεoClassy, was built in order to analyse these elements. It gathers the lexemes, formed with these final elements, which were collected in dictionaries and on the Web. The analyses that were conducted on this database have brought morpho-phonological, semantic and lexical constraints to light. A distributional analysis has also shown that some neoclassical constructions from NεoClassy and derivates have a similar behaviour. The schemas that involve final neoclassical elements and those in which native final elements are specified are integrated in a same model, on the basis of phonological, semantic and lexical criteria. Neoclassical elements do not constitute a homogeneous class: some are considered as suppletive stems of lexemes when others have a similar behaviour to that of affixes

APA, Harvard, Vancouver, ISO, and other styles

37

Deprez, Jean-François. "Estimation 3D de la déformation des tissus mous biologiques par traitement numérique des données ultrasonores radiofréquences." Lyon, INSA, 2008. http://theses.insa-lyon.fr/publication/2008ISAL0087/these.pdf.

Full text

Abstract:

Le but de l'èlastographie ultrasonore est de fournir aux praticiens hospitaliers une information relative à l'élasticité locale d'un milieu biologique. Ce type d'information présente en effet un intérêt fondamental en diagnostic clinique car les processus pathologiques sont souvent liés à des variations d'élasticité dans les tissus biologiques. L'élastographie dite« statique », domaine dans lequel s'inscrit ce travail, repose sur un principe simple de mécanique : sous l'action d'une même contrainte une zone molle se déforme davantage qu'une zone rigide. L'élasticité locale d'un milieu peut donc être révélée en imageant sa déformation sous l'action d'une contrainte. L'estimation de la déformation est réalisée par une analyse des signaux échographiques acquis avant et après compression du tissu, en mesurant les modifications induites par la contrainte. Jusqu'à récemment, les techniques de traitement du signal utilisées en élastographie étaient essentiellement des méthodes monodimensionnelles. Mais cette caractéristique s'avère trop limitative, car les milieux biologiques se déforment de manière tridimensionnelle. Si l'on ne tient pas compte du mouvement local 3D, la déformation estimée sera erronée. Elle le sera d'autant plus que la contrainte appliquée sera importante et que le milieu sera hétérogène. Dans le cadre de cette thèse, nous avons développé un modèle numérique 3D de traitement des données ultrasonores radiofréquences pour l'estimation de la déformation. L'algorithme développé a en particulier été appliqué à la détection précoce de l'escarre
Ultrasound elastography is now recognized as a promising technique for tissue characterization. Its aim is to provide information about the mechanical properties of soft biological tissues. Since many pathological processes, such as breast or prostate cancer, involve a significant change in tissue stiffness, this information may be of great help for clinicians. This thesis deals with static elastography, which investigates tissue deformation under an externalload. Ln practical terms, pairs of preand post-compression ultrasonic radio-frequency signals are acquired, and changes induced within the signals by the stress are analyze to compute a map of local strains. Accurately estimating the strain is one of the fundamental challenges in elastography, because the clinician's diagnosis will rely on these estimations. Since static elastography has appeared in the early 90s, mainly 1 D methods were developed, estimating the deformation along the US beam's propagation axis. But biological soft tissues are almost incompressible: tissue deformation due to the external static load is therefore three-dimensional. Ln such conditions, 1 D or 2D techniques may lead to insufficiently accurate estimations. That is why we propose in this thesis a 3D technique, designed to accurately estimate biological soft tissue deformation under load. This estimator is applied to pressure ulcer early detection

APA, Harvard, Vancouver, ISO, and other styles

38

Maitre, Julien. "Détection et analyse des signaux faibles. Développement d’un framework d’investigation numérique pour un service caché Lanceurs d’alerte." Thesis, La Rochelle, 2022. http://www.theses.fr/2022LAROS020.

Full text

Abstract:

Ce manuscrit s’inscrit dans le cadre du développement d’une plateforme d’analyse automatique de documents associée à un service sécurisé lanceurs d’alerte, de type GlobalLeaks. Nous proposons une chaine d’extraction à partir de corpus de document, d’analyse semi-automatisée et de recherche au moyen de requêtes Web pour in fine, proposer des tableaux de bord décrivant les signaux faibles potentiels. Nous identifions et levons un certain nombre de verrous méthodologiques et technologiques inhérents : 1) à l’analyse automatique de contenus textuels avec un minimum d’a priori, 2) à l’enrichissement de l’information à partir de recherches Web 3) à la visualisation sous forme de tableau de bord et d’une représentation dans un espace 3D interactif. Ces approches, statique et dynamique, sont appliquées au contexte du data journalisme, et en particulier, au traitement, analyse et hiérarchisation d’informations hétérogènes présentes dans des documents. Cette thèse propose également une étude de faisabilité et de prototypage par la mise en œuvre d’une chaine de traitement sous forme d’un logiciel. La construction de celui-ci a nécessité la caractérisation d’un signal faible pour lequel nous avons proposé une définition. Notre objectif est de fournir un outil paramétrable et générique à toute thématique. La solution que nous proposons repose sur deux approches : statique et dynamique. Dans l’approche statique, contrairement aux approches existantes nécessitant la connaissance de termes pertinents dans un domaine spécifique, nous proposons une solution s’appuyant sur des techniques nécessitant une intervention moindre de l’expert du domaine. Dans ce contexte, nous proposons une nouvelle approche de modélisation thématique multi-niveaux. Cette méthode d’approche conjointe combine une modélisation thématique, un plongement de mots et un algorithme où le recours à un expert du domaine permet d’évaluer la pertinence des résultats et d’identifier les thèmes porteurs de signaux faibles potentiels. Dans l’approche dynamique, nous intégrons une solution de veille à partir des signaux faibles potentiels trouvées dans les corpus initiaux et effectuons un suivi pour étudier leur évolution. Nous proposons donc une solution d’agent mining combinant data mining et système multi-agents où des agents animés par des forces d’attraction/répulsion représentant documents et mots se déplacent. La visualisation des résultats est réalisée sous forme de tableau de bord et de représentation dans un espace 3D interactif dans unclient Unity. Dans un premier temps, l’approche statique a été évaluée dans une preuve de concept sur des corpus synthétiques et réelles utilisés comme vérité terrain. L’ensemble de la chaine de traitement (approches statique et dynamique), mise en œuvre dans le logiciel WILD, est dans un deuxième temps appliquée sur des données réelles provenant de bases documentaires
This manuscript provides the basis for a complete chain of document analysis for a whistleblower service, such as GlobalLeaks. We propose a chain of semi-automated analysis of text document and search using websearch queries to in fine present dashboards describing weak signals. We identify and solve methodological and technological barriers inherent to : 1) automated analysis of text document with minimum a priori information,2) enrichment of information using web search 3) data visualization dashboard and 3D interactive environment. These static and dynamic approaches are used in the context of data journalism for processing heterogeneous types of information within documents. This thesis also proposed a feasibility study and prototyping by the implementation of a processing chain in the form of a software. This construction requires a weak signal definition. Our goal is to provide configurable and generic tool. Our solution is based on two approaches : static and dynamic. In the static approach, we propose a solution requiring less intervention from the domain expert. In this context, we propose a new approach of multi-leveltopic modeling. This joint approach combines topic modeling, word embedding and an algorithm. The use of a expert helps to assess the relevance of the results and to identify topics with weak signals. In the dynamic approach, we integrate a solution for monitoring weak signals and we follow up to study their evolution. Wetherefore propose and agent mining solution which combines data mining and multi-agent system where agents representing documents and words are animated by attraction/repulsion forces. The results are presented in a data visualization dashboard and a 3D interactive environment in Unity. First, the static approach is evaluated in a proof-of-concept with synthetic and real text corpus. Second, the complete chain of document analysis (static and dynamic) is implemented in a software and are applied to data from document databases

APA, Harvard, Vancouver, ISO, and other styles

39

Gkotse, Blerina. "Ontology-based Generation of Personalised Data Management Systems : an Application to Experimental Particle Physics." Thesis, Université Paris sciences et lettres, 2020. http://www.theses.fr/2020UPSLM017.

Full text

Abstract:

Ce travail de thèse vise à combler le fossé entre les domaines de la sémantique du Web et de la physique des particules expérimentales. En prenant comme cas d'utilisation un type spécifique d'expérience de physique, les expériences d'irradiation utilisées pour tester la résistance des composants au rayonnement, un modèle de domaine, ce qui, dans le domaine de la sémantique du Web, est appelé ontologie, a été créé pour décrire les principaux concepts de la gestion des données des expériences d'irradiation. Puis, en s'appuyant sur ce type de formalisation, une méthodologie a été conçue pour réaliser automatiquement la génération de systèmes de gestion de données fondés sur des ontologies ; elle a été utilisée pour générer des interfaces utilisateur pour l'ontologie IEDM introduite précédemment. Dans la dernière partie de ce travail de thèse, nous nous sommes penchés sur l'utilisation des préférences d'affichage des interfaces-utilisateur (UI), stockées en tant qu'instances d'une ontologie de description d'interfaces que nous avons développée pour enrichir IEDM. Nous introduisons une nouvelle méthode d'encodage de ces données, instances d'ontologie, en tant que vecteurs de plongement (``embeddings'') qui pourront être utilisés pour réaliser, à terme, des interfaces-utilisateur personnalisées
This thesis work aims at bridging the gap between the fields of Web Semantics and Experimental Particle Physics. Taking as a use case a specific type of physics experiments, namely the irradiation experiments used for assessing the resistance of components to radiation, a domain model, what in Web Semantics is called an ontology, has been created for describing the main concepts underlying the data management of irradiation experiments. Using such a formalisation, a methodology has been introduced for the automatic generation of data management systems based on ontologies and used to generate a web application for IEDM, the previously introduced ontology. In the last part of this thesis work, by the use of user-interface (UI) display preferences stored as instances of a UI-dedicated ontology we introduced, a method that represents these ontology instances as feature vectors (embeddings) for recommending personalised UIs is presented

APA, Harvard, Vancouver, ISO, and other styles

40

Warintarawej, Pattaraporn. "Automatic Analysis of Blend Words." Thesis, Montpellier 2, 2013. http://www.theses.fr/2013MON20020.

Full text

Abstract:

Mélanger des parties de mots est une façon qui peut sembler étonnante pour produire de nouvelles formes linguistiques. Cela est devenu une manière très utilisée pour inventer des noms pour le quotidien, les noms de marque, les noms utilisés dans les codes informatiques des logiciels, par exemple avec alicament (aliment and médicament), aspivenin (aspirer and venin). Il existe plusieurs façon de mélanger des mots pour en former d'autres, ce qui rend difficile l'analyse des mots produits. Dans cette thèse, nous nous proposons une approche d'analyse automatique des évocations de mots produits à l'aide de mélanges, en considérant des méthodes de classification de type top-k. Nous comparons trois méthodes d'analyse des parties d'un mot : n-grammes, syllabes et cellules morpho-phonologiques. Nous proposons deux algorithmes d'extraction des syllables ainsi que des méthodes d'évaluation.L'algorithme Enqualitum est proposé pour identifier les mots étant évoqués par le mot analysé. Notre proposition a été utilisée en particulier dans le domaine de l'analyse automatique en génie logiciel pour lequel nous avons proposé l'algorithme Sword pour produire un découpage pertinent des noms apparaissant dans les programmes. Les expérimentations ont démontré l'intérêt de nos propositions
Lexical blending is amazing in the sense of morphological productivity, involving the coinage of a new lexeme by fusing parts of at least two source words. Since new things need new words, blending has become a frequent productive word creation such as smog (smoke and fog), or alicament (aliment and médicament) (a French blend word), etc. The challenge is to design methods to discover how the first source word and the second source word are combined. The thesis aims at automatic analysis blend words in order to find the source words they evoke. The contributions of the thesis can divided into two main parts. First, the contribution to automatic blend word analysis, we develop top-k classification and its evaluation framework to predict concepts of blend words. We investigate three different features of words: character N-grams, syllables and morpho-phonological stems. Moreover, we propose a novel approach to automatically identify blend source words, named Enqualitum. The experiments are conducted on both synthetic French blend words and words from a French thesaurus. Second, the contribution to software engineering application, we apply the idea of learning character patterns of identifiers to predict concepts of source codes and also introduce a method to automate semantic context in source codes. The experiments are conducted on real identifier names from open source software packages. The results show the usefulness and the effectiveness of our proposed approaches

APA, Harvard, Vancouver, ISO, and other styles

41

Ait, Saada Mira. "Unsupervised learning from textual data with neural text representations." Electronic Thesis or Diss., Université Paris Cité, 2023. http://www.theses.fr/2023UNIP7122.

Full text

Abstract:

L'ère du numérique génère des quantités énormes de données non structurées telles que des images et des documents, nécessitant des méthodes de traitement spécifiques pour en tirer de la valeur. Les données textuelles présentent une difficulté supplémentaire car elles ne contiennent pas de valeurs numériques. Les plongements de mots sont des techniques permettant de transformer automatiquement du texte en données numériques, qui permettent aux algorithmes d'apprentissage automatique de les traiter. Les tâches non-supervisées sont un enjeu majeur dans l'industrie car elles permettent de créer de la valeur à partir de grandes quantités de données sans nécessiter une labellisation manuelle coûteuse. Cette thèse explore l'utilisation des modèles Transformeurs pour les tâches non-supervisées telles que la classification automatique, la détection d'anomalies et la visualisation de données. Elle propose également des méthodologies pour exploiter au mieux les modèles Transformeurs multicouches dans un contexte non-supervisé pour améliorer la qualité et la robustesse du clustering de documents tout en s'affranchissant du choix de la couche à utiliser et du nombre de classes. En outre, la thèse examine les méthodes de transfert d'apprentissage pour améliorer la qualité des modèles Transformeurs pré-entraînés sur une autre tâche en les utilisant pour la tâche de clustering. Par ailleurs, nous investiguons plus profondément dans cette thèse les modèles de langage "Transformers" et leur application au clustering en examinant en particulier les méthodes de transfert d'apprentissage qui consistent à réapprendre des modèles pré-entraînés sur une tâche différente afin d'améliorer leur qualité pour de futures tâches. Nous démontrons par une étude empirique que les méthodes de post-traitement basées sur la réduction de dimension sont plus avantageuses que les stratégies de réapprentissage proposées dans la littérature pour le clustering. Enfin, nous proposons un nouveau cadre de détection d'anomalies textuelles en français adapté à deux cas : celui où les données concernent une thématique précise et celui où les données ont plusieurs sous-thématiques. Dans les deux cas, nous obtenons des résultats supérieurs à l'état de l'art avec un temps de calcul nettement inférieur
The digital era generates enormous amounts of unstructured data such as images and documents, requiring specific processing methods to extract value from them. Textual data presents an additional challenge as it does not contain numerical values. Word embeddings are techniques that transform text into numerical data, enabling machine learning algorithms to process them. Unsupervised tasks are a major challenge in the industry as they allow value creation from large amounts of data without requiring costly manual labeling. In thesis we explore the use of Transformer models for unsupervised tasks such as clustering, anomaly detection, and data visualization. We also propose methodologies to better exploit multi-layer Transformer models in an unsupervised context to improve the quality and robustness of document clustering while avoiding the choice of which layer to use and the number of classes. Additionally, we investigate more deeply Transformer language models and their application to clustering, examining in particular transfer learning methods that involve fine-tuning pre-trained models on a different task to improve their quality for future tasks. We demonstrate through an empirical study that post-processing methods based on dimensionality reduction are more advantageous than fine-tuning strategies proposed in the literature. Finally, we propose a framework for detecting text anomalies in French adapted to two cases: one where the data concerns a specific topic and the other where the data has multiple sub-topics. In both cases, we obtain superior results to the state of the art with significantly lower computation time

APA, Harvard, Vancouver, ISO, and other styles

42

Morbieu, Stanislas. "Leveraging textual embeddings for unsupervised learning." Electronic Thesis or Diss., Université Paris Cité, 2020. http://www.theses.fr/2020UNIP5191.

Full text

Abstract:

Les données textuelles constituent un vivier d'information exploitable pour de nombreuses entreprises. En particulier, le web fournit une source quasiment inépuisable de données textuelles qui peuvent être utilisées à profit pour des systèmes de recommandation, de veille, de recherche d'information, etc. Les récentes avancées en traitement du langage naturel ont permit de capturer le sens des mots dans leur contexte afin d'améliorer les systèmes de traduction, de résumés, ou encore le regroupement de documents suivant des catégories prédéfinies. La majorité de ces applications reposent cependant souvent sur une intervention humaine non négligeable pour annoter des corpus : Elle consiste, par exemple, à fournir aux algorithmes des exemples d'affectation de catégories à des documents. L'algorithme apprend donc à reproduire le jugement humain et l'applique pour de nouveaux documents. L'objet de cette thèse est de tirer profit des dernières avancées qui capturent l'information sémantique du texte pour l'appliquer dans un cadre non supervisé. Les contributions s'articulent autour de trois axes principaux. Dans le premier, nous proposons une méthode pour transférer l'information capturée par un réseau neuronal pour de la classification croisée textuelle. Elle consiste à former simultanément des groupes de documents similaires et des groupes de mots cohérents. Ceci facilite l'interprétation d'un grand corpus puisqu'on peut caractériser des groupes de documents par des groupes de mots, résumant ainsi une grande volumétrie de texte. Plus précisément nous entraînons l'algorithme Paragraph Vectors sur un jeu de données augmenté en faisant varier les différents hyperparamètres, classifions les documents à partir des différentes représentations vectorielles obtenues et cherchons un consensus sur des différentes partitions. Une classification croisée contrainte de la matrice de co-occurrences termes-documents est ensuite appliquée pour conserver le partitionnement consensus obtenu. Cette méthode se révèle significativement meilleure en qualité de partitionnement des documents sur des corpus variés et a l'avantage de l'interprétation offerte par la classification croisée. Deuxièmement, nous présentons une méthode pour évaluer des algorithmes de classification croisée en exploitant des représentation vectorielles de mots appelées word embeddings. Il s’agit de vecteurs construits grâce à de gros volumes de textes, dont une caractéristique majeure est que deux mots sémantiquement proches ont des word embeddings proches selon une distance cosinus. Notre méthode permet de mesurer l'adéquation entre les partitions de documents et de mots, offrant ainsi de manière totalement non supervisée un indice de la qualité de la classification croisée. Troisièmement, nous proposons un système qui permet de recommander des petites annonces similaires lorsqu'on en consulte une. Leurs descriptions sont souvent courtes, syntaxiquement incorrectes, et l'utilisation de synonymes font qu'il est difficile pour des systèmes traditionnels de mesurer fidèlement la similarité sémantique. De plus, le fort renouvellement des annonces encore valides (produit non vendu) implique des choix permettant d’avoir un faible temps de calcul. Notre méthode, simple à implémenter, répond à ce cas d'usage et s'appuie de nouveau sur les word embeddings. L'utilisation de ceux-ci présente certains avantages mais impliquent également quelques difficultés : la création de tels vecteurs nécessite de choisir les valeurs de certains paramètres, et la différence entre le corpus sur lequel les word embeddings ont été construit et celui sur lequel ils sont utilisés fait émerger le problème des mots qui n'ont pas de représentation vectorielle. Nous présentons, pour palier ces problèmes, une analyse de l'impact des différents paramètres sur les word embeddings ainsi qu'une étude des méthodes permettant de traiter le problème de « mots en dehors du vocabulaire »
Textual data is ubiquitous and is a useful information pool for many companies. In particular, the web provides an almost inexhaustible source of textual data that can be used for recommendation systems, business or technological watch, information retrieval, etc. Recent advances in natural language processing have made possible to capture the meaning of words in their context in order to improve automatic translation systems, text summary, or even the classification of documents according to predefined categories. However, the majority of these applications often rely on a significant human intervention to annotate corpora: This annotation consists, for example in the context of supervised classification, in providing algorithms with examples of assigning categories to documents. The algorithm therefore learns to reproduce human judgment in order to apply it for new documents. The object of this thesis is to take advantage of these latest advances which capture the semantic of the text and use it in an unsupervised framework. The contributions of this thesis revolve around three main axes. First, we propose a method to transfer the information captured by a neural network for co-clustering of documents and words. Co-clustering consists in partitioning the two dimensions of a data matrix simultaneously, thus forming both groups of similar documents and groups of coherent words. This facilitates the interpretation of a large corpus of documents since it is possible to characterize groups of documents by groups of words, thus summarizing a large corpus of text. More precisely, we train the Paragraph Vectors algorithm on an augmented dataset by varying the different hyperparameters, classify the documents from the different vector representations and apply a consensus algorithm on the different partitions. A constrained co-clustering of the co-occurrence matrix between terms and documents is then applied to maintain the consensus partitioning. This method is found to result in significantly better quality of document partitioning on various document corpora and provides the advantage of the interpretation offered by the co-clustering. Secondly, we present a method for evaluating co-clustering algorithms by exploiting vector representations of words called word embeddings. Word embeddings are vectors constructed using large volumes of text, one major characteristic of which is that two semantically close words have word embeddings close by a cosine distance. Our method makes it possible to measure the matching between the partition of the documents and the partition of the words, thus offering in a totally unsupervised setting a measure of the quality of the co-clustering. Thirdly, we are interested in recommending classified ads. We present a system that allows to recommend similar classified ads when consulting one. The descriptions of classified ads are often short, syntactically incorrect, and the use of synonyms makes it difficult for traditional systems to accurately measure semantic similarity. In addition, the high renewal rate of classified ads that are still valid (product not sold) implies choices that make it possible to have low computation time. Our method, simple to implement, responds to this use case and is again based on word embeddings. The use of these has advantages but also involves some difficulties: the creation of such vectors requires choosing the values of some parameters, and the difference between the corpus on which the word embeddings were built upstream. and the one on which they are used raises the problem of out-of-vocabulary words, which have no vector representation. To overcome these problems, we present an analysis of the impact of the different parameters on word embeddings as well as a study of the methods allowing to deal with the problem of out-of-vocabulary words

APA, Harvard, Vancouver, ISO, and other styles

43

Dutoit, Denis. "Reconnaissance de mots isoles a travers le reseau telephonique." Paris, ENST, 1988. http://www.theses.fr/1988ENST0008.

Full text

Abstract:

Etude et evaluation de performance d'algorithmes de reconnaissance de mots isoles avec de la parole de qualie telephonique (programmation dynamique et modeles de markov). Realisation d'un serveur vocal sur le reseau telephonique

APA, Harvard, Vancouver, ISO, and other styles

44

Bessenay, Carole. "La gestion des données environnementales dans un espace naturel sensible : le système d'information géographique des Hautes-Chaumes foréziennes (Massif central)." Saint-Etienne, 1995. http://www.theses.fr/1995STET2024.

Full text

Abstract:

L'objet de cette recherche est de présenter et d'appliquer sur un territoire choisi les concepts et les potentialités offertes par les systèmes d'information géographique pour aider à comprendre les processus de fonctionnement et de transformation des milieux naturels. Le système d'information géographique des Hautes-Chaumes foréziennes souligne l'intérêt de l'informatisation des méthodes dites de "planification écologique" destinées à intégrer l'environnement au sein des pratiques d'aménagement par l'analyse des aptitudes ou des sensibilités spécifiques d'un milieu. Cette étude repose sur l'inventaire et la représentation cartographique des principales composantes naturelles et anthropiques caractérisant ce domaine : topographie, végétation, humidité, pratiques pastorales. . . La sélection d'un certain nombre de critères autorise ensuite la réalisation d'un diagnostic, fondé sur une approche pluridisciplinaire, qui souligne l'importante fragilité des Hautes-Chaumes. La confrontation de ce diagnostic avec un modèle d'évaluation de la fréquentation conduit alors à proposer un zonage des secteurs les plus vulnérables, à la fois fragiles et soumis à de fortes pressions. Cette analyse devrait ainsi inciter les responsables politiques à concevoir des mesures de gestion différentes selon les enjeux qui pèsent sur chacun des secteurs afin de concilier l'ensemble des usages anthropiques tout en respectant la fragilité de ce milieu naturel
The object of this research is to present and to apply to a specific territory the geographical information systems' concepts and potentialities that can help understand the functioning and evolution processes of natural spaces. The GIS of the "Hautes-Chaumes foreziennes" underlines the interest of a computerization of "ecological planning" methods whose aims are to integrate environment into management practices thanks to the analysis of the specific aptitudes or sensitivities of one space. This study is based on the inventory and the mapping ot the Hautes-Chaumes principal natural and human characteristics : topography, vegetation, humidity, pastoral activities. . . The selection of several criteria allows the elaboration of a pluridisciplinary diagnosis which underlines the important sensitivity of this area. This diagnosis is then compared with an evaluation model of anthropic frequenting in a way to define a zoning of the most vulnerable sectors, which are both sensitive and subject to important pressures. This analysis should urge politicians to conceive differentiated management measures related with the incentives at stake in each area in order to conciliate all anthropic activities while respecting the aptitudes of this natural space

APA, Harvard, Vancouver, ISO, and other styles

45

Bouchon, Camillia. "Asymétrie fonctionnelle entre consonnes et voyelles de la naissance à l'âge de 6 mois : données d'imagerie cérébrale et de comportement." Thesis, Paris 5, 2014. http://www.theses.fr/2014PA05H119.

Full text

Abstract:

Consonnes et voyelles sont les deux catégories de sons qui composent la parole. Elles se distinguent à divers niveaux et notamment servent des fonctions linguistiques différentes. Cette asymétrie consonne/voyelle établie chez les adultes, a conduit Nespor, Peña et Mehler (2003) à suggérer un partage du travail dès la naissance, les consonnes facilitant l'acquisition des mots tandis que les voyelles aideraient à apprendre les règles de grammaire. La validité développementale de cette hypothèse est explorée par l'étude de ses origines chez les bébés français. Premièrement, nos études d'imagerie cérébrale optique montrent que consonnes et voyelles sont également traitées par les mécanismes précurseurs de l'apprentissage syntaxique à la naissance (Exp. 1 - 3). Deuxièmement, nos études sur la reconnaissance du prénom chez les enfants de 5 mois montrent une sensibilité à une modification vocalique (Alix/Elix) chez les bébés monolingues, mais pas à une modification consonantique en position initiale (Victor/Zictor) chez les bébés monolingues et bilingues, ou finale chez les monolingues (Luca/Luga; Exp. 4 - 9). Au stade des premiers mots, le traitement lexical privilégie donc les voyelles. Nos résultats contribuent à la compréhension des origines développementales de l'asymétrie fonctionnelle consonne/voyelle, et du rôle spécifique de la langue native dans son émergence
Speech is composed of two categories of sound, i.e. consonants and vowels, which have different properties and serve different linguistic functions. This consonant/vowel asymmetry, which is established in adults, has led Nespor, Peña and Mehler (2003) to suggest a division of labor present from birth, whereby consonants would facilitate lexical acquisition while vowels would help to learn grammatical rules of language. We have explored the developmental validity of this hypothesis by studying its origins in French-learning infants. First, our optical brain imaging studies show that both consonants and vowels provide input for precursory mechanisms of syntax processing (Exp. 1 - 3). Secondly, our studies on own-name recognition at 5 months demonstrate sensitivity to a vowel mispronunciation in monolingual infants (Alix/Elix), but fail to show a reaction to a consonant mispronunciation in initial position (Victor/Zictor) for monolinguals and bilinguals, or in final position (Luca/Luga) for monolinguals (Exp. 4 - 9). Thus, vowels are a better input for lexical processing in first familiar words. Our results contribute to the understanding of the developmental origin of consonant/vowel functional asymmetry, hence the influence of the native input on its emergence

APA, Harvard, Vancouver, ISO, and other styles

46

Gong, Yifan. "Contribution à l'interprétation automatique des signaux en présence d'incertitude." Nancy 1, 1988. http://www.theses.fr/1988NAN10035.

Full text

Abstract:

Quatre aspects essentiels de l'interprétation sont abordés : l'édition et modélisation du signal ; la conversion du signal en symboles ; l'analyse de la structure du signal et l'architecture du système d'interprétation

APA, Harvard, Vancouver, ISO, and other styles

47

Reuter, Sylvain. "La stimulation bi-ventriculaire dans l'insuffisance cardiaque réfractaire : corrélation entre les données cliniques et hémodynamiques sur un suivi de huit mois." Bordeaux 2, 2000. http://www.theses.fr/2000BOR23075.

Full text

APA, Harvard, Vancouver, ISO, and other styles

48

Deprez, Jean-François Basset Olivier Brusseau Elisabeth. "Estimation 3D de la déformation des tissus mous biologiques par traitement numérique des données ultrasonores radiofréquences." Villeurbanne : Doc'INSA, 2009. http://docinsa.insa-lyon.fr/these/pont.php?id=deprez.

Full text

APA, Harvard, Vancouver, ISO, and other styles

49

Fath, Nour-Eddine. "Vers une homogénéisation en termes de données, justification et prétention, des propriétés argumentativo-illocutoires assciées au connecteur donc." Besançon, 1995. http://www.theses.fr/1995BESA1021.

Full text

Abstract:

Mon travail sur « donc » est composé de trois parties principales. La première partie à été consacrée à une description générale de ses emplois principaux, la deuxième à une analyse de ses propriétés argumentatives, et la troisième à une approche de ses valeurs illocutoires. La thèse principale, sur laquelle a débouché ce travail, peut être résumée comme suit : indépendamment de la perspective sous laquelle on considère les propriétés de donc, c'est-à-dire qu'il s'agisse d'une perspective argumentative ou illocutoire, la description du fonctionnement linguistique de donc me semble devoir a la base s'articuler sur trois concepts fondamentaux : 1) le concept de donnée : l'emploi d'un donc exploite nécessairement une donnée sur laquelle tout le monde est relativement d'accord. 2) le concept de justification : l'emploi d'un donc puise systématiquement sa légitimité dans la donnée qu'il exploite - légitimité qui repose plus précisément sur l'aspect communément accordé de la donnée exploitée. 3) le concept de prétention : le contenu associe à l'emploi d'un donc est, de par le caractère généralement admis de la donnée utilisée a des fins de justification, forcement prétendu - il n'implique pas immédiatement la conviction.

APA, Harvard, Vancouver, ISO, and other styles

50

Larnaudie, Bruno. "Codesign, architecture fonctionnelle de fusion et architecture capteurs pour l'identification de situations accidentogènes : application à la sécurisation de véhicules deux-roues." Paris 11, 2006. http://www.theses.fr/2006PA112234.

Full text

Abstract:

Cette thèse entre dans le cadre du projet SUreté MOTO RIsques, qui est issu du Programme National de Recherche et d’Innovation dans les Transports Terrestres, dont il a reçu le prix des Technologies pour la sécurité dans le cadre du carrefour à mi-parcours du PREDIT. La problématique du projet, et de cette thèse, est de démontrer la faisabilité d’un système de sécurité pour véhicule deux-roues. Pour répondre à cette problématique, nous avons réalisé l’instrumentation d’un véhicule deux-roues. Cette instrumentation est réalisée en deux parties, la première a consisté en une étude des capteurs adéquats à la dynamique du motocycle et en un placement le plus optimal possible de ceux-ci. La seconde partie de l’instrumentation a consisté en la réalisation d’un enregistreur multi-capteurs afin d’acquérir l’ensemble des capteurs du deux-roues. Cet enregistreur s’inscrit dans une démarche de Codesign qui a conduit à la réalisation d’une architecture bi-microcontrôleur. L’évaluation des performances a permis alors de garantir que notre enregistreur prenait en compte les contraintes temps réels inhérentes à notre application. L’ensemble de cette instrumentation a été testé avec succès lors d’une campagne de mesures où un cascadeur a effectué des chutes avec le deux-roues instrumenté. Cette campagne a permis d’acquérir une base de données accidentogènes (de plus de 70 expérimentations) probablement unique au monde. Le dépouillement de cette base, par recalage de scénarii, a permis de dégager les « signatures » de capteurs caractéristiques des trajectoires du motocycle ainsi que trois indicateurs qui permettent de détecter la chute, qui répondre ainsi à la problématique de cette thèse
This thesis was supported by SUMOTORI PREDIT project. This project has won the price of Technologies for safety. Both project and thesis are aimed to prove the feasibility of a safety system for two-wheeled vehicles. To solve these problems, we have realized the instrumentation of a two-wheeled vehicle. This instrumentation has been realized in two steps, the first one has consisted in a study of the adequate sensors to the dynamic of the motorbike and of the most optimal possible placement of those ones. The second part of the instrumentation has consisted in the realization of a multi-sensors recorder to acquire the whole sensors of the two-wheeled vehicle. This recorder falls within the scope of a Codesign reasoning, which has lead to achieve a dual-microcontroller architecture. The test bench of the recorder is in conformity with the real times constraint linked to our application. The whole instrumentation has been tested successfully, with a series of measurements. During this series, a stuntman fell with the instrumented two-wheeled vehicle. All these measurements constitute a data base of accidental situations (of more than 70 experiments), which is probably one of the first throughout the world. The examination of this database, in retiming all the scenarios experiments, have revealed “typical features” from sensors. These “typical features” from sensors are characteristic of the motorbike trajectories. The default of coherence of some “typical features” from sensors are good indicators about the falls of the motorbike. The three extracted indicators make it possible to detect the fall of the motorbike and thus answer the problematic of this thesis

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!