To see the other types of publications on this topic, follow the link: Traitement du Langage Naturel (NLP).

Dissertations / Theses on the topic 'Traitement du Langage Naturel (NLP)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Traitement du Langage Naturel (NLP).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Moncla, Ludovic. "Automatic Reconstruction of Itineraries from Descriptive Texts." Thesis, Pau, 2015. http://www.theses.fr/2015PAUU3029/document.

Full text
Abstract:
Cette thèse s'inscrit dans le cadre du projet PERDIDO dont les objectifs sont l'extraction et la reconstruction d'itinéraires à partir de documents textuels. Ces travaux ont été réalisés en collaboration entre le laboratoire LIUPPA de l'université de Pau et des Pays de l'Adour (France), l'équipe IAAA de l'université de Saragosse (Espagne) et le laboratoire COGIT de l'IGN (France). Les objectifs de cette thèse sont de concevoir un système automatique permettant d'extraire, dans des récits de voyages ou des descriptions d’itinéraires, des déplacements, puis de les représenter sur une carte. Nous proposons une approche automatique pour la représentation d'un itinéraire décrit en langage naturel. Notre approche est composée de deux tâches principales. La première tâche a pour rôle d'identifier et d'extraire les informations qui décrivent l'itinéraire dans le texte, comme par exemple les entités nommées de lieux et les expressions de déplacement ou de perception. La seconde tâche a pour objectif la reconstruction de l'itinéraire. Notre proposition combine l'utilisation d'information extraites grâce au traitement automatique du langage ainsi que des données extraites de ressources géographiques externes (comme des gazetiers). L'étape d'annotation d'informations spatiales est réalisée par une approche qui combine l'étiquetage morpho-syntaxique et des patrons lexico-syntaxiques (cascade de transducteurs) afin d'annoter des entités nommées spatiales et des expressions de déplacement ou de perception. Une première contribution au sein de la première tâche est la désambiguïsation des toponymes, qui est un problème encore mal résolu en NER et essentiel en recherche d'information géographique. Nous proposons un algorithme non-supervisé de géo-référencement basé sur une technique de clustering capable de proposer une solution pour désambiguïser les toponymes trouvés dans les ressources géographiques externes, et dans le même temps proposer une estimation de la localisation des toponymes non référencés. Nous proposons un modèle de graphe générique pour la reconstruction automatique d'itinéraires, où chaque noeud représente un lieu et chaque segment représente un chemin reliant deux lieux. L'originalité de notre modèle est qu'en plus de tenir compte des éléments habituels (chemins et points de passage), il permet de représenter les autres éléments impliqués dans la description d'un itinéraire, comme par exemple les points de repères visuels. Un calcul d'arbre de recouvrement minimal à partir d'un graphe pondéré est utilisé pour obtenir automatiquement un itinéraire sous la forme d'un graphe. Chaque segment du graphe initial est pondéré en utilisant une méthode d'analyse multi-critère combinant des critères qualitatifs et des critères quantitatifs. La valeur des critères est déterminée à partir d'informations extraites du texte et d'informations provenant de ressources géographique externes. Par exemple, nous combinons les informations issues du traitement automatique de la langue comme les relations spatiales décrivant une orientation (ex: se diriger vers le sud) avec les coordonnées géographiques des lieux trouvés dans les ressources pour déterminer la valeur du critère "relation spatiale". De plus, à partir de la définition du concept d'itinéraire et des informations utilisées dans la langue pour décrire un itinéraire, nous avons modélisé un langage d'annotation d'information spatiale adapté à la description de déplacements, s'appuyant sur les recommendations du consortium TEI (Text Encoding and Interchange). Enfin, nous avons implémenté et évalué les différentes étapes de notre approche sur un corpus multilingue de descriptions de randonnées (Français, Espagnol et Italien)
This PhD thesis is part of the research project PERDIDO, which aims at extracting and retrieving displacements from textual documents. This work was conducted in collaboration with the LIUPPA laboratory of the university of Pau (France), the IAAA team of the university of Zaragoza (Spain) and the COGIT laboratory of IGN (France). The objective of this PhD is to propose a method for establishing a processing chain to support the geoparsing and geocoding of text documents describing events strongly linked with space. We propose an approach for the automatic geocoding of itineraries described in natural language. Our proposal is divided into two main tasks. The first task aims at identifying and extracting information describing the itinerary in texts such as spatial named entities and expressions of displacement or perception. The second task deal with the reconstruction of the itinerary. Our proposal combines local information extracted using natural language processing and physical features extracted from external geographical sources such as gazetteers or datasets providing digital elevation models. The geoparsing part is a Natural Language Processing approach which combines the use of part of speech and syntactico-semantic combined patterns (cascade of transducers) for the annotation of spatial named entities and expressions of displacement or perception. The main contribution in the first task of our approach is the toponym disambiguation which represents an important issue in Geographical Information Retrieval (GIR). We propose an unsupervised geocoding algorithm that takes profit of clustering techniques to provide a solution for disambiguating the toponyms found in gazetteers, and at the same time estimating the spatial footprint of those other fine-grain toponyms not found in gazetteers. We propose a generic graph-based model for the automatic reconstruction of itineraries from texts, where each vertex represents a location and each edge represents a path between locations. %, combining information extracted from texts and information extracted from geographical databases. Our model is original in that in addition to taking into account the classic elements (paths and waypoints), it allows to represent the other elements describing an itinerary, such as features seen or mentioned as landmarks. To build automatically this graph-based representation of the itinerary, our approach computes an informed spanning tree on a weighted graph. Each edge of the initial graph is weighted using a multi-criteria analysis approach combining qualitative and quantitative criteria. Criteria are based on information extracted from the text and information extracted from geographical sources. For instance, we compare information given in the text such as spatial relations describing orientation (e.g., going south) with the geographical coordinates of locations found in gazetteers. Finally, according to the definition of an itinerary and the information used in natural language to describe itineraries, we propose a markup langugage for encoding spatial and motion information based on the Text Encoding and Interchange guidelines (TEI) which defines a standard for the representation of texts in digital form. Additionally, the rationale of the proposed approach has been verified with a set of experiments on a corpus of multilingual hiking descriptions (French, Spanish and Italian)
APA, Harvard, Vancouver, ISO, and other styles
2

Lauly, Stanislas. "Exploration des réseaux de neurones à base d'autoencodeur dans le cadre de la modélisation des données textuelles." Thèse, Université de Sherbrooke, 2016. http://hdl.handle.net/11143/9461.

Full text
Abstract:
Depuis le milieu des années 2000, une nouvelle approche en apprentissage automatique, l'apprentissage de réseaux profonds (deep learning), gagne en popularité. En effet, cette approche a démontré son efficacité pour résoudre divers problèmes en améliorant les résultats obtenus par d'autres techniques qui étaient considérées alors comme étant l'état de l'art. C'est le cas pour le domaine de la reconnaissance d'objets ainsi que pour la reconnaissance de la parole. Sachant cela, l’utilisation des réseaux profonds dans le domaine du Traitement Automatique du Langage Naturel (TALN, Natural Language Processing) est donc une étape logique à suivre. Cette thèse explore différentes structures de réseaux de neurones dans le but de modéliser le texte écrit, se concentrant sur des modèles simples, puissants et rapides à entraîner.
APA, Harvard, Vancouver, ISO, and other styles
3

Bourgeade, Tom. "Interprétabilité a priori et explicabilité a posteriori dans le traitement automatique des langues." Thesis, Toulouse 3, 2022. http://www.theses.fr/2022TOU30063.

Full text
Abstract:
Avec l'avènement des architectures Transformer en Traitement Automatique des Langues il y a quelques années, nous avons observé des progrès sans précédents dans diverses tâches de classification ou de génération de textes. Cependant, l'explosion du nombre de paramètres et de la complexité de ces modèles "boîte noire" de l'état de l'art, rendent de plus en plus évident le besoin désormais urgent de transparence dans les approches d'apprentissage automatique. La capacité d'expliquer, d'interpréter et de comprendre les décisions algorithmiques deviendra primordiale à mesure que les modèles informatiques deviennent de plus en plus présents dans notre vie quotidienne. En utilisant les méthodes de l'IA eXplicable (XAI), nous pouvons par exemple diagnostiquer les biais dans des ensembles de données, des corrélations erronées qui peuvent au final entacher le processus d'apprentissage des modèles, les conduisant à apprendre des raccourcis indésirables, ce qui pourrait conduire à des décisions algorithmiques injustes, incompréhensibles, voire risquées. Ces modes d'échec de l'IA peuvent finalement éroder la confiance que les humains auraient pu placer dans des applications bénéfiques. Dans ce travail, nous explorons plus spécifiquement deux aspects majeurs de l'XAI, dans le contexte des tâches et des modèles de Traitement Automatique des Langues : dans la première partie, nous abordons le sujet de l'interprétabilité intrinsèque, qui englobe toutes les méthodes qui sont naturellement faciles à expliquer. En particulier, nous nous concentrons sur les représentations de plongement de mots, qui sont une composante essentielle de pratiquement toutes les architectures de TAL, permettant à ces modèles mathématiques de manipuler le langage humain d'une manière plus riche sur le plan sémantique. Malheureusement, la plupart des modèles qui génèrent ces représentations les produisent d'une manière qui n'est pas interprétable par les humains. Pour résoudre ce problème, nous expérimentons la construction et l'utilisation de modèles de plongement de mots interprétables, qui tentent de corriger ce problème, en utilisant des contraintes qui imposent l'interprétabilité de ces représentations. Nous utilisons ensuite ces modèles, dans une configuration nouvelle, simple mais efficace, pour tenter de détecter des corrélations lexicales, erronées ou non, dans certains ensembles de données populaires en TAL. Dans la deuxième partie, nous explorons les méthodes d'explicabilité post-hoc, qui peuvent cibler des modèles déjà entraînés, et tenter d'extraire diverses formes d'explications de leurs décisions. Ces méthodes peuvent aller du diagnostic des parties d'une entrée qui étaient les plus pertinentes pour une décision particulière, à la génération d'exemples adversariaux, qui sont soigneusement conçus pour aider à révéler les faiblesses d'un modèle. Nous explorons un nouveau type d'approche, en partie permis par les architectures Transformer récentes, très performantes mais opaques : au lieu d'utiliser une méthode distincte pour produire des explications des décisions d'un modèle, nous concevons et mettons au point une configuration qui apprend de manière jointe à exécuter sa tâche, tout en produisant des explications en langage naturel en forme libre de ses propres résultats. Nous évaluons notre approche sur un ensemble de données de grande taille annoté avec des explications humaines, et nous jugeons qualitativement certaines des explications générées par notre approche
With the advent of Transformer architectures in Natural Language Processing a few years ago, we have observed unprecedented progress in various text classification or generation tasks. However, the explosion in the number of parameters, and the complexity of these state-of-the-art blackbox models, is making ever more apparent the now urgent need for transparency in machine learning approaches. The ability to explain, interpret, and understand algorithmic decisions will become paramount as computer models start becoming more and more present in our everyday lives. Using eXplainable AI (XAI) methods, we can for example diagnose dataset biases, spurious correlations which can ultimately taint the training process of models, leading them to learn undesirable shortcuts, which could lead to unfair, incomprehensible, or even risky algorithmic decisions. These failure modes of AI, may ultimately erode the trust humans may have otherwise placed in beneficial applications. In this work, we more specifically explore two major aspects of XAI, in the context of Natural Language Processing tasks and models: in the first part, we approach the subject of intrinsic interpretability, which encompasses all methods which are inherently easy to produce explanations for. In particular, we focus on word embedding representations, which are an essential component of practically all NLP architectures, allowing these mathematical models to process human language in a more semantically-rich way. Unfortunately, many of the models which generate these representations, produce them in a way which is not interpretable by humans. To address this problem, we experiment with the construction and usage of Interpretable Word Embedding models, which attempt to correct this issue, by using constraints which enforce interpretability on these representations. We then make use of these, in a simple but effective novel setup, to attempt to detect lexical correlations, spurious or otherwise, in some popular NLP datasets. In the second part, we explore post-hoc explainability methods, which can target already trained models, and attempt to extract various forms of explanations of their decisions. These can range from diagnosing which parts of an input were the most relevant to a particular decision, to generating adversarial examples, which are carefully crafted to help reveal weaknesses in a model. We explore a novel type of approach, in parts allowed by the highly-performant but opaque recent Transformer architectures: instead of using a separate method to produce explanations of a model's decisions, we design and fine-tune an architecture which jointly learns to both perform its task, while also producing free-form Natural Language Explanations of its own outputs. We evaluate our approach on a large-scale dataset annotated with human explanations, and qualitatively judge some of our approach's machine-generated explanations
APA, Harvard, Vancouver, ISO, and other styles
4

Michalon, Olivier. "Modèles statistiques pour la prédiction de cadres sémantiques." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0221/document.

Full text
Abstract:
En traitement automatique de la langue, les différentes étapes d'analyse usuelles ont tour à tour amélioré la façon dont le langage peut être modélisé par les machines. Une étape d'analyse encore mal maîtrisée correspond à l'analyse sémantique. Ce type d'analyse permettrait de nombreuses avancées, telles que de meilleures interactions homme-machine ou des traductions plus fiables. Il existe plusieurs structures de représentation du sens telles que PropBank, les AMR et FrameNet. FrameNet correspond à la représentation en cadres sémantiques dont la théorie a été décrite par Charles Fillmore. Dans cette théorie, chaque situation prototypique et les différents éléments y intervenant sont représentés de telle sorte que deux situations similaires soient représentées par le même objet, appelé cadre sémantique. Le projet FrameNet est une application de cette théorie, dans laquelle plusieurs centaines de situations prototypiques sont définies. Le travail que nous décrirons ici s'inscrit dans la continuité des travaux déjà élaborés pour prédire automatiquement des cadres sémantiques. Nous présenterons quatre systèmes de prédiction, chacun ayant permis de valider une hypothèse sur les propriétés nécessaires à une prédiction efficace. Nous verrons également que notre analyse peut être améliorée en fournissant aux modèles de prédiction des informations raffinées au préalable, avec d'un côté une analyse syntaxique dont les liens profonds sont explicités et de l'autre des représentations vectorielles du vocabulaire apprises au préalable
In natural language processing, each analysis step has improved the way in which language can be modeled by machines. Another step of analysis still poorly mastered resides in semantic parsing. This type of analysis can provide information which would allow for many advances, such as better human-machine interactions or more reliable translations. There exist several types of meaning representation structures, such as PropBank, AMR and FrameNet. FrameNet corresponds to the frame semantic framework whose theory has been described by Charles Fillmore (1971). In this theory, each prototypical situation and each different elements involved are represented in such a way that two similar situations are represented by the same object, called a semantic frame. The work that we will describe here follows the work already developed for machine prediction of frame semantic representations. We will present four prediction systems, and each one of them allowed to validate another hypothesis on the necessary properties for effective prediction. We will show that semantic parsing can also be improved by providing prediction models with refined information as input of the system, with firstly a syntactic analysis where deep links are made explicit and secondly vectorial representations of the vocabulary learned beforehand
APA, Harvard, Vancouver, ISO, and other styles
5

Cousot, Kévin. "Inférences et explications dans les réseaux lexico-sémantiques." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS108.

Full text
Abstract:
Grâce à la démocratisation des nouvelles technologies de communications nous disposons d'une quantité croissante de ressources textuelles, faisant du Traitement Automatique du Langage Naturel (TALN) une discipline d'importance cruciale tant scientifiquement qu'industriellement. Aisément disponibles, ces données offrent des opportunités sans précédent et, de l'analyse d'opinion à la recherche d'information en passant par l’analyse sémantique de textes les applications sont nombreuses.On ne peut cependant aisément tirer parti de ces données textuelles dans leur état brut et, en vue de mener à bien de telles tâches il semble indispensable de posséder des ressources décrivant les connaissances sémantiques, notamment sous la forme de réseaux lexico-sémantiques comme par exemple celui du projet JeuxDeMots. La constitution et la maintenance de telles ressources restent cependant des opérations difficiles, de part leur grande taille mais aussi à cause des problèmes de polysémie et d’identification sémantique. De plus, leur utilisation peut se révéler délicate car une part significative de l'information nécessaire n'est pas directement accessible dans la ressource mais doit être inférée à partir des données du réseau lexico-sémantique.Nos travaux cherchent à démontrer que les réseaux lexico-sémantiques sont, de par leur nature connexionniste, bien plus qu'une collection de faits bruts et que des structures plus complexes telles que les chemins d’interprétation contiennent davantage d'informations et permettent d'accomplir de multiples opérations d'inférences. En particulier, nous montrerons comment utiliser une base de connaissance pour fournir des explications à des faits de haut niveau. Ces explications permettant a minima de valider et de mémoriser de nouvelles informations.Ce faisant, nous pouvons évaluer la couverture et la pertinence des données de la base ainsi que la consolider. De même, la recherche de chemins se révèle utile pour des problèmes de classification et de désambiguïsation, car ils sont autant de justifications des résultats calculés.Dans le cadre de la reconnaissance d'entité nommées, ils permettent aussi bien de typer les entités et de les désambiguïser (l'occurrence du terme Paris est-il une référence à la ville, et laquelle, ou à une starlette ?) en mettant en évidence la densité des connexions entre les entités ambiguës, leur contexte et leur type éventuel.Enfin nous proposons de tourner à notre avantage la taille importante du réseau JeuxDeMots pour enrichir la base de nouveaux faits à partir d'un grand nombre d'exemples comparables et par un processus d'abduction sur les types de relations sémantiques pouvant connecter deux termes donnés. Chaque inférence s’accompagne d’explications pouvant être validées ou invalidées offrant ainsi un processus d’apprentissage
Thanks to the democratization of new communication technologies, there is a growing quantity of textual resources, making Automatic Natural Language Processing (NLP) a discipline of crucial importance both scientifically and industrially. Easily available, these data offer unprecedented opportunities and, from opinion analysis to information research and semantic text analysis, there are many applications.However, this textual data cannot be easily exploited in its raw state and, in order to carry out such tasks, it seems essential to have resources describing semantic knowledge, particularly in the form of lexico-semantic networks such as that of the JeuxDeMots project. However, the constitution and maintenance of such resources remain difficult operations, due to their large size but also because of problems of polysemy and semantic identification. Moreover, their use can be tricky because a significant part of the necessary information is not directly accessible in the resource but must be inferred from the data of the lexico-semantic network.Our work seeks to demonstrate that lexico-semantic networks are, by their connexionic nature, much more than a collection of raw facts and that more complex structures such as interpretation paths contain more information and allow multiple inference operations to be performed. In particular, we will show how to use a knowledge base to provide explanations to high-level facts. These explanations allow at least to validate and memorize new information.In doing so, we can assess the coverage and relevance of the database data and consolidate it. Similarly, the search for paths is useful for classification and disambiguation problems, as they are justifications for the calculated results.In the context of the recognition of named entities, they also make it possible to type entities and disambiguate them (is the occurrence of the term Paris a reference to the city, and which one, or to a starlet?) by highlighting the density of connections between ambiguous entities, their context and their possible type.Finally, we propose to turn the large size of the JeuxDeMots network to our advantage to enrich the database with new facts from a large number of comparable examples and by an abduction process on the types of semantic relationships that can connect two given terms. Each inference is accompanied by explanations that can be validated or invalidated, thus providing a learning process
APA, Harvard, Vancouver, ISO, and other styles
6

Manishina, Elena. "Data-driven natural language generation using statistical machine translation and discriminative learning." Thesis, Avignon, 2016. http://www.theses.fr/2016AVIG0209/document.

Full text
Abstract:
L'humanité a longtemps été passionnée par la création de machines intellectuelles qui peuvent librement intéragir avec nous dans notre langue. Tous les systèmes modernes qui communiquent directement avec l'utilisateur partagent une caractéristique commune: ils ont un système de dialogue à la base. Aujourd'hui pratiquement tous les composants d'un système de dialogue ont adopté des méthodes statistiques et les utilisent largement comme leurs modèles de base. Jusqu'à récemment la génération de langage naturel (GLN) utilisait pour la plupart des patrons/modèles codés manuellement, qui représentaient des phrases types mappées à des réalisations sémantiques particulières. C'était le cas jusqu'à ce que les approches statistiques aient envahi la communauté de recherche en systèmes de dialogue. Dans cette thèse, nous suivons cette ligne de recherche et présentons une nouvelle approche à la génération de la langue naturelle. Au cours de notre travail, nous nous concentrons sur deux aspects importants du développement des systèmes de génération: construire un générateur performant et diversifier sa production. Deux idées principales que nous défendons ici sont les suivantes: d'abord, la tâche de GLN peut être vue comme la traduction entre une langue naturelle et une représentation formelle de sens, et en second lieu, l'extension du corpus qui impliquait traditionnellement des paraphrases définies manuellement et des règles spécialisées peut être effectuée automatiquement en utilisant des méthodes automatiques d'extraction des synonymes et des paraphrases bien connues et largement utilisées. En ce qui concerne notre première idée, nous étudions la possibilité d'utiliser le cadre de la traduction automatique basé sur des modèles ngrams; nous explorons également le potentiel de l'apprentissage discriminant (notamment les champs aléatoires markoviens) appliqué à la GLN; nous construisons un système de génération qui permet l'inclusion et la combinaison des différents modèles et qui utilise un cadre de décodage efficace (automate à état fini). En ce qui concerne le second objectif, qui est l'extension du corpus, nous proposons d'élargir la taille du vocabulaire et le nombre de l'ensemble des structures syntaxiques disponibles via l'intégration des synonymes et des paraphrases. À notre connaissance, il n'y a pas eu de tentatives d'augmenter la taille du vocabulaire d'un système de GLN en incorporant les synonymes. À ce jour, la plupart d'études sur l'extension du corpus visent les paraphrases et recourent au crowdsourcing pour les obtenir, ce qui nécessite une validation supplémentaire effectuée par les développeurs du système. Nous montrons que l'extension du corpus au moyen d'extraction automatique de paraphrases et la validation automatique sont tout aussi efficaces, étant en même temps moins coûteux en termes de temps de développement et de ressources. Au cours d'expériences intermédiaires nos modèles ont montré une meilleure performance que celle obtenue par le modèle de référence basé sur les syntagmes et se sont révélés d'être plus robustes, pour le traitement des combinaisons inconnues de concepts, que le générateur à base des règles. L'évaluation humaine finale a prouvé que les modèles représent une alternative solide au générateur à base des règles
The humanity has long been passionate about creating intellectual machines that can freely communicate with us in our language. Most modern systems communicating directly with the user share one common feature: they have a dialog system (DS) at their base. As of today almost all DS components embraced statistical methods and widely use them as their core models. Until recently Natural Language Generation (NLG) component of a dialog system used primarily hand-coded generation templates, which represented model phrases in a natural language mapped to a particular semantic content. Today data-driven models are making their way into the NLG domain. In this thesis, we follow along this new line of research and present several novel data-driven approaches to natural language generation. In our work we focus on two important aspects of NLG systems development: building an efficient generator and diversifying its output. Two key ideas that we defend here are the following: first, the task of NLG can be regarded as the translation between a natural language and a formal meaning representation, and therefore, can be performed using statistical machine translation techniques, and second, corpus extension and diversification which traditionally involved manual paraphrasing and rule crafting can be performed automatically using well-known and widely used synonym and paraphrase extraction methods. Concerning our first idea, we investigate the possibility of using NGRAM translation framework and explore the potential of discriminative learning, notably Conditional Random Fields (CRF) models, as applied to NLG; we build a generation pipeline which allows for inclusion and combination of different generation models (NGRAM and CRF) and which uses an efficient decoding framework (finite-state transducers' best path search). Regarding the second objective, namely corpus extension, we propose to enlarge the system's vocabulary and the set of available syntactic structures via integrating automatically obtained synonyms and paraphrases into the training corpus. To our knowledge, there have been no attempts to increase the size of the system vocabulary by incorporating synonyms. To date most studies on corpus extension focused on paraphrasing and resorted to crowd-sourcing in order to obtain paraphrases, which then required additional manual validation often performed by system developers. We prove that automatic corpus extension by means of paraphrase extraction and validation is just as effective as crowd-sourcing, being at the same time less costly in terms of development time and resources. During intermediate experiments our generation models showed a significantly better performance than the phrase-based baseline model and appeared to be more robust in handling unknown combinations of concepts than the current in-house rule-based generator. The final human evaluation confirmed that our data-driven NLG models is a viable alternative to rule-based generators
APA, Harvard, Vancouver, ISO, and other styles
7

Annouz, Hamid. "Traitement morphologique des unités linguistiques du kabyle à l’aide de logiciel NooJ : Construction d’une base de données." Thesis, Paris, INALCO, 2019. http://www.theses.fr/2019INAL0022.

Full text
Abstract:
Il s’agit dans le présent projet d’initier la langue kabyle au domaine du traitement automatique des langues naturelles (TALN) en la dotant d’une base de données, sur le logiciel NooJ, permettant la reconnaissance des unités linguistiques d’un corpus écrit.Le travail est devisé en quatre parties. Dans la première nous avons donné un aperçu historique de la linguistique formelle et présenté le domaine du TALN, le logiciel NooJ et les unités linguistiques traitées. La deuxième est consacrée à la description de processus suivi dans le traitement et l’intégration des verbes dans NooJ. Nous avons construit un dictionnaire contenant 4508 entrées et 8762 dérivés et des modèles de flexion pour chaque type d’entrée. Dans la troisième nous avons expliqué le traitement des noms et des autres unités. Nous avons, pour les noms, construit un dictionnaire (3508 entrées et 501 dérivés) que nous avons reliés à leurs modèles de flexion et pour les autres unités (870 unités dont, adverbes, prépositions, conjonctions, interrogatifs, pronoms personnels, etc.), il s’agit seulement de listes (sans flexion).Chacune de ces deux parties (deuxième et troisième) est complétée par des exemples d’applications sur un texte, chose qui nous a permis de voir, à l’aide des annotations, les différents types d’ambiguïtés.Dans la dernière partie, après avoir dégagé une liste de différents types d’amalgame, nous avons essayé de décrire, à l’aide de quelques exemples de grammaire syntaxiques, l’étape de la désambiguïsation
This work introduces the Kabyle language to the field of Natural Language Processing by giving it a database for the NooJ software that allows the automatic recognition of linguistic units in a written corpus.We have divided the work in four parts. The first part is the place to give a snapshot on the history of formal linguistics, to present the field of NLP and the NooJ software and the linguistic units that have been treated. The second part is devoted to the description of the process that has been followed for the treatment and the integration of Kabyle verbs in NooJ. We have built a dictionary that contains 4508 entries and 8762 derived components and some models of flexion for each type which have been linked with each entry. In the third part, we have explained the processing of nouns and other units. We have built, for the nouns, a dictionary (3508 entries, 501 derived components) that have been linked to the models of flexion and for the other units (870 entries including adverbs, prepositions, conjunctions, interrogatives, personal pronouns, etc.). The second and third part are completed by examples of applications on a text, this procedure has allowed us to show with various sort of annotations the ambiguities.Regarding the last part we have devoted it to ambiguities, after having identified a list of various types of amalgams, we have tried to show, with the help of some examples of syntactic grammars, some of the tools used by NooJ for disambiguation
APA, Harvard, Vancouver, ISO, and other styles
8

Neme, Alexis. "An arabic language resource for computational morphology based on the semitic model." Thesis, Paris Est, 2020. http://www.theses.fr/2020PESC2013.

Full text
Abstract:
La morphologie de la langue arabe est riche, complexe, et hautement flexionnelle. Nous avons développé une nouvelle approche pour la morphologie traditionnelle arabe destinés aux traitements automatiques de l’arabe écrit. Cette approche permet de formaliser plus simplement la morphologie sémitique en utilisant Unitex, une suite logicielle fondée sur des ressources lexicales pour l'analyse de corpus. Pour les verbes (Neme, 2011), j’ai proposé une taxonomie flexionnelle qui accroît la lisibilité du lexique et facilite l’encodage, la correction et la mise-à-jour par les locuteurs et linguistes arabes. La grammaire traditionnelle définit les classes verbales par des schèmes et des sous-classes par la nature des lettres de la racine. Dans ma taxonomie, les classes traditionnelles sont réutilisées, et les sous-classes sont redéfinies plus simplement. La couverture lexicale de cette ressource pour les verbes dans un corpus test est de 99 %. Pour les noms et les adjectifs (Neme, 2013) et leurs pluriels brisés, nous sommes allés plus loin dans l’adaptation de la morphologie traditionnelle. Tout d’abord, bien que cette tradition soit basée sur des règles dérivationnelles, nous nous sommes restreints aux règles exclusivement flexionnelles. Ensuite, nous avons gardé les concepts de racine et de schème, essentiels au modèle sémitique. Pourtant, notre innovation réside dans l’inversion du modèle traditionnel de racine-et-schème au modèle schème-et-racine, qui maintient concis et ordonné l’ensemble des classes de modèle et de sous-classes de racine. Ainsi, nous avons élaboré une taxonomie pour le pluriel brisé contenant 160 classes flexionnelles, ce qui simplifie dix fois l’encodage du pluriel brisé. Depuis, j’ai élaboré des ressources complètes pour l’arabe écrit. Ces ressources sont décrites dans Neme et Paumier (2019). Ainsi, nous avons complété ces taxonomies par des classes suffixées pour les pluriels réguliers, adverbes, et d’autres catégories grammaticales afin de couvrir l’ensemble du lexique. En tout, nous obtenons environ 1000 classes de flexion implémentées au moyen de transducteurs concatenatifs et non-concatenatifs. A partir de zéro, j’ai créé 76000 lemmes entièrement voyellisés, et chacun est associé à une classe flexionnelle. Ces lemmes sont fléchis en utilisant ces 1000 FST, produisant un lexique entièrement fléchi de plus 6 millions de formes. J’ai étendu cette ressource entièrement fléchie à l’aide de grammaires d’agglutination pour identifier les mots composés jusqu’à 5 segments, agglutinés autour d’un verbe, d’un nom, d’un adjectif ou d’une particule. Les grammaires d’agglutination étendent la reconnaissance à plus de 500 millions de formes de mots valides, partiellement ou entièrement voyelles. La taille de fichier texte généré est de 340 mégaoctets (UTF-16). Il est compressé en 11 mégaoctets avant d’être chargé en mémoire pour la recherche rapide (fast lookup). La génération, la compression et la minimisation du lexique prennent moins d’une minute sur un MacBook. Le taux de couverture lexical d’un corpus est supérieur à 99 %. La vitesse de tagger est de plus de 200 000 mots/s, si les ressources ont été pré-chargées en mémoire RAM. La précision et la rapidité de nos outils résultent de notre approche linguistique systématique et de l’adoption des meilleurs choix pratiques en matière de méthodes mathématiques et informatiques. La procédure de recherche est rapide parce que nous utilisons l’algorithme de minimisation d’automate déterministique acyclique (Revuz, 1992) pour comprimer le dictionnaire complet, et parce qu’il n’a que des chaînes constantes. La performance du tagger est le résultat des bons choix pratiques dans les technologies automates finis (FSA/FST) car toutes les formes fléchies calculées à l’avance pour une identification précise et pour tirer le meilleur parti de la compression et une recherche des mots déterministes et efficace
We developed an original approach to Arabic traditional morphology, involving new concepts in Semitic lexicology, morphology, and grammar for standard written Arabic. This new methodology for handling the rich and complex Semitic languages is based on good practices in Finite-State technologies (FSA/FST) by using Unitex, a lexicon-based corpus processing suite. For verbs (Neme, 2011), I proposed an inflectional taxonomy that increases the lexicon readability and makes it easier for Arabic speakers and linguists to encode, correct, and update it. Traditional grammar defines inflectional verbal classes by using verbal pattern-classes and root-classes. In our taxonomy, traditional pattern-classes are reused, and root-classes are redefined into a simpler system. The lexicon of verbs covered more than 99% of an evaluation corpus. For nouns and adjectives (Neme, 2013), we went one step further in the adaptation of traditional morphology. First, while this tradition is based on derivational rules, we found our description on inflectional ones. Next, we keep the concepts of root and pattern, which is the backbone of the traditional Semitic model. Still, our breakthrough lies in the reversal of the traditional root-and-pattern Semitic model into a pattern-and-root model, which keeps small and orderly the set of pattern classes and root sub-classes. I elaborated a taxonomy for broken plural containing 160 inflectional classes, which simplifies ten times the encoding of broken plural. Since then, I elaborated comprehensive resources for Arabic. These resources are described in Neme and Paumier (2019). To take into account all aspects of the rich morphology of Arabic, I have completed our taxonomy with suffixal inflexional classes for regular plurals, adverbs, and other parts of speech (POS) to cover all the lexicon. In all, I identified around 1000 Semitic and suffixal inflectional classes implemented with concatenative and non-concatenative FST devices.From scratch, I created 76000 fully vowelized lemmas, and each one is associated with an inflectional class. These lemmas are inflected by using these 1000 FSTs, producing a fully inflected lexicon with more than 6 million forms. I extended this fully inflected resource using agglutination grammars to identify words composed of up to 5 segments, agglutinated around a core inflected verb, noun, adjective, or particle. The agglutination grammars extend the recognition to more than 500 million valid delimited word forms, partially or fully vowelized. The flat file size of 6 million forms is 340 megabytes (UTF-16). It is compressed then into 11 Mbytes before loading to memory for fast retrieval. The generation, compression, and minimization of the full-form lexicon take less than one minute on a common Unix laptop. The lexical coverage rate is more than 99%. The tagger speed is 5000 words/second, and more than 200 000 words/s, if the resources are preloaded/resident in the RAM. The accuracy and speed of our tools result from our systematic linguistic approach and from our choice to embrace the best practices in mathematical and computational methods. The lookup procedure is fast because we use Minimal Acyclic Deterministic Finite Automaton (Revuz, 1992) to compress the full-form dictionary, and because it has only constant strings and no embedded rules. The breakthrough of our linguistic approach remains principally on the reversal of the traditional root-and-pattern Semitic model into a pattern-and-root model.Nonetheless, our computational approach is based on good practices in Finite-State technologies (FSA/FST) as all the full-forms were computed in advance for accurate identification and to get the best from the FSA compression for fast and efficient lookups
APA, Harvard, Vancouver, ISO, and other styles
9

Mars, Mourad. "Analyse morphologique robuste de l'arabe et applications pédagogiques." Thesis, Grenoble, 2012. http://www.theses.fr/2012GRENL046.

Full text
Abstract:
Deux problématiques se croisent dans nos travaux de recherches, ils ne font pas parties du même domaine: la première est issue du TAL (Traitement Automatique des Langues), la seconde est relié au domaine de l'ALAO (Apprentissage des Langues Assisté par Ordinateur).La première partie de nos travaux de recherches rentre dans le cadre de l'analyse morphologique des textes arabes. Pour la création d'un analyseur morphologique, nous avons commencé par la réalisation de toutes les ressources nécessaires (Dictionnaires pour la langue arabe, Matrices de compatibilités, Règles, Corpus d'apprentissage, Modèle de langage, etc.). Nous avons utilisé une approche statistique basée sur les Modèles de Markov Cachés (MMC) qui adhère à des principes de bonne pratique bien établis dans le domaine de l'analyse morphologique. Cette méthodologie a donné naissance à @rab-Morph : un analyseur morphologique robuste et performant pour l'arabe.La deuxième partie des travaux menés se situe dans le cadre de l'ALAO, où l'objectif principal est d'apporter des éléments de réponse à la question suivante ; comment peut-on profiter des outils issues du TAL arabe pour apporter des solutions aux plateformes d'apprentissage de l'arabe langue étrangère? Pour y parvenir et montrer l'intérêt d'avoir recours à des procédures, solutions et outils TAL pour l'apprentissage des langues, nous avons développé un prototype pour l'apprentissage de l'arabe baptisé @rab-Learn. Cet environnement utilise des outils issues du TAL, principalement notre analyseur morphologique @rab-Morph, pour créer des activités pédagogiques variés et automatiser d'avantage le traitement de la langue dans ces plateformes
L'auteur n'a pas fourni de résumé en anglais
APA, Harvard, Vancouver, ISO, and other styles
10

Zhou, Rongyan. "Exploration of opportunities and challenges brought by Industry 4.0 to the global supply chains and the macroeconomy by integrating Artificial Intelligence and more traditional methods." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPAST037.

Full text
Abstract:
L'industrie 4.0 est un changement important et un défi de taille pour chaque segment industriel. La recherche utilise d'abord l'analyse de la littérature pour trier la littérature et énumérer la direction du développement et l'état d'application de différents domaines, ce qui se consacre à montrer un rôle de premier plan pour la théorie et la pratique de l'industrie 4.0. La recherche explore ensuite la tendance principale de l'offre à plusieurs niveaux dans l'industrie 4.0 en combinant l'apprentissage automatique et les méthodes traditionnelles. Ensuite, la recherche examine la relation entre l'investissement et l'emploi dans l'industrie 4.0 pour examiner la dépendance interrégionale de l'industrie 4.0 afin de présenter un regroupement raisonnable basé sur différents critères et de faire des suggestions et une analyse de la chaîne d'approvisionnement mondiale pour les entreprises et les organisations.De plus, notre système d'analyse jette un coup d'oeil sur la macroéconomie. La combinaison du traitement du langage naturel dans l'apprentissage automatique pour classer les sujets de recherche et de la revue de la littérature traditionnelle pour enquêter sur la chaîne d'approvisionnement à plusieurs niveaux améliore considérablement l'objectivité de l'étude et jette une base solide pour des recherches ultérieures. L'utilisation de réseaux et d'économétrie complexes pour analyser la chaîne d'approvisionnement mondiale et les problèmes macroéconomiques enrichit la méthodologie de recherche au niveau macro et politique. Cette recherche fournit des analyses et des références aux chercheurs, aux décideurs et aux entreprises pour leur prise de décision stratégique
Industry 4.0 is a significant shift and a tremendous challenge for every industrial segment, especially for the manufacturing industry that gave birth to the new industrial revolution. The research first uses literature analysis to sort out the literature, and focuses on the use of “core literature extension method” to enumerate the development direction and application status of different fields, which devotes to showing a leading role for theory and practice of industry 4.0. The research then explores the main trend of multi-tier supply in Industry 4.0 by combining machine learning and traditional methods. Next, the research investigates the relationship of industry 4.0 investment and employment to look into the inter-regional dependence of industry 4.0 so as to present a reasonable clustering based on different criteria and make suggestions and analysis of the global supply chain for enterprises and organizations. Furthermore, our analysis system takes a glance at the macroeconomy. The combination of natural language processing in machine learning to classify research topics and traditional literature review to investigate the multi-tier supply chain significantly improves the study's objectivity and lays a solid foundation for further research. Using complex networks and econometrics to analyze the global supply chain and macroeconomic issues enriches the research methodology at the macro and policy level. This research provides analysis and references to researchers, decision-makers, and companies for their strategic decision-making
APA, Harvard, Vancouver, ISO, and other styles
11

Ramadier, Lionel. "Indexation et apprentissage de termes et de relations à partir de comptes rendus de radiologie." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT298/document.

Full text
Abstract:
Dans le domaine médical, l'informatisation des professions de santé et le développement du dossier médical personnel (DMP) entraîne une progression rapide du volume d'information médicale numérique. Le besoin de convertir et de manipuler toute ces informations sous une forme structurée constitue un enjeu majeur. C'est le point de départ de la mise au point d'outils d'interrogation appropriés pour lesquels, les méthodes issues du traitement automatique du langage naturel (TALN) semblent bien adaptées. Les travaux de cette thèse s'inscrivent dans le domaine de l'analyse de documents médicaux et traitent de la problématique de la représentation de l'information biomédicale (en particulier du domaine radiologique) et de son accès. Nous proposons de construire une base de connaissance dédiée à la radiologie à l'intérieur d'une base de connaissance générale (réseau lexico-sémantique JeuxDeMots). Nous montrons l'intérêt de l'hypothèse de non séparation entre les différents types de connaissances dans le cadre d'une analyse de documents. Cette hypothèse est que l'utilisation de connaissances générales, en plus de celles de spécialités, permet d'améliorer significativement l'analyse de documents médicaux.Au niveau du réseau lexico-sémantique, l'ajout manuel et automatisé des méta-informations sur les annotations (informations fréquentielles, de pertinences, etc) est particulièrement utile. Ce réseau combine poids et annotations sur des relations typées entre des termes et des concepts ainsi qu'un mécanisme d'inférence dont l'objet est d'améliorer la qualité et la couverture du réseau. Nous décrivons comment à partir d'informations sémantiques présentes dans le réseau, il est possible de définir une augmentation des index bruts construits pour chaque comptes rendus afin d'améliorer la recherche documentaire. Nous présentons, ensuite, une méthode d'extraction de relations sémantiques entre des termes ou concepts. Cette extraction est réalisée à l'aide de patrons linguistiques auxquels nous avons rajouté des contraintes sémantiques.Les résultats des évaluations montrent que l'hypothèse de non séparation entre les différents types de connaissances améliorent la pertinence de l'indexation. L'augmentation d'index permet une amélioration du rappel alors que les contraintes sémantiques améliorent la précision de l'extraction de relations
In the medical field, the computerization of health professions and development of the personal medical file (DMP) results in a fast increase in the volume of medical digital information. The need to convert and manipulate all this information in a structured form is a major challenge. This is the starting point for the development of appropriate tools where the methods from the natural language processing (NLP) seem well suited.The work of this thesis are within the field of analysis of medical documents and address the issue of representation of biomedical information (especially the radiology area) and its access. We propose to build a knowledge base dedicated to radiology within a general knowledge base (lexical-semantic network JeuxDeMots). We show the interest of the hypothesis of no separation between different types of knowledge through a document analysis. This hypothesis is that the use of general knowledge, in addition to those specialties, significantly improves the analysis of medical documents.At the level of lexical-semantic network, manual and automated addition of meta information on annotations (frequency information, pertinence, etc.) is particularly useful. This network combines weight and annotations on typed relationships between terms and concepts as well as an inference mechanism which aims to improve quality and network coverage. We describe how from semantic information in the network, it is possible to define an increase in gross index built for each records to improve information retrieval. We present then a method of extracting semantic relationships between terms or concepts. This extraction is performed using lexical patterns to which we added semantic constraints.The results show that the hypothesis of no separation between different types of knowledge to improve the relevance of indexing. The index increase results in an improved return while semantic constraints improve the accuracy of the relationship extraction
APA, Harvard, Vancouver, ISO, and other styles
12

Fradet, Nathan. "Apprentissage automatique pour la modélisation de musique symbolique." Electronic Thesis or Diss., Sorbonne université, 2024. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2024SORUS037.pdf.

Full text
Abstract:
La modélisation musicale symbolique représente les tâches effectuées par les modèles d'apprentissage automatique avec la musicale symbolique, parmi lesquelles figurent la génération de musique ou la récupération d'informations musicales. La modélisation musicale symbolique est souvent effectuée avec des modèles séquentiels qui traitent les données sous forme de séquences d'éléments discrets appelés tokens. Cette thèse étudie comment la musique symbolique peut être sérialisée, et quels sont les impacts des différentes manières de le faire, sur les performances et l'efficacité des modèles. Les défis actuels incluent le manque de logiciel pour effectuer cette étape, la faible efficacité du modèle et les tokens inexpressifs. Nous relevons ces défis en : 1) développant une bibliothèque logicielle complète, flexible et facile à utiliser permettant de tokeniser la musique symbolique ; 2) analyser l'impact de diverses stratégies de tokenisation sur les performances des modèles ; 3) augmenter les performances et l'efficacité des modèles en exploitant de vastes vocabulaires musicaux grâce à l'utilisation du codage par paires d'octets ; 4) construire le premier modèle à grande échelle de génération de musique symbolique
Symbolic music modeling (SMM) represents the tasks performed by Deep Learning models on the symbolic music modality, among which are music generation or music information retrieval. SMM is often handled with sequential models that process data as sequences of discrete elements called tokens. This thesis study how symbolic music can be tokenized, and what are the impacts of the different ways to do it impact models performances and efficiency. Current challenges include the lack of software to perform this step, poor model efficiency and inexpressive tokens. We address these challenges by: 1) developing a complete, flexible and easy to use software library allowing to tokenize symbolic music; 2) analyzing the impact of various tokenization strategies on model performances; 3) increasing the performance and efficiency of models by leveraging large music vocabularies with the use of byte pair encoding; 4) building the first large-scale model for symbolic music generation
APA, Harvard, Vancouver, ISO, and other styles
13

Lopez, Cédric. "Titrage automatique de documents textuels." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20071/document.

Full text
Abstract:
Au cours du premier millénaire avant notre ère, les bibliothèques, qui apparaissent avec le besoin d'organiser la conservation des textes, sont immédiatement confrontées aux difficultés de l'indexation. Le titre apparaît alors comme une première solution, permettant d'identifier rapidement chaque type d'ouvrage et éventuellement de discerner des ouvrages thématiquement proches.Alors que dans la Grèce Antique, les titres ont une fonction peu informative, mais ont toujours pour objectif d'identifier le document, l'invention de l'imprimerie à caractères mobiles (Gutenberg, XVème siècle) a entraîné une forte augmentation du nombre de documents, offrant désormais une diffusion à grande échelle. Avec la recrudescence des textes imprimés, le titre acquiert peu à peu de nouvelles fonctions, conduisant très souvent à des enjeux d'influence socioculturelle ou politique (notamment dans le cas des articles journalistiques).Aujourd'hui, que le document soit sous forme électronique ou papier, la présence d'un ou de plusieurs titres est très souvent constatée, permettant de créer un premier lien entre le lecteur et le sujet abordé dans le document. Mais comment quelques mots peuvent-ils avoir une si grande influence ? Quelles fonctions les titres doivent-ils remplir en ce début du XXIème siècle ? Comment générer automatiquement des titres respectant ces fonctions ?Le titrage automatique de documents textuels est avant tout un des domaines clés de l'accessibilité des pages Web (standards W3C) tel que défini par la norme proposée par les associations sur le handicap. Côté lecteur, l'objectif est d'augmenter la lisibilité des pages obtenues à partir d'une recherche sur mot-clé(s) et dont la pertinence est souvent faible, décourageant les lecteurs devant fournir de grands efforts cognitifs. Côté producteur de site Web, l'objectif est d'améliorer l'indexation des pages pour une recherche plus pertinente. D'autres intérêts motivent cette étude (titrage de pages Web commerciales, titrage pour la génération automatique de sommaires, titrage pour fournir des éléments d'appui pour la tâche de résumé automatique,).Afin de traiter à grande échelle le titrage automatique de documents textuels, nous employons dans cette étude des méthodes et systèmes de TALN (Traitement Automatique du Langage Naturel). Alors que de nombreux travaux ont été publiés à propos de l'indexation et du résumé automatique, le titrage automatique demeurait jusqu'alors discret et connaissait quelques difficultés quant à son positionnement dans le domaine du TALN. Nous soutenons dans cette étude que le titrage automatique doit pourtant être considéré comme une tâche à part entière.Après avoir défini les problématiques liées au titrage automatique, et après avoir positionné cette tâche parmi les tâches déjà existantes, nous proposons une série de méthodes permettant de produire des titres syntaxiquement corrects selon plusieurs objectifs. En particulier, nous nous intéressons à la production de titres informatifs, et, pour la première fois dans l'histoire du titrage automatique, de titres accrocheurs. Notre système TIT', constitué de trois méthodes (POSTIT, NOMIT et CATIT), permet de produire des ensembles de titres informatifs dans 81% des cas et accrocheurs dans 78% des cas
During the first millennium BC, the already existing libraries needed to organize texts preservation, and were thus immediately confronted with the difficulties of indexation. The use of a title occurred then as a first solution, enabling a quick indentification of every work, and in most of the cases, helping to discern works thematically close to a given one. While in Ancient Greece, titles have had a little informative function, although still performing an indentification function, the invention of the printing office with mobile characters (Gutenberg, XVth century AD) dramatically increased the number of documents, which are today spread on a large-scale. The title acquired little by little new functions, leaning very often to sociocultural or political influence (in particular in journalistic articles).Today, for both electronic and paper documents, the presence of one or several titles is very often noticed. It helps creating a first link between the reader and the subject of the document. But how some words can have a so big influence? What functions do the titles have to perform at this beginning of the XXIth century? How can one automatically generate titles respecting these functions? The automatic titling of textual documents is one of the key domains of Web pages accessibility (W3C standards) such as defined in a standard given by associations about the disabled. For a given reader, the goal is to increase the readability of pages obtained from a search, since usual searches are often disheartening readers who must supply big cognitive efforts. For a Website designer, the aim is to improve the indexation of pages for a more relevant search. Other interests motivate this study (titling of commercial Web pages, titling in order to automatically generate contents, titling to bring elements to enhance automatic summarization).In this study, we use NLP (Natural Language Processing) methods and systems. While numerous works were published about indexation and automatic summarization, automatic titling remained discreet and knew some difficulties as for its positioning in NLP. We support in this study that the automatic titling must be nevertheless considered as a full task.Having defined problems connected to automatic titling, and having positioned this task among the already existing tasks, we provide a series of methods enabling syntactically correct titles production, according to several objectives. In particular, we are interested in the generation of informative titles, and, for the first time in the history of automatic titling, we introduce the concept of catchiness.Our TIT' system consists of three methods (POSTIT, NOMIT, and CATIT), that enables to produce sets of informative titles in 81% of the cases and catchy titles in 78% of the cases
APA, Harvard, Vancouver, ISO, and other styles
14

Lesnikova, Tatiana. "Liage de données RDF : évaluation d'approches interlingues." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM011/document.

Full text
Abstract:
Le Web des données étend le Web en publiant des données structurées et liées en RDF. Un jeu de données RDF est un graphe orienté où les ressources peuvent être des sommets étiquetées dans des langues naturelles. Un des principaux défis est de découvrir les liens entre jeux de données RDF. Étant donnés deux jeux de données, cela consiste à trouver les ressources équivalentes et les lier avec des liens owl:sameAs. Ce problème est particulièrement difficile lorsque les ressources sont décrites dans différentes langues naturelles.Cette thèse étudie l'efficacité des ressources linguistiques pour le liage des données exprimées dans différentes langues. Chaque ressource RDF est représentée comme un document virtuel contenant les informations textuelles des sommets voisins. Les étiquettes des sommets voisins constituent le contexte d'une ressource. Une fois que les documents sont créés, ils sont projetés dans un même espace afin d'être comparés. Ceci peut être réalisé à l'aide de la traduction automatique ou de ressources lexicales multilingues. Une fois que les documents sont dans le même espace, des mesures de similarité sont appliquées afin de trouver les ressources identiques. La similarité entre les documents est prise pour la similarité entre les ressources RDF.Nous évaluons expérimentalement différentes méthodes pour lier les données RDF. En particulier, deux stratégies sont explorées: l'application de la traduction automatique et l'usage des banques de données terminologiques et lexicales multilingues. Dans l'ensemble, l'évaluation montre l'efficacité de ce type d'approches. Les méthodes ont été évaluées sur les ressources en anglais, chinois, français, et allemand. Les meilleurs résultats (F-mesure > 0.90) ont été obtenus par la traduction automatique. L'évaluation montre que la méthode basée sur la similarité peut être appliquée avec succès sur les ressources RDF indépendamment de leur type (entités nommées ou concepts de dictionnaires)
The Semantic Web extends the Web by publishing structured and interlinked data using RDF.An RDF data set is a graph where resources are nodes labelled in natural languages. One of the key challenges of linked data is to be able to discover links across RDF data sets. Given two data sets, equivalent resources should be identified and linked by owl:sameAs links. This problem is particularly difficult when resources are described in different natural languages.This thesis investigates the effectiveness of linguistic resources for interlinking RDF data sets. For this purpose, we introduce a general framework in which each RDF resource is represented as a virtual document containing text information of neighboring nodes. The context of a resource are the labels of the neighboring nodes. Once virtual documents are created, they are projected in the same space in order to be compared. This can be achieved by using machine translation or multilingual lexical resources. Once documents are in the same space, similarity measures to find identical resources are applied. Similarity between elements of this space is taken for similarity between RDF resources.We performed evaluation of cross-lingual techniques within the proposed framework. We experimentally evaluate different methods for linking RDF data. In particular, two strategies are explored: applying machine translation or using references to multilingual resources. Overall, evaluation shows the effectiveness of cross-lingual string-based approaches for linking RDF resources expressed in different languages. The methods have been evaluated on resources in English, Chinese, French and German. The best performance (over 0.90 F-measure) was obtained by the machine translation approach. This shows that the similarity-based method can be successfully applied on RDF resources independently of their type (named entities or thesauri concepts). The best experimental results involving just a pair of languages demonstrated the usefulness of such techniques for interlinking RDF resources cross-lingually
APA, Harvard, Vancouver, ISO, and other styles
15

Ratkovic, Zorana. "Predicative Analysis for Information Extraction : application to the biology domain." Thesis, Paris 3, 2014. http://www.theses.fr/2014PA030110.

Full text
Abstract:
L’abondance de textes dans le domaine biomédical nécessite le recours à des méthodes de traitement automatique pour améliorer la recherche d’informations précises. L’extraction d’information (EI) vise précisément à extraire de l’information pertinente à partir de données non-structurées. Une grande partie des méthodes dans ce domaine se concentre sur les approches d’apprentissage automatique, en ayant recours à des traitements linguistiques profonds. L’analyse syntaxique joue notamment un rôle important, en fournissant une analyse précise des relations entre les éléments de la phrase.Cette thèse étudie le rôle de l’analyse syntaxique en dépendances dans le cadre d’applications d’EI dans le domaine biomédical. Elle comprend l’évaluation de différents analyseurs ainsi qu’une analyse détaillée des erreurs. Une fois l’analyseur le plus adapté sélectionné, les différentes étapes de traitement linguistique pour atteindre une EI de haute qualité, fondée sur la syntaxe, sont abordés : ces traitements incluent des étapes de pré-traitement (segmentation en mots) et des traitements linguistiques de plus haut niveau (lié à la sémantique et à l’analyse de la coréférence). Cette thèse explore également la manière dont les différents niveaux de traitement linguistique peuvent être représentés puis exploités par l’algorithme d’apprentissage. Enfin, partant du constat que le domaine biomédical est en fait extrêmement diversifié, cette thèse explore l’adaptation des techniques à différents sous-domaines, en utilisant des connaissances et des ressources déjà existantes. Les méthodes et les approches décrites sont explorées en utilisant deux corpus biomédicaux différents, montrant comment les résultats d’IE sont utilisés dans des tâches concrètes
The abundance of biomedical information expressed in natural language has resulted in the need for methods to process this information automatically. In the field of Natural Language Processing (NLP), Information Extraction (IE) focuses on the extraction of relevant information from unstructured data in natural language. A great deal of IE methods today focus on Machine Learning (ML) approaches that rely on deep linguistic processing in order to capture the complex information contained in biomedical texts. In particular, syntactic analysis and parsing have played an important role in IE, by helping capture how words in a sentence are related. This thesis examines how dependency parsing can be used to facilitate IE. It focuses on a task-based approach to dependency parsing evaluation and parser selection, including a detailed error analysis. In order to achieve a high quality of syntax-based IE, different stages of linguistic processing are addressed, including both pre-processing steps (such as tokenization) and the use of complementary linguistic processing (such as the use of semantics and coreference analysis). This thesis also explores how the different levels of linguistics processing can be represented for use within an ML-based IE algorithm, and how the interface between these two is of great importance. Finally, biomedical data is very heterogeneous, encompassing different subdomains and genres. This thesis explores how subdomain-adaptationcan be achieved by using already existing subdomain knowledge and resources. The methods and approaches described are explored using two different biomedical corpora, demonstrating how the IE results are used in real-life tasks
APA, Harvard, Vancouver, ISO, and other styles
16

Desot, Thierry. "Apport des modèles neuronaux de bout-en-bout pour la compréhension automatique de la parole dans l'habitat intelligent." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALM069.

Full text
Abstract:
Les enceintes intelligentes offrent la possibilité d’interagir avec les systèmes informatiques de la maison. Elles permettent d’émettre un éventail de requêtes sur des sujets divers et représentent les premières interfaces vocales disponibles couramment dans les environnements domestiques. La compréhension des commandes vocales concerne des énoncés courts ayant une syntaxe simple, dans le domaine des habitats intelligents destinés à favoriser le maintien à domicile des personnes âgées. Ils les assistent dans leur vie quotidienne, améliorant ainsi leur qualité de vie, mais peuvent aussi leur porter assistance en situations de détresse. La conception de ces habitats se concentre surtout sur les aspects de la sécurité et du confort, ciblant fréquemment sur la détection de l’activité humaine. L’aspect communication est moins pris en compte, c’est pourquoi il existe peu de corpus de parole spécifiques au domaine domotique, en particulier pour des langues autres que l’anglais, alorsqu’ils sont essentiels pour développer les systèmes de communication entre l’habitat et ses habitants. La disponibilité de tels corpus, pourrait contribuer au développement d’une génération d’enceintes intelligentes qui soient capables d’extraire des commandes vocales plus complexes. Pour contourner une telle contrainte, une partie de notre travail consiste à développer un générateur de corpus, produisant des commandes vocales spécifiques au domaine domotique, automatiquement annotées d’étiquettes d’intentions et de concepts. Un système de compréhension de la parole (SLU - Spoken Language Understanding) est nécessaire afin d’extraire les intentions et les concepts des commandes vocales avant de les fournir au module de prise de décision en charge de l’exécution des commandes. De manière classique, un module de compréhension du langage naturel (NLU - Natural Language Understanding) est précédé par un module de reconnaissance automatique de la parole (RAP), convertissant automatiquement la parole en transcriptions. Comme plusieurs études l’ont montré, l’enchaînement entre RAP et NLU dans une approche séquentielle de SLU cumule les erreurs. Par conséquent, l’une des motivations principales de nos travaux est le développement d’un module de SLU de bout en bout (End-to-End) visant à extraire les concepts et les intentions directement de la parole. À cette fin, nous élaborons d’abord une approche SLU séquentielle comme approche de référence, dans laquelle une méthode classique de RAP génère des transcriptions qui sont transmises au module NLU, avant de poursuivre par le développement d’un module de SLU de bout en bout. Ces deux systèmes de SLU sont évalués sur un corpus enregistré spécifiquement au domaine de la domotique. Nous étudions si l’information prosodique, à laquelle la SLU de bout en bout a accès, contribue à augmenter les performances. Nous comparons aussi la robustesse des deux approches lorsqu’elles sont confrontées à un style de parole aux niveaux sémantiques et syntaxiques plus varié.Cette étude est menée dans le cadre du projet VocADom financé par l’appel à projets génériques de l’ANR
Smart speakers offer the possibility of interacting with smart home systems, and make it possible to issue a range of requests about various subjects. They represent the first ambient voice interfaces that are frequently available in home environments. Very often they are only capable of inferring voice commands of a simple syntax in short utterances in the realm of smart homes that promote home care for senior adults. They support them during everyday situations by improving their quality of life, and also providing assistance in situations of distress. The design of these smart homes mainly focuses on the safety and comfort of its habitants. As a result, these research projects frequently concentrate on human activity detection, resulting in a lack of attention for the communicative aspects in a smart home design. Consequently, there are insufficient speech corpora, specific to the home automation field, in particular for languages other than English. However the availability of these corpora are crucial for developing interactive communication systems between the smart home and its inhabitants. Such corpora at one’s disposal could also contribute to the development of a generation of smart speakers capable of extracting more complex voice commands. As a consequence, part of our work consisted in developing a corpus generator, producing home automation domain specific voice commands, automatically annotated with intent and concept labels. The extraction of intents and concepts from these commands, by a Spoken Language Understanding (SLU) system is necessary to provide the decision-making module with the information, necessary for their execution. In order to react to speech, the natural language understanding (NLU) module is typically preceded by an automatic speech recognition (ASR) module, automatically converting speech into transcriptions. As several studies have shown, the interaction between ASR and NLU in a sequential SLU approach accumulates errors. Therefore, one of the main motivations of our work is the development of an end-to-end SLU module, extracting concepts and intents directly from speech. To achieve this goal, we first develop a sequential SLU approach as our baseline approach, in which a classic ASR method generates transcriptions that are passed to the NLU module, before continuing with the development of an End-to-end SLU module. These two SLU systems were evaluated on a corpus recorded in the home automation domain. We investigate whether the prosodic information that the end-to-end SLU system has access to, contributes to SLU performance. We position the two approaches also by comparing their robustness, facing speech with more semantic and syntactic variation.The context of this thesis is the ANR VocADom project
APA, Harvard, Vancouver, ISO, and other styles
17

Ameli, Samila. "Construction d'un langage de dictionnaire conceptuel en vue du traitement du langage naturel : application au langage médical." Compiègne, 1989. http://www.theses.fr/1989COMPD226.

Full text
Abstract:
Ce travail de recherche consiste en la réalisation d'un système documentaire dit de nouvelle génération, capable de prendre en compte le contenu de chaque document et d'exécuter la recherche documentaire par une comparaison du sens des textes (questions et documents). La compréhension des textes n'étant possible qu'à l'aide d'une base de connaissances, un dictionnaire conceptuel a été mis au point dans le but de représenter tous les concepts et leurs relations, écrits en langage clair et simplifié. Ce langage appelé « SUMIX » permet (1) de prendre en compte le contexte lors de la résolution des polysémies, (2) de résoudre nombre de difficultés imposées aux cogniticiens lors de la création de la base par un mécanisme d'héritage des propriétés et ainsi donner la possibilité de faire des inférences (3) de définir certaines relations inter-conceptuelles dépendantes du domaine d'application par une gestion de métaconnaissances. Ce dictionnaire conceptuel va servir à deux moments : (1) au moment de la création des fichiers inversés en indexant le concept et non la chaîne de caractères, on permet d'avoir, lors de l'extraction conceptuelle, un sous-ensemble le plus grand possible de dossiers pertinents (2) au moment de la comparaison structurelle qui est la comparaison finale, effectuée dossier par dossier, sur le sur-ensemble de dossiers déterminé à l'étape de l'extraction conceptuelle
This study deals with the realisation of a « new generation » information retrieval system, taking consideration of texts signification. This system compares texts (questions and documents) by their content. A knowledge base being indispensable for text “comprehension”, a dictionary of concepts has been designed in which are defined the concepts and their mutual relations thru a user friendly language called SUMIX. SUMIX enables us (1) to solve ambiguities due to polysemia by considering context dependencies, (2) to make use of property inheritance and so can largely help cogniticiens in the creation of the knowledge and inference base, (3) to define subject dependant relation between concepts which make possible metaknowledge handling. The dictionary of concepts is essentially used (1) to index concepts (and not characters string) which enables us to select a wide range of documents in the conceptual extraction phase, (2) to filter the previously selected documents by comparing the structure of each document with that of the query in the structural analysis phase
APA, Harvard, Vancouver, ISO, and other styles
18

Smart, John Ferguson. "L' analyse et la représentation de compte-rendus médicaux." Aix-Marseille 2, 1996. http://www.theses.fr/1996AIX22095.

Full text
Abstract:
Dans le domaine de la medecine, le texte descriptif, redige en langage naturel, reste le moyen privilegie de communication et de stockage d'informations. Des techniques d'analyse automatique permettant d'en extraire et de stocker les informations pertinentes sont donc d'une utilite considerable pour la recherche medicale, pour l'enseignement, et pour la gestion hospitaliere. Nous presentons un formalisme de representation des connaissances concu pour l'analyse de textes descriptifs tels que les comptes rendus medicaux. Les connaissances sont representees a deux niveaux. Au niveau de definition, nous decrivons les concepts du domaine ainsi que les relations possibles entre ces concepts, avec les differents contraintes de cardinalite imposees sur ces relations. En outre, des hierarchies de composition permettent une description precise de la composition structurelle des concepts du domaine. Au niveau d'assertion, les informations pertinentes d'un texte sont representees par des graphes conceptuels qui doivent respecter les differentes contraintes definies un niveau de definition. Nous considerons en particulier les applications de ce formalisme pour des techniques d'analyse du discours descriptif
APA, Harvard, Vancouver, ISO, and other styles
19

Belabbas, Azeddine. "Satisfaction de contraintes et validation des grammaires du langage naturel." Paris 13, 1996. http://www.theses.fr/1996PA132044.

Full text
Abstract:
Cette thèse est à cheval entre les domaines de satisfaction de contraintes et de linguistique computationnelle. Dans le domaine des csp, nous avons proposé une nouvelle démarche de résolution classique. Cela consiste à s'orienter vers le développement de méthodes de résolution incomplètes. Celles-ci sont caractérisées par un relâchement de certaines contraintes, dont la prise en compte a de fortes chances d'engendrer un traitement redondant. Pour caractériser (sur le plan structurel) les contraintes relâchées nous avons d'abord ramené le problème de résolution d'un csp a un problème de recherche de clique maximale au niveau du graphe de valeurs compatibles (problème également np-complet), puis nous avons proposé une relaxation basée sur une approximation de la taille de la clique maximale. Par ailleurs, nous nous sommes intéressés a une classe particulière de contraintes: les contraintes de différence, les problèmes s'exprimant naturellement sous forme de type de contraintes étant nombreux. Nous avons montré qu'on pouvait tester dans certains cas la vacuité du domaine des solutions sans effectuer aucun parcours de l'espace de recherche. Comme précédemment, ce test est basé sur une approximation de la taille de la clique maximale mais cette fois-ci au niveau du graphe de contraintes du csp. Dans le domaine linguistique, nous nous sommes intéressés à l'étude de la validation computationnelle des grammaires d'unification à base de contraintes. Nous avons, sur ce domaine encore récent, défini un certain nombre de critères de validation permettant de vérifier l'adéquation descriptive d'une grammaire par rapport à ce qu'en attend le concepteur de cette dernière. Nous avons par ailleurs défini une méthode de résolution en deux phases: la première phase basée sur un parcours sans retour arrière (sans tenir compte de l'aspect contextuel de la grammaire) permet de délimiter l'ensemble des éléments accessibles et coaccessibles. Tandis que la deuxième phase contextuelle permet de vérifier l'utilisation effective de ces éléments. Pour prendre en compte cet aspect contextuel, nous avons proposé une méthode de satisfaction des contraintes caractérisée d'une part, par un pré-traitement structurel permettant de mieux faire ressortir les liens de dépendance entre les contraintes, d'autre part, par une propagation déductive des contraintes à travers la structure mise en évidence par le pré-traitement précédent, et contrôlée par une gestion efficace des variables inter-cliques (variables partagées par des sous ensembles de contraintes (cliques)).
APA, Harvard, Vancouver, ISO, and other styles
20

Nazarenko, Adeline. "Compréhension du langage naturel : le problème de la causalité." Paris 13, 1994. http://www.theses.fr/1994PA132007.

Full text
Abstract:
Cette thèse porte sur la compréhension de textes écrits en langage naturel. Elle s'intéresse au problème de la causalité dans le cadre d'un système de question/réponse: il s'agit de répondre automatiquement aux questions pourquoi?. Ce travail distingue deux phases dans le processus de compréhension. On construit d'abord une représentation sémantique du texte, sous la forme de graphes conceptuels. Cette représentation est ensuite exploitée par le module de question/réponse qui extrait ou calcule l'information pertinente en regard de la question posée. Pour construire la représentation de la phrase, on utilise les graphes de définition donnés par un lexique sémantique. Les connecteurs (parce que, puisque, car, donc. . . ), qui jouent un rôle fondamental dans l'expression de la causalité, sont définis avec précision dans ce lexique. L'analyse sémantique combine ensuite ces définitions pour construire le graphe de la phrase. On montre que la structure de celle-ci, ses éventuelles ambigui͏̈tés et les phénomènes énonciatifs, essentiels dans la compréhension de la causalité, sont représentables dans les graphes et que la construction de ces graphes obéit à des principes réguliers, linguistiquement fondés. Le système exploite ces représentations sémantiques pour répondre aux questions causales. Différentes stratégies sont mises en oeuvre, selon que l'information causale est plus ou moins accessible. Lorsque la représentation sémantique contient une relation cause, des opérations d'extraction y accèdent à travers les structures enchâssées et les contextes. Si l'information causale est moins explicite, d'autres stratégies sont appelées. On peut simuler le processus naturel d'interprétation qui tend à lire causalement certaines relations conceptuelles ou discursives (relations temporelles, coordination,. . . ). On peut également faire des inférences. L'étude des relations causales montre en effet qu'elles ne constituent pas des faits mais des lectures de la réalité. En simulant ce processus d'interprétation, on peut donc construire des informations causales à partir de données non causales
APA, Harvard, Vancouver, ISO, and other styles
21

Fouqueré, Christophe. "Systèmes d'analyse tolérante du langage naturel." Paris 13, 1988. http://www.theses.fr/1988PA132003.

Full text
APA, Harvard, Vancouver, ISO, and other styles
22

Ciortuz, Liviu-Virgil. "Programmation concurrente par contraintes et traitement du langage naturel : le système DF." Lille 1, 1996. http://www.theses.fr/1996LIL10145.

Full text
Abstract:
Cette thèse présente df, un système concurrent de contraintes par traits qui combine certaines idées intéressantes provenant de diverses recherches menées récemment en programmation logique : la logique orientée-objet (représentée ici par la f-logique), les systèmes de contraintes par traits (osf et cft), la programmation concurrente par contraintes (les modèles oz et cc). Elle a pour but final de construire un système démonstratif pour le traitement concurrent du langage naturel basé sur la théorie hpsg. Le système df couple une sémantique déclarative par contraintes de la f-logique avec une sémantique opérationnelle basée sur des règles de réecriture concurrentes. Du point de vue du typage, le système df se situe entre les systèmes osf et cft. Il a sa propre spécificité due au traitement concurrent basé sur des principes orientés-objet des hiérarchies conditionnelles de descriptions par des traits plus fins
Nous avons implémenté un prototype du système df en oz, le langage concurrent multi-paradigme développé au dfki, en mettant en oeuvre une alternative typée et orientée-objet de son sous-système d'articles ouverts. Le système df est appliqué au traitement du langage naturel : analyse, génération et traduction automatique. Nous avons entrepris la conception d'un noyau hpsg pour le roumain, avec une implémentation concurrente. La définitude (définiteness), la topique (topic) et la modification (adjunction) du groupe nominal roumain sont analysées et la fonctionnalité des pronoms clitiques roumains sont expliquées à partir de la linéarisation (linearization) du groupe verbal transitif. Nous avons défini deux méta-schémas au dessus des schémas de la règle de dominance immédiate (id) dans la théorie de hpsg : le méta-schéma id 1, qui concerne les sujets multiples (par exemple les déterminants dans le groupe nominal roumain) et le méta-schéma id 2/6, pour la corrélation des composants localement ordonnés en dépendance non-bornée (comme les clitiques dans le groupe verbal transitif roumain). Les deux méta-schémas id font marcher la concurrence dans le cadre de la théorie des grammaires hpsg
APA, Harvard, Vancouver, ISO, and other styles
23

Fort, Karën. "Les ressources annotées, un enjeu pour l’analyse de contenu : vers une méthodologie de l’annotation manuelle de corpus." Paris 13, 2012. http://scbd-sto.univ-paris13.fr/intranet/edgalilee_th_2012_fort.pdf.

Full text
Abstract:
L’annotation manuelle de corpus est devenue un enjeu fondamental pour le Traitement Automatique des Langues (TAL). En effet, les corpus annotés sont utilisés aussi bien pour créer que pour évaluer des outils de TAL. Or, le processus d’annotation manuelle est encore mal connu et les outils proposés pour supporter ce processus souvent mal utilisés, ce qui ne permet pas de garantir le niveau de qualité de ces annotations. Nous proposons dans cette thèse une vision unifiée de l’annotation manuelle de corpus pour le TAL. Ce travail est le fruit de diverses expériences de gestion et de participation à des campagnes d’annotation, mais également de collaborations avec différents chercheur(e)s. Nous proposons dans un premier temps une méthodologie globale pour la gestion de campagnes d’annotation manuelle de corpus qui repose sur deux piliers majeurs : une organisation des campagnes d’annotation qui met l’évaluation au coeur du processus et une grille d’analyse des dimensions de complexité d’une campagne d’annotation. Un second volet de notre travail a concerné les outils du gestionnaire de campagne. Nous avons pu évaluer l’influence exacte de la pré-annotation automatique sur la qualité et la rapidité de correction humaine, grâce à une série d’expériences menée sur l’annotation morpho-syntaxique de l’anglais. Nous avons également apporté des solutions pratiques concernant l’évaluation de l’annotation manuelle, en donnant au gestionnaire les moyens de sélectionner les mesures les plus appropriées. Enfin, nous avons mis au jour les processus en oeuvre et les outils nécessaires pour une campagne d’annotation et instancié ainsi la méthodologie que nous avons décrite
Manual corpus annotation has become a key issue for Natural Langage Processing (NLP), as manually annotated corpora are used both to create and to evaluate NLP tools. However, the process of manual annotation remains underdescribed and the tools used to support it are often misused. This situation prevents the campaign manager from evaluating and guarantying the quality of the annotation. We propose in this work a unified vision of manual corpus annotation for NLP. It results from our experience of annotation campaigns, either as a manager or as a participant, as well as from collaborations with other researchers. We first propose a global methodology for managing manual corpus annotation campaigns, that relies on two pillars: an organization for annotation campaigns that puts evaluation at the heart of the process and an innovative grid for the analysis of the complexity dimensions of an annotation campaign. A second part of our work concerns the tools of the campaign manager. We evaluated the precise influence of automatic pre-annotation on the quality and speed of the correction by humans, through a series of experiments on part-of-speech tagging for English. Furthermore, we propose practical solutions for the evaluation of manual annotations, that proche che vide the campaign manager with the means to select the most appropriate measures. Finally, we brought to light the processes and tools involved in an annotation campaign and we instantiated the methodology that we described
APA, Harvard, Vancouver, ISO, and other styles
24

RAMMAL, MAHMOUD. "Une interface conceptuelle pour le traitement du langage naturel. Application au langage medical dans le systeme adm." Compiègne, 1993. http://www.theses.fr/1993COMP594S.

Full text
Abstract:
Le systeme adm (aide a la decision medicale) constitue une grande base de connaissances medicales. L'interrogation se faisait en un langage semi-naturel utilisant des mots cles. Afin de conserver le maximum d'informations semantiques, nous proposons de representer le sens des phrases d'interrogation de l'utilisateur en utilisant le formalisme des graphes conceptuels propose par sowa. Cette representation necessite la creation d'un lexique semantique contenant la representation du sens de chaque mot et ses relations avec les autres concepts, ainsi qu'un treillis de concepts. L'interface propose a necessite de plus, le developpement d'une technique d'enrichissement de la base utilisee a chaque decouverte d'un nouveau terme medical. Elle s'inspire des travaux en linguistique computationnelle qui s'adaptent bien au formalisme des graphes conceptuels. Une mise en correspondance des graphes conceptuels obtenus permettra de rechercher les descriptions de la base de connaissances qui correspondent le mieux aux requetes de l'utilisateur
APA, Harvard, Vancouver, ISO, and other styles
25

Dégremont, Jean-François. "Ethnométhodologie et innovation technologique : le cas du traitement automatique des langues naturelles." Paris 7, 1989. http://www.theses.fr/1989PA070043.

Full text
Abstract:
La thèse débute par un rappel des étapes historiques principales du développement de l'ethnométhodologie en tant que discipline, depuis les précurseurs européens des années 30 jusqu'à l'explosion aux Etats Unis puis en Europe à partir de 1967. Une première partie reprend ensuite les concepts principaux de l'ethnométhodologie et les développe en se plaçant dans le cadre théorique de l'école pariseptiste qui tente d'associer le refus maximal des inductions et le principe d'indifférence dans les activités ethnographiques et, en particulier, dans l'utilisation ou la description des langues naturelles considérées à la fois comme objets d'études et moyens de communication scientifique. La seconde partie de la thèse est consacrée à l'application des principes développés antérieurement au domaine des stratégies d'innovations technologiques mises en oeuvre en France en vue d'accroître le potentiel de recherche et développement dans le secteur du traitement automatique des langues naturelles. Trois études décrivent successivement les ethnométhodes et les propriétés rationnelles des actions pratiques mises en oeuvre par un groupe de chargés de mission de l'administration, les processus d'élaboration d'une politique d'innovation technologique, les descriptions indexicales du domaine des industries de la langue et de programmes de r et d dans ce secteur. La conclusion s'efforce de montrer comment la puissance des concepts de l'ethnométhodologie et des outils qui en découlent permettent d'accroître la pertinence des analyses stratégiques et l'efficacité des actions de recherche développement
The thesis begins with a short historical reminder of ethnomethodology, considered as a scientific field, since the whole beginners during the 30's until the 1967 explosion in US and Europe. The first part is an explication of the main concepts of ethnomethodology. They are developped from the pariseptist school theoretical point of view, which tries to associate the strongest refuse of inductions and the indifference principle, mainly when natural languages, considered as well as studies objects and communication tools, are used. The second part of the thesis is devoted to the concrete application of these theoretical concepts in the field of technological strategies which have been elaborated in France in the area of natural language processing. Three studies successively describe the ethnomethods and rational properties of practical activities which are used in an administrative team, the elaboration of a technology policy and indexical descriptions of the language industry field. The conclusion tries to show how the concepts and methods developped by ethnomethodology can increase, in this field, the efficacy of strategical analysis and the quality of research and development programs
APA, Harvard, Vancouver, ISO, and other styles
26

Gayral, Françoise. "Sémantique du langage naturel et profondeur variable : Une première approche." Paris 13, 1992. http://www.theses.fr/1992PA132004.

Full text
Abstract:
Le travail que nous présentons concerne la sémantique du langage naturel. Il se situe dans le cadre de ce que la tradition informatique appelle compréhension du langage naturel. Apres avoir tenté de cerner les enjeux de cette discipline et avoir analysé les différents courants existants, nous présentons un système: le système à profondeur variable. Celui-ci s'appuie sur un appareil logique, précisément une logique non monotone. Les nombreuses connaissances exigées dans le processus de compréhension d'un texte sont représentées dans le système grâce à un ensemble de concepts et de règles. Nous montrons sur trois applications en quoi ce système apporte des éléments de réponse intéressants à certains problèmes sémantiques. Une application concerne l'élaboration d'une ontologie temporelle pour un traitement sémantique de récits en langage naturel. Cette ontologie rend compte des phénomènes temporels de la langue et concrétise cette capacité de la langue à multiplier les points de vue sur une entité temporelle. Une autre tente, sur un court texte, un travail sémantique complet prenant en compte de manière homogène les différents types de connaissances, du lexique aux connaissances du monde. Enfin, nous traitons d'un corpus composé de textes de constats d'accident de voiture. Nous cherchons à reproduire un raisonnement physique de sens commun qui semble souvent loin d'un raisonnement de physique traditionnelle et nous formalisons, pour cela, des éléments d'une physique naïve adaptée à ces textes.
APA, Harvard, Vancouver, ISO, and other styles
27

Alain, Pierre. "Contributions à l'évaluation des modèles de langage." Rennes 1, 2007. http://www.theses.fr/2007REN1S003.

Full text
Abstract:
Ces travaux portent sur l'évaluation des modèles de langages en dehors de toute tâche applicative. Le problème d'une étude comparative entre plusieurs modèles est généralement lié à la fonction dans un système complet. Notre objectif consiste au contraire à s'abstraire au maximum des contraintes liées au système, et ainsi pourvoir comparer effectivement les modèles. Le critère le plus couramment admis pour une comparaison de modèles de langage est la perplexité. Ces travaux reprennent les hypothèses du jeu de Shannon, de manière à poser un cadre d'évaluation des modèles de langage fondée sur leur capacité de prédiction. La méthodologie s'intéresse à la prédiction conjointe de mots, et reste indépendante de toute tâche applicative, de la nature du modèle, ainsi que du nombre de paramètres de ce modèle. Des expériences sont menées sur la modélisation du français et de l'anglais à partir de vocabulaires de taille variable, et différents modèles sont mis en concurrence
This work deals with the evaluation of language models independently of any applicative task. A comparative study between several language models is generally related to the role that a model has into a complete system. Our objective consists in being independant of the applicative system, and thus to provide a true comparison of language models. Perplexity is a widely used criterion as to comparing language models without any task assumptions. However, the main drawback is that perplexity supposes probability distributions and hence cannot compare heterogeneous models. As an evaluation framework, we went back to the definition of the Shannon's game which is based on model prediction performance using rank based statistics. Our methodology is able to predict joint word sequences that are independent of the task or model assumptions. Experiments are carried out on French and English modeling with large vocabularies, and compare different kinds of language models
APA, Harvard, Vancouver, ISO, and other styles
28

Laskri, Mohamed Tayeb. "Approche de l'automatisation de thésaurus : étude de la sémantique adaptée du langage naturel." Aix-Marseille 2, 1987. http://www.theses.fr/1987AIX22076.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

Mazahreh, Mazhar. "Recherche et analyse informatique des expressions du langage naturel correspondant à des questions sur les bases de données." Paris, EHESS, 1990. http://www.theses.fr/1990EHES0059.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Harrathi, Farah. "Extraction de concepts et de relations entre concepts à partir des documents multilingues : approche statistique et ontologique." Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0073/these.pdf.

Full text
Abstract:
Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l’extraction des descripteurs sémantiques pour l’indexation. Le but de la Recherche d’Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes permettant la sélection d’un ensemble de documents satisfaisant un besoin utilisateur en termes d’information exprimé sous forme d’une requête. Un Système de Recherche d’Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé “ sac de mots ”. Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d’apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d’un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme “ bus ” ne sera jamais retrouvé par une requête indexée par le terme “taxi ”, pourtant il s’agit de deux termes qui traitent le même thème “ moyen de transport ”. Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en compte de l’aspect sémantique des termes d’indexation. Ce type d’indexation est appelé indexation sémantique ou conceptuelle
The research work of this thesis is related to the problem of document search indexing and more specifically in that of the extraction of semantic descriptors for document indexing. Information Retrieval System (IRS) is a set of models and systems for selecting a set of documents satisfying user needs in terms of information expressed as a query. In IR, a query is composed mainly of two processes for representation and retrieval. The process of representation is called indexing, it allows to represent documents and query descriptors, or indexes. These descriptors reflect the contents of documents. The retrieval process consists on the comparison between documents representations and query representation. In the classical IRS, the descriptors used are words (simple or compound). These IRS consider the document as a set of words, often called a "bag of words". In these systems, the words are considered as graphs without semantics. The only information used for these words is their occurrence frequency in the documents. These systems do not take into account the semantic relationships between words. For example, it is impossible to find documents represented by a word synonymous with M1 word M2, where the request is represented by M2. Also, in a classic IRS document indexed by the term "bus" will never be found by a query indexed by the word "taxi", yet these are two words that deal with the same subject "means of transportation. " To address these limitations, several studies were interested taking into account of the semantic indexing terms. This type of indexing is called semantic or conceptual indexing. These works take into account the notion of concept in place of notion of word. In this work the terms denoting concepts are extracted from the document by using statistical techniques. These terms are then projected onto resource of semantics such as: ontology, thesaurus and so on to extract the concepts involved
APA, Harvard, Vancouver, ISO, and other styles
31

PARK, SE YOUNG. "Un algorithme efficace pour l'analyse du langage naturel : application aux traitements des erreurs et aux grammaires discontinues." Paris 7, 1989. http://www.theses.fr/1989PA077214.

Full text
Abstract:
Un algorithme efficace pour l'analyse du langage naturel est présenté. L'algorithme proposé est basé sur l'algorithme LR. Notre algorithme est amélioré à partir des temps d'exécution et espace nécessaire. Nous aussi présentons une application de notre algorithme aux traitements des erreurs et aux grammaires discontinues
APA, Harvard, Vancouver, ISO, and other styles
32

Fourour, Nordine. "Identification et catégorisation automatique des entités nommées dans les textes français." Nantes, 2004. http://www.theses.fr/2004NANT2126.

Full text
Abstract:
La reconnaissance des entités nommées (EN) reste un problème pour de nombreuses applications de Traitement Automatique des Langues Naturelles. Conséquemment à une étude linguistique permettant l'émergence de paramètres définitoires opérationnels liés au concept d'entité nommée, un état de l'art du domaine et une étude en corpus fondée sur des critères graphiques et référentiels, nous présentons Nemesis, un système d'identification et de catégorisation des EN du français, fondé sur l'analyse des évidences interne et externe réalisée à l'aide de lexiques de mots déclencheurs et de règles de réécriture et comportant une phase d'apprentissage. Dans cette version minimale, Nemesis atteint environ 90% en précision et 80% en rappel. Pour augmenter le rappel, nous proposons différents modules optionnels (examen d'un contexte encore plus large et utilisation du Web comme source de nouveaux contextes) et une étude pour la réalisation d'un module de désambiguïsation et d'apprentissage de règles
Named Entity (NE) Recognition is a recurring problem in the different domain of Natural Language Processing. As a result of, a linguistic investigation allowing to set-up operational parameters defining the concept of named entity, a state of art of the domain, and a corpus investigation using referential and graphical criteria, we present Nemesis - a French named entity recognizer. This system analyzes the internal and external evidences by using grammar rules and trigger word lexicons, and includes a learning process. With these processes, Nemesis performance achieves about 90% of precision and 80% of recall. To increase the recall, we put forward optional modules (analysis of the wide context and utilization of the Web as a source of new contexts) and investigate in setting up a disambiguation and grammar rules inference module
APA, Harvard, Vancouver, ISO, and other styles
33

Tartier, Annie. "Analyse automatique de l'évolution terminologique : variations et distances." Nantes, 2004. http://www.theses.fr/2004NANT2040.

Full text
Abstract:
Cette thèse est consacrée à l'élaboration de méthodes destinées à repérer automatiquement des phénomènes évolutifs dans les termes extraits de corpus diachroniques de textes scientifiques ou techniques. Le premier axe de recherche concerne la nature des changements. Il s'appuie sur une typologie de la variation terminologique pour définir une distance entre deux formes terminologiques. Cette distance permet de regrouper simplement les variantes d'un terme et de définir des mesures sur les ensembles de termes étudiés. Le deuxième axe concerne la structuration du temps et propose diverses modalités d'examen diachronique destinées à distinguer les changements éphémères des changements durables qui pourraient être les signes d'une évolution. Ces idées sont implémentées dans un prototype qui propose d'une part des profils temporels, d'autre part des informations sur les termes stables, obsolètes ou nouveaux, informations données sur les formes exactes ou aux variantes près
The aim of this thesis is to work out automatic methods for uncovering any evolutionary phenomena within terms extracted from diachronic corpora of scientific or technical texts. The first research axis concerns the nature of changes. It is based on a terminological variation typology aiming to define a distance between two terminological forms. That distance allows us to easily put together the variants of a term and to define measures from sets of studied terms. The second axis concerns time structuration and proposes several diachronic examination modes in order to distinguish ephemeral changes from durable ones which could be the signs of an evolution. These ideas are implemented in a prototype which first proposes temporal profiles, then some information about stable, old or new terms, information given for exact forms or to the nearest variant
APA, Harvard, Vancouver, ISO, and other styles
34

Balicco, Laurence. "Génération de repliques en français dans une interface homme-machine en langue naturelle." Grenoble 2, 1993. http://www.theses.fr/1993GRE21025.

Full text
Abstract:
Cette recherche entre dans le cadre de la generation automatique de langue naturelle, domaine qui fut longtemps neglige, cette phase semblant plus simple que celle d'analyse de la langue. Cette these qui correspond a un premier travail sur la generation au sein du criss place le probleme de la generation automatique dans le cadre d'un homme-machine en langue naturelle. Ceci a des consequences, parmi lesquelles la generation a partir d'un contenu a exprimer en langue naturelle, une expression en langue naturelle de ce contenu aussi fidelement que possible,. . . Apres avoir etudie les differents travaux en generation, nous avons decide d'elaborer notre propre systeme de generation, en reutililisant, dans la mesure du possible, les outils developpes pour l'analyse. Ce generateur repose sur un modele linguistique utilisant des informations principalement syntaxiques et morphologiques et dans lequel sont definies des transformations linguistiques appelees operations (coordination, anaphorisation, thematisation,. . . ) donnees par le dialogue ou calculees lors de la phase de generation. Il permet la creation de plusieurs versions d'une meme replique et ainsi que, brievement, un projet europeen qui presente une application possible du generateur
This research takes place in the context of natural language generation. This field has benn neglected for a long time because it seemed a much easier phase that those of analysis. The thesis corresponds to a first work on generation in the criss team and places the problem of generation in the context of a manmachine dialogue in natural language. Some of its consequences are : generation from a logical content to be translated into natural language, this translation of the original content kept as close as possible,. . . After the study of the different works that have been done, we decided to create our own generation system, resusing when it is possible, the tools elaborated during the analyzing process. This generation process is based on a linguistic model, which uses syntactic and morphologic information and in which linguistic transformations called operations are defined (coodination, anaphorisation, thematisation,. . . ). These operations can be given by the dialogue or calulated during the generation process. The model allows the creation of several of the same utterance and therefore a best adaptation for different users. This thesis presents the studied works, essentially on the french and the english languages, the linguistic model developped, the computing model used, and a brief presentation of an european project which offers a possible application of ou
APA, Harvard, Vancouver, ISO, and other styles
35

Alsandouk, Fatima. "Grammaire de scene : processus de comprehension de textes de description geometrique." Toulouse 2, 1990. http://www.theses.fr/1990TOU20058.

Full text
APA, Harvard, Vancouver, ISO, and other styles
36

Denand, Nicolas. "Traitement automatique de phrases locatives statiques du français." Aix-Marseille 2, 2004. http://www.theses.fr/2004AIX22035.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Wolfarth, Claire. "Apport du TAL à l’exploitation linguistique d’un corpus scolaire longitudinal." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAL025.

Full text
Abstract:
Depuis peu, émerge une réelle dynamique de constitution et de diffusion de corpus d’écrits scolaires, notamment francophones. Ces corpus, qui appuient les travaux en didactique de l’écriture, sont souvent de taille restreinte et peu diffusés. Des corpus longitudinaux, c'est-à-dire réalisant le suivi d’une cohorte d’élèves et permettant de s’intéresser à la progressivité des apprentissages, n’existent pas à ce jour pour le français.Par ailleurs, bien que le traitement automatique des langues (TAL) ait outillé des corpus de natures très diverses, peu de travaux se sont intéressés aux écrits scolaires. Ce nouveau champ d’application représente un défi pour le TAL en raison des spécificités des écrits scolaires, et particulièrement les nombreux écarts à la norme qui les caractérisent. Les outils proposés à l’heure actuelle ne conviennent donc pas à l’exploitation de ces corpus. Il y a donc un enjeu pour le TAL à développer des méthodes spécifiques.Cette thèse présente deux apports principaux. D’une part, ce travail a permis la constitution d’un corpus d’écrits scolaires longitudinal (CP-CM2), de grande taille et numérisé, le corpus Scoledit. Par « constitution », nous entendons le recueil, la numérisation et la transcription des productions, l’annotation des données linguistiques et la diffusion de la ressource ainsi constituée. D’autre part, ce travail a donné lieu à l’élaboration d’une méthode d’exploitation de ce corpus, appelée approche par comparaison, qui s’appuie sur la comparaison entre la transcription des productions et une version normalisée de ces productions pour produire des analyses.Cette méthode a nécessité le développement d’un aligneur de formes, appelé AliScol, qui permet de mettre en correspondance les formes produites par l’élève et les formes normalisées. Cet outil représente un premier niveau d’alignement à partir duquel différentes analyses linguistiques ont été menées (lexicales, morphographiques, graphémiques). La conception d’un aligneur en graphèmes, appelé AliScol_Graph, a été nécessaire pour conduire une étude sur les graphèmes
In recent years, there has been an actual effort to constitute and promote children’s writings corpora especially in French. The first research works on writing acquisition relied on small corpora that were not widely distributed. Longitudinal corpora, monitoring a cohort of children’s productions from similar collection conditions from one year to the next, do not exist in French yet.Moreover, although natural language processing (NLP) has provided tools for a wide variety of corpora, few studies have been conducted on children's writings corpora. This new scope represents a challenge for the NLP field because of children's writings specificities, and particularly their deviation from the written norm. Hence, tools currently available are not suitable for the exploitation of these corpora. There is therefore a challenge for NLP to develop specific methods for these written productions.This thesis provides two main contributions. On the one hand, this work has led to the creation of a large and digitized longitudinal corpus of children's writings (from 6 to 11 years old) named the Scoledit corpus. Its constitution implies the collection, the digitization and the transcription of productions, the annotation of linguistic data and the dissemination of the resource thus constituted. On the other hand, this work enables the development of a method exploiting this corpus, called the comparison approach, which is based on the comparison between the transcription of children’s productions and their standardized version.In order to create a first level of alignment, this method compared transcribed forms to their normalized counterparts, using the aligner AliScol. It also made possible the exploration of various linguistic analyses (lexical, morphographic, graphical). And finally, in order to analyse graphemes, an aligner of transcribed and normalized graphemes, called AliScol_Graph was created
APA, Harvard, Vancouver, ISO, and other styles
38

Krit, Hatem. "Locadelane : un langage objet d'aide à la compréhension automatique du discours exprimé en langage naturel et écri." Toulouse 3, 1990. http://www.theses.fr/1990TOU30008.

Full text
Abstract:
Cette these se presente comme une contribution a l'etude de la modelisation objet dans le domaine de la comprehension automatique du langage naturel et ecrit. Son objectif est de definir un langage objet qui offre un formalisme de representation et de manipulation des connaissances du domaine favorisant la coherence, la modularite, l'unicite, la combinaison du procedural et du declaratif, la souplesse des modules dans l'architecture du systeme, et l'interaction des taches en parallele. Ce langage, intitule locadelane, a ete ecrit au-dessus du langage c sous un environnement unix, et il est operationnel sur un sm90. Le premier chapitre presente une synthese des recherches dans le domaine du traitement automatique du langage naturel. Le deuxieme chapitre donne les concepts de base et l'apport de la programmation orientee objet dans differents domaines de l'informatique. Le troisieme chapitre decrit le modele sur lequel locadelane a ete construit. Les concepts de locadelane sont presentes dans le quatrieme chapitre, et sa mise en uvre est discutee dans le cinquieme chapitre. Dans le sixieme chapitre, nous presentons l'application de locadelane a la comprehension automatique de recits au travers de quelques exemples de fables de la fontaine. Enfin, en guise de conclusion, nous formulons des propositions d'extensions des concepts locadelane afin d'appliquer ce langage a une plus large classe de problemes
APA, Harvard, Vancouver, ISO, and other styles
39

Maire-Reppert, Daniele. "L'imparfait de l'indicatif en vue d'un traitement informatique du français." Paris 4, 1990. http://www.theses.fr/1990PA040039.

Full text
Abstract:
Cette approche de l'imparfait de l'indicatif s'inscrit dans une méthodologie des systèmes experts. On a d'abord isole, puis représente a l'aide de la topologie générale les valeurs de l'imparfait : état descriptif, état permanent, nouvel état, processus en développement, habitude, irréel, éventuel politesse et hypocoristique. Un invariant a été ensuite dégagé, permettant ainsi de différencier l'imparfait des autres temps. Enfin, on a élaboré une base de règles heuristiques (une centaine de règles de production de forme déclarative : si condition vérifiée alors résultat) dont la fonction est d'attribuer à un morphème temporel une valeur sémantique en tenant compte du contexte. L'exploration contextuelle a été menée au niveau du texte, de la phrase et de l'archétype du verbe. Cette étude de l'imparfait a été complétée par un exemple d'insertion du module "règles heuristiques" dans une architecture du traitement des langues naturelles ainsi que par une réflexion sur l'intérêt didactique d'une telle démarche dans l'enseignement des langues vivantes
My approach to the French imperfect is in keeping with the methodology of expert systems. I have first identified and then given a topological representation of the values of the imperfect, i. E. : descriptive state, permanent state, new state, progressive process, habit, possibility, hypothetical, politeness and hypocoristic. We have then defined its constant in order to distinguish the imperfect from the other tenses. Finally, we have worked out a set of heuristic rules (about a hundred of production rules), the function of which is to associate a semantic value to a temporal morpheme according to the context. This contextual research has been led at the level of the text, of the sentence and the archetype of the verb. Our study of the imperfect has been completed by an example of insertion of the "heuristic rules" module in architecture of natural languages treatment and by short analysis of the contribution of such an approach in teaching foreign languages
APA, Harvard, Vancouver, ISO, and other styles
40

Tannier, Xavier. "Extraction et recherche d'information en langage naturel dans les documents semi-structurés." Phd thesis, Ecole Nationale Supérieure des Mines de Saint-Etienne, 2006. http://tel.archives-ouvertes.fr/tel-00121721.

Full text
Abstract:
La recherche d'information (RI) dans des documents semi-structurés
(écrits en XML en pratique) combine des aspects de la RI
traditionnelle et ceux de l'interrogation de bases de données. La
structure a une importance primordiale, mais le besoin d'information
reste vague. L'unité de recherche est variable (un paragraphe, une
figure, un article complet\dots). Par ailleurs, la flexibilité du
langage XML autorise des manipulations du contenu qui provoquent
parfois des ruptures arbitraires dans le flot naturel du texte.

Les problèmes posés par ces caractéristiques sont nombreux, que ce
soit au niveau du pré-traitement des documents ou de leur
interrogation. Face à ces problèmes, nous avons étudié les solutions
spécifiques que pouvait apporter le traitement automatique de la
langue (TAL). Nous avons ainsi proposé un cadre théorique et une
approche pratique pour permettre l'utilisation des techniques
d'analyse textuelle en faisant abstraction de la structure. Nous avons
également conçu une interface d'interrogation en langage naturel pour
la RI dans les documents XML, et proposé des méthodes tirant profit de
la structure pour améliorer la recherche des éléments pertinents.
APA, Harvard, Vancouver, ISO, and other styles
41

Arias, Aguilar José Anibal. "Méthodes spectrales pour le traitement automatique de documents audio." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/436/.

Full text
Abstract:
Les disfluences sont un phénomène apparaissant fréquemment dans toute production orale spontanée ; elles consistent en l'interruption du cours normal du discours. Elles ont donné lieu à de nombreuses études en Traitement Automatique du Langage Naturel. En effet, leur étude et leur identification précise sont primordiales, sur les plans théorique et applicatif. Cependant, la majorité des travaux de recherche sur le sujet portent sur des usages de langage quotidien : dialogues " à bâtons rompus ", demandes d'horaire, discours, etc. Mais qu'en est-il des productions orales spontanées produites dans un cadre contraint ? Aucune étude n'a à notre connaissance été menée dans ce contexte. Or, on sait que l'utilisation d'une " langue de spécialité " dans le cadre d'une tâche donnée entraîne des comportements spécifiques. Notre travail de thèse est consacré à l'étude linguistique et informatique des disfluences dans un tel cadre. Il s'agit de dialogues de contrôle de trafic aérien, aux contraintes pragmatiques et linguistiques. Nous effectuons une étude exhaustive des phénomènes de disfluences dans ce contexte. Dans un premier temps nous procédons à l'analyse fine de ces phénomènes. Ensuite, nous les modélisons à un niveau de représentation abstrait, ce qui nous permet d'obtenir les patrons correspondant aux différentes configurations observées. Enfin nous proposons une méthodologie de traitement automatique. Celle-ci consiste en plusieurs algorithmes pour identifier les différents phénomènes, même en l'absence de marqueurs explicites. Elle est intégrée dans un système de traitement automatique de la parole. Enfin, la méthodologie est validée sur un corpus de 400 énoncés
The disfluencies are a frequently occurring phenomenon in any spontaneous speech production; it consists of the interruption of the normal flow of speech. They have given rise to numerous studies in Natural Language Processing. Indeed, their study and precise identification are essential, both from a theoretical and applicative perspective. However, most of the researches about the subject relate to everyday uses of language: "small talk" dialogs, requests for schedule, speeches, etc. But what about spontaneous speech production made in a restrained framework? To our knowledge, no study has ever been carried out in this context. However, we know that using a "language specialty" in the framework of a given task leads to specific behaviours. Our thesis work is devoted to the linguistic and computational study of disfluencies within such a framework. These dialogs concern air traffic control, which entails both pragmatic and linguistic constraints. We carry out an exhaustive study of disfluencies phenomena in this context. At first we conduct a subtle analysis of these phenomena. Then we model them to a level of abstraction, which allows us to obtain the patterns corresponding to the different configurations observed. Finally we propose a methodology for automatic processing. It consists of several algorithms to identify the different phenomena, even in the absence of explicit markers. It is integrated into a system of automatic processing of speech. Eventually, the methodology is validated on a corpus of 400 sentences
APA, Harvard, Vancouver, ISO, and other styles
42

Kupsc, Anna. "Une grammaire hpsg des clitiques polonais." Paris 7, 2000. http://www.theses.fr/2000PA070086.

Full text
Abstract:
L'objectif de cette these est une description formelle du polonais, adaptee au traitement automatique. Les problemes linguistiques abordes concernent les clitiques (formes atones): les clitiques pronominaux (cp) (e. G. , go 'le', mu 'lui'), le clitique reflechi (cr) si@ 'se' - et le dit marquer negatif (mn) nie 'ne pas'. Leur statut grammatical, l'ordre des cp, le comportement des clitiques dans les phrases infinitives (dite 'monte des clitiques'), les constructions avec cr, l'omission du cr dans certains contextes verbaux (dite haplologie) ainsi que des proprietes morpho-syntaxique du mn ont ete etudie. On montre que les cp et le cr sont des unites syntagmatiques alors que le mn est un prefixe verbal. La description theorique est formalisee dans le cadre hpsg (head-driven phrase structure grammar, une grammaire syntagmatique guidee par la tete. Cf. Pollard et sag (1994)). Pour l'analyse de clitiques polonais ; on a besoin de modifier et de generaliser de principes syntagmatiques proposes par pollard et sag mais aussi d'introduir des regles specifiques ; e. G. , des regles d'ordre sur les clitiques syntaxiques. Le cr a certaines proprietes differentes de cp. On montre que c'est la semantique lexicale des verbes qui autorise le cr et non pas seulement la syntax comme dans le cas des cp. Le mn est un prefix verbal et on propose une analyse morpho-syntaxique de verbes nies. Pour obtenir de formes nies, on utilise des contraintes et une sous-specification lexicale a la place des regles lexicales mions efficaces. Le noyau de l'analyse formelle sert comme base pour creer un simple analyseur automatique en ale (the attributte logic engine), un systeme informatique pour le traitement automatique de grammaires de type hpsg. L'implementation comprend le monte des clitiques et malgre les regles syntagmatiques rigides d'ale, les differents ordres post-verbaux des clitiques et non-clitiques.
APA, Harvard, Vancouver, ISO, and other styles
43

EL, HAROUCHY ZAHRA. "Dictionnaire et grammaire pour le traitement automatique des ambiguites morphologiques des mots simples en francais." Besançon, 1997. http://www.theses.fr/1997BESA1010.

Full text
Abstract:
En analyse automatique d'un texte, une des premieres etapes consiste a determiner les categories grammaticales des mots. Pour ce faire; un dictionnaire a ete cree sur la base d'une reconnaissance de la ou des categories grammaticales des mots simples a partir de leur terminaison. Ce dictionnaire que nous appelons dictionnaire automatique est un ensemble de regles generales (qui peuvent comprendre des sous-regles). Une regle generale enonce une terminaison. Un operateur (la ou les categories grammaticales) est associe a chaque regle. Nous avons par exemple la regle generale suivante : "les mots termines par 'able' sont des adjectifs". Comme exceptions (ou sous-regles) a cette regle generale, nous avons des noms ("cartable,. . . "), des verbes conjugues ("accable,. . . ") et des ambiguites morphologiques de type "nom et verbe conjugue (comme "sable table,. . . ") et des ambiguites de type "nom et adjectif" (comme comptable ,. . . ). Des lors un tel dictionnaire met en evidence les mots possedant plusieurs categories grammaticales. Lorsque le dictionnaire automatique detecte dans un texte un mot polycategoriel, il y a renvoi a la grammaire qui se charge de lever les ambiguites morphologiques par un examen du contexte immediat. Les regles de la grammaire fonctionnent comme un ensemble de combinaisons possibles d'elements pouvant suivre et/ou preceder la forme ambigue (par exemple une regle annonce qu'une forme ambigue de type "pronom ou article" precedee de "a cause de" est alors un article)
When carrying out the automatic analysis of a text, one of the first stages consists in determining the grammatical categories of the words. In order to do this, a dictionary has been designed which recognises the one or several grammatical categories of non-compound words from their endings. This dictionary, which we have called automatic dictionary, is a collection of general rules (which can consist of sub- rules). A general rule sets forth an ending. An operator (the one or several grammatical categories) is associated with each rule. For example, we have the following general rule: +words ending in 'able' are adjectives;. Examples of exceptions to (or sub-rules) of this general rule are nouns such as (+cartable ;), conjugated verbs like (+ accable ;), and morphological ambiguities such as + noun and conjugated verb (like +sable;, +table. . . ;), and ambiguities such as + adjectival nouns ;(like, for example, + comptable ;. . . ) consequently, this sort of dictionary gives prominence to those words posessing several grammatical categories. When the automatic dictionary detects a word posessing several categories, the grammar system is consulted,of which the role is to pick out the morphological ambiguities by studying the immediate context. The rules in the grammar system work like a group of possible combinations of elements capable of going after and-or before the ambiguous form ( for example, a rule states that an ambiguous form such as + pronoun or article ; preceded by + a cause de ; is, in fact, an article)
APA, Harvard, Vancouver, ISO, and other styles
44

Haddad, Afifa. "Traitement des nominalisations anaphoriques en indexation automatique." Lyon 2, 2001. http://theses.univ-lyon2.fr/documents/lyon2/2001/haddad_a.

Full text
Abstract:
Cette thèse propose une méthode d'indexation en texte intégral basée sur les syntagmes nominaux anaphoriques. Il s'agit d'exploiter tout le contexte discursif impliqué par une relation d'anaphore pour former un descripteur riche en information, et d'avoir ainsi un index performant. La contribution principale de ce travail consiste en la conception d'une méthode permettant de reconstituer systématiquement tous les arguments d'une nominalisation anaphorique présente dans le discours et d'avoir ainsi un descripteur complètement défini. Cette résolution des anaphores nominales repose toutefois sur un travail préliminaire permettant de recenser toutes les constructions syntaxiques possibles des syntagmes nominaux construits autour d'une nominalisation et d'identifier un ensemble des règles syntaxiques qui réagissent la correspondance entre la forme nominalisée anaphorique et la forme verbale pleine de l'antécédent. Une démonstration de la faisabilité de cette méthode a été réalisée à travers son application sur un corpus
This thesis proposes en indexation method for integral texts based on anaphoric noun phrases. The motivation is to take advantage from the wide context of an anaphora relation in order to build a rich descriptor ? and to get consequently a performant index. The main contribution here is the design of a complete method enabling the systematic reconstitution of all arguments of each anaphoric nominalization encountered in the text. A completely resolved noun phrase constitutes a rich descriptor that is then added to the index. The resolution a nominal anaphora makes use the results of other preliminarly activities. These consists in collecting the syntactic structures of the possible noun phrase corresponding to a nominalization and, identifying a set of the anaphoric noun phrase and the form of its precedent. The feasibility of the proposed has been demonstrated through an application to a real-life corpus
APA, Harvard, Vancouver, ISO, and other styles
45

Haddad, Afifa Le Guern Michel. "Traitement des nominalisations anaphoriques en indexation automatique." [S.l.] : [s.n.], 2001. http://theses.univ-lyon2.fr/sdx/theses/lyon2/intranet/haddad_a.

Full text
APA, Harvard, Vancouver, ISO, and other styles
46

Véronis, Jean. "Contribution à l'étude de l'erreur dans le dialogue homme-machine en langage naturel." Aix-Marseille 3, 1988. http://www.theses.fr/1988AIX30043.

Full text
Abstract:
Au niveau lexical, une methode efficace de recherche approximative de mots contenant a la fois des erreurs hypographiques, phono-graphiques et de flexion est proposee. Au niveau syntaxique, des solutions en vue de l'ecriture de grammaires fortement coherentes sont proposees et des strategies d'analyse forcee de phrases erronees et de correction des erreurs morpho-syntaxiques sont decrites. Au niveau semantique, un modele du dialogue homme-machine base sur les notions de mou de possible et l'univers de croyance, permettant de prendre en compte certaines erreurs concernant la contingence, les modalites alethiques, l'absurde et les presuppositions, est introduit
APA, Harvard, Vancouver, ISO, and other styles
47

Perraud, Freddy. "Modélisation du langage naturel appliquée à la reconnaissance de l'écriture manuscrite en-ligne." Nantes, 2005. http://www.theses.fr/2005NANT2112.

Full text
Abstract:
L'évolution de la société de l'Information avec les concepts d'ubiquité, de nomadisme, d'accès à l'information sans discontinuer, en tous lieux et en tous temps, et si possible avec le minimum d'efforts pour l'utilisateur impose de repenser les interfaces de communication. En effet, dans ces situations, la plupart du temps, le clavier n'apporte pas les solutions de confort attendu. L'utilisation de commandes gestuelles, et en particulier de l'écriture manuscrite, se révèle être aujourd'hui une alternative crédible pour ces nouveaux systèmes communicants (assistant numérique, ardoise électronique, etc. ). Les performances des systèmes de reconnaissance actuels sont encore bien inférieures à celles de l'humain notamment dans la prise en compte d'informations contextuelles d'ordre linguistique. Les travaux que nous présentons dans ce manuscrit s'inscrivent dans un cadre industriel (CIFRE) et visent à améliorer le système de reconnaissance de l'écriture manuscrite nommé MyScript Builder, développé par la société Vision Objects. Dans un tel système, la prise en compte des propriétés du langage constitue un élément clé. C'est l'objectif central de ce travail pour lequel encore peu de contributions sont disponibles. Nous avons cherché à concevoir, développer et tester des modèles de langage les plus efficaces possibles pour un système de reconnaissance de l'écriture manuscrite en-ligne. Plusieurs types de contraintes étaient à satisfaire. En articulier, il fallait veiller au compromis taille/performance, mais aussi envisager la portabilité de la méthode afin de pouvoir la généraliser à différentes langues. Ainsi, nous avons privilégié une approche probabiliste basée sur des n-classes pour traiter les langues naturelles. Nous avons expérimenté de nombreuses techniques de classification basées sur différentes méthodes d'exploration de l'espace de recherche et se basant sur un critère de nature contextuelle ou syntaxique. Par ailleurs, des modèles structurels appelés lexiques d'expressions, ont été étudiés pour traiter des entités linguistiques spécifiques. Ces modèles ont fait l'objet d'expérimentations poussées pour évaluer les améliorations apportées au système de reconnaissance MyScript Builder. Sur des phrases appartenant à 13 langues différentes, le taux d'erreur a été diminué de 30 %en moyenne à l'aide de modèles n-classes par rapport à une version ne comportant qu'un simple lexique. Les lexiques d'expressions s'avèrent particulièrement performants puisque le nombre d'erreurs de reconnaissance est réduit de moitié.
APA, Harvard, Vancouver, ISO, and other styles
48

N'Guéma, Sylvain Abraham. "Intégration de paramètres formels d'intonation à l'analyse syntaxique automatique dans une perspective d'aide à la désambigui͏̈sation syntaxique." Avignon, 1998. http://www.theses.fr/1998AVIG0121.

Full text
Abstract:
En matière de traitement automatique du langage naturel (taln), il est d'usage de procéder à l'analyse syntaxique d'un énoncé à partir des indications morphologiques qui s'y rapportent. Cependant dans de nombreux cas (notamment lors de la présence d'ambiguïtés syntaxiques), ces indications peuvent s'avérer insuffisantes. Aussi paraît-il nécessaire que les systèmes de communication homme-machine soient aptes à traiter simultanément différentes autres sources de connaissances afin de pouvoir recourir à des informations supplémentaires en cas de besoin, et de permettre ainsi un meilleur contrôle des processus (via notamment, des retours arrière intelligents). Cette thèse de doctorat porte sur l'intégration de paramètres formels d'intonation à l'analyse syntaxique automatique dans une perspective d'aide à la désambiguïsation syntaxique. Une approche symbolique d'intégration est proposée. Elle se fonde sur un cadre formel qui permet à la fois une représentation homogène des connaissances et une modélisation de différentes relations pluridirectionnelles censées exister entre l'intonation et la syntaxe. Ce cadre formel est fourni par le modèle d'unification hpsg (head-driven phrase structure grammar). Dans la première partie de cette thèse, il est question des principaux écueils rencontrés par les efforts traditionnels d'intégration intonation-syntaxe dans les systèmes de communication homme-machine. Dans le même temps, sont examinés différents avantages et limitations d'approches récentes d'intégrations élaborées dans le cadre des grammaires de types logiques. La deuxième partie présente, dans un premier temps, les caractéristiques du cadre formel de l'approche d'intégration proposée. En recourant notamment au langage de description de la logique attribut-valeur des structures de traits types, cette présentation tente de mettre en évidence l'intérêt logique et informatique du modèle grammatical d'unification hpsg. Puis, dans un second temps, le systéme de transcription de l'intonation proposé par P. Mertens et utilisé dans cette thèse, est décrit. En particulier, il s'agit de montrer comment la calculabilité et la compositionnalité de ce système facilitent sa représentation dans la logique attribut-valeur, et partant, son intégration à l'analyse syntaxique automatique. Dans un troisième temps, il est question de la recherche d'un principe de congruence partielle intonation-syntaxe dans les systèmes automatisés afin de guider l'analyse syntaxique automatique, et partant, de réduire les possibilités d'ambiguïtés de segmentation et de hiérarchisation de syntagmes. Enfin, ce mémoire s'achève par la réalisation d'un analyseur syntactico-prosodique qui se veut conforme à l'approche d'intégration proposée. Implementé dans un langage multi-paradigme dénommé life 1. 02, cet analyseur semble étayer l'efficience de cette approche au regard non seulement des limitations des approches équivalentes développées notamment dans le cadre des grammaires de types logiques, mais aussi au vu du but immédiat d'intégration poursuivi dans cette thèse
APA, Harvard, Vancouver, ISO, and other styles
49

Poibeau, Thierry. "Extraction d'information à base de connaissances hybrides." Paris 13, 2002. http://www.theses.fr/2002PA132001.

Full text
Abstract:
Notre travail se situe dans le domaine de l'extraction d'information. Ce terme désigne l'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle. La mise au point des ressources d'un système d'extraction est une tâche longue et fastidieuse, qui demande le plus souvent une expertise de domaine abordé et des connaissances en linguistique informatique. Ce point est bien connu et les concepteurs de systèmes mentionnent tous destemps prohibitifs passés à développer des ressources. . . .
APA, Harvard, Vancouver, ISO, and other styles
50

Levrat, Bernard. "Le problème du sens dans les sytèmes de traitement du langage naturel : Une approche alternative au travers de la paraphrase." Paris 13, 1993. http://www.theses.fr/1993PA132023.

Full text
Abstract:
Contrairement à la plupart des théories sémantiques, nous considérons peu intéressante la séparation trop absolue entre niveau lexical et niveau conceptuel ; la conséquence que nous en tirons est qu'il faut savoir passer du lexical au lexical, d'où l'importance de la paraphrase. Nous décrivons ici une approche visant à caractériser la signification des expressions langagières au moyen de leurs conditions de reformulation en contexte. A cette fin nous avons conçu paraph, un système de diagnostic de paraphrase, qui modélise le jugement paraphrastique entre deux énoncés en langage naturel: ces derniers lui étant fournis en entrée, paraph délivre en sortie un ensemble de conditions interprétatives correspondant à des choix interprétatifs et à des approximations permettant d'identifier leurs significations. A l'opposé des modélisations traditionnelles, la méthodologie permet de doter la paraphrase des propriétés correspondant au phénomène réel (en particulier en rendant possible la gestion de la compositionalité des transformations par le biais du contrôle de la consistance de l'ensemble des conditions interprétatives impliquées par ces dernières). Paraph est un système de réécriture conditionnelle d'arbres. Les règles traduisent des reformulations paraphrastiques élémentaires et les conditions qui les étiquettent correspondent aux conditions interprétatives (i. E. Non prises en compte par le contexte explicite) rendant légitimes les transformations paraphrastiques qu'elles décrivent. Dans les applications envisagées, outre la modélisation de phénomènes fins de la langue du type de ceux impliqués dans les catégories grammaticales (temps, aspect, détermination, modalité,. . . ), nous envisageons à terme l'utilisation du diagnostic de paraphrase pour l'évaluation des reformulations des interventions des utilisateurs dans les interfaces en langage naturel des systèmes interactifs.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography