Se connecter

Bibliographies thématiques / Traitement de langage naturel / Thèses

Thèses sur le sujet « Traitement de langage naturel »

Pour voir les autres types de publications sur ce sujet consultez le lien suivant : Traitement de langage naturel.

Auteur : Grafiati

Publié le 25 mai 2024

Mis à jour le 1 juin 2024

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres

Choisissez une source :

Consultez les 50 meilleures thèses pour votre recherche sur le sujet « Traitement de langage naturel ».

À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.

Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.

Parcourez les thèses sur diverses disciplines et organisez correctement votre bibliographie.

1

Ameli, Samila. « Construction d'un langage de dictionnaire conceptuel en vue du traitement du langage naturel : application au langage médical ». Compiègne, 1989. http://www.theses.fr/1989COMPD226.

Texte intégral

Résumé :

Ce travail de recherche consiste en la réalisation d'un système documentaire dit de nouvelle génération, capable de prendre en compte le contenu de chaque document et d'exécuter la recherche documentaire par une comparaison du sens des textes (questions et documents). La compréhension des textes n'étant possible qu'à l'aide d'une base de connaissances, un dictionnaire conceptuel a été mis au point dans le but de représenter tous les concepts et leurs relations, écrits en langage clair et simplifié. Ce langage appelé « SUMIX » permet (1) de prendre en compte le contexte lors de la résolution des polysémies, (2) de résoudre nombre de difficultés imposées aux cogniticiens lors de la création de la base par un mécanisme d'héritage des propriétés et ainsi donner la possibilité de faire des inférences (3) de définir certaines relations inter-conceptuelles dépendantes du domaine d'application par une gestion de métaconnaissances. Ce dictionnaire conceptuel va servir à deux moments : (1) au moment de la création des fichiers inversés en indexant le concept et non la chaîne de caractères, on permet d'avoir, lors de l'extraction conceptuelle, un sous-ensemble le plus grand possible de dossiers pertinents (2) au moment de la comparaison structurelle qui est la comparaison finale, effectuée dossier par dossier, sur le sur-ensemble de dossiers déterminé à l'étape de l'extraction conceptuelle
This study deals with the realisation of a « new generation » information retrieval system, taking consideration of texts signification. This system compares texts (questions and documents) by their content. A knowledge base being indispensable for text “comprehension”, a dictionary of concepts has been designed in which are defined the concepts and their mutual relations thru a user friendly language called SUMIX. SUMIX enables us (1) to solve ambiguities due to polysemia by considering context dependencies, (2) to make use of property inheritance and so can largely help cogniticiens in the creation of the knowledge and inference base, (3) to define subject dependant relation between concepts which make possible metaknowledge handling. The dictionary of concepts is essentially used (1) to index concepts (and not characters string) which enables us to select a wide range of documents in the conceptual extraction phase, (2) to filter the previously selected documents by comparing the structure of each document with that of the query in the structural analysis phase

Styles APA, Harvard, Vancouver, ISO, etc.

2

Gayral, Françoise. « Sémantique du langage naturel et profondeur variable : Une première approche ». Paris 13, 1992. http://www.theses.fr/1992PA132004.

Texte intégral

Résumé :

Le travail que nous présentons concerne la sémantique du langage naturel. Il se situe dans le cadre de ce que la tradition informatique appelle compréhension du langage naturel. Apres avoir tenté de cerner les enjeux de cette discipline et avoir analysé les différents courants existants, nous présentons un système: le système à profondeur variable. Celui-ci s'appuie sur un appareil logique, précisément une logique non monotone. Les nombreuses connaissances exigées dans le processus de compréhension d'un texte sont représentées dans le système grâce à un ensemble de concepts et de règles. Nous montrons sur trois applications en quoi ce système apporte des éléments de réponse intéressants à certains problèmes sémantiques. Une application concerne l'élaboration d'une ontologie temporelle pour un traitement sémantique de récits en langage naturel. Cette ontologie rend compte des phénomènes temporels de la langue et concrétise cette capacité de la langue à multiplier les points de vue sur une entité temporelle. Une autre tente, sur un court texte, un travail sémantique complet prenant en compte de manière homogène les différents types de connaissances, du lexique aux connaissances du monde. Enfin, nous traitons d'un corpus composé de textes de constats d'accident de voiture. Nous cherchons à reproduire un raisonnement physique de sens commun qui semble souvent loin d'un raisonnement de physique traditionnelle et nous formalisons, pour cela, des éléments d'une physique naïve adaptée à ces textes.

Styles APA, Harvard, Vancouver, ISO, etc.

3

Belabbas, Azeddine. « Satisfaction de contraintes et validation des grammaires du langage naturel ». Paris 13, 1996. http://www.theses.fr/1996PA132044.

Texte intégral

Résumé :

Cette thèse est à cheval entre les domaines de satisfaction de contraintes et de linguistique computationnelle. Dans le domaine des csp, nous avons proposé une nouvelle démarche de résolution classique. Cela consiste à s'orienter vers le développement de méthodes de résolution incomplètes. Celles-ci sont caractérisées par un relâchement de certaines contraintes, dont la prise en compte a de fortes chances d'engendrer un traitement redondant. Pour caractériser (sur le plan structurel) les contraintes relâchées nous avons d'abord ramené le problème de résolution d'un csp a un problème de recherche de clique maximale au niveau du graphe de valeurs compatibles (problème également np-complet), puis nous avons proposé une relaxation basée sur une approximation de la taille de la clique maximale. Par ailleurs, nous nous sommes intéressés a une classe particulière de contraintes: les contraintes de différence, les problèmes s'exprimant naturellement sous forme de type de contraintes étant nombreux. Nous avons montré qu'on pouvait tester dans certains cas la vacuité du domaine des solutions sans effectuer aucun parcours de l'espace de recherche. Comme précédemment, ce test est basé sur une approximation de la taille de la clique maximale mais cette fois-ci au niveau du graphe de contraintes du csp. Dans le domaine linguistique, nous nous sommes intéressés à l'étude de la validation computationnelle des grammaires d'unification à base de contraintes. Nous avons, sur ce domaine encore récent, défini un certain nombre de critères de validation permettant de vérifier l'adéquation descriptive d'une grammaire par rapport à ce qu'en attend le concepteur de cette dernière. Nous avons par ailleurs défini une méthode de résolution en deux phases: la première phase basée sur un parcours sans retour arrière (sans tenir compte de l'aspect contextuel de la grammaire) permet de délimiter l'ensemble des éléments accessibles et coaccessibles. Tandis que la deuxième phase contextuelle permet de vérifier l'utilisation effective de ces éléments. Pour prendre en compte cet aspect contextuel, nous avons proposé une méthode de satisfaction des contraintes caractérisée d'une part, par un pré-traitement structurel permettant de mieux faire ressortir les liens de dépendance entre les contraintes, d'autre part, par une propagation déductive des contraintes à travers la structure mise en évidence par le pré-traitement précédent, et contrôlée par une gestion efficace des variables inter-cliques (variables partagées par des sous ensembles de contraintes (cliques)).

Styles APA, Harvard, Vancouver, ISO, etc.

4

Nazarenko, Adeline. « Compréhension du langage naturel : le problème de la causalité ». Paris 13, 1994. http://www.theses.fr/1994PA132007.

Texte intégral

Résumé :

Cette thèse porte sur la compréhension de textes écrits en langage naturel. Elle s'intéresse au problème de la causalité dans le cadre d'un système de question/réponse: il s'agit de répondre automatiquement aux questions pourquoi?. Ce travail distingue deux phases dans le processus de compréhension. On construit d'abord une représentation sémantique du texte, sous la forme de graphes conceptuels. Cette représentation est ensuite exploitée par le module de question/réponse qui extrait ou calcule l'information pertinente en regard de la question posée. Pour construire la représentation de la phrase, on utilise les graphes de définition donnés par un lexique sémantique. Les connecteurs (parce que, puisque, car, donc. . . ), qui jouent un rôle fondamental dans l'expression de la causalité, sont définis avec précision dans ce lexique. L'analyse sémantique combine ensuite ces définitions pour construire le graphe de la phrase. On montre que la structure de celle-ci, ses éventuelles ambigui͏̈tés et les phénomènes énonciatifs, essentiels dans la compréhension de la causalité, sont représentables dans les graphes et que la construction de ces graphes obéit à des principes réguliers, linguistiquement fondés. Le système exploite ces représentations sémantiques pour répondre aux questions causales. Différentes stratégies sont mises en oeuvre, selon que l'information causale est plus ou moins accessible. Lorsque la représentation sémantique contient une relation cause, des opérations d'extraction y accèdent à travers les structures enchâssées et les contextes. Si l'information causale est moins explicite, d'autres stratégies sont appelées. On peut simuler le processus naturel d'interprétation qui tend à lire causalement certaines relations conceptuelles ou discursives (relations temporelles, coordination,. . . ). On peut également faire des inférences. L'étude des relations causales montre en effet qu'elles ne constituent pas des faits mais des lectures de la réalité. En simulant ce processus d'interprétation, on peut donc construire des informations causales à partir de données non causales

Styles APA, Harvard, Vancouver, ISO, etc.

5

Ciortuz, Liviu-Virgil. « Programmation concurrente par contraintes et traitement du langage naturel : le système DF ». Lille 1, 1996. http://www.theses.fr/1996LIL10145.

Texte intégral

Résumé :

Cette thèse présente df, un système concurrent de contraintes par traits qui combine certaines idées intéressantes provenant de diverses recherches menées récemment en programmation logique : la logique orientée-objet (représentée ici par la f-logique), les systèmes de contraintes par traits (osf et cft), la programmation concurrente par contraintes (les modèles oz et cc). Elle a pour but final de construire un système démonstratif pour le traitement concurrent du langage naturel basé sur la théorie hpsg. Le système df couple une sémantique déclarative par contraintes de la f-logique avec une sémantique opérationnelle basée sur des règles de réecriture concurrentes. Du point de vue du typage, le système df se situe entre les systèmes osf et cft. Il a sa propre spécificité due au traitement concurrent basé sur des principes orientés-objet des hiérarchies conditionnelles de descriptions par des traits plus fins
Nous avons implémenté un prototype du système df en oz, le langage concurrent multi-paradigme développé au dfki, en mettant en oeuvre une alternative typée et orientée-objet de son sous-système d'articles ouverts. Le système df est appliqué au traitement du langage naturel : analyse, génération et traduction automatique. Nous avons entrepris la conception d'un noyau hpsg pour le roumain, avec une implémentation concurrente. La définitude (définiteness), la topique (topic) et la modification (adjunction) du groupe nominal roumain sont analysées et la fonctionnalité des pronoms clitiques roumains sont expliquées à partir de la linéarisation (linearization) du groupe verbal transitif. Nous avons défini deux méta-schémas au dessus des schémas de la règle de dominance immédiate (id) dans la théorie de hpsg : le méta-schéma id 1, qui concerne les sujets multiples (par exemple les déterminants dans le groupe nominal roumain) et le méta-schéma id 2/6, pour la corrélation des composants localement ordonnés en dépendance non-bornée (comme les clitiques dans le groupe verbal transitif roumain). Les deux méta-schémas id font marcher la concurrence dans le cadre de la théorie des grammaires hpsg

Styles APA, Harvard, Vancouver, ISO, etc.

6

Kupsc, Anna. « Une grammaire hpsg des clitiques polonais ». Paris 7, 2000. http://www.theses.fr/2000PA070086.

Texte intégral

Résumé :

L'objectif de cette these est une description formelle du polonais, adaptee au traitement automatique. Les problemes linguistiques abordes concernent les clitiques (formes atones): les clitiques pronominaux (cp) (e. G. , go 'le', mu 'lui'), le clitique reflechi (cr) si@ 'se' - et le dit marquer negatif (mn) nie 'ne pas'. Leur statut grammatical, l'ordre des cp, le comportement des clitiques dans les phrases infinitives (dite 'monte des clitiques'), les constructions avec cr, l'omission du cr dans certains contextes verbaux (dite haplologie) ainsi que des proprietes morpho-syntaxique du mn ont ete etudie. On montre que les cp et le cr sont des unites syntagmatiques alors que le mn est un prefixe verbal. La description theorique est formalisee dans le cadre hpsg (head-driven phrase structure grammar, une grammaire syntagmatique guidee par la tete. Cf. Pollard et sag (1994)). Pour l'analyse de clitiques polonais ; on a besoin de modifier et de generaliser de principes syntagmatiques proposes par pollard et sag mais aussi d'introduir des regles specifiques ; e. G. , des regles d'ordre sur les clitiques syntaxiques. Le cr a certaines proprietes differentes de cp. On montre que c'est la semantique lexicale des verbes qui autorise le cr et non pas seulement la syntax comme dans le cas des cp. Le mn est un prefix verbal et on propose une analyse morpho-syntaxique de verbes nies. Pour obtenir de formes nies, on utilise des contraintes et une sous-specification lexicale a la place des regles lexicales mions efficaces. Le noyau de l'analyse formelle sert comme base pour creer un simple analyseur automatique en ale (the attributte logic engine), un systeme informatique pour le traitement automatique de grammaires de type hpsg. L'implementation comprend le monte des clitiques et malgre les regles syntagmatiques rigides d'ale, les differents ordres post-verbaux des clitiques et non-clitiques.

Styles APA, Harvard, Vancouver, ISO, etc.

7

Popesco, Liana. « Analyse et génération de textes à partir d'un seul ensemble de connaissances pour chaque langue naturelle et de meta-règles de structuration ». Paris 6, 1986. http://www.theses.fr/1986PA066138.

Texte intégral

Résumé :

Le système analyseur/générateur construit réalise des traductions sémantiques multilingues en contexte limité. Caractéristiques principales: unicité de l'ensemble de connaissances fourni pour chaque langue; représentation interne exclusivement sémantique; réorganisation, par le système, de la grammaire initiale (atn sémantico-syntaxique), en vue de la génération; déduction (à partir de principes généraux donnes sous forme de métarègles) de règles de structuration spécifiques à chaque langue, règles utilisables en génération.

Styles APA, Harvard, Vancouver, ISO, etc.

8

Maire-Reppert, Daniele. « L'imparfait de l'indicatif en vue d'un traitement informatique du français ». Paris 4, 1990. http://www.theses.fr/1990PA040039.

Texte intégral

Résumé :

Cette approche de l'imparfait de l'indicatif s'inscrit dans une méthodologie des systèmes experts. On a d'abord isole, puis représente a l'aide de la topologie générale les valeurs de l'imparfait : état descriptif, état permanent, nouvel état, processus en développement, habitude, irréel, éventuel politesse et hypocoristique. Un invariant a été ensuite dégagé, permettant ainsi de différencier l'imparfait des autres temps. Enfin, on a élaboré une base de règles heuristiques (une centaine de règles de production de forme déclarative : si condition vérifiée alors résultat) dont la fonction est d'attribuer à un morphème temporel une valeur sémantique en tenant compte du contexte. L'exploration contextuelle a été menée au niveau du texte, de la phrase et de l'archétype du verbe. Cette étude de l'imparfait a été complétée par un exemple d'insertion du module "règles heuristiques" dans une architecture du traitement des langues naturelles ainsi que par une réflexion sur l'intérêt didactique d'une telle démarche dans l'enseignement des langues vivantes
My approach to the French imperfect is in keeping with the methodology of expert systems. I have first identified and then given a topological representation of the values of the imperfect, i. E. : descriptive state, permanent state, new state, progressive process, habit, possibility, hypothetical, politeness and hypocoristic. We have then defined its constant in order to distinguish the imperfect from the other tenses. Finally, we have worked out a set of heuristic rules (about a hundred of production rules), the function of which is to associate a semantic value to a temporal morpheme according to the context. This contextual research has been led at the level of the text, of the sentence and the archetype of the verb. Our study of the imperfect has been completed by an example of insertion of the "heuristic rules" module in architecture of natural languages treatment and by short analysis of the contribution of such an approach in teaching foreign languages

Styles APA, Harvard, Vancouver, ISO, etc.

9

Smart, John Ferguson. « L' analyse et la représentation de compte-rendus médicaux ». Aix-Marseille 2, 1996. http://www.theses.fr/1996AIX22095.

Texte intégral

Résumé :

Dans le domaine de la medecine, le texte descriptif, redige en langage naturel, reste le moyen privilegie de communication et de stockage d'informations. Des techniques d'analyse automatique permettant d'en extraire et de stocker les informations pertinentes sont donc d'une utilite considerable pour la recherche medicale, pour l'enseignement, et pour la gestion hospitaliere. Nous presentons un formalisme de representation des connaissances concu pour l'analyse de textes descriptifs tels que les comptes rendus medicaux. Les connaissances sont representees a deux niveaux. Au niveau de definition, nous decrivons les concepts du domaine ainsi que les relations possibles entre ces concepts, avec les differents contraintes de cardinalite imposees sur ces relations. En outre, des hierarchies de composition permettent une description precise de la composition structurelle des concepts du domaine. Au niveau d'assertion, les informations pertinentes d'un texte sont representees par des graphes conceptuels qui doivent respecter les differentes contraintes definies un niveau de definition. Nous considerons en particulier les applications de ce formalisme pour des techniques d'analyse du discours descriptif

Styles APA, Harvard, Vancouver, ISO, etc.

10

Fouqueré, Christophe. « Systèmes d'analyse tolérante du langage naturel ». Paris 13, 1988. http://www.theses.fr/1988PA132003.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

11

RAMMAL, MAHMOUD. « Une interface conceptuelle pour le traitement du langage naturel. Application au langage medical dans le systeme adm ». Compiègne, 1993. http://www.theses.fr/1993COMP594S.

Texte intégral

Résumé :

Le systeme adm (aide a la decision medicale) constitue une grande base de connaissances medicales. L'interrogation se faisait en un langage semi-naturel utilisant des mots cles. Afin de conserver le maximum d'informations semantiques, nous proposons de representer le sens des phrases d'interrogation de l'utilisateur en utilisant le formalisme des graphes conceptuels propose par sowa. Cette representation necessite la creation d'un lexique semantique contenant la representation du sens de chaque mot et ses relations avec les autres concepts, ainsi qu'un treillis de concepts. L'interface propose a necessite de plus, le developpement d'une technique d'enrichissement de la base utilisee a chaque decouverte d'un nouveau terme medical. Elle s'inspire des travaux en linguistique computationnelle qui s'adaptent bien au formalisme des graphes conceptuels. Une mise en correspondance des graphes conceptuels obtenus permettra de rechercher les descriptions de la base de connaissances qui correspondent le mieux aux requetes de l'utilisateur

Styles APA, Harvard, Vancouver, ISO, etc.

12

Laskri, Mohamed Tayeb. « Approche de l'automatisation de thésaurus : étude de la sémantique adaptée du langage naturel ». Aix-Marseille 2, 1987. http://www.theses.fr/1987AIX22076.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

13

Fort, Karën. « Les ressources annotées, un enjeu pour l’analyse de contenu : vers une méthodologie de l’annotation manuelle de corpus ». Paris 13, 2012. http://scbd-sto.univ-paris13.fr/intranet/edgalilee_th_2012_fort.pdf.

Texte intégral

Résumé :

L’annotation manuelle de corpus est devenue un enjeu fondamental pour le Traitement Automatique des Langues (TAL). En effet, les corpus annotés sont utilisés aussi bien pour créer que pour évaluer des outils de TAL. Or, le processus d’annotation manuelle est encore mal connu et les outils proposés pour supporter ce processus souvent mal utilisés, ce qui ne permet pas de garantir le niveau de qualité de ces annotations. Nous proposons dans cette thèse une vision unifiée de l’annotation manuelle de corpus pour le TAL. Ce travail est le fruit de diverses expériences de gestion et de participation à des campagnes d’annotation, mais également de collaborations avec différents chercheur(e)s. Nous proposons dans un premier temps une méthodologie globale pour la gestion de campagnes d’annotation manuelle de corpus qui repose sur deux piliers majeurs : une organisation des campagnes d’annotation qui met l’évaluation au coeur du processus et une grille d’analyse des dimensions de complexité d’une campagne d’annotation. Un second volet de notre travail a concerné les outils du gestionnaire de campagne. Nous avons pu évaluer l’influence exacte de la pré-annotation automatique sur la qualité et la rapidité de correction humaine, grâce à une série d’expériences menée sur l’annotation morpho-syntaxique de l’anglais. Nous avons également apporté des solutions pratiques concernant l’évaluation de l’annotation manuelle, en donnant au gestionnaire les moyens de sélectionner les mesures les plus appropriées. Enfin, nous avons mis au jour les processus en oeuvre et les outils nécessaires pour une campagne d’annotation et instancié ainsi la méthodologie que nous avons décrite
Manual corpus annotation has become a key issue for Natural Langage Processing (NLP), as manually annotated corpora are used both to create and to evaluate NLP tools. However, the process of manual annotation remains underdescribed and the tools used to support it are often misused. This situation prevents the campaign manager from evaluating and guarantying the quality of the annotation. We propose in this work a unified vision of manual corpus annotation for NLP. It results from our experience of annotation campaigns, either as a manager or as a participant, as well as from collaborations with other researchers. We first propose a global methodology for managing manual corpus annotation campaigns, that relies on two pillars: an organization for annotation campaigns that puts evaluation at the heart of the process and an innovative grid for the analysis of the complexity dimensions of an annotation campaign. A second part of our work concerns the tools of the campaign manager. We evaluated the precise influence of automatic pre-annotation on the quality and speed of the correction by humans, through a series of experiments on part-of-speech tagging for English. Furthermore, we propose practical solutions for the evaluation of manual annotations, that proche che vide the campaign manager with the means to select the most appropriate measures. Finally, we brought to light the processes and tools involved in an annotation campaign and we instantiated the methodology that we described

Styles APA, Harvard, Vancouver, ISO, etc.

14

Alain, Pierre. « Contributions à l'évaluation des modèles de langage ». Rennes 1, 2007. http://www.theses.fr/2007REN1S003.

Texte intégral

Résumé :

Ces travaux portent sur l'évaluation des modèles de langages en dehors de toute tâche applicative. Le problème d'une étude comparative entre plusieurs modèles est généralement lié à la fonction dans un système complet. Notre objectif consiste au contraire à s'abstraire au maximum des contraintes liées au système, et ainsi pourvoir comparer effectivement les modèles. Le critère le plus couramment admis pour une comparaison de modèles de langage est la perplexité. Ces travaux reprennent les hypothèses du jeu de Shannon, de manière à poser un cadre d'évaluation des modèles de langage fondée sur leur capacité de prédiction. La méthodologie s'intéresse à la prédiction conjointe de mots, et reste indépendante de toute tâche applicative, de la nature du modèle, ainsi que du nombre de paramètres de ce modèle. Des expériences sont menées sur la modélisation du français et de l'anglais à partir de vocabulaires de taille variable, et différents modèles sont mis en concurrence
This work deals with the evaluation of language models independently of any applicative task. A comparative study between several language models is generally related to the role that a model has into a complete system. Our objective consists in being independant of the applicative system, and thus to provide a true comparison of language models. Perplexity is a widely used criterion as to comparing language models without any task assumptions. However, the main drawback is that perplexity supposes probability distributions and hence cannot compare heterogeneous models. As an evaluation framework, we went back to the definition of the Shannon's game which is based on model prediction performance using rank based statistics. Our methodology is able to predict joint word sequences that are independent of the task or model assumptions. Experiments are carried out on French and English modeling with large vocabularies, and compare different kinds of language models

Styles APA, Harvard, Vancouver, ISO, etc.

15

Sileo, Damien. « Représentations sémantiques et discursives pour la compréhension automatique du langage naturel ». Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30201.

Texte intégral

Résumé :

Les modèles computationnels pour la compréhension automatique des textes ont suscité un vif intérêt en raison de gains de performances inhabituels au cours des dernières années, certains d'entre eux conduisant à des scores d'évaluation surhumains. Ce succès a conduit à affirmer la création de représentations universelles de phrases. Dans cette thèse, nous questionnons cette affirmation au travers de deux angles complémentaires. Premièrement, les réseaux de neurones et les représentations vectorielles sont-ils suffisamment expressifs pour traiter du texte de sorte à pouvoir effectuer un large éventail de tâches complexes ? Dans cette thèse, nous présenterons les modèles neuronaux actuellement utilisés et les techniques d'entraînement associées. Nous proposons des critères pour l'expressivité de composition des représentations vectorielles et montrons que la suite d'évaluations et les encodeurs de phrases très répandus (SentEval/InferSent) sont limités dans leur expressivité ; des changements mineurs peuvent permettre de nouvelles compositions expressives et interprétables, mais pourraient ne pas suffire, ce qui peut justifier le changement de paradigme vers de nouveaux modèles basés sur les Transformers. Deuxièmement, nous aborderons la question de l'universalité dans les représentation des phrases: que cachent en réalité ces prétentions à l'universalité ? Nous décrivons quelques théories de ce qu'est le sens d'une expression textuelle, et dans une partie ultérieure de cette thèse, nous soutenons que la sémantique (contenu littéral, non situé) par rapport à la pragmatique (la partie du sens d'un texte définie par son rôle et son contexte) est prépondérante dans les données d'entraînement et d'évaluation actuelles des modèles de compréhension du langage naturel. Pour atténuer ce problème, nous montrons que la prédiction de marqueurs de discours (classification de marqueurs de discours initialement présents entre des phrases) peut être considérée comme un signal d'apprentissage centré sur la pragmatique pour la compréhension de textes. Nous construisons un nouvel ensemble de données de prédiction de marqueurs de discours qui donne des résultats nettement supérieurs aux travaux précédents. Nous proposons également un nouvel outil d'évaluation de la compréhension du langage naturel en se basant sur le discours et la pragmatique. Cet outil pourrait inciter la communauté du traitement des langues à prendre en compte les considérations pragmatiques lors de l'évaluation de modèles de compréhension du langage naturel
Computational models for automatic text understanding have gained a lot of interest due to unusual performance gains over the last few years, some of them leading to super-human scores. This success reignited some grandeur claims about artificial intelligence, such as universal sentence representation. In this thesis, we question these claims through two complementary angles. Firstly, are neural networks and vector representations expressive enough to process text and perform a wide array of complex tasks? In this thesis, we will present currently used computational neural models and their training techniques. We propose a criterion for expressive compositions and show that a popular evaluation suite and sentence encoders (SentEval/InferSent) have an expressivity bottleneck; minor changes can yield new compositions that are expressive and insightful, but might not be sufficient, which may justify the paradigm shift towards newer Transformers-based models. Secondly, we will discuss the question of universality in sentence representation: what actually lies behind these universality claims? We delineate a few theories of meaning, and in a subsequent part of this thesis, we argue that semantics (unsituated, literal content) as opposed to pragmatics (meaning as use) is preponderant in the current training and evaluation data of natural language understanding models. To alleviate that problem, we show that discourse marker prediction (classification of hidden discourse markers between sentences) can be seen as a pragmatics-centered training signal for text understanding. We build a new discourse marker prediction dataset that yields significantly better results than previous work. In addition, we propose a new discourse-based evaluation suite that could incentivize researchers to take into account pragmatic considerations when evaluating text understanding models

Styles APA, Harvard, Vancouver, ISO, etc.

16

Dégremont, Jean-François. « Ethnométhodologie et innovation technologique : le cas du traitement automatique des langues naturelles ». Paris 7, 1989. http://www.theses.fr/1989PA070043.

Texte intégral

Résumé :

La thèse débute par un rappel des étapes historiques principales du développement de l'ethnométhodologie en tant que discipline, depuis les précurseurs européens des années 30 jusqu'à l'explosion aux Etats Unis puis en Europe à partir de 1967. Une première partie reprend ensuite les concepts principaux de l'ethnométhodologie et les développe en se plaçant dans le cadre théorique de l'école pariseptiste qui tente d'associer le refus maximal des inductions et le principe d'indifférence dans les activités ethnographiques et, en particulier, dans l'utilisation ou la description des langues naturelles considérées à la fois comme objets d'études et moyens de communication scientifique. La seconde partie de la thèse est consacrée à l'application des principes développés antérieurement au domaine des stratégies d'innovations technologiques mises en oeuvre en France en vue d'accroître le potentiel de recherche et développement dans le secteur du traitement automatique des langues naturelles. Trois études décrivent successivement les ethnométhodes et les propriétés rationnelles des actions pratiques mises en oeuvre par un groupe de chargés de mission de l'administration, les processus d'élaboration d'une politique d'innovation technologique, les descriptions indexicales du domaine des industries de la langue et de programmes de r et d dans ce secteur. La conclusion s'efforce de montrer comment la puissance des concepts de l'ethnométhodologie et des outils qui en découlent permettent d'accroître la pertinence des analyses stratégiques et l'efficacité des actions de recherche développement
The thesis begins with a short historical reminder of ethnomethodology, considered as a scientific field, since the whole beginners during the 30's until the 1967 explosion in US and Europe. The first part is an explication of the main concepts of ethnomethodology. They are developped from the pariseptist school theoretical point of view, which tries to associate the strongest refuse of inductions and the indifference principle, mainly when natural languages, considered as well as studies objects and communication tools, are used. The second part of the thesis is devoted to the concrete application of these theoretical concepts in the field of technological strategies which have been elaborated in France in the area of natural language processing. Three studies successively describe the ethnomethods and rational properties of practical activities which are used in an administrative team, the elaboration of a technology policy and indexical descriptions of the language industry field. The conclusion tries to show how the concepts and methods developped by ethnomethodology can increase, in this field, the efficacy of strategical analysis and the quality of research and development programs

Styles APA, Harvard, Vancouver, ISO, etc.

17

PARK, SE YOUNG. « Un algorithme efficace pour l'analyse du langage naturel : application aux traitements des erreurs et aux grammaires discontinues ». Paris 7, 1989. http://www.theses.fr/1989PA077214.

Texte intégral

Résumé :

Un algorithme efficace pour l'analyse du langage naturel est présenté. L'algorithme proposé est basé sur l'algorithme LR. Notre algorithme est amélioré à partir des temps d'exécution et espace nécessaire. Nous aussi présentons une application de notre algorithme aux traitements des erreurs et aux grammaires discontinues

Styles APA, Harvard, Vancouver, ISO, etc.

18

Mazahreh, Mazhar. « Recherche et analyse informatique des expressions du langage naturel correspondant à des questions sur les bases de données ». Paris, EHESS, 1990. http://www.theses.fr/1990EHES0059.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

19

Harrathi, Farah. « Extraction de concepts et de relations entre concepts à partir des documents multilingues : approche statistique et ontologique ». Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0073/these.pdf.

Texte intégral

Résumé :

Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l’extraction des descripteurs sémantiques pour l’indexation. Le but de la Recherche d’Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes permettant la sélection d’un ensemble de documents satisfaisant un besoin utilisateur en termes d’information exprimé sous forme d’une requête. Un Système de Recherche d’Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé “ sac de mots ”. Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d’apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d’un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme “ bus ” ne sera jamais retrouvé par une requête indexée par le terme “taxi ”, pourtant il s’agit de deux termes qui traitent le même thème “ moyen de transport ”. Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en compte de l’aspect sémantique des termes d’indexation. Ce type d’indexation est appelé indexation sémantique ou conceptuelle
The research work of this thesis is related to the problem of document search indexing and more specifically in that of the extraction of semantic descriptors for document indexing. Information Retrieval System (IRS) is a set of models and systems for selecting a set of documents satisfying user needs in terms of information expressed as a query. In IR, a query is composed mainly of two processes for representation and retrieval. The process of representation is called indexing, it allows to represent documents and query descriptors, or indexes. These descriptors reflect the contents of documents. The retrieval process consists on the comparison between documents representations and query representation. In the classical IRS, the descriptors used are words (simple or compound). These IRS consider the document as a set of words, often called a "bag of words". In these systems, the words are considered as graphs without semantics. The only information used for these words is their occurrence frequency in the documents. These systems do not take into account the semantic relationships between words. For example, it is impossible to find documents represented by a word synonymous with M1 word M2, where the request is represented by M2. Also, in a classic IRS document indexed by the term "bus" will never be found by a query indexed by the word "taxi", yet these are two words that deal with the same subject "means of transportation. " To address these limitations, several studies were interested taking into account of the semantic indexing terms. This type of indexing is called semantic or conceptual indexing. These works take into account the notion of concept in place of notion of word. In this work the terms denoting concepts are extracted from the document by using statistical techniques. These terms are then projected onto resource of semantics such as: ontology, thesaurus and so on to extract the concepts involved

Styles APA, Harvard, Vancouver, ISO, etc.

20

Fourour, Nordine. « Identification et catégorisation automatique des entités nommées dans les textes français ». Nantes, 2004. http://www.theses.fr/2004NANT2126.

Texte intégral

Résumé :

La reconnaissance des entités nommées (EN) reste un problème pour de nombreuses applications de Traitement Automatique des Langues Naturelles. Conséquemment à une étude linguistique permettant l'émergence de paramètres définitoires opérationnels liés au concept d'entité nommée, un état de l'art du domaine et une étude en corpus fondée sur des critères graphiques et référentiels, nous présentons Nemesis, un système d'identification et de catégorisation des EN du français, fondé sur l'analyse des évidences interne et externe réalisée à l'aide de lexiques de mots déclencheurs et de règles de réécriture et comportant une phase d'apprentissage. Dans cette version minimale, Nemesis atteint environ 90% en précision et 80% en rappel. Pour augmenter le rappel, nous proposons différents modules optionnels (examen d'un contexte encore plus large et utilisation du Web comme source de nouveaux contextes) et une étude pour la réalisation d'un module de désambiguïsation et d'apprentissage de règles
Named Entity (NE) Recognition is a recurring problem in the different domain of Natural Language Processing. As a result of, a linguistic investigation allowing to set-up operational parameters defining the concept of named entity, a state of art of the domain, and a corpus investigation using referential and graphical criteria, we present Nemesis - a French named entity recognizer. This system analyzes the internal and external evidences by using grammar rules and trigger word lexicons, and includes a learning process. With these processes, Nemesis performance achieves about 90% of precision and 80% of recall. To increase the recall, we put forward optional modules (analysis of the wide context and utilization of the Web as a source of new contexts) and investigate in setting up a disambiguation and grammar rules inference module

Styles APA, Harvard, Vancouver, ISO, etc.

21

Tartier, Annie. « Analyse automatique de l'évolution terminologique : variations et distances ». Nantes, 2004. http://www.theses.fr/2004NANT2040.

Texte intégral

Résumé :

Cette thèse est consacrée à l'élaboration de méthodes destinées à repérer automatiquement des phénomènes évolutifs dans les termes extraits de corpus diachroniques de textes scientifiques ou techniques. Le premier axe de recherche concerne la nature des changements. Il s'appuie sur une typologie de la variation terminologique pour définir une distance entre deux formes terminologiques. Cette distance permet de regrouper simplement les variantes d'un terme et de définir des mesures sur les ensembles de termes étudiés. Le deuxième axe concerne la structuration du temps et propose diverses modalités d'examen diachronique destinées à distinguer les changements éphémères des changements durables qui pourraient être les signes d'une évolution. Ces idées sont implémentées dans un prototype qui propose d'une part des profils temporels, d'autre part des informations sur les termes stables, obsolètes ou nouveaux, informations données sur les formes exactes ou aux variantes près
The aim of this thesis is to work out automatic methods for uncovering any evolutionary phenomena within terms extracted from diachronic corpora of scientific or technical texts. The first research axis concerns the nature of changes. It is based on a terminological variation typology aiming to define a distance between two terminological forms. That distance allows us to easily put together the variants of a term and to define measures from sets of studied terms. The second axis concerns time structuration and proposes several diachronic examination modes in order to distinguish ephemeral changes from durable ones which could be the signs of an evolution. These ideas are implemented in a prototype which first proposes temporal profiles, then some information about stable, old or new terms, information given for exact forms or to the nearest variant

Styles APA, Harvard, Vancouver, ISO, etc.

22

Balicco, Laurence. « Génération de repliques en français dans une interface homme-machine en langue naturelle ». Grenoble 2, 1993. http://www.theses.fr/1993GRE21025.

Texte intégral

Résumé :

Cette recherche entre dans le cadre de la generation automatique de langue naturelle, domaine qui fut longtemps neglige, cette phase semblant plus simple que celle d'analyse de la langue. Cette these qui correspond a un premier travail sur la generation au sein du criss place le probleme de la generation automatique dans le cadre d'un homme-machine en langue naturelle. Ceci a des consequences, parmi lesquelles la generation a partir d'un contenu a exprimer en langue naturelle, une expression en langue naturelle de ce contenu aussi fidelement que possible,. . . Apres avoir etudie les differents travaux en generation, nous avons decide d'elaborer notre propre systeme de generation, en reutililisant, dans la mesure du possible, les outils developpes pour l'analyse. Ce generateur repose sur un modele linguistique utilisant des informations principalement syntaxiques et morphologiques et dans lequel sont definies des transformations linguistiques appelees operations (coordination, anaphorisation, thematisation,. . . ) donnees par le dialogue ou calculees lors de la phase de generation. Il permet la creation de plusieurs versions d'une meme replique et ainsi que, brievement, un projet europeen qui presente une application possible du generateur
This research takes place in the context of natural language generation. This field has benn neglected for a long time because it seemed a much easier phase that those of analysis. The thesis corresponds to a first work on generation in the criss team and places the problem of generation in the context of a manmachine dialogue in natural language. Some of its consequences are : generation from a logical content to be translated into natural language, this translation of the original content kept as close as possible,. . . After the study of the different works that have been done, we decided to create our own generation system, resusing when it is possible, the tools elaborated during the analyzing process. This generation process is based on a linguistic model, which uses syntactic and morphologic information and in which linguistic transformations called operations are defined (coodination, anaphorisation, thematisation,. . . ). These operations can be given by the dialogue or calulated during the generation process. The model allows the creation of several of the same utterance and therefore a best adaptation for different users. This thesis presents the studied works, essentially on the french and the english languages, the linguistic model developped, the computing model used, and a brief presentation of an european project which offers a possible application of ou

Styles APA, Harvard, Vancouver, ISO, etc.

23

Alsandouk, Fatima. « Grammaire de scene : processus de comprehension de textes de description geometrique ». Toulouse 2, 1990. http://www.theses.fr/1990TOU20058.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

24

Boulaknadel, Siham. « Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité : apport des connaissanaces morphologiques et syntaxiques pour l'indexation ». Nantes, 2008. http://www.theses.fr/2008NANT2052.

Texte intégral

Résumé :

La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé. Notre thèse s’inscrit dans le cadre de la recherche d’information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d’une part, d’identifier les termes complexes présents dans les requêtes et les documents. D’autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d’identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s’appuyant sur une approche mixte qui combine modèle statistique et données linguistiques
Information retrieval aims to provide to an user an easy access to information. To achieve this goal, an information retrieval system (IRS) must represent, store and organize information, then provide to the user the elements corresponding to the need for information expressed by his query. Most of information retrieval systems (IRS) use simple terms to index and retrieve documents. However, this representation is not precise enough to represent the contents of documents and queries, because of the ambiguity of terms isolated from their context. A solution to this problem is to use multi-word terms to replace simple term. This approach is based on the assumption that a multi-word term is less ambiguous than a simple term. Our thesis is part of the information retrieval in Arabic specific domain. The objective of our work was on the one hand, identifying a multi-word terms present in queries and documents. On the other hand, exploiting the richness of language by combining several linguistic knowledge belonging at the morphological and syntax level, and showing how the contribution of syntactic and morphological knowledge helps to improve access to information. Thus, we proposed a platform integrating various components in the public domain; it leads to show significant contribution of these components. In addition, we have defined linguistically a multi-word term in Arabic and we developed a system of identification of multi-word terms which is based on a mixed approach combining statistical model and linguistic data

Styles APA, Harvard, Vancouver, ISO, etc.

25

Ouersighni, Riadh Hassoun Mohamed Dichy Joseph. « La conception et la réalisation d'un système d'analyse morpho-syntaxique robuste pour l'arabe utilisation pour la détection et le diagnostic des fautes d'accord / ». Lyon : Université Lumière Lyon 2, 2002. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2002/ouersighni_r.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

26

Caucheteux, Charlotte. « Language representations in deep learning algorithms and the brain ». Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG031.

Texte intégral

Résumé :

Algorithmes et cerveau, bien que de nature extrêmement différentes, sont deux systèmes capables d'effectuer des tâches de langage complexes. En particulier, de récentes avancées en intelligence artificielle ont permis l'émergence d'algorithmes produisant des textes de qualité remarquablement similaire à ceux des humains (ChatGPT, GPT-3). De telles similarités interrogent sur la façon dont le cerveau et ces algorithmes traitent le langage, les mécanismes qu'ils utilisent et les représentations internes qu'ils construisent. Ma thèse consiste à comparer les représentations internes de ces deux systèmes, d'identifier leurs similitudes et leurs différences.Pour ce faire, nous analysons les enregistrements par imagerie fonctionnelle (fMRI) et magnéto-encéphalographie (MEG) de participants écoutant et lisant des histoires, et les comparons aux activations de milliers d'algorithmes de langage correspondant à ces mêmes histoires.Nos résultats mettent d'abord en évidence des similarités de haut niveau entre les représentations internes du cerveau et des modèles de langage. Dans une première partie, nous montrons que les activations des réseaux profonds prédisent linéairement l'activité cérébrale de sujets chez différents groupes (>500 participants), pour différentes modalités d'enregistrement (MEG et fMRI), modalités de stimulus (présentation auditive et visuelle), types de stimulus (mots isolés, phrases et histoires naturelles), langues (néerlandais et anglais) et modèles de langage. Cette correspondance est maximale dans les régions cérébrales souvent associées au langage, pour les algorithmes les plus performants et pour les participants qui comprennent le mieux les histoires. De plus, nous mettons en évidence une hiérarchie de traitement similaire entre les deux systèmes. Les premières couches des algorithmes sont alignées sur les régions de traitement de bas niveau dans le cerveau, telles que les zones auditives et le lobe temporal, tandis que les couches profondes sont alignées sur des régions associées à un traitement de plus haut niveau, notamment les zones fronto-pariétales.Nous montrons ensuite, dans une seconde partie, comment de telles similarités peuvent aider à construire de meilleurs modèles prédictifs de l'activité cérébrale, et à décomposer plus finement dans le cerveau différents processus linguistiques tels que la syntaxe et la sémantique.Enfin, dans une troisième partie, nous explorons les différences entre cerveau et algorithmes. Nous montrons que le cerveau prédit des représentations distantes et hiérarchiques, contrairement aux modèles de langage actuels qui sont principalement entraînés à faire des prédictions à court terme et au niveau du mot. Dans l'ensemble, les algorithmes modernes sont encore loin de traiter le langage de la même manière que les humains le font. Cependant, les liens directs entre leur fonctionnement interne et celui du cerveau fournissent une plateforme prometteuse pour mieux comprendre les deux systèmes, et ouvre la voie à la construction d'algorithmes plus similaires au cerveau
Recent deep language models -- like GPT-3 and ChatGPT -- are capable to produce text that closely resembles that of humans. Such similarity raises questions about how the brain and deep models process language, the mechanisms they use, and the internal representations they construct. In this thesis, I compare the internal representations of the brain and deep language models, with the goal of identifying their similarities and differences. To this aim, I analyze functional resonance imaging (fMRI) and magnetoencephalography (MEG) recordings of participants listening to and reading sentences, and compare them to the activations of thousands of language algorithms corresponding to these same sentences.Our results first highlight high-level similarities between the internal representations of the brain and deep language models. We find that deep nets' activations significantly predict brain activity across subjects for different cohorts (>500 participants), recording modalities (MEG and fMRI), stimulus types (isolated words, sentences, and natural stories), stimulus modalities (auditory and visual presentation), languages (Dutch, English and French), and deep language models. This alignment is maximal in brain regions repeatedly associated with language, for the best-performing algorithms and for participants who best understand the stories. Critically, we evidence a similar processing hierarchy between the two systems. The first layers of the algorithms align with low-level processing regions in the brain, such as auditory areas and the temporal lobe, while the deep layers align with regions associated with higher-level processing, such fronto-parietal areas.We then show how such similarities can be leveraged to build better predictive models of brain activity and better decompose several linguistic processes in the brain, such as syntax and semantics. Finally, we explore the differences between deep language models and the brain's activations. We find that the brain predicts distant and hierarchical representations, unlike current language models that are mostly trained to make short-term and word-level predictions. Overall, modern algorithms are still far from processing language in the same way that humans do. However, the direct links between their inner workings and that of the brain provide an promising platform for better understanding both systems, and pave the way for building better algorithms inspired by the human brain

Styles APA, Harvard, Vancouver, ISO, etc.

27

Krit, Hatem. « Locadelane : un langage objet d'aide à la compréhension automatique du discours exprimé en langage naturel et écri ». Toulouse 3, 1990. http://www.theses.fr/1990TOU30008.

Texte intégral

Résumé :

Cette these se presente comme une contribution a l'etude de la modelisation objet dans le domaine de la comprehension automatique du langage naturel et ecrit. Son objectif est de definir un langage objet qui offre un formalisme de representation et de manipulation des connaissances du domaine favorisant la coherence, la modularite, l'unicite, la combinaison du procedural et du declaratif, la souplesse des modules dans l'architecture du systeme, et l'interaction des taches en parallele. Ce langage, intitule locadelane, a ete ecrit au-dessus du langage c sous un environnement unix, et il est operationnel sur un sm90. Le premier chapitre presente une synthese des recherches dans le domaine du traitement automatique du langage naturel. Le deuxieme chapitre donne les concepts de base et l'apport de la programmation orientee objet dans differents domaines de l'informatique. Le troisieme chapitre decrit le modele sur lequel locadelane a ete construit. Les concepts de locadelane sont presentes dans le quatrieme chapitre, et sa mise en uvre est discutee dans le cinquieme chapitre. Dans le sixieme chapitre, nous presentons l'application de locadelane a la comprehension automatique de recits au travers de quelques exemples de fables de la fontaine. Enfin, en guise de conclusion, nous formulons des propositions d'extensions des concepts locadelane afin d'appliquer ce langage a une plus large classe de problemes

Styles APA, Harvard, Vancouver, ISO, etc.

28

Denand, Nicolas. « Traitement automatique de phrases locatives statiques du français ». Aix-Marseille 2, 2004. http://www.theses.fr/2004AIX22035.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

29

Tannier, Xavier. « Extraction et recherche d'information en langage naturel dans les documents semi-structurés ». Phd thesis, Ecole Nationale Supérieure des Mines de Saint-Etienne, 2006. http://tel.archives-ouvertes.fr/tel-00121721.

Texte intégral

Résumé :

La recherche d'information (RI) dans des documents semi-structurés
(écrits en XML en pratique) combine des aspects de la RI
traditionnelle et ceux de l'interrogation de bases de données. La
structure a une importance primordiale, mais le besoin d'information
reste vague. L'unité de recherche est variable (un paragraphe, une
figure, un article complet\dots). Par ailleurs, la flexibilité du
langage XML autorise des manipulations du contenu qui provoquent
parfois des ruptures arbitraires dans le flot naturel du texte.

Les problèmes posés par ces caractéristiques sont nombreux, que ce
soit au niveau du pré-traitement des documents ou de leur
interrogation. Face à ces problèmes, nous avons étudié les solutions
spécifiques que pouvait apporter le traitement automatique de la
langue (TAL). Nous avons ainsi proposé un cadre théorique et une
approche pratique pour permettre l'utilisation des techniques
d'analyse textuelle en faisant abstraction de la structure. Nous avons
également conçu une interface d'interrogation en langage naturel pour
la RI dans les documents XML, et proposé des méthodes tirant profit de
la structure pour améliorer la recherche des éléments pertinents.

Styles APA, Harvard, Vancouver, ISO, etc.

30

Véronis, Jean. « Contribution à l'étude de l'erreur dans le dialogue homme-machine en langage naturel ». Aix-Marseille 3, 1988. http://www.theses.fr/1988AIX30043.

Texte intégral

Résumé :

Au niveau lexical, une methode efficace de recherche approximative de mots contenant a la fois des erreurs hypographiques, phono-graphiques et de flexion est proposee. Au niveau syntaxique, des solutions en vue de l'ecriture de grammaires fortement coherentes sont proposees et des strategies d'analyse forcee de phrases erronees et de correction des erreurs morpho-syntaxiques sont decrites. Au niveau semantique, un modele du dialogue homme-machine base sur les notions de mou de possible et l'univers de croyance, permettant de prendre en compte certaines erreurs concernant la contingence, les modalites alethiques, l'absurde et les presuppositions, est introduit

Styles APA, Harvard, Vancouver, ISO, etc.

31

Perraud, Freddy. « Modélisation du langage naturel appliquée à la reconnaissance de l'écriture manuscrite en-ligne ». Nantes, 2005. http://www.theses.fr/2005NANT2112.

Texte intégral

Résumé :

L'évolution de la société de l'Information avec les concepts d'ubiquité, de nomadisme, d'accès à l'information sans discontinuer, en tous lieux et en tous temps, et si possible avec le minimum d'efforts pour l'utilisateur impose de repenser les interfaces de communication. En effet, dans ces situations, la plupart du temps, le clavier n'apporte pas les solutions de confort attendu. L'utilisation de commandes gestuelles, et en particulier de l'écriture manuscrite, se révèle être aujourd'hui une alternative crédible pour ces nouveaux systèmes communicants (assistant numérique, ardoise électronique, etc. ). Les performances des systèmes de reconnaissance actuels sont encore bien inférieures à celles de l'humain notamment dans la prise en compte d'informations contextuelles d'ordre linguistique. Les travaux que nous présentons dans ce manuscrit s'inscrivent dans un cadre industriel (CIFRE) et visent à améliorer le système de reconnaissance de l'écriture manuscrite nommé MyScript Builder, développé par la société Vision Objects. Dans un tel système, la prise en compte des propriétés du langage constitue un élément clé. C'est l'objectif central de ce travail pour lequel encore peu de contributions sont disponibles. Nous avons cherché à concevoir, développer et tester des modèles de langage les plus efficaces possibles pour un système de reconnaissance de l'écriture manuscrite en-ligne. Plusieurs types de contraintes étaient à satisfaire. En articulier, il fallait veiller au compromis taille/performance, mais aussi envisager la portabilité de la méthode afin de pouvoir la généraliser à différentes langues. Ainsi, nous avons privilégié une approche probabiliste basée sur des n-classes pour traiter les langues naturelles. Nous avons expérimenté de nombreuses techniques de classification basées sur différentes méthodes d'exploration de l'espace de recherche et se basant sur un critère de nature contextuelle ou syntaxique. Par ailleurs, des modèles structurels appelés lexiques d'expressions, ont été étudiés pour traiter des entités linguistiques spécifiques. Ces modèles ont fait l'objet d'expérimentations poussées pour évaluer les améliorations apportées au système de reconnaissance MyScript Builder. Sur des phrases appartenant à 13 langues différentes, le taux d'erreur a été diminué de 30 %en moyenne à l'aide de modèles n-classes par rapport à une version ne comportant qu'un simple lexique. Les lexiques d'expressions s'avèrent particulièrement performants puisque le nombre d'erreurs de reconnaissance est réduit de moitié.

Styles APA, Harvard, Vancouver, ISO, etc.

32

Belec, Yves. « Des règles expertes pour une méthode applicative d'analyse ou de génération du langage naturel ». Toulouse 3, 1990. http://www.theses.fr/1990TOU30136.

Texte intégral

Résumé :

Nous presentons une methode d'analyse et de generation de phrases dans un contexte restreint de communication avec un robot mobile. L'analyse (et la generation) s'articule autour d'un ensemble de regles (et sa dual) permettant la production d'une arborescence de dependances. En analyse on traite des couples qualifiant-qualite en retirant de la phrase le qualifiant; on est ainsi ramene a une phrase atomique. La generation, inversement, procede par rajout de qualifiant les aspects morphologiques, syntaxiques et semantiques sont traites de facon deterministe a chaque application d'une regle. Les eventuelles erreurs ainsi produites sont resolues par des techniques appropriees de recuperation. Nous traitons de facon identique les syntagmes adjectivaux, nominaux et verbaux en elargissant la notion de structure casuelle a tous ces niveaux. Parallelement nous tentons de prendre en compte le caractere approximatif du sens des mots en reference et en designation. L'analyse et la generation font usage d'un reseau semantique avec mecanisme d'exception. Enfin nous avons developpe le logiciel en y integrant une simulation d'un univers robotique presentant sur ecran le robot, son environnement, et le dialogue, de facon a tester notre interface de traduction. Une application a la voiture du future dans le cadre du projet prometheus est a l'etude

Styles APA, Harvard, Vancouver, ISO, etc.

33

Mela, Augusta. « Traitement automatique de la coordination par et ». Paris 13, 1992. http://www.theses.fr/1992PA132040.

Texte intégral

Résumé :

L'analyse des constructions coordonnées a toujours constitué un centre d'intérêt aussi bien en linguistique théorique qu'en linguistique computationnelle. Le phénomène de la coordination par "et" est à la fois large et subtil. Une chaîne conjonctionnelle peut apparaître à droite de presque n'importe quel élément d'une chaîne, constituant ou non-constituant mais pas n'importe où. Cela pose à la fois le problème théorique de rendre compte précisément de l'ensemble des constructions autorisées et le problème calculatoire d'analyser ces constructions le plus efficacement possible. Dans cette thèse nous dressons un inventaire des difficultés occasionnées par ces constructions; nous présentons un état de l'art: précisement nous exposons comme différents formalismes syntaxiques, (tg, gpsg, lfg, ccg) abordent ces problèmes. Nous en tirons des conséquences concernant le choix d'un cadre formel adéquat pour la description de la coordination. Nous proposons un critère de coordination base sur le pouvoir constructeur de têtes lexicales. Nous prétendons que ce critère rend compte des phénomènes structurels que sont les coordinations de constituants de même catégorie et des coordinations de plus d'un constituant, et qu'il est pertinent mais insuffisant pour la coordination de catégories différentes et la coordination à trouée qui sont des phénomènes plus sémantiques.

Styles APA, Harvard, Vancouver, ISO, etc.

34

Arias, Aguilar José Anibal. « Méthodes spectrales pour le traitement automatique de documents audio ». Toulouse 3, 2008. http://thesesups.ups-tlse.fr/436/.

Texte intégral

Résumé :

Les disfluences sont un phénomène apparaissant fréquemment dans toute production orale spontanée ; elles consistent en l'interruption du cours normal du discours. Elles ont donné lieu à de nombreuses études en Traitement Automatique du Langage Naturel. En effet, leur étude et leur identification précise sont primordiales, sur les plans théorique et applicatif. Cependant, la majorité des travaux de recherche sur le sujet portent sur des usages de langage quotidien : dialogues " à bâtons rompus ", demandes d'horaire, discours, etc. Mais qu'en est-il des productions orales spontanées produites dans un cadre contraint ? Aucune étude n'a à notre connaissance été menée dans ce contexte. Or, on sait que l'utilisation d'une " langue de spécialité " dans le cadre d'une tâche donnée entraîne des comportements spécifiques. Notre travail de thèse est consacré à l'étude linguistique et informatique des disfluences dans un tel cadre. Il s'agit de dialogues de contrôle de trafic aérien, aux contraintes pragmatiques et linguistiques. Nous effectuons une étude exhaustive des phénomènes de disfluences dans ce contexte. Dans un premier temps nous procédons à l'analyse fine de ces phénomènes. Ensuite, nous les modélisons à un niveau de représentation abstrait, ce qui nous permet d'obtenir les patrons correspondant aux différentes configurations observées. Enfin nous proposons une méthodologie de traitement automatique. Celle-ci consiste en plusieurs algorithmes pour identifier les différents phénomènes, même en l'absence de marqueurs explicites. Elle est intégrée dans un système de traitement automatique de la parole. Enfin, la méthodologie est validée sur un corpus de 400 énoncés
The disfluencies are a frequently occurring phenomenon in any spontaneous speech production; it consists of the interruption of the normal flow of speech. They have given rise to numerous studies in Natural Language Processing. Indeed, their study and precise identification are essential, both from a theoretical and applicative perspective. However, most of the researches about the subject relate to everyday uses of language: "small talk" dialogs, requests for schedule, speeches, etc. But what about spontaneous speech production made in a restrained framework? To our knowledge, no study has ever been carried out in this context. However, we know that using a "language specialty" in the framework of a given task leads to specific behaviours. Our thesis work is devoted to the linguistic and computational study of disfluencies within such a framework. These dialogs concern air traffic control, which entails both pragmatic and linguistic constraints. We carry out an exhaustive study of disfluencies phenomena in this context. At first we conduct a subtle analysis of these phenomena. Then we model them to a level of abstraction, which allows us to obtain the patterns corresponding to the different configurations observed. Finally we propose a methodology for automatic processing. It consists of several algorithms to identify the different phenomena, even in the absence of explicit markers. It is integrated into a system of automatic processing of speech. Eventually, the methodology is validated on a corpus of 400 sentences

Styles APA, Harvard, Vancouver, ISO, etc.

35

EL, HAROUCHY ZAHRA. « Dictionnaire et grammaire pour le traitement automatique des ambiguites morphologiques des mots simples en francais ». Besançon, 1997. http://www.theses.fr/1997BESA1010.

Texte intégral

Résumé :

En analyse automatique d'un texte, une des premieres etapes consiste a determiner les categories grammaticales des mots. Pour ce faire; un dictionnaire a ete cree sur la base d'une reconnaissance de la ou des categories grammaticales des mots simples a partir de leur terminaison. Ce dictionnaire que nous appelons dictionnaire automatique est un ensemble de regles generales (qui peuvent comprendre des sous-regles). Une regle generale enonce une terminaison. Un operateur (la ou les categories grammaticales) est associe a chaque regle. Nous avons par exemple la regle generale suivante : "les mots termines par 'able' sont des adjectifs". Comme exceptions (ou sous-regles) a cette regle generale, nous avons des noms ("cartable,. . . "), des verbes conjugues ("accable,. . . ") et des ambiguites morphologiques de type "nom et verbe conjugue (comme "sable table,. . . ") et des ambiguites de type "nom et adjectif" (comme comptable ,. . . ). Des lors un tel dictionnaire met en evidence les mots possedant plusieurs categories grammaticales. Lorsque le dictionnaire automatique detecte dans un texte un mot polycategoriel, il y a renvoi a la grammaire qui se charge de lever les ambiguites morphologiques par un examen du contexte immediat. Les regles de la grammaire fonctionnent comme un ensemble de combinaisons possibles d'elements pouvant suivre et/ou preceder la forme ambigue (par exemple une regle annonce qu'une forme ambigue de type "pronom ou article" precedee de "a cause de" est alors un article)
When carrying out the automatic analysis of a text, one of the first stages consists in determining the grammatical categories of the words. In order to do this, a dictionary has been designed which recognises the one or several grammatical categories of non-compound words from their endings. This dictionary, which we have called automatic dictionary, is a collection of general rules (which can consist of sub- rules). A general rule sets forth an ending. An operator (the one or several grammatical categories) is associated with each rule. For example, we have the following general rule: +words ending in 'able' are adjectives;. Examples of exceptions to (or sub-rules) of this general rule are nouns such as (+cartable ;), conjugated verbs like (+ accable ;), and morphological ambiguities such as + noun and conjugated verb (like +sable;, +table. . . ;), and ambiguities such as + adjectival nouns ;(like, for example, + comptable ;. . . ) consequently, this sort of dictionary gives prominence to those words posessing several grammatical categories. When the automatic dictionary detects a word posessing several categories, the grammar system is consulted,of which the role is to pick out the morphological ambiguities by studying the immediate context. The rules in the grammar system work like a group of possible combinations of elements capable of going after and-or before the ambiguous form ( for example, a rule states that an ambiguous form such as + pronoun or article ; preceded by + a cause de ; is, in fact, an article)

Styles APA, Harvard, Vancouver, ISO, etc.

36

Culioli-Atwood, Marie-Hélène. « Operations referentielles. Analyse de la determination en francais en vue d'un traitement informatise ». Paris 7, 1992. http://www.theses.fr/1992PA070014.

Texte intégral

Résumé :

L'objectif de la these est (1) de rassembler un maximum d'observations systematiques et detaillees concernant l'apparition des determinants en francais (dans le schema determinant + n): (2) de construire un systeme de representation metalinguistique permettant la modelisation des faits; (3) de construire des procedures de raisonnement, en vue d'un traitement algorithmique, soit en generation soit en analyse. L'ouvrage fournit les bases conceptuelles de la modelisation, a la fois sur le plan formel et sur le plan semantique. La these comporte trois parties: analyse des problemes lies aux manipulations paraphrastique en cause; etude de groupes de predicats nominalises, a partir de classements semantiques; etude des determinants dans les groupes prepositionnels. Cette recherche construit les etapes preliminaires a tout traitement automatique de la determination, telle qu'elle fonctionne dans un texte francais quelconque
The purpose of the thesis is (1) to gather a maximun of systematic and detailed observations concerning the occurence of determiners in french ( in the pattern det. + n ); (2) to build a system of metalinguistic representation enabling the modelling of facts; (3) to build procedures of reasoning having in mind an algorithmic treatment whether in generation or in analysis. The work gives the conceptual basis for modelling both on a formal and a semantic level. The thesis is made up of three parts: analysis of the problems in relation to the paraphrastic manipulations; study of groups of nominalised predicates based on semantic classifications; study of determiners in prepositional phrases. This work of research builds the preliminary steps of any computerized treatment of determination as used in a french text

Styles APA, Harvard, Vancouver, ISO, etc.

37

Oh, Hyun-Gum. « Représentation des valeurs sémantiques du passé composé français en vue d'un traitement informatique ». Paris 4, 1991. http://www.theses.fr/1991PA040070.

Texte intégral

Résumé :

Nous présentations un modèle de résolution concernant le problème du temps et de l'aspect dans la langue française, étude détaillée du cas du passé composé, en vue d'un traitement informatique. Cette thèse est constituée de trois parties : première partie, généralités et concepts théoriques ; deuxième partie, valeurs du passé composé ; troisième partie, stratégie d'exploration contextuelle. Nous montrons qu'un traitement automatique des langues naturelles visant à construire des représentations sémantiques des temps est possible en utilisant que des informations linguistiques contextuelles, celles-ci exprimant un savoir grammatical et non pas un savoir sur le monde externe. Notre approche linguistique a été implémentée sur machine à l'aide d'un générateur de système experts "snark"
We present a model solving the problem of tense and aspect in the French language, detail research of "passé compose". There are three parties in this thesis: first, generality and theoric concept second ; values of "passé compose" in French; third: strategie of contextual exploration. Its shows that a natural language processing the aim of which is to build semantic representations of tenses is possible thanks to only linguistic data without using any other knowledge of the world. This linguistic approach has been implemented by a generator of expert system called "snark"

Styles APA, Harvard, Vancouver, ISO, etc.

38

Haddad, Afifa. « Traitement des nominalisations anaphoriques en indexation automatique ». Lyon 2, 2001. http://theses.univ-lyon2.fr/documents/lyon2/2001/haddad_a.

Texte intégral

Résumé :

Cette thèse propose une méthode d'indexation en texte intégral basée sur les syntagmes nominaux anaphoriques. Il s'agit d'exploiter tout le contexte discursif impliqué par une relation d'anaphore pour former un descripteur riche en information, et d'avoir ainsi un index performant. La contribution principale de ce travail consiste en la conception d'une méthode permettant de reconstituer systématiquement tous les arguments d'une nominalisation anaphorique présente dans le discours et d'avoir ainsi un descripteur complètement défini. Cette résolution des anaphores nominales repose toutefois sur un travail préliminaire permettant de recenser toutes les constructions syntaxiques possibles des syntagmes nominaux construits autour d'une nominalisation et d'identifier un ensemble des règles syntaxiques qui réagissent la correspondance entre la forme nominalisée anaphorique et la forme verbale pleine de l'antécédent. Une démonstration de la faisabilité de cette méthode a été réalisée à travers son application sur un corpus
This thesis proposes en indexation method for integral texts based on anaphoric noun phrases. The motivation is to take advantage from the wide context of an anaphora relation in order to build a rich descriptor ? and to get consequently a performant index. The main contribution here is the design of a complete method enabling the systematic reconstitution of all arguments of each anaphoric nominalization encountered in the text. A completely resolved noun phrase constitutes a rich descriptor that is then added to the index. The resolution a nominal anaphora makes use the results of other preliminarly activities. These consists in collecting the syntactic structures of the possible noun phrase corresponding to a nominalization and, identifying a set of the anaphoric noun phrase and the form of its precedent. The feasibility of the proposed has been demonstrated through an application to a real-life corpus

Styles APA, Harvard, Vancouver, ISO, etc.

39

Haddad, Afifa Le Guern Michel. « Traitement des nominalisations anaphoriques en indexation automatique ». [S.l.] : [s.n.], 2001. http://theses.univ-lyon2.fr/sdx/theses/lyon2/intranet/haddad_a.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

40

Silva-Julia, Rita da. « Un système hybride pour le traitement du langage naturel et pour la récupération de l'information ». Toulouse 3, 1995. http://www.theses.fr/1995TOU30255.

Texte intégral

Résumé :

Nous proposons dans ce memoire la mise en uvre d'un systeme hybride de liaison entre les ressources du calcul des predicats et celles de la logique terminologique. Ce systeme est capable de: ? produire une representation formelle d'exigences exprimees en langage naturel dans le cadre de specifications de logiciel. ? introduire dans une base de connaissances la representation formelle obtenue pour chaque exigence en prenant soin de detecter les possibles redondances et contradictions. ? repondre a des questions posees au systeme, par l'execution d'un mecanisme d'inference permettant la recuperation de l'information stockee dans la base de connaissances. Les exigences appartiennent a un sous-ensemble restreint du langage naturel qui se situe dans le contexte du domaine spatial. La representation formelle d'une exigence est obtenue par une analyse syntaxique et semantique. Elle correspond a une formule du calcul des predicats dont les variables sont annotees par des expressions de la logique terminologique qui les particularisent. L'analyseur syntaxico-semantique implemente est un systeme formel construit selon la theorie du structuralisme. Ce systeme formel definit une grammaire applicative dont le mecanisme d'application est guide par une methode heuristique de l'intelligence artificielle. Les reponses du systeme correspondent a l'evaluation partielle des questions par rapport a la base de connaissances. La recuperation de l'information est effectuee par un demonstrateur de theoreme base sur la technique de la resolution lineaire. Ce demonstrateur utilise la semantique de la logique terminologique pour guider son mecanisme d'inference. Les principales contributions de notre travail sont les suivantes: ? la mise en uvre d'un analyseur syntaxico-semantique qui engendre automatiquement des regles semantiques, ce qui dispense le linguiste de la tache de les definir. ? l'utilisation d'une methode heuristique de l'intelligence artificielle pour guider le processus d'analyse. ? l'utilisation d'une unification semantique pour lier les methodes d'inference du calcul des predicats et de la logique terminologique. ? l'utilisation de la subsomption pour simplifier la base de connaissances et le processus de recuperation de l'information

Styles APA, Harvard, Vancouver, ISO, etc.

41

Rajman, Martin. « Apports d'une approche a base de corpus aux techniques de traitement automatique du langage naturel ». Paris, ENST, 1995. http://www.theses.fr/1995ENST0043.

Texte intégral

Résumé :

L'objectif général de ce travail est d'évaluer la possibilité de mise en œuvre de techniques à base de corpus aux différents niveaux de traitement automatique du langage naturel (lexical, syntaxique, sémantique,. . . ). Nous nous sommes d'abord intéresses aux corpus eux-mêmes, et, en particulier, aux problèmes poses par la manipulation de volumes importants de données textuelles de nature et d'origine variées. L'importance des normes et des standards (iso, SGML) a été soulignée et les résultats de projets en cours dans le domaine de la structuration des documents (tei-text encoding initiative) et de la représentation normalisée des unités lexicales (projet multext, action grace) ont été présentes. Pour ce qui est du traitement du langage naturel proprement dit, nous avons présente les différents modèles d'analyse syntaxique probabiliste utilise ; en particulier, nous nous sommes intéresses : (1) a la potabilisation des modèles syntaxiques a états finis sous la forme de chaines de Markov a états caches ; (2) a la potabilisation des modèles non-contextuels sous la forme de grammaires stochastiques ; (3) a la potabilisation des modèles à base d'arbres, en particulier celle des grammaires a substitution d'arbres et leur application dans le domaine de l'analyse syntaxique guidée par le données (date oriented parsing). Au niveau sémantique, nous nous sommes consacrés à la définition d'un modele sémantique, la sémantique distributionnelle, permettant la prise en compte, au niveau du sens, d'informations de co-occurrente entre entités linguistiques élémentaires (lemmes par exemple). Nous avons ensuite applique ce modele, qui peut être vu comme un prolongement des techniques de la lexicométrie et de l'analyse de données textuelles dans le champ de l'informatique linguistique, a deux types d'applications particulières de traitement du langage naturel : (1) la classification automatique de documents, et, (2) la recherche documentaire en texte intégral.

Styles APA, Harvard, Vancouver, ISO, etc.

42

Rajman, Martin. « Apports d'une approche à base de corpus aux techniques de traitement automatique du langage naturel / ». Paris : École nationale supérieure des télécommunications, 1997. http://catalogue.bnf.fr/ark:/12148/cb36707722b.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

43

Levrat, Bernard. « Le problème du sens dans les sytèmes de traitement du langage naturel : Une approche alternative au travers de la paraphrase ». Paris 13, 1993. http://www.theses.fr/1993PA132023.

Texte intégral

Résumé :

Contrairement à la plupart des théories sémantiques, nous considérons peu intéressante la séparation trop absolue entre niveau lexical et niveau conceptuel ; la conséquence que nous en tirons est qu'il faut savoir passer du lexical au lexical, d'où l'importance de la paraphrase. Nous décrivons ici une approche visant à caractériser la signification des expressions langagières au moyen de leurs conditions de reformulation en contexte. A cette fin nous avons conçu paraph, un système de diagnostic de paraphrase, qui modélise le jugement paraphrastique entre deux énoncés en langage naturel: ces derniers lui étant fournis en entrée, paraph délivre en sortie un ensemble de conditions interprétatives correspondant à des choix interprétatifs et à des approximations permettant d'identifier leurs significations. A l'opposé des modélisations traditionnelles, la méthodologie permet de doter la paraphrase des propriétés correspondant au phénomène réel (en particulier en rendant possible la gestion de la compositionalité des transformations par le biais du contrôle de la consistance de l'ensemble des conditions interprétatives impliquées par ces dernières). Paraph est un système de réécriture conditionnelle d'arbres. Les règles traduisent des reformulations paraphrastiques élémentaires et les conditions qui les étiquettent correspondent aux conditions interprétatives (i. E. Non prises en compte par le contexte explicite) rendant légitimes les transformations paraphrastiques qu'elles décrivent. Dans les applications envisagées, outre la modélisation de phénomènes fins de la langue du type de ceux impliqués dans les catégories grammaticales (temps, aspect, détermination, modalité,. . . ), nous envisageons à terme l'utilisation du diagnostic de paraphrase pour l'évaluation des reformulations des interventions des utilisateurs dans les interfaces en langage naturel des systèmes interactifs.

Styles APA, Harvard, Vancouver, ISO, etc.

44

N'Guéma, Sylvain Abraham. « Intégration de paramètres formels d'intonation à l'analyse syntaxique automatique dans une perspective d'aide à la désambigui͏̈sation syntaxique ». Avignon, 1998. http://www.theses.fr/1998AVIG0121.

Texte intégral

Résumé :

En matière de traitement automatique du langage naturel (taln), il est d'usage de procéder à l'analyse syntaxique d'un énoncé à partir des indications morphologiques qui s'y rapportent. Cependant dans de nombreux cas (notamment lors de la présence d'ambiguïtés syntaxiques), ces indications peuvent s'avérer insuffisantes. Aussi paraît-il nécessaire que les systèmes de communication homme-machine soient aptes à traiter simultanément différentes autres sources de connaissances afin de pouvoir recourir à des informations supplémentaires en cas de besoin, et de permettre ainsi un meilleur contrôle des processus (via notamment, des retours arrière intelligents). Cette thèse de doctorat porte sur l'intégration de paramètres formels d'intonation à l'analyse syntaxique automatique dans une perspective d'aide à la désambiguïsation syntaxique. Une approche symbolique d'intégration est proposée. Elle se fonde sur un cadre formel qui permet à la fois une représentation homogène des connaissances et une modélisation de différentes relations pluridirectionnelles censées exister entre l'intonation et la syntaxe. Ce cadre formel est fourni par le modèle d'unification hpsg (head-driven phrase structure grammar). Dans la première partie de cette thèse, il est question des principaux écueils rencontrés par les efforts traditionnels d'intégration intonation-syntaxe dans les systèmes de communication homme-machine. Dans le même temps, sont examinés différents avantages et limitations d'approches récentes d'intégrations élaborées dans le cadre des grammaires de types logiques. La deuxième partie présente, dans un premier temps, les caractéristiques du cadre formel de l'approche d'intégration proposée. En recourant notamment au langage de description de la logique attribut-valeur des structures de traits types, cette présentation tente de mettre en évidence l'intérêt logique et informatique du modèle grammatical d'unification hpsg. Puis, dans un second temps, le systéme de transcription de l'intonation proposé par P. Mertens et utilisé dans cette thèse, est décrit. En particulier, il s'agit de montrer comment la calculabilité et la compositionnalité de ce système facilitent sa représentation dans la logique attribut-valeur, et partant, son intégration à l'analyse syntaxique automatique. Dans un troisième temps, il est question de la recherche d'un principe de congruence partielle intonation-syntaxe dans les systèmes automatisés afin de guider l'analyse syntaxique automatique, et partant, de réduire les possibilités d'ambiguïtés de segmentation et de hiérarchisation de syntagmes. Enfin, ce mémoire s'achève par la réalisation d'un analyseur syntactico-prosodique qui se veut conforme à l'approche d'intégration proposée. Implementé dans un langage multi-paradigme dénommé life 1. 02, cet analyseur semble étayer l'efficience de cette approche au regard non seulement des limitations des approches équivalentes développées notamment dans le cadre des grammaires de types logiques, mais aussi au vu du but immédiat d'intégration poursuivi dans cette thèse

Styles APA, Harvard, Vancouver, ISO, etc.

45

Poibeau, Thierry. « Extraction d'information à base de connaissances hybrides ». Paris 13, 2002. http://www.theses.fr/2002PA132001.

Texte intégral

Résumé :

Notre travail se situe dans le domaine de l'extraction d'information. Ce terme désigne l'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle. La mise au point des ressources d'un système d'extraction est une tâche longue et fastidieuse, qui demande le plus souvent une expertise de domaine abordé et des connaissances en linguistique informatique. Ce point est bien connu et les concepteurs de systèmes mentionnent tous destemps prohibitifs passés à développer des ressources. . . .

Styles APA, Harvard, Vancouver, ISO, etc.

46

Amoia, Marilisa Gardent Claire Pinkal Manfred. « Reconnaissance d'implications textuelles à forte composante linguistique ». S. l. : S. l. : Nancy 1 ; Universität des Saarlandes, 2008. http://www.scd.uhp-nancy.fr/docnum/SCD_T_2008_0099_AMOIA.pdf.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

47

Koroleva, Anna. « Assisted authoring for avoiding inadequate claims in scientific reporting ». Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS021.

Texte intégral

Résumé :

Dans cette thèse, nous présentons notre travail sur le développement d’algorithmes de traitement automatique des langues (TAL) pour aider les lecteurs et les auteurs d’articles scientifiques (biomédicaux) à détecter le spin (présentation inadéquate des résultats de recherche). Notre algorithme se concentre sur le spin dans les résumés d’articles rapportant des essais contrôlés randomisés.Nous avons étudié le phénomène de ” spin ” du point de vue linguistique pour créer une description de ses caractéristiques textuelles. Nous avons annoté des corpus pour les tâches principales de notre chaîne de traitement pour la détection de spin: extraction des résultats —en anglais ” outcomes ” —déclarés (primaires) et rapportés, évaluation de la similarité sémantique des paires de résultats d’essais et extraction des relations entre les résultats rapportés et leurs niveaux de signification statistique. En outre, nous avons annoté deux corpus plus petits pour identifier les déclarations de similarité des traitements et les comparaisons intra-groupe. Nous avons développé et testé un nombre d’algorithmes d’apprentissage automatique et d’algorithmes basés sur des règles pour les tâches principales de la détection de spin (extraction des résultats, évaluation de la similarité des résultats et extraction de la relation résultat-signification statistique). La meilleure performance a été obtenues par une approche d’apprentissage profond qui consiste à adapter les représentations linguistiques pré-apprises spécifiques à un domaine (modèles de BioBERT et SciBERT) à nos tâches. Cette approche a été mise en oeuvre dans notre système prototype de détection de spin, appelé DeSpin, dont le code source est librement accessible sur un serveur public. Notre prototype inclut d’autres algorithmes importants, tels que l’analyse de structure de texte (identification du résumé d’un article,identification de sections dans le résumé), la détection de déclarations de similarité de traitements et de comparaisons intra-groupe, l’extraction de données de registres d’essais. L’identification des sections des résumés est effectuée avec une approche d’apprentissage profond utilisant le modèle BioBERT, tandis que les autres tâches sont effectuées à l’aide d’une approche basée sur des règles. Notre système prototype a une interface simple d’annotation et de visualisation
In this thesis, we report on our work on developing Natural Language Processing (NLP) algorithms to aid readers and authors of scientific (biomedical) articles in detecting spin (distorted presentation of research results). Our algorithm focuses on spin in abstracts of articles reporting Randomized Controlled Trials (RCTs). We studied the phenomenon of spin from the linguistic point of view to create a description of its textual features. We annotated a set of corpora for the key tasks of our spin detection pipeline: extraction of declared (primary) and reported outcomes, assessment of semantic similarity of pairs of trial outcomes, and extraction of relations between reported outcomes and their statistical significance levels. Besides, we anno-tated two smaller corpora for identification of statements of similarity of treatments and of within-group comparisons. We developed and tested a number of rule-based and machine learning algorithmsforthe key tasksof spindetection(outcome extraction,outcome similarity assessment, and outcome-significance relation extraction). The best performance was shown by a deep learning approach that consists in fine-tuning deep pre-trained domain-specific language representations(BioBERT and SciBERT models) for our downstream tasks. This approach was implemented in our spin detection prototype system, called De-Spin, released as open source code. Our prototype includes some other important algorithms, such as text structure analysis (identification of the abstract of an article, identification of sections within the abstract), detection of statements of similarity of treatments and of within-group comparisons, extraction of data from trial registries. Identification of abstract sections is performed with a deep learning approach using the fine-tuned BioBERT model, while other tasks are performed using a rule-based approach. Our prototype system includes a simple annotation and visualization interface

Styles APA, Harvard, Vancouver, ISO, etc.

48

Nelakanti, Anil Kumar. « Modélisation du langage à l'aide de pénalités structurées ». Phd thesis, Université Pierre et Marie Curie - Paris VI, 2014. http://tel.archives-ouvertes.fr/tel-01001634.

Texte intégral

Résumé :

Modeling natural language is among fundamental challenges of artificial intelligence and the design of interactive machines, with applications spanning across various domains, such as dialogue systems, text generation and machine translation. We propose a discriminatively trained log-linear model to learn the distribution of words following a given context. Due to data sparsity, it is necessary to appropriately regularize the model using a penalty term. We design a penalty term that properly encodes the structure of the feature space to avoid overfitting and improve generalization while appropriately capturing long range dependencies. Some nice properties of specific structured penalties can be used to reduce the number of parameters required to encode the model. The outcome is an efficient model that suitably captures long dependencies in language without a significant increase in time or space requirements. In a log-linear model, both training and testing become increasingly expensive with growing number of classes. The number of classes in a language model is the size of the vocabulary which is typically very large. A common trick is to cluster classes and apply the model in two-steps; the first step picks the most probable cluster and the second picks the most probable word from the chosen cluster. This idea can be generalized to a hierarchy of larger depth with multiple levels of clustering. However, the performance of the resulting hierarchical classifier depends on the suitability of the clustering to the problem. We study different strategies to build the hierarchy of categories from their observations.

Styles APA, Harvard, Vancouver, ISO, etc.

49

Ouldja, Hadj. « Réalisation d'une interface en langage naturel et son application à l'enseignement assisté par ordinateur ». Paris 6, 1988. http://www.theses.fr/1988PA066456.

Texte intégral

Résumé :

Évaluation technique sur la faisabilité d'interfaces homme machine sur microordinateurs et sur leurs qualités linguistiques. Prolog a été choisi comme langage de représentation de connaissances linguistiques et comme langage de programmation, permettant d'assurer la portabilité des programmes développés. Réalisation d'un ensemble de modules constitutifs de l'architecture d'un système interface homme machine en langue naturelle, intégrant des solutions techniques efficaces aux problèmes linguistiques

Styles APA, Harvard, Vancouver, ISO, etc.

50

Fernández, Sabido Silvia Fidelina Berche Bertrand Torres Moreno Juan-Manuel. « Applications exploratoires des modèles de spins au traitement automatique de la langue ». S. l. : S. n, 2009. http://www.scd.uhp-nancy.fr/docnum/SCD_T_2009_0055_FERNANDEZ-SABIDO.pdf.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

Nous offrons des réductions sur tous les plans premium pour les auteurs dont les œuvres sont incluses dans des sélections littéraires thématiques. Contactez-nous pour obtenir un code promo unique!