Tesi: "Génération en langue naturelle"

1

Ponton, Claude (1966. "Génération automatique de textes en langue naturelle : essai de définition d'un système noyau". Grenoble 3, 1996. http://www.theses.fr/1996GRE39030.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Une des caracteristiques commune a de tres nombreux systemes de generation est la forte dependance qu'ils entretiennent chacun avec leur application. Si quelques tentatives de definition de systemes "non dedies" ont ete faites, aucune ne permet la prise en compte des caracteristiques de l'application (comme son formalisme) et de la situation enonciative (domaine d'application, utilisateur,. . . ). L'objectif de cette these est la definition d'un systeme de generation a la fois non dedie et permettant la prise en compte de ces differents elements. Un tel systeme est appele "systeme noyau de generation". Dans cette perspective, nous avons mene l'etude de 94 systemes de generation selon des criteres pertinents par rapport a notre objectif. Cette etude sert de base a la suite de notre travail. La definition du generateur noyau passe par la determination de la frontiere entre l'application et la generation noyau (taches du generateur, entrees, sorties, donnees,. . . ). Il est necessaire, en effet, de connaitre les roles de chacune des deux parties et leurs moyens de communication avant de pouvoir construire le generateur noyau. Il resulte de cette etude que le generateur noyau considere en entree une representation formelle quelconque du contenu et un ensemble de contraintes decrivant la situation enonciative. Le generateur noyau traite alors ce que l'on nomme generalement le "comment le dire?" et il est capable de produire toutes les solutions repondant aux contraintes d'entree. Cette partie de definition est suivie de la realisation d'une premiere maquette du generateur noyau qui a ete testee sur deux applications distinctes a tous points de vue (formalisme, domaine, type de textes,. . . ). Enfin, ce travail debouche sur des perspectives d'evolution du generateur noyau notamment sur le formalisme de representation des connaissances (cotopies d'objets) et sur l'architecture (architecture distribuee)
One of the common features with many generation systems is the strong dependence on the application. If few definition attempts of "non dedicated" systems have been realised, none of them permis to take into account the application characteristics (as its formalism) and the communication context (application field, user,. . . ). The purpose of this thesis is the definition of a generation system both non dedicated and permitting to take into account these elements. Such a system is called a "kernel generation system". In this perspective, we have studied 94 generation systems through objective relevant criteria. This study is used as a basis in the continuation of our work. The definition of a kernel generator needs the determination of the frontier between the application and the kernel generation (generator tasks, inputs, outputs, data,. . . ). Effectively, it is necessary to be aware of the role of both parts and their communication ways before designing the kernel generator. It results of this study that our generator considers as input any formal content representation as well as a set of constraints describing the communication context. The kernel generator then processes what is generally called the "how to say it?" and is able to produce every solutions according to the input constraints. This definition part is followed by the achievement of a first generator prototype which has been tested through two applications distinct in all respects (formalism, field, type of texts,. . . ). Finally, this work opens out on some evolution perspectives for the generator particulary on knowledge representation formalism (cotopies d'objets) and on architecture (distributed architecture)

2

Balicco, Laurence. "Génération de repliques en français dans une interface homme-machine en langue naturelle". Grenoble 2, 1993. http://www.theses.fr/1993GRE21025.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette recherche entre dans le cadre de la generation automatique de langue naturelle, domaine qui fut longtemps neglige, cette phase semblant plus simple que celle d'analyse de la langue. Cette these qui correspond a un premier travail sur la generation au sein du criss place le probleme de la generation automatique dans le cadre d'un homme-machine en langue naturelle. Ceci a des consequences, parmi lesquelles la generation a partir d'un contenu a exprimer en langue naturelle, une expression en langue naturelle de ce contenu aussi fidelement que possible,. . . Apres avoir etudie les differents travaux en generation, nous avons decide d'elaborer notre propre systeme de generation, en reutililisant, dans la mesure du possible, les outils developpes pour l'analyse. Ce generateur repose sur un modele linguistique utilisant des informations principalement syntaxiques et morphologiques et dans lequel sont definies des transformations linguistiques appelees operations (coordination, anaphorisation, thematisation,. . . ) donnees par le dialogue ou calculees lors de la phase de generation. Il permet la creation de plusieurs versions d'une meme replique et ainsi que, brievement, un projet europeen qui presente une application possible du generateur
This research takes place in the context of natural language generation. This field has benn neglected for a long time because it seemed a much easier phase that those of analysis. The thesis corresponds to a first work on generation in the criss team and places the problem of generation in the context of a manmachine dialogue in natural language. Some of its consequences are : generation from a logical content to be translated into natural language, this translation of the original content kept as close as possible,. . . After the study of the different works that have been done, we decided to create our own generation system, resusing when it is possible, the tools elaborated during the analyzing process. This generation process is based on a linguistic model, which uses syntactic and morphologic information and in which linguistic transformations called operations are defined (coodination, anaphorisation, thematisation,. . . ). These operations can be given by the dialogue or calulated during the generation process. The model allows the creation of several of the same utterance and therefore a best adaptation for different users. This thesis presents the studied works, essentially on the french and the english languages, the linguistic model developped, the computing model used, and a brief presentation of an european project which offers a possible application of ou

3

Garcia-Fernandez, Anne. "Génération de réponses en langue naturelle orales et écrites pour les systèmes de question-réponse en domaine ouvert". Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00603358.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans ce mémoire se situent dans le contexte de la réponse à une question. Contrairement à de nombreux travaux traitant de la recherche de l'information à fournir en réponse à une question, notre problématique principale a été de caractériser la forme que peut prendre une réponse en interaction avec une question qui puisse être produite par des systèmes de question-réponse. Nous exposons les enjeux de l'interaction du type "réponse à une question" considérant deux modalités d'interaction : l'oral et l'écrit. Nous montrons que répondre n'est pas uniquement présenter une information mais fait partie d'une interaction entre deux locuteurs. Cherchant à définir ce que pourrait être une réponse en interaction pour les systèmes de question-réponse, nous constatons l'absence de corpus constitué de telles réponses. Dans l'optique de constituer un tel corpus, la forme des questions utilisées lors de la collecte est primordiale. Une étude de l'état de l'art sur les variations linguistiques des questions est ainsi présentée. Nous exposons ensuite la constitution des questions ainsi que la collecte du corpus de réponses à l'oral et à l'écrit, et effectuée auprès de plus de 150 locuteurs natifs du français. Une évaluation du protocole utilisé est ensuite effectuée. Enfin, nous présentons une analyse du corpus collecté en répondant à un ensemble de questions préalables à création d'un module de génération de réponses en langue naturelle dans un système de question-réponse.

4

Bourcier, Frédéric. "Représentation des connaissances pour la résolution de problèmes et la génération d'explications en langue naturelle : contribution au projet AIDE". Compiègne, 1996. http://www.theses.fr/1996COMPD903.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans le cadre du projet AIDE dont l'objectif est la conception d'un générateur de systèmes experts explicatifs, nous nous sommes intéressés à la représentation explicite du sens de textes explicatifs et au mécanisme permettant de les générer en langue naturelle. Notre étude sur la représentation du sens d'explications nous a conduits à contribuer au développement de la représentation générale des connaissances. Dans ce but, nous avons été amenés a étendre un formalisme de type réseaux sémantiques. Nous avons ainsi adjoint une nouvelle construction nous permettant notamment de représenter l'expression de connaissances sémantiques par des connaissances linguistiques (syntaxiques, morphologiques et lexicales), que nous avons incorporées dans le cadre d'un résolveur de problèmes de contrôle de procédés (SEFOR). Nous avons également introduit la notion d'ensemble, de façon à distinguer des collections d'objets. Enfin, nous avons défini une structure de représentation sémantique servant à représenter d'une part des propositions définitionnelles et d'autre part des explications, en tenant compte de leur intention communicative et de leur contenu informationnel. Pour valider l'ensemble de l'architecture des connaissances du générateur en tenant compte des nouvelles constructions, nous avons conçu et associé à un module de construction d'explications (Gréboval 94), un module de génération en langue naturelle. Ce dernier, suite à une phase de traduction sémantique, applique différentes phases de génération : syntaxique et morpho-lexicale, pour produire une phrase en français.

5

Popesco, Liana. "Analyse et génération de textes à partir d'un seul ensemble de connaissances pour chaque langue naturelle et de meta-règles de structuration". Paris 6, 1986. http://www.theses.fr/1986PA066138.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le système analyseur/générateur construit réalise des traductions sémantiques multilingues en contexte limité. Caractéristiques principales: unicité de l'ensemble de connaissances fourni pour chaque langue; représentation interne exclusivement sémantique; réorganisation, par le système, de la grammaire initiale (atn sémantico-syntaxique), en vue de la génération; déduction (à partir de principes généraux donnes sous forme de métarègles) de règles de structuration spécifiques à chaque langue, règles utilisables en génération.

6

Namer, Fiammetta. "Pronominalisation et effacement du sujet en génération automatique de textes en langues romanes". Paris 7, 1990. http://www.theses.fr/1990PA077249.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail est centre sur la generation de textes a partir de representations semantiques, en francais et en italien. Les points abordes concernent essentiellement les aspects syntaxiques de la pronominalisation: nous montrons que les pronoms personnels et, pour l'italien, le sujet vide, tiennent une place capitale dans le mecanisme de synthese d'un texte. Apres avoir presente le modele de l. Danlos, dont nous nous sommes inspires, nous detaillons les aspects linguistiques de la pronominalisation et leurs consequences en generation: les dependances non locales et croisees mises en jeu par les contraintes de co-occurrence entre pronoms. Apres avoir montre la nature similaire, mais aussi les differences qui existent entre l'effacement du sujet et la formation d'un pronom, nous decrivons les conditions morphologiques, semantiques et syntaxiques necessaires a la realisation de ces deux operations. Nous etudions alors deux approches de la synthese d'une phrase: une approche sequentielle et une approche globale, qui realise toutes les phrases potentielles, avec ou sans pronoms, en parallele, et effectue un choix final. Le chapitre 5 est consacre a l'etude des conditions stylistiques de pronominalisation, basees sur le parallelisme de structure. Ces contraintes apportent des arguments en faveur de l'approche globale, dont nous detaillons les avantages. Dans le chapitre 6, nous utilisons l'application recursive de cette approche pour resoudre des problemes de pronominalisation dans les phrases a completive, et ce apres avoir mis en evidence la complexite de ce phenomene. Enfin, le dernier chapitre decrit le programme qui a ete realise. Ce programme engendre des resumes d'operas de verdi en italien, qui sont presentes et commentes

7

Perez, Laura Haide. "Génération automatique de phrases pour l'apprentissage des langues". Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0062/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans ces travaux, nous explorons comment les techniques de Générations Automatiques de Langue Naturelle (GLN) peuvent être utilisées pour aborder la tâche de génération (semi-)automatique de matériel et d'activités dans le contexte de l'apprentissage de langues assisté par ordinateur. En particulier, nous montrons comment un Réalisateur de Surface (RS) basé sur une grammaire peut être exploité pour la création automatique d'exercices de grammaire. Notre réalisateur de surface utilise une grammaire réversible étendue, à savoir SemTAG, qui est une Grammaire d'Arbre Adjoints à Structure de Traits (FB-TAG) couplée avec une sémantique compositionnelle basée sur l'unification. Plus précisément, la grammaire FB-TAG intègre une représentation plate et sous-spécifiée des formules de Logique de Premier Ordre (FOL). Dans la première partie de la thèse, nous étudions la tâche de réalisation de surface à partir de formules sémantiques plates et nous proposons un algorithme de réalisation de surface basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases longues étant donné une grammaire et un lexique à large couverture. L'approche suivie pour l'optimisation de la réalisation de surface basée sur FB-TAG à partir de sémantiques plates repose sur le fait qu'une grammaire FB-TAG peut être traduite en une Grammaire d'Arbres Réguliers à Structure de Traits (FB-RTG) décrivant ses arbres de dérivation. Le langage d'arbres de dérivation de la grammaire TAG constitue un langage plus simple que le langage d'arbres dérivés, c'est pourquoi des approches de génération basées sur les arbres de dérivation ont déjà été proposées. Notre approche se distingue des précédentes par le fait que notre encodage FB-RTG prend en compte les structures de traits présentes dans la grammaire FB-TAG originelle, ayant de ce fait des conséquences importantes par rapport à la sur-génération et la préservation de l'interface syntaxe-sémantique. L'algorithme de génération d'arbres de dérivation que nous proposons est un algorithme de type Earley intégrant un ensemble de techniques d'optimisation bien connues: tabulation, partage-compression (sharing-packing) et indexation basée sur la sémantique. Dans la seconde partie de la thèse, nous explorons comment notre réalisateur de surface basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exercices de grammaire. Habituellement, les enseignants éditent manuellement les exercices et leurs solutions et les classent au regard de leur degré de difficulté ou du niveau attendu de l'apprenant. Un courant de recherche dans le Traitement Automatique des Langues (TAL) pour l'apprentissage des langues assisté par ordinateur traite de la génération (semi-)automatique d'exercices. Principalement, ces travaux s'appuient sur des textes extraits du Web, utilisent des techniques d'apprentissage automatique et des techniques d'analyse de textes (par exemple, analyse de phrases, POS tagging, etc.). Ces approches confrontent l'apprenant à des phrases qui ont des syntaxes potentiellement complexes et du vocabulaire varié. En revanche, l'approche que nous proposons dans cette thèse aborde la génération (semi-)automatique d'exercices du type rencontré dans les manuels pour l'apprentissage des langues. Il s'agit, en d'autres termes, d'exercices dont la syntaxe et le vocabulaire sont faits sur mesure pour des objectifs pédagogiques et des sujets donnés. Les approches de génération basées sur des grammaires associent les phrases du langage naturel avec une représentation linguistique fine de leur propriété morpho-syntaxiques et de leur sémantique grâce à quoi il est possible de définir un langage de contraintes syntaxiques et morpho-syntaxiques permettant la sélection de phrases souches en accord avec un objectif pédagogique donné. Cette représentation permet en outre d'opérer un post-traitement des phrases sélectionées pour construire des exercices de grammaire
In this work, we explore how Natural Language Generation (NLG) techniques can be used to address the task of (semi-)automatically generating language learning material and activities in Camputer-Assisted Language Learning (CALL). In particular, we show how a grammar-based Surface Realiser (SR) can be usefully exploited for the automatic creation of grammar exercises. Our surface realiser uses a wide-coverage reversible grammar namely SemTAG, which is a Feature-Based Tree Adjoining Grammar (FB-TAG) equipped with a unification-based compositional semantics. More precisely, the FB-TAG grammar integrates a flat and underspecified representation of First Order Logic (FOL) formulae. In the first part of the thesis, we study the task of surface realisation from flat semantic formulae and we propose an optimised FB-TAG-based realisation algorithm that supports the generation of longer sentences given a large scale grammar and lexicon. The approach followed to optimise TAG-based surface realisation from flat semantics draws on the fact that an FB-TAG can be translated into a Feature-Based Regular Tree Grammar (FB-RTG) describing its derivation trees. The derivation tree language of TAG constitutes a simpler language than the derived tree language, and thus, generation approaches based on derivation trees have been already proposed. Our approach departs from previous ones in that our FB-RTG encoding accounts for feature structures present in the original FB-TAG having thus important consequences regarding over-generation and preservation of the syntax-semantics interface. The concrete derivation tree generation algorithm that we propose is an Earley-style algorithm integrating a set of well-known optimisation techniques: tabulation, sharing-packing, and semantic-based indexing. In the second part of the thesis, we explore how our SemTAG-based surface realiser can be put to work for the (semi-)automatic generation of grammar exercises. Usually, teachers manually edit exercises and their solutions, and classify them according to the degree of dificulty or expected learner level. A strand of research in (Natural Language Processing (NLP) for CALL addresses the (semi-)automatic generation of exercises. Mostly, this work draws on texts extracted from the Web, use machine learning and text analysis techniques (e.g. parsing, POS tagging, etc.). These approaches expose the learner to sentences that have a potentially complex syntax and diverse vocabulary. In contrast, the approach we propose in this thesis addresses the (semi-)automatic generation of grammar exercises of the type found in grammar textbooks. In other words, it deals with the generation of exercises whose syntax and vocabulary are tailored to specific pedagogical goals and topics. Because the grammar-based generation approach associates natural language sentences with a rich linguistic description, it permits defining a syntactic and morpho-syntactic constraints specification language for the selection of stem sentences in compliance with a given pedagogical goal. Further, it allows for the post processing of the generated stem sentences to build grammar exercise items. We show how Fill-in-the-blank, Shuffle and Reformulation grammar exercises can be automatically produced. The approach has been integrated in the Interactive French Learning Game (I-FLEG) serious game for learning French and has been evaluated both based in the interactions with online players and in collaboration with a language teacher

8

Perez, Laura Haide. "Génération automatique de phrases pour l'apprentissage des langues". Electronic Thesis or Diss., Université de Lorraine, 2013. http://www.theses.fr/2013LORR0062.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans ces travaux, nous explorons comment les techniques de Générations Automatiques de Langue Naturelle (GLN) peuvent être utilisées pour aborder la tâche de génération (semi-)automatique de matériel et d'activités dans le contexte de l'apprentissage de langues assisté par ordinateur. En particulier, nous montrons comment un Réalisateur de Surface (RS) basé sur une grammaire peut être exploité pour la création automatique d'exercices de grammaire. Notre réalisateur de surface utilise une grammaire réversible étendue, à savoir SemTAG, qui est une Grammaire d'Arbre Adjoints à Structure de Traits (FB-TAG) couplée avec une sémantique compositionnelle basée sur l'unification. Plus précisément, la grammaire FB-TAG intègre une représentation plate et sous-spécifiée des formules de Logique de Premier Ordre (FOL). Dans la première partie de la thèse, nous étudions la tâche de réalisation de surface à partir de formules sémantiques plates et nous proposons un algorithme de réalisation de surface basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases longues étant donné une grammaire et un lexique à large couverture. L'approche suivie pour l'optimisation de la réalisation de surface basée sur FB-TAG à partir de sémantiques plates repose sur le fait qu'une grammaire FB-TAG peut être traduite en une Grammaire d'Arbres Réguliers à Structure de Traits (FB-RTG) décrivant ses arbres de dérivation. Le langage d'arbres de dérivation de la grammaire TAG constitue un langage plus simple que le langage d'arbres dérivés, c'est pourquoi des approches de génération basées sur les arbres de dérivation ont déjà été proposées. Notre approche se distingue des précédentes par le fait que notre encodage FB-RTG prend en compte les structures de traits présentes dans la grammaire FB-TAG originelle, ayant de ce fait des conséquences importantes par rapport à la sur-génération et la préservation de l'interface syntaxe-sémantique. L'algorithme de génération d'arbres de dérivation que nous proposons est un algorithme de type Earley intégrant un ensemble de techniques d'optimisation bien connues: tabulation, partage-compression (sharing-packing) et indexation basée sur la sémantique. Dans la seconde partie de la thèse, nous explorons comment notre réalisateur de surface basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exercices de grammaire. Habituellement, les enseignants éditent manuellement les exercices et leurs solutions et les classent au regard de leur degré de difficulté ou du niveau attendu de l'apprenant. Un courant de recherche dans le Traitement Automatique des Langues (TAL) pour l'apprentissage des langues assisté par ordinateur traite de la génération (semi-)automatique d'exercices. Principalement, ces travaux s'appuient sur des textes extraits du Web, utilisent des techniques d'apprentissage automatique et des techniques d'analyse de textes (par exemple, analyse de phrases, POS tagging, etc.). Ces approches confrontent l'apprenant à des phrases qui ont des syntaxes potentiellement complexes et du vocabulaire varié. En revanche, l'approche que nous proposons dans cette thèse aborde la génération (semi-)automatique d'exercices du type rencontré dans les manuels pour l'apprentissage des langues. Il s'agit, en d'autres termes, d'exercices dont la syntaxe et le vocabulaire sont faits sur mesure pour des objectifs pédagogiques et des sujets donnés. Les approches de génération basées sur des grammaires associent les phrases du langage naturel avec une représentation linguistique fine de leur propriété morpho-syntaxiques et de leur sémantique grâce à quoi il est possible de définir un langage de contraintes syntaxiques et morpho-syntaxiques permettant la sélection de phrases souches en accord avec un objectif pédagogique donné. Cette représentation permet en outre d'opérer un post-traitement des phrases sélectionées pour construire des exercices de grammaire
In this work, we explore how Natural Language Generation (NLG) techniques can be used to address the task of (semi-)automatically generating language learning material and activities in Camputer-Assisted Language Learning (CALL). In particular, we show how a grammar-based Surface Realiser (SR) can be usefully exploited for the automatic creation of grammar exercises. Our surface realiser uses a wide-coverage reversible grammar namely SemTAG, which is a Feature-Based Tree Adjoining Grammar (FB-TAG) equipped with a unification-based compositional semantics. More precisely, the FB-TAG grammar integrates a flat and underspecified representation of First Order Logic (FOL) formulae. In the first part of the thesis, we study the task of surface realisation from flat semantic formulae and we propose an optimised FB-TAG-based realisation algorithm that supports the generation of longer sentences given a large scale grammar and lexicon. The approach followed to optimise TAG-based surface realisation from flat semantics draws on the fact that an FB-TAG can be translated into a Feature-Based Regular Tree Grammar (FB-RTG) describing its derivation trees. The derivation tree language of TAG constitutes a simpler language than the derived tree language, and thus, generation approaches based on derivation trees have been already proposed. Our approach departs from previous ones in that our FB-RTG encoding accounts for feature structures present in the original FB-TAG having thus important consequences regarding over-generation and preservation of the syntax-semantics interface. The concrete derivation tree generation algorithm that we propose is an Earley-style algorithm integrating a set of well-known optimisation techniques: tabulation, sharing-packing, and semantic-based indexing. In the second part of the thesis, we explore how our SemTAG-based surface realiser can be put to work for the (semi-)automatic generation of grammar exercises. Usually, teachers manually edit exercises and their solutions, and classify them according to the degree of dificulty or expected learner level. A strand of research in (Natural Language Processing (NLP) for CALL addresses the (semi-)automatic generation of exercises. Mostly, this work draws on texts extracted from the Web, use machine learning and text analysis techniques (e.g. parsing, POS tagging, etc.). These approaches expose the learner to sentences that have a potentially complex syntax and diverse vocabulary. In contrast, the approach we propose in this thesis addresses the (semi-)automatic generation of grammar exercises of the type found in grammar textbooks. In other words, it deals with the generation of exercises whose syntax and vocabulary are tailored to specific pedagogical goals and topics. Because the grammar-based generation approach associates natural language sentences with a rich linguistic description, it permits defining a syntactic and morpho-syntactic constraints specification language for the selection of stem sentences in compliance with a given pedagogical goal. Further, it allows for the post processing of the generated stem sentences to build grammar exercise items. We show how Fill-in-the-blank, Shuffle and Reformulation grammar exercises can be automatically produced. The approach has been integrated in the Interactive French Learning Game (I-FLEG) serious game for learning French and has been evaluated both based in the interactions with online players and in collaboration with a language teacher

9

Hadjadj, Mohammed. "Modélisation de la Langue des Signes Française : Proposition d’un système à compositionalité sémantique". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS560/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La reconnaissance de la langue des signes française (LSF) comme une langue à part entière en 2005 a créé un besoin important de développement d’outils informatiques pour rendre l’information accessible au public sourd. Dans cette perspective, cette thèse a pour cadre la modélisation linguistique pour un système de génération de la LSF. Nous présentons dans un premier temps les différentes approches linguistiques ayant pour but la description linguistique des langues des signes (LS). Nous présentons ensuite les travaux effectués en informatique pour les modéliser.Dans un deuxième temps, nous proposons une approche permettant de prendre en compte les caractéristiques linguistiques propres au LS tout en respectant les contraintes d’un processus de formalisation. En étudiant des liens entre des fonctions sémantiques et leurs formes observées dans les corpus LSF, nous avons identifié plusieurs règles de production. Nous présentons finalement le fonctionnement des règles comme étant un système susceptible de modéliser un énoncé entier en LSF
The recognition of French Sign Language (LSF) as a natural language in 2005 has created an important need for the development of tools to make information accessible to the deaf public. With this prospect, this thesis aims at linguistic modeling for a system of generation of LSF. We first present the different linguistic approaches aimed at describing the sign language (SL). We then present the models proposed in computer science. In a second step, we propose an approach allowing to take into account the linguistic properties of the SL while respecting the constraints of a formalisation process.By studying the links between semantic functions and their observed forms in LSF Corpora, we have identified several production rules. We finally present the rule functioning as a system capable of modeling an entire utterance in LSF

10

Shimorina, Anastasia. "Natural Language Generation : From Data Creation to Evaluation via Modelling". Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0080.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La génération en langue naturelle (natural language generation, NLG) est le processus qui consiste à générer du texte dans une langue naturelle à partir de données d’entrée. Ces entrées peuvent prendre la forme de textes, de documents, d’images, de tableaux, de graphes (réseaux de connaissances), de bases de données, d’actes de dialogue, ou d’autres représentations sémantiques. Les méthodes récentes en NLG, principalement basées sur des modèles neuronaux, ont apporté des améliorations significatives. Malgré ces récents progrès, de nombreux problèmes liés à la tâche de génération subsistent, tels que celui de la fidélité aux données d’entrée, du développement de modèles multilingues, ou de la génération à partir de peu d’exemples. Cette thèse explore trois aspects de la NLG : tout d’abord, la création de données d’apprentissage, puis le développement de modèles de génération, et enfin l’évaluation des méthodes proposées. Nous abordons la question du multilinguisme et proposons des stratégies de traduction semi-automatique de corpus destinés à l’entraînement de modèles de NLG. Nous montrons que les entités nommées constituent un obstacle majeur dans la réalisation de la tâche de traduction, ici considérée de l’anglais vers le russe. Nous décrivons ensuite deux méthodes de traitement des entités rares dans les données d’apprentissages des modèles de NLG : la copie et la délexicalisation. Nous démontrons que l’effet de ces deux mécanismes varie fortement selon la manière dont les données sont construites, et que les entités rares ont un impact important sur les performances des modèles. Concernant la génération multilingue, nous développons une approche modulaire de réalisation de surface superficielle (shallow surface realisation, SSR) pour plusieurs langues. Notre approche consiste à diviser la tâche de SSR en trois composantes : l’ordonnancement des mots, l’inflexion morphologique et la génération de contractions. Nous montrons, via la délexicalisation, que la composante d’ordonnancement s’appuie principalement sur les informations syntaxiques. En plus de nos contributions concernant la modélisation, nous proposons un cadre d’analyse des erreurs axé sur l’ordre des mots, pour la tâche de SSR. Ce cadre permet d’obtenir un aperçu linguistique des performances des modèles au niveau de la phrase et d’identifier les cas où un modèle échoue. Enfin, nous abordons le sujet de l’évaluation de manière plus générale et comparons différentes métriques automatiques et humaines ; nous soulignons la différence entre les méthodes d’évaluation au niveau de la phrase et les méthodes d’évaluations au niveau du corpus
Natural language generation is a process of generating a natural language text from some input. This input can be texts, documents, images, tables, knowledge graphs, databases, dialogue acts, meaning representations, etc. Recent methods in natural language generation, mostly based on neural modelling, have yielded significant improvements in the field. Despite this recent success, numerous issues with generation prevail, such as faithfulness to the source, developing multilingual models, few-shot generation. This thesis explores several facets of natural language generation from creating training datasets and developing models to evaluating proposed methods and model outputs. In this thesis, we address the issue of multilinguality and propose possible strategies to semi-automatically translate corpora for data-to-text generation. We show that named entities constitute a major stumbling block in translation exemplified by the English-Russian translation pair. We proceed to handle rare entities in data-to-text modelling exploring two mechanisms: copying and delexicalisation. We demonstrate that rare entities strongly impact performance and that the impact of these two mechanisms greatly varies depending on how datasets are constructed. Getting back to multilinguality, we also develop a modular approach for shallow surface realisation in several languages. Our approach splits the surface realisation task into three submodules: word ordering, morphological inflection and contraction generation. We show, via delexicalisation, that the word ordering component mainly depends on syntactic information. Along with the modelling, we also propose a framework for error analysis, focused on word order, for the shallow surface realisation task. The framework enables to provide linguistic insights into model performance on the sentence level and identify patterns where models underperform. Finally, we also touch upon the subject of evaluation design while assessing automatic and human metrics, highlighting the difference between the sentence-level and system-level type of evaluation

11

Kervajan, LoÏc. "Contribution à la traduction automatique français/langue des signes française (LSF) au moyen de personnages virtuels : Contribution à la génération automatique de la LSF". Thesis, Aix-Marseille 1, 2011. http://www.theses.fr/2011AIX10172.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Depuis la loi du 11-02-2005 pour l’égalité des droits et des chances, les lieux ouverts au public doivent accueillir les Sourds en Langue des Signes Française (LSF). C’est dans le cadre du développement d’outils technologiques de diffusion de LSF que nous avons travaillé, plus particulièrement au niveau de la traduction automatique du français écrit vers la LSF. Notre thèse commence par un état de l’art relatif aux connaissances sur la LSF (ressources disponibles et supports d’expression de la LSF) avant d’approfondir des notions de grammaire descriptive. Notre hypothèse de travail est la suivant : la LSF est une langue et, à ce titre, la traduction automatique lui est applicable.Nous décrivons ensuite les spécifications linguistiques pour le traitement automatique, en fonction des observations mises en avant dans l’état de l’art et des propositions de nos informateurs. Nous détaillons notre méthodologie et présentons l’avancée de nos travaux autour de la formalisation des données linguistiques à partir des spécificités de la LSF dont certaines (model verbal, modification adjectivale et adverbiale, organisation des substantifs, problématiques de l’accord) ont nécessité un traitement plus approfondi. Nous présentons le cadre applicatif dans lequel nous avons travaillé : les systèmes de traduction automatique et d’animation de personnage virtuel de France Telecom R&D. Puis, après un rapide état de l’art sur les technologies avatar nous décrivons nos modalités de contrôle du moteur de synthèse de geste grâce au format d’échange mis au point. Enfin, nous terminons par nos évaluations et perspectives de recherche et de développements qui pourront suivre cette Thèse.Notre approche a donné ses premiers résultats puisque nous avons atteint notre objectif de faire fonctionner la chaîne complète de traduction : de la saisie d'un énoncé en français jusqu'à la réalisation de l'énoncé correspondant en LSF par un personnage de synthèse
Since the law was voted the 11-02-2005 for equal rights and opportunities: places open to anyone (public places, shops, internet, etc.) should welcome the Deaf in French Sign Language (FSL). We have worked on the development of technological tools to promote LSF, especially in machine translation from written French to FSL.Our thesis begins with a presentation of knowledge on FSL (theoretical resources and ways to edit FSL) and follows by further concepts of descriptive grammar. Our working hypothesis is: FSL is a language and, therefore, machine translation is relevant.We describe the language specifications for automatic processing, based on scientific knowledge and proposals of our native FSL speaker informants. We also expose our methodology, and do present the advancement of our work in the formalization of linguistic data based on the specificities of FSL which certain (verbs scheme, adjective and adverb modification, organization of nouns, agreement patterns) require further analysis.We do present the application framework in which we worked on: the machine translation system and virtual characters animation system of France Telecom R&D.After a short avatar technology presentation, we explain our control modalities of the gesture synthesis engine through the exchange format that we developed.Finally, we conclude with an evaluation, researches and developments perspectives that could follow this thesis.Our approach has produced its first results since we have achieved our goal of running the full translation chain: from the input of a sentence in French to the realization of the corresponding sentence in FSL with a synthetic character

12

Narayan, Shashi. "Generating and simplifying sentences". Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0166/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Selon la représentation d’entrée, cette thèse étudie ces deux types : la génération de texte à partir de représentation de sens et à partir de texte. En la première partie (Génération des phrases), nous étudions comment effectuer la réalisation de surface symbolique à l’aide d’une grammaire robuste et efficace. Cette approche s’appuie sur une grammaire FB-LTAG et prend en entrée des arbres de dépendance peu profondes. La structure d’entrée est utilisée pour filtrer l’espace de recherche initial à l’aide d’un concept de filtrage local par polarité afin de paralléliser les processus. Afin nous proposons deux algorithmes de fouille d’erreur: le premier, un algorithme qui exploite les arbres de dépendance plutôt que des données séquentielles et le second, un algorithme qui structure la sortie de la fouille d’erreur au sein d’un arbre afin de représenter les erreurs de façon plus pertinente. Nous montrons que nos réalisateurs combinés à ces algorithmes de fouille d’erreur améliorent leur couverture significativement. En la seconde partie (Simplification des phrases), nous proposons l’utilisation d’une forme de représentations sémantiques (contre à approches basées la syntaxe ou SMT) afin d’améliorer la tâche de simplification de phrase. Nous utilisons les structures de représentation du discours pour la représentation sémantique profonde. Nous proposons alors deux méthodes de simplification de phrase: une première approche supervisée hybride qui combine une sémantique profonde à de la traduction automatique, et une seconde approche non-supervisée qui s’appuie sur un corpus comparable de Wikipedia
Depending on the input representation, this dissertation investigates issues from two classes: meaning representation (MR) to text and text-to-text generation. In the first class (MR-to-text generation, "Generating Sentences"), we investigate how to make symbolic grammar based surface realisation robust and efficient. We propose an efficient approach to surface realisation using a FB-LTAG and taking as input shallow dependency trees. Our algorithm combines techniques and ideas from the head-driven and lexicalist approaches. In addition, the input structure is used to filter the initial search space using a concept called local polarity filtering; and to parallelise processes. To further improve our robustness, we propose two error mining algorithms: one, an algorithm for mining dependency trees rather than sequential data and two, an algorithm that structures the output of error mining into a tree to represent them in a more meaningful way. We show that our realisers together with these error mining algorithms improves on both efficiency and coverage by a wide margin. In the second class (text-to-text generation, "Simplifying Sentences"), we argue for using deep semantic representations (compared to syntax or SMT based approaches) to improve the sentence simplification task. We use the Discourse Representation Structures for the deep semantic representation of the input. We propose two methods: a supervised approach (with state-of-the-art results) to hybrid simplification using deep semantics and SMT, and an unsupervised approach (with competitive results to the state-of-the-art systems) to simplification using the comparable Wikipedia corpus

13

Narayan, Shashi. "Generating and simplifying sentences". Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0166.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Selon la représentation d’entrée, cette thèse étudie ces deux types : la génération de texte à partir de représentation de sens et à partir de texte. En la première partie (Génération des phrases), nous étudions comment effectuer la réalisation de surface symbolique à l’aide d’une grammaire robuste et efficace. Cette approche s’appuie sur une grammaire FB-LTAG et prend en entrée des arbres de dépendance peu profondes. La structure d’entrée est utilisée pour filtrer l’espace de recherche initial à l’aide d’un concept de filtrage local par polarité afin de paralléliser les processus. Afin nous proposons deux algorithmes de fouille d’erreur: le premier, un algorithme qui exploite les arbres de dépendance plutôt que des données séquentielles et le second, un algorithme qui structure la sortie de la fouille d’erreur au sein d’un arbre afin de représenter les erreurs de façon plus pertinente. Nous montrons que nos réalisateurs combinés à ces algorithmes de fouille d’erreur améliorent leur couverture significativement. En la seconde partie (Simplification des phrases), nous proposons l’utilisation d’une forme de représentations sémantiques (contre à approches basées la syntaxe ou SMT) afin d’améliorer la tâche de simplification de phrase. Nous utilisons les structures de représentation du discours pour la représentation sémantique profonde. Nous proposons alors deux méthodes de simplification de phrase: une première approche supervisée hybride qui combine une sémantique profonde à de la traduction automatique, et une seconde approche non-supervisée qui s’appuie sur un corpus comparable de Wikipedia
Depending on the input representation, this dissertation investigates issues from two classes: meaning representation (MR) to text and text-to-text generation. In the first class (MR-to-text generation, "Generating Sentences"), we investigate how to make symbolic grammar based surface realisation robust and efficient. We propose an efficient approach to surface realisation using a FB-LTAG and taking as input shallow dependency trees. Our algorithm combines techniques and ideas from the head-driven and lexicalist approaches. In addition, the input structure is used to filter the initial search space using a concept called local polarity filtering; and to parallelise processes. To further improve our robustness, we propose two error mining algorithms: one, an algorithm for mining dependency trees rather than sequential data and two, an algorithm that structures the output of error mining into a tree to represent them in a more meaningful way. We show that our realisers together with these error mining algorithms improves on both efficiency and coverage by a wide margin. In the second class (text-to-text generation, "Simplifying Sentences"), we argue for using deep semantic representations (compared to syntax or SMT based approaches) to improve the sentence simplification task. We use the Discourse Representation Structures for the deep semantic representation of the input. We propose two methods: a supervised approach (with state-of-the-art results) to hybrid simplification using deep semantics and SMT, and an unsupervised approach (with competitive results to the state-of-the-art systems) to simplification using the comparable Wikipedia corpus

14

Carroy, Bertrand. "La génération naturelle chez Thomas d’Aquin". Paris 4, 2007. http://www.theses.fr/2006PA040156.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La génération en tant que mouvement ou passage du non-être à l’être dans les corps est un concept fondamental pour qui étudie la nature. La pensée chrétienne fait connaître à ce concept, omniprésent dès les débuts de la philosophie grecque, une double destinée : d’une part il semble éclipsé au profit de la notion de création, d’autre part il est transformé au sein du discours théologique pour dire la relation trinitaire du Père et du Fils. Le but de cette étude est de montrer comment Thomas d’Aquin, grand témoin du XIIIe siècle et acteur de l’accueil de la theoria aristotélicienne dans le discours théologique, comprend et utilise le concept de génération naturelle. Le travail précis de ce lieu philosophique central et de son application en théologie fait apparaître distinctement le projet thomasien d’unir foi et raison. Les moyens utilisés sont le recensement des textes significatifs et l’ordonnancement des grands mouvements de sa pensée sur la génération naturelle : les principes sur lesquels elle repose, ses spécificités et divisions (éléments, corps inanimés, végétaux, animaux), le cas de la génération humaine. Ces mouvements rejoignent certaines des problématiques cruciales du XIIIe siècle, en particulier celles de l’éternité du monde et de la pluralité des formes. Thomas d’Aquin manifeste, par l’emploi très travaillé du corpus d’Aristote pour rendre raison de la nature et de la Révélation qui s’y est manifestée, à la fois un respect absolu pour les Ecritures et une grande audace intellectuelle
The generation of the body is a basic concept for anyone studying nature. Pervasive since the beginning of Greek philosophy, Christian thought introduced it and gave it a double destiny : on the one hand it seems to be overshadowed for the benefit of the Creation’s notion ; on the other hand it is transformed in the theological discourse to express the Trinitarian relation of the Father and the Son. The goal of this study is to show how Thomas Aquinas, great witness and actor of the thirteenth century and actor in Aristotelian theoria’s reception in the theological discourse, understands and uses the concept of natural generation. By the precise study of the central philosophical topic and by its theological application, clearly appears Thomas’ project of unifying faith and reason. Means used in this study are a thorough text inventory and the ordering of the great motions composing his thought on natural generation : its principles, specificity and divisions (elements, inanimate corps, vegetables, animals), human generation’s case. These motions bring together some of the crucial medieval questions, particularly those of the eternity of the world and the plurality of the forms. Thomas Aquinas shows, through a reasoned used of Aristotle’s corpus by giving intelligibility to the nature and Revelation which is manifested through it, both an absolute respect for Holy Scripture and a fine intellectual daring

15

Patoz, Evelyne. "Génération de représentations topologiques à partir de requêtes en langage naturel". Besançon, 2006. http://www.theses.fr/2006BESA1031.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

A partir de l’étude du raisonnement et des compétences visuo-perceptives qu’emploie un être humain pour se situer dans l’espace, nous élaborons un modèle théorique permettant à un système informatique de situer un objet dans l’espace au moyen d’indices linguistiques. A cet effet, l’impact de l’activité langagière est étudié dans son rôle de constructeur de la représentation spatiale, mais aussi d’une autre activité cognitive, relevée comme essentielle : la perception visuelle. La perception visuelle reposant en grande partie sur des informations produites en fonction de l’univers des connaissances de l’observateur, l’interprétation qui en est faite conduit à une représentation mentale. La notion de représentation est alors liée à la réalité d’objets dont l’existence est elle-même dépendante des aptitudes perceptives d’un individu donné. La représentation n’est plus alors examinée comme préalable à la construction d’une configuration donnée, mais relative à la perception environnementale. Nous montrons que la génération dynamique d’une représentation spatiale ne dépend en fait que de quelques paramètres, dont le facteur le plus important est l’identification du point de référence. Nous développons une application logicielle, intégrant un module de dialogue, qui permet à un utilisateur de diriger un robot sur une surface, et à celui-ci de rendre compte de l’état du monde dans lequel il évolue
From the reasoning’ study and the visual perceptions abilities that use a human being for locating in the space, we elaborate an example theoretic allowing a computing system to situate an object in the space by means of linguistics signs. For this fact, the rule of linguistic activity is studying in his constructive rule of the spatial representation, but also to the other cognitive effect, is revealed as essential: the visual perception. The visual perception resting in a huge part on the products informations in function of an observer’ knowledges of the universe, the interpretation can conduct to a mental representation. The notion of representation so is linked up to a reality of objects that existence by itself depends of the perceptive aptitude of a special individual. The representation is no more examined like a construction for a well-done configuration, but relative to an environmental perception. We can show that the dynamic generation for a spatial representation depend of parameters, which the more important factor is the identification of a point of reference. We can develop a logical application, integrating a speech factor, that permit to a user to directing a robot in an area, and thus to give an account to the state of the world how it can evaluate

16

Azeraf, Elie. "Classification avec des modèles probabilistes génératifs et des réseaux de neurones. Applications au traitement des langues naturelles". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. https://theses.hal.science/tel-03880848.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Un nombre important de modèles probabilistes connaissent une grande perte d'intérêt pour la classification avec apprentissage supervisé depuis un certain nombre d'années, tels que le Naive Bayes ou la chaîne de Markov cachée. Ces modèles, qualifiés de génératifs, sont critiqués car leur classificateur induit doit prendre en compte la loi des observations, qui peut s'avérer très complexe à apprendre quand le nombre de features de ces derniers est élevé. C'est notamment le cas en Traitement des Langues Naturelles, où les récents algorithmes convertissent des mots en vecteurs numériques de grande taille pour atteindre de meilleures performances.Au cours de cette thèse, nous montrons que tout modèle génératif peut définir son classificateur sans prendre en compte la loi des observations. Cette proposition remet en question la catégorisation connue des modèles probabilistes et leurs classificateurs induits - en classes générative et discriminante - et ouvre la voie à un grand nombre d'applications possibles. Ainsi, la chaîne de Markov cachée peut être appliquée sans contraintes à la décomposition syntaxique de textes, ou encore le Naive Bayes à l'analyse de sentiments.Nous allons plus loin, puisque cette proposition permet de calculer le classificateur d'un modèle probabiliste génératif avec des réseaux de neurones. Par conséquent, nous « neuralisons » les modèles cités plus haut ainsi qu'un grand nombre de leurs extensions. Les modèles ainsi obtenus permettant d'atteindre des scores pertinents pour diverses tâches de Traitement des Langues Naturelles tout en étant interprétable, nécessitant peu de données d'entraînement, et étant simple à mettre en production
Many probabilistic models have been neglected for classification tasks with supervised learning for several years, as the Naive Bayes or the Hidden Markov Chain. These models, called generative, are criticized because the induced classifier must learn the observations' law. This problem is too complex when the number of observations' features is too large. It is especially the case with Natural Language Processing tasks, as the recent embedding algorithms convert words in large numerical vectors to achieve better scores.This thesis shows that every generative model can define its induced classifier without using the observations' law. This proposition questions the usual categorization of the probabilistic models and classifiers and allows many new applications. Therefore, Hidden Markov Chain can be efficiently applied to Chunking and Naive Bayes to sentiment analysis.We go further, as this proposition allows to define the classifier induced from a generative model with neural network functions. We "neuralize" the models mentioned above and many of their extensions. Models so obtained allow to achieve relevant scores for many Natural Language Processing tasks while being interpretable, able to require little training data, and easy to serve

17

Martineau, Claude. "Compression de textes en langue naturelle". Marne-la-Vallée, 2001. https://hal.archives-ouvertes.fr/tel-02076650.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous étudions dans cette thèse les méthodes de compression de données dans le cadre de leur utilisation pour le traitement de textes en langue naturelle. Nous nous intéressons particulièrement aux algorithmes utilisant les mots comme unité de base. Nous avons développé des algorithmes qui permettent de diviser la taille originale du texte par un coefficient de l'ordre de 3,5 en conservant l'accès direct (via un index) au texte sous forme comprimée. L'ensemble des mots qui composent un texte (le lexique) n'est pas, (a priori) connu. Compresser efficacement un texte nécessite donc de compresser également le lexique des mots qui le constitue. Dans ce but, nous avons mis au point une méthode de représentation des lexiques qui permet, en lui appliquant une compression à base de chaînes de Markov, d'obtenir des taux de compression très importants. Les premiers algorithmes dédiés à la compression de textes en langue naturelle ont été élaborés dans le but d'archiver de volumineuses bases de données textuelles, pouvant atteindre plusieurs dizaines de gigaoctets, pour lesquelles la taille du lexique est très inférieure à celle des données. Nos algorithmes peuvent s'appliquer aussi aux textes de taille usuelle (variant d'une cinquantaine de Ko à quelques Mo) pour lesquels la taille du lexique représente une part importante de celle du texte
In this Ph. D. Thesis we investigate several data compression methods on text in natural language. Our study is focused on algorithms that use the word as the basic units, they are usally called word-based text compression algorithms. We have developped algorithms that allow to divide original size of the text by an average factor of 3. 5 and keeps (medium an index) direct access to the compressed form of the text. The set of words of a text, (the lexicon) is not a priori known. An efficient compression of the text requires an efficient compression of its lexicon. For this purpose, we have developped a compact representation of the lexicon that allows, by the application of Markov chain based compression algorithms, to get very high compression rates. The early algorithms dedicated to compress text in natural language have been elaborated to process very large text databases in which the size of the lexicon is very small versus the data one. Our algorithms can be apply also to every day text size (from some fifty Ko up to some Mo) for which the size of the lexicon is an important part of the size of the text

18

Moriceau, Véronique. "Intégration de données dans un système question-réponse sur le Web". Toulouse 3, 2007. http://www.theses.fr/2007TOU30019.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous nous plaçons dans le cadre des systèmes question-réponse sur le Web. Nos objectifs sont de modéliser, concevoir et évaluer un système capable, à partir d'une question en langue, de rechercher les réponses pertinentes sur le Web et de générer une réponse synthétique, même quand le moteur de recherche sélectionne plusieurs réponses potentielles. Nous nous sommes intéressés aux questions temporelles et numériques. Notre système a pour but : - l'intégration d'informations provenant des réponses potentielles à une question en utilisant une base de connaissances et des connaissances extraites des pages Web. Ce composant permet de détecter les incohérences de données et de prendre en compte les attentes de l'utilisateur pour produire une réponse appropriée, - la production en langue de réponses synthétiques et pertinentes vis-à-vis de l'utilisateur. En effet, il faut produire des réponses courtes, intelligibles et qui expriment le savoir-faire coopératif mis en oeuvre pour résoudre les incohérences de données. Nous proposons également des méthodes d'évaluation adéquates pour évaluer le système d'un point de vue technique et d'un point de vue cognitif
In the framework of question-answering systems on the Web, our main goals are to model, develop and evaluate a system which can, from a question in natural language, search for relevant answers on the Web and generate a synthetic answer, even if the search engine selected several candidate answers. We focused on temporal and numerical questions. Our system deals with : - the integration of data from candidate answers by using a knowledge base and knowledge extracted from the Web. This component allows the detection of data inconsistencies and deals with user expectations in order to produce a relevant answer, - the generation of synthetic answers in natural language which are relevant w. R. T users. Indeed, generated answers have to be short, understandable and have to express the cooperative know-how which has been used to solve data inconsistencies. We also propose evaluation methods to evaluate our system from a technical and cognitive point of view

19

Petitjean, Simon. "Génération modulaire de grammaires formelles". Thesis, Orléans, 2014. http://www.theses.fr/2014ORLE2048/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans cette thèse visent à faciliter le développement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes très diverses, en raison de l’existence de différents niveaux d’étude de la langue (syntaxe, morphologie, sémantique,. . . ) et de différents formalismes proposés pour la description des langues à chacun de ces niveaux. Les formalismes faisant intervenir différents types de structures, un unique langage de description n’est pas suffisant : il est nécessaire pour chaque formalisme de créer un langage dédié (ou DSL), et d’implémenter un nouvel outil utilisant ce langage, ce qui est une tâche longue et complexe. Pour cette raison, nous proposons dans cette thèse une méthode pour assembler modulairement, et adapter, des cadres de développement spécifiques à des tâches de génération de ressources langagières. Les cadres de développement créés sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), à savoir disposer d’un langage de description permettant la définition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-déterministe (c’est à dire au moyen des opérateurs logiques de conjonction et disjonction). La méthode se base sur l’assemblage d’un langage de description à partir de briques réutilisables, et d’après un fichier unique de spécification. L’intégralité de la chaîne de traitement pour le DSL ainsi défini est assemblée automatiquement d’après cette même spécification. Nous avons dans un premier temps validé cette approche en recréant l’outil XMG à partir de briques élémentaires. Des collaborations avec des linguistes nous ont également amené à assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sémantique (au moyen de la théorie des frames)
The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics

20

Belec, Yves. "Des règles expertes pour une méthode applicative d'analyse ou de génération du langage naturel". Toulouse 3, 1990. http://www.theses.fr/1990TOU30136.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous presentons une methode d'analyse et de generation de phrases dans un contexte restreint de communication avec un robot mobile. L'analyse (et la generation) s'articule autour d'un ensemble de regles (et sa dual) permettant la production d'une arborescence de dependances. En analyse on traite des couples qualifiant-qualite en retirant de la phrase le qualifiant; on est ainsi ramene a une phrase atomique. La generation, inversement, procede par rajout de qualifiant les aspects morphologiques, syntaxiques et semantiques sont traites de facon deterministe a chaque application d'une regle. Les eventuelles erreurs ainsi produites sont resolues par des techniques appropriees de recuperation. Nous traitons de facon identique les syntagmes adjectivaux, nominaux et verbaux en elargissant la notion de structure casuelle a tous ces niveaux. Parallelement nous tentons de prendre en compte le caractere approximatif du sens des mots en reference et en designation. L'analyse et la generation font usage d'un reseau semantique avec mecanisme d'exception. Enfin nous avons developpe le logiciel en y integrant une simulation d'un univers robotique presentant sur ecran le robot, son environnement, et le dialogue, de facon a tester notre interface de traduction. Une application a la voiture du future dans le cadre du projet prometheus est a l'etude

21

Froissart, Christel. "Robustesse des interfaces homme-machine en langue naturelle". Grenoble 2, 1992. http://www.theses.fr/1992GRE29053.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous montrons a travers l'analyse des recherches menees autour du traitement des erreurs, l'ampleur de la problematique de la robustesse pour les systemes d'interface homme-machine en langue naturelle. Nous definissons alors l'ecart comme tout enonce qui n'est pas conforme a la norme academique du "bon usage" et ou aux attentes du systeme, a tous les niveaux de l'analyse. Nous exposons ensuite la double contrainte qui pese sur un systeme robuste, qui doit a la fois prevenir. Le plus tot possible, les ecarts - donc relacher les contraintes d'analyse en emettant des soupcons sur les donnees - et en meme temps controler l'explosion combinatoire. Nous proposons une strategie qui est fondee sur des connaissances utilisees a titre predictif, pour orientier le soupcon vers l'ecart plausible, et pour orienter son traitement vers l'hypothese la plus vraisemblable. Ces connaissances sont issues : -des informations que le fonctionnement meme de l'analyseur peut delivrer grace a une architecture multi-agents; - d'informations externes (linguistiques, cognitives, ergonomiques) organisees en cinq modeles que nous avons construits a partir de corpus de dialogue homme-machine : le modele technologique, le modele du domaine et de l'application, le modele de la langue (et de ses pieges), le modele du dialogue et les modeles des utilisateurs. Cette analyse permet de serier des differents parametres qui interviennent au sein de ce qu'on appelle generalement la modelisation de l'utilisateur. Nous exposons successivement chacun de ces modeles et illustrons la strategie d'analyse robuste que nous proposons par un certain nombre d'e
Once having demonstrated that robustness is currently a crucial problem for systems based on a natural language man-machine interface, we will evidence the extent of the problem through the analysis of researd carried out in error processing. We can thus define a deviation as any elements which violates academic use of the language and or system's expectations at every of analysis. Then, we show that a robust strategy must solve the double bind between tolerance (release of contraints) and the selection of the most plausible solution (constriction). We offer to identify deviations (either real or potential) which are not detected by the natural language understanding system by questioning the validity of the user's input as early as possible. We suggest a strategy based on additional knowledge that must be modelized in order to put in place predictive mechanisms that controll the robust processing, so as to direct suspicion towards the plausible deviation and to direct its processing towards the most likely hypothesis. This body of knowledge is derived from: - data which can be provided by the very operation of the parser thanks to a multi-agent structure; - external data (linguistic, cognitive, ergonomic) structured in five models constructed from the corpus of manmachine dialogue : the technological model, the field and application model, the language model (and its pitfalls), the dialogue model & the user's model. This

22

Thévenon, Patrick. "Vers un assistant à la preuve en langue naturelle". Chambéry, 2006. http://www.theses.fr/2006CHAMS036.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette Thèse est la conclusion de trois ans de travail sur un projet nommé DemoNat. Le but de ce projet est la conception d'un système d'analyse et de vérification de démonstrations mathématiques écrites en langue naturelle. L'architecture générale du système se décrit en 4 phases : 1. Analyse de la démonstration par des outils linguistiques ; 2. Traduction de la démonstration dans un langage restreint ; 3. Interprétation du texte traduit en un arbre de règles de déduction ; 4. Validation des règles de déduction à l'aide d'un démonstrateur automatique. Ce projet a mobilisé des équipes de linguistes et de logiciens, les deux premières phases étant la tâche des linguistes, et les deux dernières étant la tâche des logiciens. Cette thèse présente plus en détail ce projet et développe principalement les points suivants : - définition du langage restreint et de son interprétation ; - propriétés du type principal de termes d'un λ -calcul typé avec deux flèches entrant dans le cadre d'un outil linguistique, les ACGs ; - description du démonstrateur automatique
This Thesis is the conclusion of three years of work in a project named DemoNat. The aim of this project is to design a system able to analyse and validate mathematical proofs written in a natural language. The general scheme of the system is the following : 1. Analysis of the proof by means of linguistics tools ; 2. Translation of the proof in a restricted language ; 3. Interpretation of the translated text in a deduction rules tree ; 4. Validation of the deduction rules with an automatic prover. This project envolved teams of linguists and logicians, the first two phases being the task of the linguists, and the lasts ones being the task of the logicians. This thesis presents in more details the project and develops mainly the following points: - Definition of the restricted language and its interpretation ; - proprerties of the principal type of terms of a typed λ-calculus with two arrows, part of a linguistic tool, the ACGs ; - Description of the automatic prover

23

Membrado, Miguel. "Génération d'un système conceptuel écrit en langage de type semi-naturel en vue d'un traitment des données textuelles : application au langage médical". Paris 11, 1989. http://www.theses.fr/1989PA112004.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cet ouvrage présente l'étude et la réalisation d'un système de traitement de données à visée générale (DOXIS), pouvant manipuler sous une même forme des données structurées, des données textuelles ou des connaissances. Le domaine de recherche concerné est l'intelligence artificielle, cadre au sein duquel est proposée une représentation des connaissances originale, permettant de créer des dictionnaires contenant des définitions conceptuelles rédigées dans un langage de type semi-naturel, formant la base de connaissances du système. L'objectif appliqué est en particulier de pouvoir mettre en œuvre un système documentaire "intelligent". La puissance du langage de déclaration permet de traiter une partie des ambiguïtés du langage, plus particulièrement les polysémies contextuelles, d'aborder les métonymies, de résoudre un certain nombre de types de paraphrases, de déclarer les connaissances au sein de polyhiérarchies, ellesmêmes divisées en environnements sémantiques, ainsi que de gérer les connaissances incomplètes. L'analyse et la recherche de documents se déroule en deux phases distinctes l'extraction conceptuelle, et la comparaison structurelle. La première étape fait l'objet de cette thèse, et sert à retrouver un ensemble pertinent de textes par rapport à une question, permettant ensuite de lancer la seconde étape. Celle-ci ne sera elle-même abordée que dans ses grandes lignes. Le but final des travaux est de retrouver la connaissance non pas au niveau du dictionnaire, mais au niveau des textes eux-mêmes
We present our research and our own realization on a KBMS (Knowledge Based Management System) aiming at processing any kind of data, especially textual data, and the related knowledge. In this field of applied Artificial Intelligence, we propose a way for representing knowledge : to describe it in a semi-natural language able as well to describe structures or relations as rules. Knowledge is managed as conceptual definitions figuring in a dictionary which represents the knowledge base. The power of this language allows to process a lot of ambiguities, especially those coming from contextual polysemia, to deal with metonymia or incomplete knowledge, and to solve several kinds of paraphrases. Simultaneous polyhierarchies as well as chunks are taken into account. The system has been specially studied for automatic processing of medical reports. An application to neuro radiology has been taken as example. But it could be applied as well to any other field, included outside Medecine to any professional field. Text analysis is realized in two steps : first a conceptual extraction, secondly a structural analysis. The first step only is taken into account in this thesis. It aims at retrieving pertinent documents, matching them to the given question by comparison between concepts, not between character strings. An overview of the second step will be presented. The final goal is to be able to retrieve the knowledge contained into the texts, i. E. The data themselves, and to manage it in respect to the knowledge represented into the dictionaries

24

Lemeunier, Thierry. "L'intentionnalité communicative dans le dialogue homme-machine en langue naturelle". Phd thesis, Université du Maine, 2000. http://tel.archives-ouvertes.fr/tel-00003771.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Notre travail de thèse porte sur la modélisation des intentions de communications des systèmes de dialogue homme-machine en langue naturelle et de manière générale de tout agent logiciel. Il s'agit de proposer un modèle de fonctionnement permettant à la machine d'avoir ses propres intentions de communiquer avec l'utilisateur humain, de telle sorte que la pertinence optimale de ses énonciations soit garantie.

Notre modèle s'appuie sur l'idée que le sens échangé entre les interactants d'une conversation n'est pas un sens pré-existant à celle-ci, mais au contraire, un sens négocié et co-construit par les interactants durant la conversation. Cette co-construction s'appuie sur l'hypothèse de l'existence d'un terrain commun, c'est-à-dire d'un ensemble de connaissances, hypothèses et croyances que le locuteur pense être partagées.

Notre travail a consisté à définir une mémoire interactionnelle pour la machine permettant le travail de négociation du sens. Cette mémoire contient des éléments de différents états organisés en arborescences. Ces éléments proviennent de l'interprétation des actes illocutoires de l'utilisateur et des résultats des raisonnements faits par les différentes activités du système de dialogue. Nous distinguons l'activité applicative dont le but est de fournir un service quelconque à l'utilisateur, l'activité langagière qui consiste à analyser les énoncés de l'utilisateur et générer les énoncés du système, et enfin l'activité dialogique qui consiste à dialoguer avec l'utilisateur. Les intentions de communications de la machine sont générées par la reconnaissance de configurations remarquables que nous avons définies en étudiant les arborescences qu'il est normalement possible d'obtenir. Ce principe de génération, à l'origine des actes langagiers de la machine, est général et indépendant de l'application. Il s'appuie uniquement sur la forme structurelle des éléments mnésiques (appelé UMM pour Unité Minimale de Mémoire) et sur le statut de ces derniers.

25

Derouault, Anne-Marie. "Modélisation d'une langue naturelle pour la désambiguation des chaînes phonétiques". Paris 7, 1985. http://www.theses.fr/1985PA077028.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Etude des problèmes de décodage linguistique à partir d'une entrée phonétique de bonne qualité. Elaboration de modèles généraux. Description des principes de la sténotypie. Etude du dictionnaires stenotypie français sur lequel s'appuie la transcription.

26

Striegnitz, Kristina. "Génération d'expressions anaphoriques : Raisonnement contextuel et planification de phrases". Nancy 1, 2004. http://www.theses.fr/2004NAN10186.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse porte sur le raisonnement contextuel impliqué par la production d'expressions anaphoriques dans un système de génération de langue naturelle. Plus précisément, nous proposons des stratégies pour générer deux types d'anaphore n'ayant encore jamais été considérés dans la génération : les anaphores associatives et les adverbes additifs. Dans ce but, nous formalisons tout d'abord les conditions contextuelles déterminant l'usage de ces expressions. Cette formalisation est basée sur des notions linguistiques, et étend les approches antérieures de génération d'anaphores co-référentielles. Ensuite, nous spécifions les tâches de raisonnement à effectuer pour vérifier ces conditions contextuelles. Nous décrivons comment ces tâches peuvent être implémentées en utilisant un système d'inférence pour les logiques de description, et nous comparons notre approche à des approches alternatives utilisant d'autres systèmes d'inférence. Pour finir, nous décrivons une implémentation expérimentale de notre approche
This thesis investigates the contextual reasoning involved in the production of anaphoric expressions in natural language generation systems. More specifically, I propose generation strategies for two types of discourse anaphora which have not been treated in generation before: bridging descriptions and additive particles. To this end the contextual conditions that govern the use of these expressions have to be formalized. The formalization that I propose is based on notions from linguistics and extends previous approaches to the generation of co-referential anaphora. I then specify the reasoning tasks that have to be carried out in order to check the contextual conditions. I describe how they can be implemented using a state-of-the-art reasoning system for description logics, and I compare my proposal to alternative approaches using other kinds of reasoning tools. Finally, I describe an experimental implementation of the proposed approach

27

Pho, Van-Minh. "Génération automatique de questionnaires à choix multiples pédagogiques : évaluation de l'homogénéité des options". Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112192/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ces dernières années ont connu un renouveau des Environnements Informatiques pour l'Apprentissage Humain. Afin que ces environnements soient largement utilisés par les enseignants et les apprenants, ils doivent fournir des moyens pour assister les enseignants dans leur tâche de génération d'exercices. Parmi ces exercices, les Questionnaires à Choix Multiples (QCM) sont très présents. Cependant, la rédaction d'items à choix multiples évaluant correctement le niveau d'apprentissage des apprenants est une tâche complexe. Des consignes ont été développées pour rédiger manuellement des items, mais une évaluation automatique de la qualité des items constituerait un outil pratique pour les enseignants.Nous nous sommes intéressés à l'évaluation automatique de la qualité des distracteurs (mauvais choix de réponse). Pour cela, nous avons étudié les caractéristiques des distracteurs pertinents à partir de consignes de rédaction de QCM. Cette étude nous a conduits à considérer que l'homogénéité des distracteurs et de la réponse est un critère important pour valider les distracteurs. L'homogénéité est d'ordre syntaxique et sémantique. Nous avons validé la définition de l'homogénéité par une analyse de corpus de QCM, et nous avons proposé des méthodes de reconnaissance automatique de l'homogénéité syntaxique et sémantique à partir de cette analyse.Nous nous sommes ensuite focalisé sur l'homogénéité sémantique des distracteurs. Pour l'estimer automatiquement, nous avons proposé un modèle d'ordonnancement par apprentissage, combinant différentes mesures d'homogénéité sémantique. L'évaluation du modèle a montré que notre méthode est plus efficace que les travaux existants pour estimer l'homogénéité sémantique des distracteurs
Recent years have seen a revival of Intelligent Tutoring Systems. In order to make these systems widely usable by teachers and learners, they have to provide means to assist teachers in their task of exercise generation. Among these exercises, multiple-choice tests are very common. However, writing Multiple-Choice Questions (MCQ) that correctly assess a learner's level is a complex task. Guidelines were developed to manually write MCQs, but an automatic evaluation of MCQ quality would be a useful tool for teachers.We are interested in automatic evaluation of distractor (wrong answer choice) quality. To do this, we studied characteristics of relevant distractors from multiple-choice test writing guidelines. This study led us to assume that homogeneity between distractors and answer is an important criterion to validate distractors. Homogeneity is both syntactic and semantic. We validated the definition of homogeneity by a MCQ corpus analysis, and we proposed methods for automatic recognition of syntactic and semantic homogeneity based on this analysis.Then, we focused our work on distractor semantic homogeneity. To automatically estimate it, we proposed a ranking model by machine learning, combining different semantic homogeneity measures. The evaluation of the model showed that our method is more efficient than existing work to estimate distractor semantic homogeneity

28

Cheminot, Eric. "Formalisation de spécifications de logiciels : traitement d'annotations en langue naturelle contrôlée". Grenoble INPG, 1999. http://www.theses.fr/1999INPG0171.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Lors de la specification d'un logiciel, plusieurs documents servant a la communication entre les clients et les informaticiens sont produits. Le support courant de la communication entre les informaticiens et les clients est la langue naturelle. Malheureusement, l'utilisation de la langue naturelle presente des inconvenients dus principalement a son ambiguite. Une des premieres activites du developpement d'un logiciel est donc de transformer les specifications informelles (en langue naturelle) en specifications formelles, reposant sur des langages formels dont la syntaxe et la semantique sont clairement definies. Plusieurs travaux de recherches portent sur la traduction des specifications en langue naturelle vers des specifications formelles. Les approches principales reposent sur l'utilisation d'ateliers interactifs pour aider a cette traduction, sur la paraphrase en langue naturelle des specifications formelles pour valider la traduction, et sur l'utilisation d'une langue controlee pour la redaction des documents en langue naturelle. Notre approche consiste a realiser la formalisation des specifications de logiciels en deux temps : - reecriture de la specification en langue naturelle en une specification semi-formelle qui se presente sous la forme de diagrammes augmentes d'annotations en langue controlee, - traduction de la specification semi-formelle ainsi obtenue en une specification formelle. Le travail presente dans cette these porte plus particulierement sur la definition d'une langue controlee pour l'annotations de diagrammes et la realisation d'une maquette d'un systeme permettant la traduction des diagrammes annotes vers un langage de specification.

29

El, Kassas Dina. "Une étude contrastive de l'arabe et du français dans une perspective de génération multilingue". Paris 7, 2005. http://www.theses.fr/2005PA070034.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La thèse s'inscrit dans le cadre d'une grammaire de dépendance : la théorie Sens-Texte. Elle mène un double objectif. Premièrement, c'est une étude de la syntaxe du verbe arabe. Nous défendons l'idée que la tête syntaxique de la phrase déclarative arabe est un verbe. La valence active du verbe arabe est étudiée dans l'objectif d'élaborer une bibliothèque des fonctions syntaxiques. Nous identifions des complexes prédicatifs typiques, dont la grammaticalisation dépasse la jonction inter-propositionnnelle et considérons des formes analytiques du verbe. Nous proposons aussi un modèle topologique de gestion de la linéarisation des structures syntaxique. Deuxièmement, c'est une étude contrastive entre des structures syntaxique arabes et leurs équivalents français, l'objectif étant de résoudre leurs divergences à un niveau abstrait. Nous montrons que les choix lexicaux et la logique interne de la langue influencent la représentation de l'information, mettant en cause les approches multilingues basées sur l'existence d'une langue pivot
The present PhD research was conducted in a dependancy grammar framework : the Meaning-Text theory. Its objective is twofold. First of all, it is meant to accomplish a syntactic analysis of Arabie. The theory we put forward is that the syntactic head of declarative sentences in Arabis is systematically the verb. The active valency of the verb in Arabie is studied in order to establish a library of syntactic functions for Arabie. We start by identifying typical predicative units, the gramamticalization of which surpasses the simple juxtaposition of propositions, and consider the analytical verb forms as well. We then propose a topological model dealing with the liearisation of dependency syntactical structures. Secondly, a contrastive study of syntactic structures in Arabie and their French equivalents in undertaken, with a view to making them converge on a more abstract level. We point out the extent to which lexical choices and the underlying logics of the language influence the information représentation, which makes multilingual approaches based on pivot language seem utopie

30

LAVAUD, MARIE-PIERRE. "Pragmatique, logique naturelle et argumentation : le connecteur or et ses équivalents en espagnol". Dijon, 1994. http://www.theses.fr/1994DIJOL002.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail s'intéresse au connecteur français or et à ses équivalents espagnols (pero, ahora bien, pues bien, sin embargo, no obstante, y eso que, es asi que) dans une perspective non seulement pragmatique, mais aussi logique, tout en conciliant "nouvelle linguistique" et traduction (données des dictionnaires et des grammaires). Pour ce qui est de la pragmatique, le fil directeur méthodologique est constitué par les travaux de o. Ducrot et les apports des théories conversationnelles de l'école de Genève. Cette étude s'appuie aussi sur les travaux de J-B Grize, mathématicien et logicien afin de mettre en regard la logique formelle (mathématique) et une certaine logique naturelle présente dans le discours. Ce travail se compose de trois parties : une présentation de l'appareil théorique, puis l'étude du connecteur or. L'étude des équivalents espagnols fait l'objet de la troisième partie et le bilan est fait en conclusion. Peut-on parvenir à une description unique du connecteur or? Quels sont les équivalents que propose l'espagnol? Jusqu'où va la relation d'équivalence? Autrement dit, l'espagnol passe-t-il par les mêmes opérations de pensée que le français? Telles sont les questions auxquelles ce travail essaie de répondre
This study deals with the French connecting word "or" and its Spanish equivalents (pero, ahora bien, puies bien, sin embargo, no obstante, y eso que, es asi que), in a perspective which combines pragmatical and logical aspects of the question, and which aims at conciliating "new linguistics" and tradition (data from dictionaries and grammar books). As far as pragmatics is concerned our leading methodology is drawn from o. Ducrot's works and the conversational theories as defined by the Geneva school. This study also relies on the mathematician and logician J-B Grize's works, in order to compare formal (mathematical) logic and a certain natural logic which is present in speech. This study consists in three parts: first an introduction to the theoretical apparatus, and then the study of the French connecting word "or". The study of its Spanish equivalents constitutes the third part, and as a conclusion a balance is proposed. Is it possible to give a single description of the French connecting word "or"? Which are the equivalents for it in the Spanish language? How far does the equivalence relationship go? In other words, does the Spanish language follow the same steps in thinking process as the French on does? All these are the questions the present study tries to answer

31

Boutouhami, Sara. "Un système de générations de descriptions argumentées". Paris 13, 2010. http://www.theses.fr/2010PA132014.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans la présente thèse, nous nous intéressons à l’expression d’argumentations en Langue Naturelle (LN). Notre travail a deux motivations : une motivation théorique qui consiste à comprendre et simuler le raisonnement de bon sens sous-jacent au processus argumentatif et à clarifier l’intuition qui permet de distinguer entre une bonne et une mauvaise argumentation ; et une motivation pratique : contribuer, à terme, à une assistance à la rédaction de descriptions textuelles "bien" argumentées. L’objectif de cette thèse est la réalisation d’un système qui permet de générer une description argumentée qui soit la plus favorable possible pour l’un des protagonistes de l’accident. Dans ce travail, nous faisons coopérer dans une même architecture divers moyens relevant aussi bien du volet raisonnement que du volet langage. L’idée étant de tirer profit des avancées de l’Intelligence Artificielle en termes de formalisation de raisonnement pour reproduire une forme fondamentale de l'argumentation, utilisée par les humains au quotidien et qui puise une grande partie de sa force dans le caractère flexible et subjectif de la LN. Pour la représentation des connaissances et le raisonnement, nous avons défini un langage de premier ordre réifié qui tient compte de certaines modalités utiles, de l’information temporelle et d’inférences non-monotones exprimées à l’aide d’un fragment de la logique des défauts de Reiter. Pour la mise en œuvre, nous avons utilisé le paradigme Answer Set Programming en traduisant nos règles d’inférence en un programme logique étendu exprimé dans le langage Smodels. Enfin, afin de valider la qualité des descriptions générées par notre système, nous avons fait appel à une expérience psychologique avec l’aide de spécialistes en Psychologie cognitive. Les résultats de cette expérience sont encourageants et ont globalement confirmé la pertinence des stratégies argumentatives que nous avons simulées
In this thesis, we investigate the expression of arguments in natural language (NL). Our work has two motivations: theoretical motivation is to understand and simulate the sense of reasoning underlies the argumentative process and clarify the intuition that distinguishes between good and bad arguments, and a practical motivation: helping eventually, assistance in writing text descriptions "good" reasoned. The objective of this thesis is the realization of a system that can generate a description that is argued better for one of the protagonists of the accident. In this work, we cooperate in various ways within the same architecture as well as the reasoning component language. The idea is to take advantage of advanced artificial intelligence in terms of formalization of reasoning to reproduce a basic form of argument used by people everyday and who draws much of its force in the flexible and subjectivity of the LN. For knowledge representation and reasoning, we defined a language of first order reified which takes into account some useful terms, the temporal information and non-monotonic inferences expressed using a fragment of logic Reiter defects. For implementation, we used the paradigm Answer Set Programming by translating our rules of inference in extended logic programs expressed in the languages models. Finally, to validate the quality of the descriptions generated by our system, we used a psychological experience with the help of specialists in cognitive psychology. The results of this experiment are encouraging and have confirmed the overall relevance of the argumentative strategies that we simulated

32

Hankach, Pierre. "Génération automatique de textes par satisfaction de contraintes". Paris 7, 2009. http://www.theses.fr/2009PA070027.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous nous intéressons dans cette thèse à la construction d'un système de génération automatique - un logiciel informatique capable de transformer une représentation formelle de l'information en un texte en langage naturel. Dans notre approche, nous définissons la génération comme un problème de satisfaction de contraintes (CSP). Le système résultant garantit un traitement intégré des opérations de la génération car les différentes dépendances sont prises en compte et aucune priorité n'est donnée à un type d'opération par rapport aux autres. Pour définir le problème de satisfaction de contraintes, nous représentons les opérations de construction du texte par des variables de décision. Les opérations individuelles qui réalisent un même type d'expressions minimales dans le texte sont groupées ensemble et constituent une tâche de la génération. Nous classons les variables de décision selon les types d'opérations qu'elles représentent (e. G. Variables de sélection du contenu, variables de structuration du document. . . ). Les règles linguistiques régissant les opérations sont représentées par des contraintes sur les variables. Une contrainte peut être définie sur des variables d'un ou plusieurs type(s), marquant la dépendance entre les opérations correspondantes. La production d'un texte consiste en la résolution du système global des contraintes, c'est-à-dire trouver une affectation complète des variables qui ne viole pas les contraintes. Dans le cadre de la définition de la grammaire de contraintes, nous formulons notamment la partie qui régit les opérations de structuration du document. Nous modélispns par des contraintes la structure rhétorique développée par la SORT afin d'aboutir à des textes cohérents à la sortie du générateur. Auparavant, afin d'augmenter les capacités de génération de notre système, nous étendons cette structure rhétorique pour couvrir les textes non canoniques. En plus de la définition de ces contraintes pour la cohérence, nous formulons un ensemble de contraintes qui permettent de façonner la macrostructure en fonction des buts communicatifs afin de favoriser leur réalisation. Enfin, nous proposons une solution au problème de la complexité de calcul de la génération de textes de grande taille. Cette solution repose sur la génération de ces textes par paquet de propositions. Le problème de génération du texte global est ainsi défini comme plusieurs problèmes de génération de parties du texte. Ces parties sont de taille limitée et la complexité associée à leur génération reste raisonnable. Le partitionnement proposé est motivé par des considérations linguistiques
We address in this thesis the construction of a natural language generation System - computer software that transforms a formal representation of information into a text in natural language. In our approach, we define the generation problem as a constraint satisfaction problem (CSP). The implemented System ensures an integrated processing of generation operations as their different dependencies are taken into account and no priority is given to any type of operation over the others. In order to define the constraint satisfaction problem, we represent the construction operations of a text by decision variables. Individual operations that implement the same type of minimal expressions in the text form a generation task. We classify decision variables according to the type of operations they represent (e. G. Content selection variables, document structuring variables. . . ). The linguistic rules that govern the operations are represented as constraints on the variables. A constraint can be defined over variables of the same type or different types, capturing the dependency between the corresponding operations. The production of a text consists of resolving the global System of constraints, that is finding an evaluation of the variables that satisfies all the constraints. As part of the grammar of constraints for generation, we particularly formulate the constraints that govern document structuring operations. We model by constraints the rhetorical structure of SORT in order to yield coherent texts as the generator's output. Beforehand, in order to increase the generation capacities of our System, we extend the rhetorical structure to cover texts in the non-canonical order. Furthermore, in addition to defining these coherence constraints, we formulate a set of constraints that enables controlling the form of the macrostructure by communicative goals. Finally, we propose a solution to the problem of computational complexity of generating large texts. This solution is based on the generation of a text by groups of clauses. The problem of generating a text is therefore divided into many problems of reduced complexity, where each of them is concerned with generating a part of the text. These parts are of limited size so the associated complexity to their generation remains reasonable. The proposed partitioning of generation is motivated by linguistic considerations

33

Hue, Jean-François. "L'analyse contextuelle des textes en langue naturelle : les systèmes de réécritures typées". Nantes, 1995. http://www.theses.fr/1995NANT2034.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous soutenons que le traitement automatique de la langue naturelle peut être réalisé, notamment dans une approche contextuelle, par une analyse syntaxico-sémantique en plusieurs passes, non linéaire, non ascendante, ni descendante, et non totale. Nous proposons dans ce but un modèle pour les grammaires, les systèmes de réécritures typées. Des logiciels d'application qui illustrent cette démarche et le concept de systèmes de réécritures typées sont exposés

34

Tromeur, Laurent. "Mise en place d'une interface en langue naturelle pour la plateforme Ontomantics". Paris 13, 2011. http://scbd-sto.univ-paris13.fr/secure/ederasme_th_2011_tromeur.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le travail exposé dans ce document concerne la mise en place d'une interface en langue naturelle pour la plateforme Ontomantics. Il est le fruit de la collaboration entre le laboratoire Lexiques, Dictionnaires, Informatique (LDI) de l'université Paris 13, et la société de services en ingénierie informatique Ontomantics située à Orléans. L'entreprise Ontomantics propose à ses clients une plateforme de développement et de réalisation d'applications accessible à des personnes n'ayant pas le profil de développeur informatique. L'environnement Ontomantics réduit le fossé entre le développement d'application complexe et l'utilisateur lambda. Cependant, si la maîtrise de l'outil nécessite beaucoup moins de compétences que n'en nécessite celle d'un langage de programmation, elle reste encore adressée à des utilisateurs ayant de solides bases en informatique et étant à l'aise avec la logique mathématique que nécessite le développement d'une application. La collaboration avec le laboratoire LDI est née de la volonté de réduire encore l'écart entre utilisateur et développement d'application. L'idée générale du projet est d'ajouter une couche linguistique à la plateforme Ontomantics afin de faciliter la saisie des informations fournies par l'utilisateur. Cette problématique fait appel à des notions qui appartiennent au domaine de l'ingénierie linguistique et plus précisément, à celui du Traitement Automatique des Langues (TAL).

35

Delumeau, Fabrice. "Une description linguistique du créole guadeloupéen dans la perspective de la génération automatique d'énoncés". Paris 10, 2006. http://www.theses.fr/2006PA100003.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le but de cette thèse est de proposer une description du créole guadeloupéen dans la perspective de la génération automatique d'énoncés en créole, à partir du français contemporain. En ce qui concerne les domaines phonologique et morphophonologique, les régularités observées se traduisent par des règles (qui rendent compte de ce qu'il convient de nommer la " créolisation synchronique "). En ce qui concerne le domaine syntaxique, l'accent est mis sur les différences entre le français et le créole, et une description formalisée des principales constructions du créole guadeloupéen est présentée
The aim of this PhD thesis is to put forward a description of the Creole of Guadeloupe in the perspective of the automatic generation of uterrances in Creole, using contemporary French as an input. In phonology and morpho-phonology, the permanent features one observes point out to rules accounting for what is called "synchronie Creolisation". As regards the syntactic domain, the emphasis is laid on the differences between French and Creole, and a formalised description of the main structures of Guadeloupe Creole is presented

36

Aslanides, Sophie. "Syntaxe et structure d'un texte : les connecteurs du français dans un système de génération automatique". Paris 7, 1995. http://www.theses.fr/1995PA070081.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette these propose une etude linguistique des connecteurs du francais dans le but de construire les bases de donnees linguistiques fournies a un systeme de generation automatique de textes. Partant de l'hypothese que les connecteurs peuvent etre consideres comme des "predicats textuels", nous avons cherche a decrire leurs cadres de souscategorisation. Ces contextes sont appeles "structures de discours" (sd), et sont les unites elementaires sur lesquelles opere le choix lexical dans le systeme de generation. Elles sont organisees dans une hierarchie dominee par des relations conceptuelles et representant les relations d'inclusion, partielle, totale ou nulle, entre les differentes classes de sd construites aotour de chaque connecteur. Cette representation de l'interface entre le conceptuel et le linguistique ne suffit cependant pas a garantir la non-ambiguite des discours produits, et une etude complementaire de la polysemie (de alors que, par exemple) et de la neutralite (de et) permet de faire apparaitre certaines proprietes syntaxiques discriminantes entre divers effets de sens d'un meme connecteur. Un dernier type d'ambiguite est etudie : celui qui apparait dans des discours p11 c1 p12 c2 p2, ou les phenomenes de portee multiplient les lectures possibles. Cette multiplicite depend de facteurs aussi divers que les relations exprimees par les connecteurs, les evenements relies, l'ordre dans lequel ils sont exprimes, et les constructions syntaxiques choisies. Toutes les donnees linguistiques mises au jour precedemment sont representees dans un formalisme arborescent inspire des grammaires d'arbres adjoints, et donnent lieu a la construction des arbres elementaires correspondant aux connecteurs et a une representation arborescente de la structure du texte a produire
This study aims defining the content and structure of the linguistic databases of a nlg system. More precisely, it concentrates on the lexical encoding of cue-prases - in which we include the full-stop, complex verb- phrases, relativization and participles - and the evaluation of the potential ambiguities of a complex discourse structure. As demonstrated by danlos (1985), the relevant item for lexical choice is not the connective by itself, but a set of constraints attached to if (henceforth, discourse structure, or ds). To define the relevant dss for a given semantic relation, a thorough analysis of the linguistic properties of cue-phrases is required, and more specifically, the determination of differential syntactic properties that reflect semantic variation. Once defined the dss families, i. E. All the possible dss built around a given cue-phrase - they are organised in a hierarchy which can serve as an interface between the conceptual level and the lexicon. But the ambiguities of complex discourse structures are thus only partly controlled. We therefore study the possible scope ambiguities in p1 c1 p2 c2 p3 discourses, and show the various factors which interfere with the choice of cue-phrases to create ambiguity (subordinate clause moving, ellipsis, pronominalisation, causal inference). The last part of this work proposes a tag-inspired tree representation for elementary dss and discusses the linguistic relevance of possible representations for complex dss as tree-structures

37

Antoniadis, Georges. "Élaboration d'un système d'analyse morpho-syntaxique d'une langue naturelle : application en informatique documentaire /". Grenoble : Centre de recherche en informatique appliquée aux sciences sociales, 1987. http://catalogue.bnf.fr/ark:/12148/cb34976768x.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

38

Fredj, Mounia. "Saphir : un système d'objets inférentiels : contribution à l'étude des raisonnements en langue naturelle". Grenoble 2, 1993. http://www.theses.fr/1993GRE21010.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail s'inscrit dans le cadre general du traitement automique des langues naturelles, et s'interesse notamment au probleme de representaiton des connaissances et des raisonnements "portes" par la langue naturelle. Notre systeme saphir a pour objectif de construire le reseau d'objets issus du discours, en decrivant certains des raisonnements mis en oeuvre dans les processus d'acquisition de connaissances, et plus particulierement ceux permettant de resoudre les anaphores associatives. Nous avons defini un modele de representation des connaissances contenues dans le discours, que ce soit un texte ou un dialogue homme-machine. Cette representation est fondee sur des bases linguistiques et notre modele s'appuie sur des elements du fonctionnement cognitif. Nous proposons un formalisme oriente objet, dont les fondements theoriques sont les systemes logiques de lesniewski : l'ontologie et la mereologie. Le premier repose sur un foncteur primitif appele "epsilon" interprete comme est un, le second sur la relation partie de appelee "l'ingredience". Ces systemes logiques constituent une base theorique plus adaptee que la logique classique des predicats
This work is in keeping with the general framework of natural language processing. It especially addresses the problem of knowledge representation and reasoning "carried" in natural language. The goal of the saphir system is to construct the network of objects coming from the discourse. This construction is done by describing some of the reasonings taking place in the knowledge acquisition process and particularly the ones that allow to resolve the "associative anaphora". We define a knowledge representation model, having a linguistics basis and cognitif elements. In order to support this model, we propose an object oriented formalism, whose theoretical foundations are lesniewski's logical system : ontology and mereology. The first system relies upon a primitif functor called "epsilon" meaning "is-a", the second one upon the "part-of" relation called "ingredience". These logical systems constitute a more appropriate theoretical foundation than the traditional predicate calculus

39

Hajlaoui, Najeh. "Multilinguïsation des systèmes de e-commerce traitant des énoncés spontanés en langue naturelle". Phd thesis, Grenoble 1, 2008. http://www.theses.fr/2008GRE10118.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous nous intéressons à la multilinguïsation, ou « portage linguistique » (plus simple que la localisation) des services de gestion de contenu traitant des énoncés spontanés en langue naturelle, souvent bruités, mais contraints par la situation, et constituant toujours un « sous-langage » plus ou moins restreint. Un service de ce type (soit App) utilise une représentation du contenu spécifique (RC-App) sur laquelle travaille le noyau fonctionnel. Le plus souvent, cette représentation est produite à partir de la langue « native » L1 par un extracteur de contenu (EC-App). Nous avons dégagé trois méthodes de portage possibles, et les avons illustrées par le portage en français d'une partie de CATS, un système de traitement de petites annonces en SMS (en arabe) déployé à Amman, ainsi que sur IMRS, un système de recherche de morceaux de musique dont l'interface native est en japonais et dont seule la RC est accessible. Il s'agit de : (1) localisation « interne », i. E. Adaptation à L2 de l'EC donnant EC-App-L2 ; (2) localisation « externe », i. E. Adaptation d'un EC existant pour L2 au domaine et à la représentation de contenu de App (EC-X-L2-App); (3) traduction des énoncés de L2 vers L1. Le choix de la stratégie est contraint par la situation traductionnelle : types et niveau d'accès possibles (accès complet au code source, accès limité à la représentation interne, accès limité au dictionnaire, et aucun accès), ressources disponibles (dictionnaires, corpus), compétences langagières et linguistiques des personnes intervenant dans la multilinguïsation des applications. Les trois méthodes ont donné de bons résultats sur le portage d'arabe en français de la partie de CATS concernant l'occasion automobile. En localisation interne, la partie grammaticale a été très faiblement modifiée, ce qui prouve que, malgré la grande distance entre l'arabe et le français, ces deux sous-langages sont très proches l'un de l'autre, une nouvelle illustration de l'analyse de R. Kittredge. La localisation externe a été expérimentée sur CATS et sur IMRS en adaptant au nouveau domaine considéré l'extracteur de contenu du français écrit initialement par H. Blanchon pour le domaine du tourisme (projet CSTAR/Nespole!), puis en changeant de langue pour IMRS (anglais). Enfin, le portage par TA statistique a également donné de très bonnes performances, et cela avec un corpus d'apprentissage très petit (moins de 10. 000 mots) et un dictionnaire complet. Cela prouve que, dans le cas de sous-langages très petits, la TA statistique peut être de qualité suffisante en partant de corpus 100 à 500 fois moins grands que pour de la langue générale
We are interested in the multilinguization, or “linguistic porting” (simpler than localization) of management content services processing spontaneous utterances in natural language, often noisy, but constrained by the situation and constituting a restricted “sublangage”. Any service of this type (App) uses a specific content representation (CR-App) on which the functionnal kernel operates. Most often, this representation is produced from the “native” language L1 by a content extractor (CE-App). We identified three possible methods of porting and have illustrated them by porting to French a part of CATS, a system handling small ads in SMS (in Arabic), deployed in Amman, as well as IMRS, a music retrieval system, where the native natural language interface is in Japanese and only the CR is accessible. These are: (1) “internal localisation”, i. E. Adaptation to L2 of the CE, giving CE-App-L2; (2)”external” localization , i. E. Adaptation of an existing CE for L2 to the domain and to the App content representation (CE-X-L2-App); (3) translation of utterances from L2 to L1. The choice of the strategy is constrained by the translational situation: type and level of possible access (complete access to the source code, access limited to the internal representation, access limited to the dictionary, and no access), available resources (dictionaries, corpus), competences in languages and linguistics of persons taking part in the multilinguisation of application. The three methods gave good results on the Arabic to French porting of the CARS part of CATS. For internal localization, the grammatical part was very little modified, which proves that, despite the great distance between Arabic and French, these two sub-languages are very near one to another. This is a new illustration of R. Kittredge’s analysis. The external localization was experimented with CATS and with IMRS by adapting to the new domain the French content extractor written initially by H. Blanchon for the tourism domain (CSTAR/Nespole! project), and then by changing the language for IMRS (English). Finally, porting by statistical MT gave also a very good performance, and that with a very small training corpus (less than 10 000 words) and a complete dictionary. This proves that, in the case of very small sub-languages, statistical MT may be of sufficient quality, starting from a corpus 100 to 500 smaller than for the general language

40

Hajlaoui, Najeh. "Multilinguïsation des systèmes de e-commerce traitant des énoncés spontanés en langue naturelle". Phd thesis, Université Joseph Fourier (Grenoble), 2008. http://tel.archives-ouvertes.fr/tel-00337336.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous nous intéressons à la multilinguïsation, ou « portage linguistique » (plus simple que la localisation) des services de gestion de contenu traitant des énoncés spontanés en langue naturelle, souvent bruités, mais contraints par la situation, et constituant toujours un « sous-langage » plus ou moins restreint.
Un service de ce type (soit App) utilise une représentation du contenu spécifique (RC-App) sur laquelle travaille le noyau fonctionnel. Le plus souvent, cette représentation est produite à partir de la langue « native » L1 par un extracteur de contenu (EC-App). Nous avons dégagé trois méthodes de portage possibles, et les avons illustrées par le portage en français d'une partie de CATS, un système de traitement de petites annonces en SMS (en arabe) déployé à Amman, ainsi que sur IMRS, un système de recherche de morceaux de musique dont l'interface native est en japonais et dont seule la RC est accessible. Il s'agit de : (1) localisation « interne », i.e. adaptation à L2 de l'EC donnant EC-App-L2 ; (2) localisation « externe », i.e. adaptation d'un EC existant pour L2 au domaine et à la représentation de contenu de App (EC-X-L2-App); (3) traduction des énoncés de L2 vers L1.
Le choix de la stratégie est contraint par la situation traductionnelle : types et niveau d'accès possibles (accès complet au code source, accès limité à la représentation interne, accès limité au dictionnaire, et aucun accès), ressources disponibles (dictionnaires, corpus), compétences langagières et linguistiques des personnes intervenant dans la multilinguïsation des applications.
Les trois méthodes ont donné de bons résultats sur le portage d'arabe en français de la partie de CATS concernant l'occasion automobile. En localisation interne, la partie grammaticale a été très faiblement modifiée, ce qui prouve que, malgré la grande distance entre l'arabe et le français, ces deux sous-langages sont très proches l'un de l'autre, une nouvelle illustration de l'analyse de R. Kittredge. La localisation externe a été expérimentée sur CATS et sur IMRS en adaptant au nouveau domaine considéré l'extracteur de contenu du français écrit initialement par H. Blanchon pour le domaine du tourisme (projet CSTAR/Nespole!), puis en changeant de langue pour IMRS (anglais).
Enfin, le portage par TA statistique a également donné de très bonnes performances, et cela avec un corpus d'apprentissage très petit (moins de 10.000 mots) et un dictionnaire complet. Cela prouve que, dans le cas de sous-langages très petits, la TA statistique peut être de qualité suffisante en partant de corpus 100 à 500 fois moins grands que pour de la langue générale.

41

Al, Haj Hasan Issam. "Alimentation automatique d'une base de connaissances à partir de textes en langue naturelle". Clermont-Ferrand 2, 2008. http://www.theses.fr/2008CLF21879.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans ce travail nous nous sommes intéressés à l'alimentation automatique d'une base de connaissances pour l'aide à l'innovation. Ce processus s'appuie sur une ontologie du domaine. La base de connaissances est organisée autour des opérateurs d'innovation. Cette base est initialisée par un expert qui doit définir les opérateurs concernés et les ressources associées. Le système d'alimentation automatique permet alors l'enrichissement de cette base par des exemples de résolution de problèmes d'innovation à partir de textes en langue naturelle. Ce système met en oeuvre une nouvelle approche pour l'extraction automatique d'informations. Cette approche n'est pas spécifique à l'innovation et peut être adaptée à d'autres problèmes d'extraction d'informations dans d'autres domaines

42

Petrecca, Miguel Angel. "La langue en question : trois poètes chinois contemporains de la troisième génération". Thesis, Paris, INALCO, 2020. http://www.theses.fr/2020INAL0005.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La poésie chinoise moderne ou « poésie nouvelle » (xin shi 新诗) a dû se battre depuis ses débuts pour exister en tant que genre littéraire viable. Née de la rupture avec la tradition et du rejet de la langue classique, elle a été tout au long de son histoire hantée par la question du lien avec la tradition, la tension Chine-Occident et la problématique de la langue. L’objectif de notre thèse est double. D’une part, nous avons pour objectif de replacer la problématique de la tradition, de l’identité et de la langue dans le cadre plus large de l’histoire de la poésie chinoise moderne afin de mieux comprendre ses enjeux dans le contexte actuel, marqué par l’essor des discours nationalistes et l’entrée de la poésie chinoise dans les réseaux de la poésie mondiale. De l’autre, nous essayons de voir comment cette problématique s’incarne dans l’oeuvre de trois poètes de la troisième génération (di san dai shiren 第三代诗人), c’est-à-dire ceux qui ont commencé à écrire dans le sillage des poètes obscurs (menglong shiren 朦胧诗人 ). Notre thèse a donc aussi pour but de faire découvrir les œuvres de ces trois poètes (Yu Jian 于坚, Xi Chuan 西川et Bai Hua 柏桦) qui comptent parmi les figures les plus importantes de la scène poétique chinoise actuelle, et de contribuer à attirer l’attention des chercheurs français sur une poésie (la poésie chinoise contemporaine) qui n’a pas encore reçu l’attention qu’elle mériterait
Modern Chinese poetry or "new poetry" (xin shi 新诗) has had to fight from its beginnings to exist as a viable literary genre. Born out of the break with tradition and the rejection of the classical language, it has been haunted throughout its history by the question of the link with tradition, the tension between China and the West and the problem of language. The objective of our thesis is twofold. On the one hand, we aim to placethe issue of tradition, identity and language within the broader framework of the history of modern Chinese poetry in order to better understand its challenges in the current context, marked by the rise of nationalist discourses and the entry of Chinese poetry into the networks of world poetry. On the other hand, we want to see how this problem is embodied in the work of three poets of the third generation (di san dai shiren 第三代诗人), that is to say, those who began to write in the wake of obscure poets (menglong shiren 朦胧诗人). Our dissertations also aims to discover the works of these three poets who are among the most important figures of the current Chinese poetic scene (Yu Jian 于坚, Xi Chuan 西川 and Bai Hua 柏桦), and to help draw the attention of French researchers to a poetry (contemporary Chinese poetry) which has not yet received the attention it deserves

43

Tzoukermann, Evelyne. "Morphologie et génération automatique du verbe français : implémentation d'un module conversationnel". Paris, INALCO, 1986. http://www.theses.fr/1986INAL0004.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

44

El-Khoury, Sahar. "Approche mixte, analytique et par apprentissage, pour la synthèse d'une prise naturelle". Paris 6, 2008. http://www.theses.fr/2008PA066585.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Notre intérêt se porte sur la détermination d'une prise adaptée à un objet donné, à partir de sa forme géométrique et des contraintes fixées par la tâche. L'idée de notre approche est issue de l'observation du comportement humain lors de la saisie d'objets. Pour expliquer la faculté de saisie exceptionnelle humaine, nous nous inspirons d'une théorie proposée en neuroscience et intitulée reconnaissance par composantes. Cette théorie suppose que les objets sont découpés mentalement selon leurs parties naturelles et que l'assemblage de ces différentes parties servira de clef pour leur identification. Si l'homme découpe les objets en primitives géométriques simples afin de les reconnaître, pourquoi n'emploie-t-il pas cette décomposition pour les saisir? Nous avons une forte conviction que plusieurs objets de la vie courante sont munis, à leur fabrication, d'une partie facilitant leur préhension. L'approche développée détermine, pour un objet de forme quelconque, cette partie préhensible. L'objet est alors approché par un ensemble de formes géométriques simples. A partir de l'observation de la saisie humaine, un réseau de neurones est entraîné afin d'identifier la partie préhensible de l'objet. Une fois, nous disposons de la partie préhensible, nous nous intéressons à l'identification des points de contacts sur cette partie garantissant la stabilité de l'objet. Pour cette fin, nous proposons une nouvelle approche pour la génération de prises dites force-closure. Cette approche permet, en se servant de l'algèbre de Grassmann, de réduire considérablement le temps de génération d'une prise stable.

45

Bouchet, François. "Conception d'une chaîne de traitement de la langue naturelle pour un agent conversationnel assistant". Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00607298.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Avec le nombre croissant d'utilisateurs novices des applications informatiques, le besoin d'une aide efficace est devenu critique. Afin de répondre à ce besoins, nous suggérons d'utiliser un Agent Conversationnel Assistant (ACA), c'est-à-dire une interface permettant l'utilisation de la langue naturelle (en effet celle-ci est utilisée spontanément dès qu'un problème surgit) ainsi qu'une présence rassurante pour les utilisateurs.Une étude préliminaire détaille la constitution (en combinant la collecte et l'utilisation de thesaurus) d'un corpus de requêtes dont nous justifions le besoin. Ce corpus de 11626 requêtes est comparé avec d'autres corpus existants et nous montrons qu'il couvre le domaine étudié d'aide et que de plus, il contient des requêtes portant d'une part sur le contrôle de l'application et d'autre part des phrases de 'clavardage'. Ce corpus fournit une base saine pour la conception d'un analyseur syntactico-sémantique de requêtes en langage naturel, utilisant un jeu de classes (keys) sémantiques, un jeu de règles d'analyse et un jeu de règles de transformation. En entrée, les requêtes sont exprimées dans un langage formel (DAFT) pour lequel nous proposons une syntaxe et une sémantique. L'analyseur est alors évalué en comparant une annotation manuelle avec les requêtes produites automatiquement et nous étudions l'usage de techniques d'apprentissage supervisé afin d'identifier les classes d'activités conversationnelles. La méthodologie employée est validée via l'intégration d'un ACA dans une application Web existante , dédiée au prototypage collectif de la musique sur Internet. Enfin, nous décrivons l'architecture requise pour implémenter un agent rationnel qui a pour rôle de définir les réactions aux requêtes formelles des usagers, exprimées en DAFT ainsi que le modèle de l'application assistée, mettant ainsi en lumière le besoin d'un modèle cognitif.

46

Thollard, Franck. "Inférence grammaticale probabiliste pour l'apprentissage de la syntaxe en traitement de la langue naturelle". Saint-Etienne, 2000. http://www.theses.fr/2000STET4010.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'objectif de la thèse consiste à utiliser les langages formels pour modéliser la langue naturelle. Les techniques utilisées en reconnaissance de la langue naturelle estiment la probabilité d'un mot étant donnée son contexte. En raison de l'information structurelle qu'elle contiennent, les grammaires formelles semblent bien adaptées à cette tâche. Nous étudions les automates déterministes et probabilistes (PDFA). Une théorie formelle de ces objets est proposée. Nous montrons par ailleurs que les automates probabilistes peuvent être appris dans un cadre d'apprentissage dérivé de l'identification à la limite proposé par Gold. Nous proposons ensuite un nouvel algorithme (MDI) basé sur un calcul efficace de la divergence de Kullback-Leibler entre automates. L'algorithme MDI cherche à inférer un PDFA compromis entre la divergence par rapport aux données d'apprentissage et une petite taille. Une étude expérimentale montre que l'algorithme MDI améliore significativement le pouvoir de prédiction de l'algorithme de référence du domaine : ALERGIA. Ces expérimentations montrent par ailleurs l'importance du lissage lors de la modélisation de la langue naturelle

47

Zablit, Patricia. "Construction de l'interprétation temporelle en langue naturelle : Un système fondé sur les graphes conceptuels". Paris 11, 1991. http://www.theses.fr/1991PA112380.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous proposons un système pour l'interprétation temporelle des énoncés en langue naturelle. Nous supposons que cette interprétation se fait par le calcul de la référence temporelle, calcul qui implique la construction d'un modèle mental propre à la catégorie temps dans le discours. Le modèle mental que nous proposons est une structure discursive locale en ce sens que celui-ci représente l'interprétation d'un seul énoncé de la langue. La construction du modèle mental temporel se fait par composition de représentations lexicales des marqueurs temporels en langue tels que les temps grammaticaux, les syntagmes prépositionnels introduits par des prépositions temporelles, les adverbes de temps et des schémas temporels associes aux verbes. Les représentations lexicales introduisent des entités temporelles référentielles dans le modèle mental: des positions, avec deux sous-types, les points et les intervalles. Avant l'introduction de ces entités, le modèle mental contient déjà une entité qui est le moment de l'énoncé. Toutes ces représentations lexicales, ainsi que la représentation construite sont décrites selon un format uniforme. Il s'agit d'un format diagrammatique. L'uniformité du format et son caractère diagrammatique a un caractère heuristique en guidant le processus de composition et en facilitant la production d'un ensemble d'inférences pertinentes. Le choix du format diagrammatique du modèle mental, plus proche de la situation représentée, devrait rendre plus facile la tache d'un système muni de capacités perceptuelles pour déterminer la valeur de vérité d'un énoncé. Nous proposons une construction du modèle mental temporel en trois étapes: 1) la composition des représentations lexicales, intégrant sémantique et une forme limitée de pragmatique; 2) l'intégration de connaissances générales sur les situations; 3) la levée d'un certain type d'indétermination, a l'aide d'un principe de pertinence propre au domaine temporel. Nous distinguons la catégorie temps de la catégorie des situations, et cette distinction se reflète dans l'architecture de l'espace de travail qui se divise en deux sous-espaces: l'espace temps et l'espace des situations. L'espace temps comprend le modèle mental temporel et une pile de topicalisation (qui pourra être remplacée par une structure plus riche dans le cadre d'une théorie discursive plus globale). Le langage de représentation que nous adoptons est celui des graphes conceptuels, pour lequel nous proposons une réinterprétation selon qu'un graphe est une représentation lexicale ou discursive. Nous proposons également une version plus spécifique des opérations de joint et de projection

48

Bertrand, de Beuvron François de. "Un système de programmation logique pour la création d'interfaces homme-machine en langue naturelle". Compiègne, 1992. http://www.theses.fr/1992COMPD545.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le but de cette thèse est de définir des structures de données et des algorithmes permettant d'analyser des phases pour la création d'interfaces homme-machine en langue naturelle. Dans cette perspective, deux axes de recherche complémentaires ont été explorés : de nombreuses théories linguistiques récentes utilisent des structures de traits pour représenter l'information grammaticale. Un module de programmation logique étendu à des structures de traits typées a été implanté pour mener une analyse syntaxique conformément à ces grammaires. Le modèle pratique de l'implantation inclut une base de données orientée objet fortement couplée au moteur d'inférence, pour conserver de manière cohérente les informations lexicales et syntaxiques. L'interactivité de l'interface homme-machine nécessite une analyse des phrases tolérante aux erreurs de l'utilisateur. Une structuration originale du lexique, et une stratégie d'inférence particulière pour l'analyse syntaxique ont été développées dans ce but.

49

Pouchot, Stéphanie. "L'analyse de corpus et la génération automatique de texte : méthodes et usages". Grenoble 3, 2003. http://www.theses.fr/2003GRE39006.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La communication entre une machine et un individu peut prendre différentes formes (icônes, sons, textes. . . ). Le but de la génération automatique de textes est la production informatisée de messages en langue naturelle destinés à des lecteurs humains. Le résultat doit être compréhensible, adapté et, idéalement, se rapprocher des productions humaines. Cette thèse présente un travail de recherche consacré à l'amélioration des performances d'un processus de génération automatique du français écrit. Basée sur l'étude d'un ensemble de textes réels, cette recherche a consisté en l'identification et l'étude de caractéristiques propres à la langue naturelle (mise en forme, vocabulaire. . . ) à re-produire de manière automatique. Nous présentons ces critères, la manière dont ils sont compatibles entre eux et nous proposons une nouvelle architecture pour le système de génération permettant de les intégrer au processus.

50

Popescu, Vladimir. "Formalisation des contraintes pragmatiques pour la génération des énoncés en dialogue homme-machine multi-locuteurs". Phd thesis, Grenoble INPG, 2008. http://www.theses.fr/2008INPG0175.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous avons développé un cadre pour contrôler la génération des énoncés en dialogue homme-machine multi-locuteurs. Ce processus se déroule en quatre étapes : (i) la structure rhétorique du dialogue est calculée, en utilisant une émulation de la SDRT (<< Segmented Discourse Representation Theory >>) ; (ii) cette structure est utilisée pour calculer les engagements des locuteurs ; ces engagements sont utilisés pour piloter le réglage de la force illocutoire des énoncés ; (iii) les engagements sont filtrés et placés dans une pile pour chaque locuteur ; ces piles sont utilisées pour effectuer des ellipses sémantiques ; (iv) la structure rhétorique pilote le choix des connecteurs concessifs (mais, quand même, pourtant et bien que) entre les énoncés ; pour ce faire, les énoncés sont ordonnés du point de vue argumentatif
We have developed a framework for controlling utterance generation in multi-party human-computer dialogue. This process takes place in four stages: (i) the rhetorical structure for the dialogue is computed, by using an emulation of SDRT ("Segmented Discourse Representation Theory"); (ii) this structure is used for computing speakers' commitments; these commitments are used for driving the process of adjusting the illocutionary force degree of the utterances; (iii) the commitments are filtered and placed in a stack for each speaker; these stacks are used for performing semantic ellipses; (iv) the discourse structure drives the choice of concessive connectors (mais, quand même, pourtant and bien que) between utterances; to do this, the utterances are ordered from an argumentative viewpoint

Tesi sul tema "Génération en langue naturelle"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili