Teses / dissertações sobre o tema "Génération de langage naturel"

Siga este link para ver outros tipos de publicações sobre o tema: Génération de langage naturel.

Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos

Selecione um tipo de fonte:

Veja os 50 melhores trabalhos (teses / dissertações) para estudos sobre o assunto "Génération de langage naturel".

Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.

Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.

Veja as teses / dissertações das mais diversas áreas científicas e compile uma bibliografia correta.

1

Patoz, Evelyne. "Génération de représentations topologiques à partir de requêtes en langage naturel". Besançon, 2006. http://www.theses.fr/2006BESA1031.

Texto completo da fonte
Resumo:
A partir de l’étude du raisonnement et des compétences visuo-perceptives qu’emploie un être humain pour se situer dans l’espace, nous élaborons un modèle théorique permettant à un système informatique de situer un objet dans l’espace au moyen d’indices linguistiques. A cet effet, l’impact de l’activité langagière est étudié dans son rôle de constructeur de la représentation spatiale, mais aussi d’une autre activité cognitive, relevée comme essentielle : la perception visuelle. La perception visuelle reposant en grande partie sur des informations produites en fonction de l’univers des connaissances de l’observateur, l’interprétation qui en est faite conduit à une représentation mentale. La notion de représentation est alors liée à la réalité d’objets dont l’existence est elle-même dépendante des aptitudes perceptives d’un individu donné. La représentation n’est plus alors examinée comme préalable à la construction d’une configuration donnée, mais relative à la perception environnementale. Nous montrons que la génération dynamique d’une représentation spatiale ne dépend en fait que de quelques paramètres, dont le facteur le plus important est l’identification du point de référence. Nous développons une application logicielle, intégrant un module de dialogue, qui permet à un utilisateur de diriger un robot sur une surface, et à celui-ci de rendre compte de l’état du monde dans lequel il évolue
From the reasoning’ study and the visual perceptions abilities that use a human being for locating in the space, we elaborate an example theoretic allowing a computing system to situate an object in the space by means of linguistics signs. For this fact, the rule of linguistic activity is studying in his constructive rule of the spatial representation, but also to the other cognitive effect, is revealed as essential: the visual perception. The visual perception resting in a huge part on the products informations in function of an observer’ knowledges of the universe, the interpretation can conduct to a mental representation. The notion of representation so is linked up to a reality of objects that existence by itself depends of the perceptive aptitude of a special individual. The representation is no more examined like a construction for a well-done configuration, but relative to an environmental perception. We can show that the dynamic generation for a spatial representation depend of parameters, which the more important factor is the identification of a point of reference. We can develop a logical application, integrating a speech factor, that permit to a user to directing a robot in an area, and thus to give an account to the state of the world how it can evaluate
Estilos ABNT, Harvard, Vancouver, APA, etc.
2

Popesco, Liana. "Analyse et génération de textes à partir d'un seul ensemble de connaissances pour chaque langue naturelle et de meta-règles de structuration". Paris 6, 1986. http://www.theses.fr/1986PA066138.

Texto completo da fonte
Resumo:
Le système analyseur/générateur construit réalise des traductions sémantiques multilingues en contexte limité. Caractéristiques principales: unicité de l'ensemble de connaissances fourni pour chaque langue; représentation interne exclusivement sémantique; réorganisation, par le système, de la grammaire initiale (atn sémantico-syntaxique), en vue de la génération; déduction (à partir de principes généraux donnes sous forme de métarègles) de règles de structuration spécifiques à chaque langue, règles utilisables en génération.
Estilos ABNT, Harvard, Vancouver, APA, etc.
3

Petitjean, Simon. "Génération modulaire de grammaires formelles". Thesis, Orléans, 2014. http://www.theses.fr/2014ORLE2048/document.

Texto completo da fonte
Resumo:
Les travaux présentés dans cette thèse visent à faciliter le développement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes très diverses, en raison de l’existence de différents niveaux d’étude de la langue (syntaxe, morphologie, sémantique,. . . ) et de différents formalismes proposés pour la description des langues à chacun de ces niveaux. Les formalismes faisant intervenir différents types de structures, un unique langage de description n’est pas suffisant : il est nécessaire pour chaque formalisme de créer un langage dédié (ou DSL), et d’implémenter un nouvel outil utilisant ce langage, ce qui est une tâche longue et complexe. Pour cette raison, nous proposons dans cette thèse une méthode pour assembler modulairement, et adapter, des cadres de développement spécifiques à des tâches de génération de ressources langagières. Les cadres de développement créés sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), à savoir disposer d’un langage de description permettant la définition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-déterministe (c’est à dire au moyen des opérateurs logiques de conjonction et disjonction). La méthode se base sur l’assemblage d’un langage de description à partir de briques réutilisables, et d’après un fichier unique de spécification. L’intégralité de la chaîne de traitement pour le DSL ainsi défini est assemblée automatiquement d’après cette même spécification. Nous avons dans un premier temps validé cette approche en recréant l’outil XMG à partir de briques élémentaires. Des collaborations avec des linguistes nous ont également amené à assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sémantique (au moyen de la théorie des frames)
The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics
Estilos ABNT, Harvard, Vancouver, APA, etc.
4

Balicco, Laurence. "Génération de repliques en français dans une interface homme-machine en langue naturelle". Grenoble 2, 1993. http://www.theses.fr/1993GRE21025.

Texto completo da fonte
Resumo:
Cette recherche entre dans le cadre de la generation automatique de langue naturelle, domaine qui fut longtemps neglige, cette phase semblant plus simple que celle d'analyse de la langue. Cette these qui correspond a un premier travail sur la generation au sein du criss place le probleme de la generation automatique dans le cadre d'un homme-machine en langue naturelle. Ceci a des consequences, parmi lesquelles la generation a partir d'un contenu a exprimer en langue naturelle, une expression en langue naturelle de ce contenu aussi fidelement que possible,. . . Apres avoir etudie les differents travaux en generation, nous avons decide d'elaborer notre propre systeme de generation, en reutililisant, dans la mesure du possible, les outils developpes pour l'analyse. Ce generateur repose sur un modele linguistique utilisant des informations principalement syntaxiques et morphologiques et dans lequel sont definies des transformations linguistiques appelees operations (coordination, anaphorisation, thematisation,. . . ) donnees par le dialogue ou calculees lors de la phase de generation. Il permet la creation de plusieurs versions d'une meme replique et ainsi que, brievement, un projet europeen qui presente une application possible du generateur
This research takes place in the context of natural language generation. This field has benn neglected for a long time because it seemed a much easier phase that those of analysis. The thesis corresponds to a first work on generation in the criss team and places the problem of generation in the context of a manmachine dialogue in natural language. Some of its consequences are : generation from a logical content to be translated into natural language, this translation of the original content kept as close as possible,. . . After the study of the different works that have been done, we decided to create our own generation system, resusing when it is possible, the tools elaborated during the analyzing process. This generation process is based on a linguistic model, which uses syntactic and morphologic information and in which linguistic transformations called operations are defined (coodination, anaphorisation, thematisation,. . . ). These operations can be given by the dialogue or calulated during the generation process. The model allows the creation of several of the same utterance and therefore a best adaptation for different users. This thesis presents the studied works, essentially on the french and the english languages, the linguistic model developped, the computing model used, and a brief presentation of an european project which offers a possible application of ou
Estilos ABNT, Harvard, Vancouver, APA, etc.
5

Belec, Yves. "Des règles expertes pour une méthode applicative d'analyse ou de génération du langage naturel". Toulouse 3, 1990. http://www.theses.fr/1990TOU30136.

Texto completo da fonte
Resumo:
Nous presentons une methode d'analyse et de generation de phrases dans un contexte restreint de communication avec un robot mobile. L'analyse (et la generation) s'articule autour d'un ensemble de regles (et sa dual) permettant la production d'une arborescence de dependances. En analyse on traite des couples qualifiant-qualite en retirant de la phrase le qualifiant; on est ainsi ramene a une phrase atomique. La generation, inversement, procede par rajout de qualifiant les aspects morphologiques, syntaxiques et semantiques sont traites de facon deterministe a chaque application d'une regle. Les eventuelles erreurs ainsi produites sont resolues par des techniques appropriees de recuperation. Nous traitons de facon identique les syntagmes adjectivaux, nominaux et verbaux en elargissant la notion de structure casuelle a tous ces niveaux. Parallelement nous tentons de prendre en compte le caractere approximatif du sens des mots en reference et en designation. L'analyse et la generation font usage d'un reseau semantique avec mecanisme d'exception. Enfin nous avons developpe le logiciel en y integrant une simulation d'un univers robotique presentant sur ecran le robot, son environnement, et le dialogue, de facon a tester notre interface de traduction. Une application a la voiture du future dans le cadre du projet prometheus est a l'etude
Estilos ABNT, Harvard, Vancouver, APA, etc.
6

Striegnitz, Kristina. "Génération d'expressions anaphoriques : Raisonnement contextuel et planification de phrases". Nancy 1, 2004. http://www.theses.fr/2004NAN10186.

Texto completo da fonte
Resumo:
Cette thèse porte sur le raisonnement contextuel impliqué par la production d'expressions anaphoriques dans un système de génération de langue naturelle. Plus précisément, nous proposons des stratégies pour générer deux types d'anaphore n'ayant encore jamais été considérés dans la génération : les anaphores associatives et les adverbes additifs. Dans ce but, nous formalisons tout d'abord les conditions contextuelles déterminant l'usage de ces expressions. Cette formalisation est basée sur des notions linguistiques, et étend les approches antérieures de génération d'anaphores co-référentielles. Ensuite, nous spécifions les tâches de raisonnement à effectuer pour vérifier ces conditions contextuelles. Nous décrivons comment ces tâches peuvent être implémentées en utilisant un système d'inférence pour les logiques de description, et nous comparons notre approche à des approches alternatives utilisant d'autres systèmes d'inférence. Pour finir, nous décrivons une implémentation expérimentale de notre approche
This thesis investigates the contextual reasoning involved in the production of anaphoric expressions in natural language generation systems. More specifically, I propose generation strategies for two types of discourse anaphora which have not been treated in generation before: bridging descriptions and additive particles. To this end the contextual conditions that govern the use of these expressions have to be formalized. The formalization that I propose is based on notions from linguistics and extends previous approaches to the generation of co-referential anaphora. I then specify the reasoning tasks that have to be carried out in order to check the contextual conditions. I describe how they can be implemented using a state-of-the-art reasoning system for description logics, and I compare my proposal to alternative approaches using other kinds of reasoning tools. Finally, I describe an experimental implementation of the proposed approach
Estilos ABNT, Harvard, Vancouver, APA, etc.
7

Namer, Fiammetta. "Pronominalisation et effacement du sujet en génération automatique de textes en langues romanes". Paris 7, 1990. http://www.theses.fr/1990PA077249.

Texto completo da fonte
Resumo:
Ce travail est centre sur la generation de textes a partir de representations semantiques, en francais et en italien. Les points abordes concernent essentiellement les aspects syntaxiques de la pronominalisation: nous montrons que les pronoms personnels et, pour l'italien, le sujet vide, tiennent une place capitale dans le mecanisme de synthese d'un texte. Apres avoir presente le modele de l. Danlos, dont nous nous sommes inspires, nous detaillons les aspects linguistiques de la pronominalisation et leurs consequences en generation: les dependances non locales et croisees mises en jeu par les contraintes de co-occurrence entre pronoms. Apres avoir montre la nature similaire, mais aussi les differences qui existent entre l'effacement du sujet et la formation d'un pronom, nous decrivons les conditions morphologiques, semantiques et syntaxiques necessaires a la realisation de ces deux operations. Nous etudions alors deux approches de la synthese d'une phrase: une approche sequentielle et une approche globale, qui realise toutes les phrases potentielles, avec ou sans pronoms, en parallele, et effectue un choix final. Le chapitre 5 est consacre a l'etude des conditions stylistiques de pronominalisation, basees sur le parallelisme de structure. Ces contraintes apportent des arguments en faveur de l'approche globale, dont nous detaillons les avantages. Dans le chapitre 6, nous utilisons l'application recursive de cette approche pour resoudre des problemes de pronominalisation dans les phrases a completive, et ce apres avoir mis en evidence la complexite de ce phenomene. Enfin, le dernier chapitre decrit le programme qui a ete realise. Ce programme engendre des resumes d'operas de verdi en italien, qui sont presentes et commentes
Estilos ABNT, Harvard, Vancouver, APA, etc.
8

Hankach, Pierre. "Génération automatique de textes par satisfaction de contraintes". Paris 7, 2009. http://www.theses.fr/2009PA070027.

Texto completo da fonte
Resumo:
Nous nous intéressons dans cette thèse à la construction d'un système de génération automatique - un logiciel informatique capable de transformer une représentation formelle de l'information en un texte en langage naturel. Dans notre approche, nous définissons la génération comme un problème de satisfaction de contraintes (CSP). Le système résultant garantit un traitement intégré des opérations de la génération car les différentes dépendances sont prises en compte et aucune priorité n'est donnée à un type d'opération par rapport aux autres. Pour définir le problème de satisfaction de contraintes, nous représentons les opérations de construction du texte par des variables de décision. Les opérations individuelles qui réalisent un même type d'expressions minimales dans le texte sont groupées ensemble et constituent une tâche de la génération. Nous classons les variables de décision selon les types d'opérations qu'elles représentent (e. G. Variables de sélection du contenu, variables de structuration du document. . . ). Les règles linguistiques régissant les opérations sont représentées par des contraintes sur les variables. Une contrainte peut être définie sur des variables d'un ou plusieurs type(s), marquant la dépendance entre les opérations correspondantes. La production d'un texte consiste en la résolution du système global des contraintes, c'est-à-dire trouver une affectation complète des variables qui ne viole pas les contraintes. Dans le cadre de la définition de la grammaire de contraintes, nous formulons notamment la partie qui régit les opérations de structuration du document. Nous modélispns par des contraintes la structure rhétorique développée par la SORT afin d'aboutir à des textes cohérents à la sortie du générateur. Auparavant, afin d'augmenter les capacités de génération de notre système, nous étendons cette structure rhétorique pour couvrir les textes non canoniques. En plus de la définition de ces contraintes pour la cohérence, nous formulons un ensemble de contraintes qui permettent de façonner la macrostructure en fonction des buts communicatifs afin de favoriser leur réalisation. Enfin, nous proposons une solution au problème de la complexité de calcul de la génération de textes de grande taille. Cette solution repose sur la génération de ces textes par paquet de propositions. Le problème de génération du texte global est ainsi défini comme plusieurs problèmes de génération de parties du texte. Ces parties sont de taille limitée et la complexité associée à leur génération reste raisonnable. Le partitionnement proposé est motivé par des considérations linguistiques
We address in this thesis the construction of a natural language generation System - computer software that transforms a formal representation of information into a text in natural language. In our approach, we define the generation problem as a constraint satisfaction problem (CSP). The implemented System ensures an integrated processing of generation operations as their different dependencies are taken into account and no priority is given to any type of operation over the others. In order to define the constraint satisfaction problem, we represent the construction operations of a text by decision variables. Individual operations that implement the same type of minimal expressions in the text form a generation task. We classify decision variables according to the type of operations they represent (e. G. Content selection variables, document structuring variables. . . ). The linguistic rules that govern the operations are represented as constraints on the variables. A constraint can be defined over variables of the same type or different types, capturing the dependency between the corresponding operations. The production of a text consists of resolving the global System of constraints, that is finding an evaluation of the variables that satisfies all the constraints. As part of the grammar of constraints for generation, we particularly formulate the constraints that govern document structuring operations. We model by constraints the rhetorical structure of SORT in order to yield coherent texts as the generator's output. Beforehand, in order to increase the generation capacities of our System, we extend the rhetorical structure to cover texts in the non-canonical order. Furthermore, in addition to defining these coherence constraints, we formulate a set of constraints that enables controlling the form of the macrostructure by communicative goals. Finally, we propose a solution to the problem of computational complexity of generating large texts. This solution is based on the generation of a text by groups of clauses. The problem of generating a text is therefore divided into many problems of reduced complexity, where each of them is concerned with generating a part of the text. These parts are of limited size so the associated complexity to their generation remains reasonable. The proposed partitioning of generation is motivated by linguistic considerations
Estilos ABNT, Harvard, Vancouver, APA, etc.
9

Membrado, Miguel. "Génération d'un système conceptuel écrit en langage de type semi-naturel en vue d'un traitment des données textuelles : application au langage médical". Paris 11, 1989. http://www.theses.fr/1989PA112004.

Texto completo da fonte
Resumo:
Cet ouvrage présente l'étude et la réalisation d'un système de traitement de données à visée générale (DOXIS), pouvant manipuler sous une même forme des données structurées, des données textuelles ou des connaissances. Le domaine de recherche concerné est l'intelligence artificielle, cadre au sein duquel est proposée une représentation des connaissances originale, permettant de créer des dictionnaires contenant des définitions conceptuelles rédigées dans un langage de type semi-naturel, formant la base de connaissances du système. L'objectif appliqué est en particulier de pouvoir mettre en œuvre un système documentaire "intelligent". La puissance du langage de déclaration permet de traiter une partie des ambiguïtés du langage, plus particulièrement les polysémies contextuelles, d'aborder les métonymies, de résoudre un certain nombre de types de paraphrases, de déclarer les connaissances au sein de polyhiérarchies, elles­mêmes divisées en environnements sémantiques, ainsi que de gérer les connaissances incomplètes. L'analyse et la recherche de documents se déroule en deux phases distinctes l'extraction conceptuelle, et la comparaison structurelle. La première étape fait l'objet de cette thèse, et sert à retrouver un ensemble pertinent de textes par rapport à une question, permettant ensuite de lancer la seconde étape. Celle-ci ne sera elle-même abordée que dans ses grandes lignes. Le but final des travaux est de retrouver la connaissance non pas au niveau du dictionnaire, mais au niveau des textes eux-mêmes
We present our research and our own realization on a KBMS (Knowledge Based Management System) aiming at processing any kind of data, especially textual data, and the related knowledge. In this field of applied Artificial Intelligence, we propose a way for representing knowledge : to describe it in a semi-natural language able as well to describe structures or relations as rules. Knowledge is managed as conceptual definitions figuring in a dictionary which represents the knowledge base. The power of this language allows to process a lot of ambiguities, especially those coming from contextual polysemia, to deal with metonymia or incomplete knowledge, and to solve several kinds of paraphrases. Simultaneous polyhierarchies as well as chunks are taken into account. The system has been specially studied for automatic processing of medical reports. An application to neuro­ radiology has been taken as example. But it could be applied as well to any other field, included outside Medecine to any professional field. Text analysis is realized in two steps : first a conceptual extraction, secondly a structural analysis. The first step only is taken into account in this thesis. It aims at retrieving pertinent documents, matching them to the given question by comparison between concepts, not between character strings. An overview of the second step will be presented. The final goal is to be able to retrieve the knowledge contained into the texts, i. E. The data themselves, and to manage it in respect to the knowledge represented into the dictionaries
Estilos ABNT, Harvard, Vancouver, APA, etc.
10

Popescu, Vladimir. "Formalisation des contraintes pragmatiques pour la génération des énoncés en dialogue homme-machine multi-locuteurs". Phd thesis, Grenoble INPG, 2008. http://www.theses.fr/2008INPG0175.

Texto completo da fonte
Resumo:
Nous avons développé un cadre pour contrôler la génération des énoncés en dialogue homme-machine multi-locuteurs. Ce processus se déroule en quatre étapes : (i) la structure rhétorique du dialogue est calculée, en utilisant une émulation de la SDRT (<< Segmented Discourse Representation Theory >>) ; (ii) cette structure est utilisée pour calculer les engagements des locuteurs ; ces engagements sont utilisés pour piloter le réglage de la force illocutoire des énoncés ; (iii) les engagements sont filtrés et placés dans une pile pour chaque locuteur ; ces piles sont utilisées pour effectuer des ellipses sémantiques ; (iv) la structure rhétorique pilote le choix des connecteurs concessifs (mais, quand même, pourtant et bien que) entre les énoncés ; pour ce faire, les énoncés sont ordonnés du point de vue argumentatif
We have developed a framework for controlling utterance generation in multi-party human-computer dialogue. This process takes place in four stages: (i) the rhetorical structure for the dialogue is computed, by using an emulation of SDRT ("Segmented Discourse Representation Theory"); (ii) this structure is used for computing speakers' commitments; these commitments are used for driving the process of adjusting the illocutionary force degree of the utterances; (iii) the commitments are filtered and placed in a stack for each speaker; these stacks are used for performing semantic ellipses; (iv) the discourse structure drives the choice of concessive connectors (mais, quand même, pourtant and bien que) between utterances; to do this, the utterances are ordered from an argumentative viewpoint
Estilos ABNT, Harvard, Vancouver, APA, etc.
11

Popescu, Vladimir. "Formalisation des contraintes pragmatiques pour la génération des énoncés en dialogue homme-machine multi-locuteurs". Phd thesis, Grenoble INPG, 2008. http://tel.archives-ouvertes.fr/tel-00343846.

Texto completo da fonte
Resumo:
Nous avons développé un cadre pour contrôler la génération des énoncés en dialogue homme-machine multi-locuteurs.‭ ‬Ce processus se déroule en quatre étapes‭ ‬:‭ (‬i‭) ‬la structure rhétorique du dialogue est calculée,‭ ‬en utilisant une émulation de‭ ‬la SDRT‭ (<< ‬Segmented Discourse Representation Theory‭ >>) ; (‬ii‭) ‬cette structure est utilisée pour calculer les engagements des locuteurs‭ ; ‬ces engagements sont utilisés pour piloter le réglage de la force illocutoire des énoncés‭ ; (‬iii‭) ‬les engagements sont filtrés et placés dans une pile pour chaque locuteur‭ ; ‬ces piles sont utilisées pour effectuer des ellipses sémantiques‭ ; (‬iv‭) ‬la structure rhétorique pilote le choix des connecteurs concessifs‭ (‬mais,‭ ‬quand même,‭ ‬pourtant et bien que‭) ‬entre les énoncés‭ ; ‬pour ce faire,‭ ‬les énoncés sont ordonnés du point de vue argumentatif.
Estilos ABNT, Harvard, Vancouver, APA, etc.
12

Ponton, Claude (1966. "Génération automatique de textes en langue naturelle : essai de définition d'un système noyau". Grenoble 3, 1996. http://www.theses.fr/1996GRE39030.

Texto completo da fonte
Resumo:
Une des caracteristiques commune a de tres nombreux systemes de generation est la forte dependance qu'ils entretiennent chacun avec leur application. Si quelques tentatives de definition de systemes "non dedies" ont ete faites, aucune ne permet la prise en compte des caracteristiques de l'application (comme son formalisme) et de la situation enonciative (domaine d'application, utilisateur,. . . ). L'objectif de cette these est la definition d'un systeme de generation a la fois non dedie et permettant la prise en compte de ces differents elements. Un tel systeme est appele "systeme noyau de generation". Dans cette perspective, nous avons mene l'etude de 94 systemes de generation selon des criteres pertinents par rapport a notre objectif. Cette etude sert de base a la suite de notre travail. La definition du generateur noyau passe par la determination de la frontiere entre l'application et la generation noyau (taches du generateur, entrees, sorties, donnees,. . . ). Il est necessaire, en effet, de connaitre les roles de chacune des deux parties et leurs moyens de communication avant de pouvoir construire le generateur noyau. Il resulte de cette etude que le generateur noyau considere en entree une representation formelle quelconque du contenu et un ensemble de contraintes decrivant la situation enonciative. Le generateur noyau traite alors ce que l'on nomme generalement le "comment le dire?" et il est capable de produire toutes les solutions repondant aux contraintes d'entree. Cette partie de definition est suivie de la realisation d'une premiere maquette du generateur noyau qui a ete testee sur deux applications distinctes a tous points de vue (formalisme, domaine, type de textes,. . . ). Enfin, ce travail debouche sur des perspectives d'evolution du generateur noyau notamment sur le formalisme de representation des connaissances (cotopies d'objets) et sur l'architecture (architecture distribuee)
One of the common features with many generation systems is the strong dependence on the application. If few definition attempts of "non dedicated" systems have been realised, none of them permis to take into account the application characteristics (as its formalism) and the communication context (application field, user,. . . ). The purpose of this thesis is the definition of a generation system both non dedicated and permitting to take into account these elements. Such a system is called a "kernel generation system". In this perspective, we have studied 94 generation systems through objective relevant criteria. This study is used as a basis in the continuation of our work. The definition of a kernel generator needs the determination of the frontier between the application and the kernel generation (generator tasks, inputs, outputs, data,. . . ). Effectively, it is necessary to be aware of the role of both parts and their communication ways before designing the kernel generator. It results of this study that our generator considers as input any formal content representation as well as a set of constraints describing the communication context. The kernel generator then processes what is generally called the "how to say it?" and is able to produce every solutions according to the input constraints. This definition part is followed by the achievement of a first generator prototype which has been tested through two applications distinct in all respects (formalism, field, type of texts,. . . ). Finally, this work opens out on some evolution perspectives for the generator particulary on knowledge representation formalism (cotopies d'objets) and on architecture (distributed architecture)
Estilos ABNT, Harvard, Vancouver, APA, etc.
13

Pouchot, Stéphanie. "L'analyse de corpus et la génération automatique de texte : méthodes et usages". Grenoble 3, 2003. http://www.theses.fr/2003GRE39006.

Texto completo da fonte
Resumo:
La communication entre une machine et un individu peut prendre différentes formes (icônes, sons, textes. . . ). Le but de la génération automatique de textes est la production informatisée de messages en langue naturelle destinés à des lecteurs humains. Le résultat doit être compréhensible, adapté et, idéalement, se rapprocher des productions humaines. Cette thèse présente un travail de recherche consacré à l'amélioration des performances d'un processus de génération automatique du français écrit. Basée sur l'étude d'un ensemble de textes réels, cette recherche a consisté en l'identification et l'étude de caractéristiques propres à la langue naturelle (mise en forme, vocabulaire. . . ) à re-produire de manière automatique. Nous présentons ces critères, la manière dont ils sont compatibles entre eux et nous proposons une nouvelle architecture pour le système de génération permettant de les intégrer au processus.
Estilos ABNT, Harvard, Vancouver, APA, etc.
14

Raynaud, Tanguy. "Génération de questions à choix multiples thématiques à partir de bases de connaissances". Thesis, Lyon, 2019. http://www.theses.fr/2019LYSES066.

Texto completo da fonte
Resumo:
L'évaluation de connaissances à travers un support de questions à choix multiples est une méthode fiable et largement utilisée, y compris dans des contextes officiels, comme pour l'examen du code de la route. Cette méthode d'évaluation offre en effet de nombreux avantages, comme une égalité de notation entre les candidats, ou de façon plus pragmatique, une possibilité de correction automatique.L'émergence des MOOCs, des cours dispensés sous un format numérique, a contribué à accroître ce besoin d'évaluation automatique. Les travaux de cette thèse s'inscrivent ainsi dans ce contexte, en proposant une solution permettant de générer des questions thématiques, c'est à dire des questions centrées autour d'un thème prédéfini.Les travaux présentés dans cette thèse utilisent des bases de connaissances comme sources de données pour générer automatiquement des questions à choix multiples thématiques. L'utilisation de bases de connaissances dans ce contexte pose ainsi un certain nombre de défis scientifiques qui constituent les contributions des travaux présentés :- Les entités des bases de connaissances ne sont généralement pas explicitement corrélés à des thèmes. Cette thèse présente ainsi une méthode basée sur les méta-données de Wikipedia permettant d'identifier et de trier les entités de bases de connaissances en fonction de thèmes prédéfinis.- Pour qu'une question soit intelligible, son énoncé doit être grammaticalement correct, et contenir suffisamment d'informations pour lever toute ambiguïté quand-à la bonne réponse. Dans cette optique, nous avons introduit des modèles de questions permettant d'identifier des entités au sein de bases de connaissances, et de générer des énoncés en langage naturel.- Dans une questions à choix multiples, les distracteurs (mauvaises réponses) sont aussi important que l'énoncé, de mauvais distracteurs rendant la question trop facile. Dans une dernière contribution, nous présentons la méthode utilisée pour sélectionner des distracteurs qui soient non seulement pertinents vis-à-vis de l'énoncé de la question, mais aussi de son contexte
The use of multiple choice questions to assess knowledge is a reliable and widely used method, even in official contexts. Such a method offers many advantages, including equality of marking between candidates, or, more pragmatically, the possibility of automatic correction.With the emergence of MOOCs (courses delivered in a digital format), the need for automatic evaluation has increased. The scope of this thesis is part of this context, by proposing a solution that enables automatic thematic question generation.The work presented in this thesis uses knowledge bases as data sources to automatically generate thematic multiple-choice questions.The use of knowledge bases in this context thus raises several scientific challenges that constitute the contributions of the presented work:- Knowledge base entities are generally not explicitly correlated to themes. This thesis presents a method based on Wikipedia metadata to identify and sort knowledge base entities according to predefined themes.- In order to be intelligible, a question must be grammatically correct, and must include enough information to remove any ambiguity about the correct answer. To that end, we have introduced question templates to identify entities within knowledge bases and generate natural language statements.- In a multiple choice questions, distractors (wrong answers) are no less important than the statement. Wrong distractors are easilly discarded and affect the whole question difficulty. In a last contribution, we present the method used to select distractors that are not only relevant to the question's statement, but also to its context
Estilos ABNT, Harvard, Vancouver, APA, etc.
15

Pho, Van-Minh. "Génération automatique de questionnaires à choix multiples pédagogiques : évaluation de l'homogénéité des options". Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112192/document.

Texto completo da fonte
Resumo:
Ces dernières années ont connu un renouveau des Environnements Informatiques pour l'Apprentissage Humain. Afin que ces environnements soient largement utilisés par les enseignants et les apprenants, ils doivent fournir des moyens pour assister les enseignants dans leur tâche de génération d'exercices. Parmi ces exercices, les Questionnaires à Choix Multiples (QCM) sont très présents. Cependant, la rédaction d'items à choix multiples évaluant correctement le niveau d'apprentissage des apprenants est une tâche complexe. Des consignes ont été développées pour rédiger manuellement des items, mais une évaluation automatique de la qualité des items constituerait un outil pratique pour les enseignants.Nous nous sommes intéressés à l'évaluation automatique de la qualité des distracteurs (mauvais choix de réponse). Pour cela, nous avons étudié les caractéristiques des distracteurs pertinents à partir de consignes de rédaction de QCM. Cette étude nous a conduits à considérer que l'homogénéité des distracteurs et de la réponse est un critère important pour valider les distracteurs. L'homogénéité est d'ordre syntaxique et sémantique. Nous avons validé la définition de l'homogénéité par une analyse de corpus de QCM, et nous avons proposé des méthodes de reconnaissance automatique de l'homogénéité syntaxique et sémantique à partir de cette analyse.Nous nous sommes ensuite focalisé sur l'homogénéité sémantique des distracteurs. Pour l'estimer automatiquement, nous avons proposé un modèle d'ordonnancement par apprentissage, combinant différentes mesures d'homogénéité sémantique. L'évaluation du modèle a montré que notre méthode est plus efficace que les travaux existants pour estimer l'homogénéité sémantique des distracteurs
Recent years have seen a revival of Intelligent Tutoring Systems. In order to make these systems widely usable by teachers and learners, they have to provide means to assist teachers in their task of exercise generation. Among these exercises, multiple-choice tests are very common. However, writing Multiple-Choice Questions (MCQ) that correctly assess a learner's level is a complex task. Guidelines were developed to manually write MCQs, but an automatic evaluation of MCQ quality would be a useful tool for teachers.We are interested in automatic evaluation of distractor (wrong answer choice) quality. To do this, we studied characteristics of relevant distractors from multiple-choice test writing guidelines. This study led us to assume that homogeneity between distractors and answer is an important criterion to validate distractors. Homogeneity is both syntactic and semantic. We validated the definition of homogeneity by a MCQ corpus analysis, and we proposed methods for automatic recognition of syntactic and semantic homogeneity based on this analysis.Then, we focused our work on distractor semantic homogeneity. To automatically estimate it, we proposed a ranking model by machine learning, combining different semantic homogeneity measures. The evaluation of the model showed that our method is more efficient than existing work to estimate distractor semantic homogeneity
Estilos ABNT, Harvard, Vancouver, APA, etc.
16

Boulanger, Hugo. "Data augmentation and generation for natural language processing". Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG019.

Texto completo da fonte
Resumo:
De plus en plus de domaines cherchent à automatiser une partie de leur processus.Le traitement automatique des langues contient des méthodes permettant d'extraire des informations dans des textes.Ces méthodes peuvent utiliser de l'apprentissage automatique.L'apprentissage automatique nécessite des données annotées pour faire de l'extraction d'information de manière optimale.L'application de ces méthodes à de nouveaux domaines nécessite d'obtenir des données annotées liée à la tâche.Le problème que nous souhaitons résoudre est de proposer et d'étudier des méthodes de génération pour améliorer les performances de modèles appris à basse quantité de données.Nous explorons différentes méthodes avec et sans apprentissage pour générer les données nécessaires à l'apprentissage de modèles d'étiquetage.La première méthode que nous explorons est le remplissage de patrons.Cette méthode de génération de données permet de générer des données annotées en combinant des phrases à trous, les patrons, et des mentions.Nous avons montré que cette méthode permet d'améliorer les performances des modèles d'étiquetage à très petite quantité de données.Nous avons aussi étudié la quantité de données nécessaire pour l'utilisation optimale de cette méthode.La deuxième approche de génération que nous avons testé est l'utilisation de modèles de langue pour la génération couplée à l'utilisation de méthode d'apprentissage semi-supervisé.La méthode d'apprentissage semi-supervisé utilisé est le tri-training et sert à ajouter les étiquettes aux données générées.Le tri-training est testé sur plusieurs méthodes de génération utilisant différents modèles de langue pré-entraînés.Nous avons proposé une version du tri-training appelé tri-training génératif, où la génération n'est pas faite en amont, mais durant le processus de tri-training et profite de celui-ci.Nous avons testé les performances des modèles entraînés durant le processus de semi-supervision et des modèles entraîné sur les données produites par celui-ci.Dans la majeure partie des cas, les données produites permettent d'égaler les performances des modèles entraînés avec la semi-supervision.Cette méthode permet l'amélioration des performances à tous les niveaux de données testés vis-à-vis des modèles sans augmentation.La troisième piste d'étude vise à combiner certains aspects des approches précédentes.Pour cela, nous avons testé différentes approches.L'utilisation de modèles de langues pour faire du remplacement de bouts de phrase à la manière de la méthode de remplissage de patrons fut infructueuse.Nous avons testé l'addition de données générées par différentes méthodes qui ne permet pas de surpasser la meilleure des méthodes.Enfin, nous avons testé l'application de la méthode de remplissage de patrons sur les données générées avec le tri-training qui n'a pas amélioré les résultats obtenu avec le tri-training.S'il reste encore beaucoup à étudier, nous avons cependant mis en évidence des méthodes simples, comme le remplissage de patrons, et plus complexe, comme l'utilisation d'apprentissage supervisé avec des phrases générées par un modèle de langue, permettant d'améliorer les performances de modèles d'étiquetage grâce à la génération de données annotées
More and more fields are looking to automate part of their process.Automatic language processing contains methods for extracting information from texts.These methods can use machine learning.Machine learning requires annotated data to perform information extraction.Applying these methods to new domains requires obtaining annotated data related to the task.In this thesis, our goal is to study generation methods to improve the performance of learned models with low amounts of data.Different methods of generation are explored that either contain machine learning or do not, which are used to generate the data needed to learn sequence labeling models.The first method explored is pattern filling.This data generation method generates annotated data by combining sentences with slots, or patterns, with mentions.We have shown that this method improves the performance of labeling models with tiny amounts of data.The amount of data needed to use this method is also studied.The second approach tested is the use of language models for text generation alongside a semi-supervised learning method for tagging.The semi-supervised learning method used is tri-training and is used to add labels to the generated data.The tri-training is tested on several generation methods using different pre-trained language models.We proposed a version of tri-training called generative tri-training, where the generation is not done in advance but during the tri-training process and takes advantage of it.The performance of the models trained during the semi-supervision process and of the models trained on the data generated by it are tested.In most cases, the data produced match the performance of the models trained with the semi-supervision.This method allows the improvement of the performances at all the tested data levels with respect to the models without augmentation.The third avenue of study combines some aspects of the previous approaches.For this purpose, different approaches are tested.The use of language models to do sentence replacement in the manner of the pattern-filling generation method is unsuccessful.Using a set of data coming from the different generation methods is tested, which does not outperform the best method.Finally, applying the pattern-filling method to the data generated with the tri-training is tested and does not improve the results obtained with the tri-training.While much remains to be studied, we have highlighted simple methods, such as pattern filling, and more complex ones, such as the use of supervised learning with sentences generated by a language model, to improve the performance of labeling models through the generation of annotated data
Estilos ABNT, Harvard, Vancouver, APA, etc.
17

Boutouhami, Sara. "Un système de générations de descriptions argumentées". Paris 13, 2010. http://www.theses.fr/2010PA132014.

Texto completo da fonte
Resumo:
Dans la présente thèse, nous nous intéressons à l’expression d’argumentations en Langue Naturelle (LN). Notre travail a deux motivations : une motivation théorique qui consiste à comprendre et simuler le raisonnement de bon sens sous-jacent au processus argumentatif et à clarifier l’intuition qui permet de distinguer entre une bonne et une mauvaise argumentation ; et une motivation pratique : contribuer, à terme, à une assistance à la rédaction de descriptions textuelles "bien" argumentées. L’objectif de cette thèse est la réalisation d’un système qui permet de générer une description argumentée qui soit la plus favorable possible pour l’un des protagonistes de l’accident. Dans ce travail, nous faisons coopérer dans une même architecture divers moyens relevant aussi bien du volet raisonnement que du volet langage. L’idée étant de tirer profit des avancées de l’Intelligence Artificielle en termes de formalisation de raisonnement pour reproduire une forme fondamentale de l'argumentation, utilisée par les humains au quotidien et qui puise une grande partie de sa force dans le caractère flexible et subjectif de la LN. Pour la représentation des connaissances et le raisonnement, nous avons défini un langage de premier ordre réifié qui tient compte de certaines modalités utiles, de l’information temporelle et d’inférences non-monotones exprimées à l’aide d’un fragment de la logique des défauts de Reiter. Pour la mise en œuvre, nous avons utilisé le paradigme Answer Set Programming en traduisant nos règles d’inférence en un programme logique étendu exprimé dans le langage Smodels. Enfin, afin de valider la qualité des descriptions générées par notre système, nous avons fait appel à une expérience psychologique avec l’aide de spécialistes en Psychologie cognitive. Les résultats de cette expérience sont encourageants et ont globalement confirmé la pertinence des stratégies argumentatives que nous avons simulées
In this thesis, we investigate the expression of arguments in natural language (NL). Our work has two motivations: theoretical motivation is to understand and simulate the sense of reasoning underlies the argumentative process and clarify the intuition that distinguishes between good and bad arguments, and a practical motivation: helping eventually, assistance in writing text descriptions "good" reasoned. The objective of this thesis is the realization of a system that can generate a description that is argued better for one of the protagonists of the accident. In this work, we cooperate in various ways within the same architecture as well as the reasoning component language. The idea is to take advantage of advanced artificial intelligence in terms of formalization of reasoning to reproduce a basic form of argument used by people everyday and who draws much of its force in the flexible and subjectivity of the LN. For knowledge representation and reasoning, we defined a language of first order reified which takes into account some useful terms, the temporal information and non-monotonic inferences expressed using a fragment of logic Reiter defects. For implementation, we used the paradigm Answer Set Programming by translating our rules of inference in extended logic programs expressed in the languages models. Finally, to validate the quality of the descriptions generated by our system, we used a psychological experience with the help of specialists in cognitive psychology. The results of this experiment are encouraging and have confirmed the overall relevance of the argumentative strategies that we simulated
Estilos ABNT, Harvard, Vancouver, APA, etc.
18

Bourcier, Frédéric. "Représentation des connaissances pour la résolution de problèmes et la génération d'explications en langue naturelle : contribution au projet AIDE". Compiègne, 1996. http://www.theses.fr/1996COMPD903.

Texto completo da fonte
Resumo:
Dans le cadre du projet AIDE dont l'objectif est la conception d'un générateur de systèmes experts explicatifs, nous nous sommes intéressés à la représentation explicite du sens de textes explicatifs et au mécanisme permettant de les générer en langue naturelle. Notre étude sur la représentation du sens d'explications nous a conduits à contribuer au développement de la représentation générale des connaissances. Dans ce but, nous avons été amenés a étendre un formalisme de type réseaux sémantiques. Nous avons ainsi adjoint une nouvelle construction nous permettant notamment de représenter l'expression de connaissances sémantiques par des connaissances linguistiques (syntaxiques, morphologiques et lexicales), que nous avons incorporées dans le cadre d'un résolveur de problèmes de contrôle de procédés (SEFOR). Nous avons également introduit la notion d'ensemble, de façon à distinguer des collections d'objets. Enfin, nous avons défini une structure de représentation sémantique servant à représenter d'une part des propositions définitionnelles et d'autre part des explications, en tenant compte de leur intention communicative et de leur contenu informationnel. Pour valider l'ensemble de l'architecture des connaissances du générateur en tenant compte des nouvelles constructions, nous avons conçu et associé à un module de construction d'explications (Gréboval 94), un module de génération en langue naturelle. Ce dernier, suite à une phase de traduction sémantique, applique différentes phases de génération : syntaxique et morpho-lexicale, pour produire une phrase en français.
Estilos ABNT, Harvard, Vancouver, APA, etc.
19

Shimorina, Anastasia. "Natural Language Generation : From Data Creation to Evaluation via Modelling". Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0080.

Texto completo da fonte
Resumo:
La génération en langue naturelle (natural language generation, NLG) est le processus qui consiste à générer du texte dans une langue naturelle à partir de données d’entrée. Ces entrées peuvent prendre la forme de textes, de documents, d’images, de tableaux, de graphes (réseaux de connaissances), de bases de données, d’actes de dialogue, ou d’autres représentations sémantiques. Les méthodes récentes en NLG, principalement basées sur des modèles neuronaux, ont apporté des améliorations significatives. Malgré ces récents progrès, de nombreux problèmes liés à la tâche de génération subsistent, tels que celui de la fidélité aux données d’entrée, du développement de modèles multilingues, ou de la génération à partir de peu d’exemples. Cette thèse explore trois aspects de la NLG : tout d’abord, la création de données d’apprentissage, puis le développement de modèles de génération, et enfin l’évaluation des méthodes proposées. Nous abordons la question du multilinguisme et proposons des stratégies de traduction semi-automatique de corpus destinés à l’entraînement de modèles de NLG. Nous montrons que les entités nommées constituent un obstacle majeur dans la réalisation de la tâche de traduction, ici considérée de l’anglais vers le russe. Nous décrivons ensuite deux méthodes de traitement des entités rares dans les données d’apprentissages des modèles de NLG : la copie et la délexicalisation. Nous démontrons que l’effet de ces deux mécanismes varie fortement selon la manière dont les données sont construites, et que les entités rares ont un impact important sur les performances des modèles. Concernant la génération multilingue, nous développons une approche modulaire de réalisation de surface superficielle (shallow surface realisation, SSR) pour plusieurs langues. Notre approche consiste à diviser la tâche de SSR en trois composantes : l’ordonnancement des mots, l’inflexion morphologique et la génération de contractions. Nous montrons, via la délexicalisation, que la composante d’ordonnancement s’appuie principalement sur les informations syntaxiques. En plus de nos contributions concernant la modélisation, nous proposons un cadre d’analyse des erreurs axé sur l’ordre des mots, pour la tâche de SSR. Ce cadre permet d’obtenir un aperçu linguistique des performances des modèles au niveau de la phrase et d’identifier les cas où un modèle échoue. Enfin, nous abordons le sujet de l’évaluation de manière plus générale et comparons différentes métriques automatiques et humaines ; nous soulignons la différence entre les méthodes d’évaluation au niveau de la phrase et les méthodes d’évaluations au niveau du corpus
Natural language generation is a process of generating a natural language text from some input. This input can be texts, documents, images, tables, knowledge graphs, databases, dialogue acts, meaning representations, etc. Recent methods in natural language generation, mostly based on neural modelling, have yielded significant improvements in the field. Despite this recent success, numerous issues with generation prevail, such as faithfulness to the source, developing multilingual models, few-shot generation. This thesis explores several facets of natural language generation from creating training datasets and developing models to evaluating proposed methods and model outputs. In this thesis, we address the issue of multilinguality and propose possible strategies to semi-automatically translate corpora for data-to-text generation. We show that named entities constitute a major stumbling block in translation exemplified by the English-Russian translation pair. We proceed to handle rare entities in data-to-text modelling exploring two mechanisms: copying and delexicalisation. We demonstrate that rare entities strongly impact performance and that the impact of these two mechanisms greatly varies depending on how datasets are constructed. Getting back to multilinguality, we also develop a modular approach for shallow surface realisation in several languages. Our approach splits the surface realisation task into three submodules: word ordering, morphological inflection and contraction generation. We show, via delexicalisation, that the word ordering component mainly depends on syntactic information. Along with the modelling, we also propose a framework for error analysis, focused on word order, for the shallow surface realisation task. The framework enables to provide linguistic insights into model performance on the sentence level and identify patterns where models underperform. Finally, we also touch upon the subject of evaluation design while assessing automatic and human metrics, highlighting the difference between the sentence-level and system-level type of evaluation
Estilos ABNT, Harvard, Vancouver, APA, etc.
20

Pilana, Liyanage Vijini. "Detection of automatically generated academic Content". Electronic Thesis or Diss., Paris 13, 2024. http://www.theses.fr/2024PA131014.

Texto completo da fonte
Resumo:
Dans cette thèse, nous avons concentré notre intérêt sur l'identification de technologies/méthodologies de détection de contenus académiques générés artificiellement. Les principales contributions de cette thèse sont triples. Tout d'abord, nous avons construit plusieurs corpus composés de textes académiques générés automatiquement. Dans cette tâche, nous avons utilisé plusieurs derniers modèles NLG pour la tâche de génération. Ces corpus contiennent des contenus entièrement générés ainsi que des contenus composés de manière hybride (avec intervention humaine). Ensuite, nous avons utilisé plusieurs modèles statistiques et d'apprentissage profond pour la détection des contenus générés à partir du contenu original (écrit par l'homme). Dans ce scénario, nous avons considéré la détection comme une tâche de classification binaire. Ainsi, plusieurs modèles de classification SOTA ont été utilisés. Les modèles ont été améliorés ou modifiés à l'aide de techniques d'assemblage pour obtenir une plus grande précision de détection. De plus, nous avons utilisé plusieurs outils de détection les plus récents pour identifier leur capacité à distinguer le texte généré automatiquement. Enfin, les corpus générés ont été testés par rapport aux bases de connaissances afin de trouver d'éventuelles inadéquations susceptibles d'aider à améliorer la tâche de détection. Les résultats de cette thèse soulignent l'importance d'imiter le comportement humain en tirant parti des modèles de génération ainsi que d'utiliser des corpus réalistes et stimulants dans les recherches futures visant à détecter des textes générés artificiellement. Enfin, nous souhaitons souligner le fait que, quelle que soit l'avancée de la technologie, il est toujours crucial de se concentrer sur l'aspect éthique de son utilisation
In this thesis, we have focused our interest on identifying technologies /methodologies in detecting artificially generated academic content. The principal contributions of this thesis are threefold. First, we built several corpora that are composed of machine generated academic text. In this task we utilized several latest NLG models for the generation task. These corpora contain contents that are fully generated as well as contents that are composed in a hybrid manner (with human intervention). Then, we employed several statistical as well as deep learning models for the detection of generated contents from original (human written) content. In this scenario, we considered detection as a binary classification task. Thus several SOTA classification models were employed. The models were improved or modified using ensembling techniques to gain higher accuracies in detection. Moreover, we made use of several latest detection tools to identify their capability in distinguishing machine generated text. Finally, the generated corpora were tested against knowledge bases to find any mismatches that could help to improve the detection task. The results of this thesis underline the importance of mimicking human behavior in leveraging the generation models as well of using realistic and challenging corpora in future research aimed at detecting artificially generated text. Finally, we would like to highlight the fact that no matter how advanced the technology is, it is always crucial to concentrate on the ethical aspect of making use of such technology
Estilos ABNT, Harvard, Vancouver, APA, etc.
21

Perez, Laura Haide. "Génération automatique de phrases pour l'apprentissage des langues". Electronic Thesis or Diss., Université de Lorraine, 2013. http://www.theses.fr/2013LORR0062.

Texto completo da fonte
Resumo:
Dans ces travaux, nous explorons comment les techniques de Générations Automatiques de Langue Naturelle (GLN) peuvent être utilisées pour aborder la tâche de génération (semi-)automatique de matériel et d'activités dans le contexte de l'apprentissage de langues assisté par ordinateur. En particulier, nous montrons comment un Réalisateur de Surface (RS) basé sur une grammaire peut être exploité pour la création automatique d'exercices de grammaire. Notre réalisateur de surface utilise une grammaire réversible étendue, à savoir SemTAG, qui est une Grammaire d'Arbre Adjoints à Structure de Traits (FB-TAG) couplée avec une sémantique compositionnelle basée sur l'unification. Plus précisément, la grammaire FB-TAG intègre une représentation plate et sous-spécifiée des formules de Logique de Premier Ordre (FOL). Dans la première partie de la thèse, nous étudions la tâche de réalisation de surface à partir de formules sémantiques plates et nous proposons un algorithme de réalisation de surface basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases longues étant donné une grammaire et un lexique à large couverture. L'approche suivie pour l'optimisation de la réalisation de surface basée sur FB-TAG à partir de sémantiques plates repose sur le fait qu'une grammaire FB-TAG peut être traduite en une Grammaire d'Arbres Réguliers à Structure de Traits (FB-RTG) décrivant ses arbres de dérivation. Le langage d'arbres de dérivation de la grammaire TAG constitue un langage plus simple que le langage d'arbres dérivés, c'est pourquoi des approches de génération basées sur les arbres de dérivation ont déjà été proposées. Notre approche se distingue des précédentes par le fait que notre encodage FB-RTG prend en compte les structures de traits présentes dans la grammaire FB-TAG originelle, ayant de ce fait des conséquences importantes par rapport à la sur-génération et la préservation de l'interface syntaxe-sémantique. L'algorithme de génération d'arbres de dérivation que nous proposons est un algorithme de type Earley intégrant un ensemble de techniques d'optimisation bien connues: tabulation, partage-compression (sharing-packing) et indexation basée sur la sémantique. Dans la seconde partie de la thèse, nous explorons comment notre réalisateur de surface basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exercices de grammaire. Habituellement, les enseignants éditent manuellement les exercices et leurs solutions et les classent au regard de leur degré de difficulté ou du niveau attendu de l'apprenant. Un courant de recherche dans le Traitement Automatique des Langues (TAL) pour l'apprentissage des langues assisté par ordinateur traite de la génération (semi-)automatique d'exercices. Principalement, ces travaux s'appuient sur des textes extraits du Web, utilisent des techniques d'apprentissage automatique et des techniques d'analyse de textes (par exemple, analyse de phrases, POS tagging, etc.). Ces approches confrontent l'apprenant à des phrases qui ont des syntaxes potentiellement complexes et du vocabulaire varié. En revanche, l'approche que nous proposons dans cette thèse aborde la génération (semi-)automatique d'exercices du type rencontré dans les manuels pour l'apprentissage des langues. Il s'agit, en d'autres termes, d'exercices dont la syntaxe et le vocabulaire sont faits sur mesure pour des objectifs pédagogiques et des sujets donnés. Les approches de génération basées sur des grammaires associent les phrases du langage naturel avec une représentation linguistique fine de leur propriété morpho-syntaxiques et de leur sémantique grâce à quoi il est possible de définir un langage de contraintes syntaxiques et morpho-syntaxiques permettant la sélection de phrases souches en accord avec un objectif pédagogique donné. Cette représentation permet en outre d'opérer un post-traitement des phrases sélectionées pour construire des exercices de grammaire
In this work, we explore how Natural Language Generation (NLG) techniques can be used to address the task of (semi-)automatically generating language learning material and activities in Camputer-Assisted Language Learning (CALL). In particular, we show how a grammar-based Surface Realiser (SR) can be usefully exploited for the automatic creation of grammar exercises. Our surface realiser uses a wide-coverage reversible grammar namely SemTAG, which is a Feature-Based Tree Adjoining Grammar (FB-TAG) equipped with a unification-based compositional semantics. More precisely, the FB-TAG grammar integrates a flat and underspecified representation of First Order Logic (FOL) formulae. In the first part of the thesis, we study the task of surface realisation from flat semantic formulae and we propose an optimised FB-TAG-based realisation algorithm that supports the generation of longer sentences given a large scale grammar and lexicon. The approach followed to optimise TAG-based surface realisation from flat semantics draws on the fact that an FB-TAG can be translated into a Feature-Based Regular Tree Grammar (FB-RTG) describing its derivation trees. The derivation tree language of TAG constitutes a simpler language than the derived tree language, and thus, generation approaches based on derivation trees have been already proposed. Our approach departs from previous ones in that our FB-RTG encoding accounts for feature structures present in the original FB-TAG having thus important consequences regarding over-generation and preservation of the syntax-semantics interface. The concrete derivation tree generation algorithm that we propose is an Earley-style algorithm integrating a set of well-known optimisation techniques: tabulation, sharing-packing, and semantic-based indexing. In the second part of the thesis, we explore how our SemTAG-based surface realiser can be put to work for the (semi-)automatic generation of grammar exercises. Usually, teachers manually edit exercises and their solutions, and classify them according to the degree of dificulty or expected learner level. A strand of research in (Natural Language Processing (NLP) for CALL addresses the (semi-)automatic generation of exercises. Mostly, this work draws on texts extracted from the Web, use machine learning and text analysis techniques (e.g. parsing, POS tagging, etc.). These approaches expose the learner to sentences that have a potentially complex syntax and diverse vocabulary. In contrast, the approach we propose in this thesis addresses the (semi-)automatic generation of grammar exercises of the type found in grammar textbooks. In other words, it deals with the generation of exercises whose syntax and vocabulary are tailored to specific pedagogical goals and topics. Because the grammar-based generation approach associates natural language sentences with a rich linguistic description, it permits defining a syntactic and morpho-syntactic constraints specification language for the selection of stem sentences in compliance with a given pedagogical goal. Further, it allows for the post processing of the generated stem sentences to build grammar exercise items. We show how Fill-in-the-blank, Shuffle and Reformulation grammar exercises can be automatically produced. The approach has been integrated in the Interactive French Learning Game (I-FLEG) serious game for learning French and has been evaluated both based in the interactions with online players and in collaboration with a language teacher
Estilos ABNT, Harvard, Vancouver, APA, etc.
22

Fan, Huihui. "Text Generation with and without Retrieval". Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0164.

Texto completo da fonte
Resumo:
Tous les jours, nous écrivons --- qu'il s'agisse d'envoyer un texte rapide à votre mère ou de rédiger un article scientifique tel que cette thèse. Les logiciels modernes de messagerie instantanée suggèrent souvent le mot à écrire ensuite, les courriers électroniques peuvent être lancés à l'aide d'un autocomposeur et les rédactions sont améliorées grâce à des suggestions de la machine. Ces technologies sont le fruit d'années de recherche sur la génération de texte, un domaine du traitement du langage naturel dont l'objectif est de produire automatiquement un langage naturel fluide et lisible par l'homme. À petite échelle, les systèmes de génération de texte peuvent générer des mots ou des phrases isolés, mais leurs applications vont bien au-delà. Par exemple, les systèmes de résumé, de dialogue et même la rédaction d'articles entiers de Wikipédia reposent sur la technologie fondamentale de génération de texte. La production d'un langage naturel fluide, précis et utile est confrontée à de nombreux défis. Les progrès récents en matière de génération de texte, qui s'appuient principalement sur l'apprentissage d'architectures de réseaux neuronaux sur de grands ensembles de données, ont considérablement amélioré la lisibilité de surface du texte généré par la machine. Cependant, les systèmes actuels nécessitent des améliorations sur de nombreux axes, notamment la génération de textes autres que l'anglais et la rédaction de textes de plus en plus longs. Bien que le domaine ait connu des progrès rapides, la recherche s'est surtout concentrée sur la langue anglaise, où des ensembles de données d'entraînement et d'évaluation à grande échelle pour diverses tâches sont facilement disponibles. Néanmoins, les applications allant de l'autocorrection à l'autocomposition de texte devraient être disponibles universellement. Après tout, la majorité de la population mondiale n'écrit pas en anglais. Dans ce travail, nous créons des systèmes de génération de texte pour diverses tâches avec la capacité d'incorporer des langues autres que l'anglais, soit sous forme d'algorithmes qui s'étendent facilement à de nouvelles langues. Au-delà de nos travaux sur la génération de textes multilingues, nous nous concentrons sur un élément essentiel des systèmes de génération : la connaissance. Pour bien écrire, il faut d'abord savoir quoi écrire. Ce concept de connaissance est incroyablement important dans les systèmes de génération de texte. Par exemple, la rédaction automatique d'un article complet sur Wikipédia nécessite une recherche approfondie sur le sujet de l'article. L'instinct de recherche est souvent intuitif --- il y a quelques décennies, les gens se seraient rendus dans une bibliothèque, remplacés aujourd'hui par les informations disponibles sur le World Wide Web. Cependant, pour les systèmes automatisés, la question n'est pas seulement de savoir quelles connaissances utiliser pour générer du texte, mais aussi comment récupérer ces connaissances et les utiliser au mieux pour atteindre l'objectif de communication visé. Nous relevons le défi de la génération de texte basée sur la récupération. Nous présentons plusieurs techniques permettant d'identifier les connaissances pertinentes à différentes échelles : des connaissances locales disponibles dans un paragraphe à l'identification de l'aiguille dans la botte de foin à l'échelle du web complet, en passant par le passage au crible de Wikipedia. Nous décrivons des architectures de réseaux neuronaux capables d'effectuer efficacement des recherches à grande échelle, en utilisant des mécanismes de précalcul et de mise en cache. Enfin, nous utilisons ces architectures dans des tâches nouvelles, beaucoup plus difficiles, qui repoussent les limites des modèles de génération de texte qui fonctionnent bien aujourd'hui : des tâches qui nécessitent des connaissances, mais qui exigent également que les modèles produisent des résultats longs et structurés en langage naturel
Every day we write --- from sending your mother a quick text to drafting a scientific article such as this thesis. The writing we do often goes hand-in-hand with automated assistance. For example, modern instant messaging software often suggests what word to write next, emails can be started with an autocomposer, and essays are improved with machine-suggested edits. These technologies are powered by years of research on text generation, a natural language processing field with the goal of automatically producing fluent, human-readable natural language. At a small scale, text generation systems can generate individual words or sentences, but have wide-reaching applications beyond that. For instance, systems for summarization, dialogue, and even the writing of entire Wikipedia articles are grounded in foundational text generation technology.Producing fluent, accurate, and useful natural language faces numerous challenges. Recent advances in text generation, principally leveraging training neural network architectures on large datasets, have significantly improved the surface-level readability of machine-generated text. However, current systems necessitate improvement along numerous axes, including generation beyond English and writing increasingly longer texts. While the field has seen rapid progress, much research focus has been directed towards the English language, where large-scale training and evaluation datasets for various tasks are readily available. Nevertheless, applications from autocorrect to autocomposition of text should be available universally. After all, by population, the majority of the world does not write in English. In this work, we create text generation systems for various tasks with the capability of incorporating languages beyond English, either as algorithms that easily extend to new languages or multilingual models encompassing up to 20 languages in one model.Beyond our work in multilingual text generation, we focus on a critical piece of generation systems: knowledge. A pre-requisite to writing well is knowing what to write. This concept of knowledge is incredibly important in text generation systems. For example, automatically writing an entire Wikipedia article requires extensive research on that article topic. The instinct to research is often intuitive --- decades ago people would have gone to a library, replaced now by the information available on the World Wide Web. However, for automated systems, the question is not only what knowledge to use to generate text, but also how to retrieve that knowledge and best utilize it to achieve the intended communication goal.We face the challenge of retrieval-based text generation. We present several techniques for identifying relevant knowledge at different scales: from local knowledge available in a paragraph to sifting through Wikipedia, and finally identifying the needle-in-the-haystack on the scale of the full web. We describe neural network architectures that can perform large-scale retrieval efficiently, utilizing pre-computation and caching mechanisms. Beyond how to retrieve knowledge, we further investigate the form the knowledge should take --- from natural language such as Wikipedia articles or text on the web to structured inputs in the form of knowledge graphs. Finally, we utilize these architectures in novel, much more challenging tasks that push the boundaries of where text generation models work well today: tasks that necessitate knowledge but also require models to produce long, structured natural language output, such as answering complex questions or writing full Wikipedia articles
Estilos ABNT, Harvard, Vancouver, APA, etc.
23

Baez, miranda Belen. "Génération de récits à partir de données ambiantes". Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM049/document.

Texto completo da fonte
Resumo:
Le récit est un outil de communication qui permet aux individus de donner un sens au monde qui les entoure. Il représente une plate-forme pour comprendre et partager leur culture, connaissances et identité. Le récit porte une série d'événements réels ou imaginaires, en provoquant un ressenti, une réaction ou même, déclenche une action. Pour cette raison, il est devenu un sujet d'intérêt pour différents domaines au-delà de la Littérature (Éducation, Marketing, Psychologie, etc.) qui cherchent d'atteindre un but particulier au travers de lui (Persuader, Réfléchir, Apprendre, etc.).Cependant, le récit reste encore sous-développé dans le contexte informatique. Il existent des travaux qui visent son analyse et production automatique. Les algorithmes et implémentations, par contre, restent contraintes à imiter le processus créatif derrière des textes littéraires provenant de sources textuelles. Ainsi, il n'existent pas des approches qui produisent automatiquement des récits dont 1) la source est constitué de matériel non formatées et passé dans la réalité et 2) et le contenu projette une perspective qui cherche à transmettre un message en particulier. Travailler avec des données brutes devient relevante vu qu'elles augmentent exponentiellement chaque jour grâce à l'utilisation d'appareils connectés.Ainsi, vu le contexte du Big Data, nous présentons une approche de génération automatique de récits à partir de données ambiantes. L'objectif est de faire émerger l'expérience vécue d'une personne à partir des données produites pendant une activité humaine. Tous les domaines qui travaillent avec des données brutes pourraient bénéficier de ce travail, tels que l'Éducation ou la Santé. Il s'agit d'un effort interdisciplinaire qui inclut le Traitement Automatique de Langues, la Narratologie, les Sciences Cognitives et l'Interaction Homme-Machine.Cette approche est basée sur des corpus et modèles et comprend la formalisation de ce que nous appelons le récit d'activité ainsi qu'une démarche de génération adaptée. Elle a est composé de 4 étapes : la formalisation des récits d'activité, la constitution de corpus, la construction de modèles d'activité et du récit, et la génération de texte. Chacune a été conçue pour surmonter des contraintes liées aux questions scientifiques posées vue la nature de l'objectif : la manipulation de données incertaines et incomplètes, l'abstraction valide d'après l'activité, la construction de modèles avec lesquels il soit possible la transposition de la réalité gardée dans les données vers une perspective subjective et la rendue en langage naturel. Nous avons utilisé comme cas d'usage le récit d'activité, vu que les pratiquant se servent des appareils connectés, ainsi qu'ils ont besoin de partager son expérience. Les résultats obtenus sont encourageants et donnent des pistes qui ouvrent beaucoup de perspectives de recherche
Stories are a communication tool that allow people to make sense of the world around them. It represents a platform to understand and share their culture, knowledge and identity. Stories carry a series of real or imaginary events, causing a feeling, a reaction or even trigger an action. For this reason, it has become a subject of interest for different fields beyond Literature (Education, Marketing, Psychology, etc.) that seek to achieve a particular goal through it (Persuade, Reflect, Learn, etc.).However, stories remain underdeveloped in Computer Science. There are works that focus on its analysis and automatic production. However, those algorithms and implementations remain constrained to imitate the creative process behind literary texts from textual sources. Thus, there are no approaches that produce automatically stories whose 1) the source consists of raw material that passed in real life and 2) and the content projects a perspective that seeks to convey a particular message. Working with raw data becomes relevant today as it increase exponentially each day through the use of connected devices.Given the context of Big Data, we present an approach to automatically generate stories from ambient data. The objective of this work is to bring out the lived experience of a person from the data produced during a human activity. Any areas that use such raw data could benefit from this work, for example, Education or Health. It is an interdisciplinary effort that includes Automatic Language Processing, Narratology, Cognitive Science and Human-Computer Interaction.This approach is based on corpora and models and includes the formalization of what we call the activity récit as well as an adapted generation approach. It consists of 4 stages: the formalization of the activity récit, corpus constitution, construction of models of activity and the récit, and the generation of text. Each one has been designed to overcome constraints related to the scientific questions asked in view of the nature of the objective: manipulation of uncertain and incomplete data, valid abstraction according to the activity, construction of models from which it is possible the Transposition of the reality collected though the data to a subjective perspective and rendered in natural language. We used the activity narrative as a case study, as practitioners use connected devices, so they need to share their experience. The results obtained are encouraging and give leads that open up many prospects for research
Estilos ABNT, Harvard, Vancouver, APA, etc.
24

Perez, Laura Haide. "Génération automatique de phrases pour l'apprentissage des langues". Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0062/document.

Texto completo da fonte
Resumo:
Dans ces travaux, nous explorons comment les techniques de Générations Automatiques de Langue Naturelle (GLN) peuvent être utilisées pour aborder la tâche de génération (semi-)automatique de matériel et d'activités dans le contexte de l'apprentissage de langues assisté par ordinateur. En particulier, nous montrons comment un Réalisateur de Surface (RS) basé sur une grammaire peut être exploité pour la création automatique d'exercices de grammaire. Notre réalisateur de surface utilise une grammaire réversible étendue, à savoir SemTAG, qui est une Grammaire d'Arbre Adjoints à Structure de Traits (FB-TAG) couplée avec une sémantique compositionnelle basée sur l'unification. Plus précisément, la grammaire FB-TAG intègre une représentation plate et sous-spécifiée des formules de Logique de Premier Ordre (FOL). Dans la première partie de la thèse, nous étudions la tâche de réalisation de surface à partir de formules sémantiques plates et nous proposons un algorithme de réalisation de surface basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases longues étant donné une grammaire et un lexique à large couverture. L'approche suivie pour l'optimisation de la réalisation de surface basée sur FB-TAG à partir de sémantiques plates repose sur le fait qu'une grammaire FB-TAG peut être traduite en une Grammaire d'Arbres Réguliers à Structure de Traits (FB-RTG) décrivant ses arbres de dérivation. Le langage d'arbres de dérivation de la grammaire TAG constitue un langage plus simple que le langage d'arbres dérivés, c'est pourquoi des approches de génération basées sur les arbres de dérivation ont déjà été proposées. Notre approche se distingue des précédentes par le fait que notre encodage FB-RTG prend en compte les structures de traits présentes dans la grammaire FB-TAG originelle, ayant de ce fait des conséquences importantes par rapport à la sur-génération et la préservation de l'interface syntaxe-sémantique. L'algorithme de génération d'arbres de dérivation que nous proposons est un algorithme de type Earley intégrant un ensemble de techniques d'optimisation bien connues: tabulation, partage-compression (sharing-packing) et indexation basée sur la sémantique. Dans la seconde partie de la thèse, nous explorons comment notre réalisateur de surface basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exercices de grammaire. Habituellement, les enseignants éditent manuellement les exercices et leurs solutions et les classent au regard de leur degré de difficulté ou du niveau attendu de l'apprenant. Un courant de recherche dans le Traitement Automatique des Langues (TAL) pour l'apprentissage des langues assisté par ordinateur traite de la génération (semi-)automatique d'exercices. Principalement, ces travaux s'appuient sur des textes extraits du Web, utilisent des techniques d'apprentissage automatique et des techniques d'analyse de textes (par exemple, analyse de phrases, POS tagging, etc.). Ces approches confrontent l'apprenant à des phrases qui ont des syntaxes potentiellement complexes et du vocabulaire varié. En revanche, l'approche que nous proposons dans cette thèse aborde la génération (semi-)automatique d'exercices du type rencontré dans les manuels pour l'apprentissage des langues. Il s'agit, en d'autres termes, d'exercices dont la syntaxe et le vocabulaire sont faits sur mesure pour des objectifs pédagogiques et des sujets donnés. Les approches de génération basées sur des grammaires associent les phrases du langage naturel avec une représentation linguistique fine de leur propriété morpho-syntaxiques et de leur sémantique grâce à quoi il est possible de définir un langage de contraintes syntaxiques et morpho-syntaxiques permettant la sélection de phrases souches en accord avec un objectif pédagogique donné. Cette représentation permet en outre d'opérer un post-traitement des phrases sélectionées pour construire des exercices de grammaire
In this work, we explore how Natural Language Generation (NLG) techniques can be used to address the task of (semi-)automatically generating language learning material and activities in Camputer-Assisted Language Learning (CALL). In particular, we show how a grammar-based Surface Realiser (SR) can be usefully exploited for the automatic creation of grammar exercises. Our surface realiser uses a wide-coverage reversible grammar namely SemTAG, which is a Feature-Based Tree Adjoining Grammar (FB-TAG) equipped with a unification-based compositional semantics. More precisely, the FB-TAG grammar integrates a flat and underspecified representation of First Order Logic (FOL) formulae. In the first part of the thesis, we study the task of surface realisation from flat semantic formulae and we propose an optimised FB-TAG-based realisation algorithm that supports the generation of longer sentences given a large scale grammar and lexicon. The approach followed to optimise TAG-based surface realisation from flat semantics draws on the fact that an FB-TAG can be translated into a Feature-Based Regular Tree Grammar (FB-RTG) describing its derivation trees. The derivation tree language of TAG constitutes a simpler language than the derived tree language, and thus, generation approaches based on derivation trees have been already proposed. Our approach departs from previous ones in that our FB-RTG encoding accounts for feature structures present in the original FB-TAG having thus important consequences regarding over-generation and preservation of the syntax-semantics interface. The concrete derivation tree generation algorithm that we propose is an Earley-style algorithm integrating a set of well-known optimisation techniques: tabulation, sharing-packing, and semantic-based indexing. In the second part of the thesis, we explore how our SemTAG-based surface realiser can be put to work for the (semi-)automatic generation of grammar exercises. Usually, teachers manually edit exercises and their solutions, and classify them according to the degree of dificulty or expected learner level. A strand of research in (Natural Language Processing (NLP) for CALL addresses the (semi-)automatic generation of exercises. Mostly, this work draws on texts extracted from the Web, use machine learning and text analysis techniques (e.g. parsing, POS tagging, etc.). These approaches expose the learner to sentences that have a potentially complex syntax and diverse vocabulary. In contrast, the approach we propose in this thesis addresses the (semi-)automatic generation of grammar exercises of the type found in grammar textbooks. In other words, it deals with the generation of exercises whose syntax and vocabulary are tailored to specific pedagogical goals and topics. Because the grammar-based generation approach associates natural language sentences with a rich linguistic description, it permits defining a syntactic and morpho-syntactic constraints specification language for the selection of stem sentences in compliance with a given pedagogical goal. Further, it allows for the post processing of the generated stem sentences to build grammar exercise items. We show how Fill-in-the-blank, Shuffle and Reformulation grammar exercises can be automatically produced. The approach has been integrated in the Interactive French Learning Game (I-FLEG) serious game for learning French and has been evaluated both based in the interactions with online players and in collaboration with a language teacher
Estilos ABNT, Harvard, Vancouver, APA, etc.
25

Hadjadj, Mohammed. "Modélisation de la Langue des Signes Française : Proposition d’un système à compositionalité sémantique". Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS560/document.

Texto completo da fonte
Resumo:
La reconnaissance de la langue des signes française (LSF) comme une langue à part entière en 2005 a créé un besoin important de développement d’outils informatiques pour rendre l’information accessible au public sourd. Dans cette perspective, cette thèse a pour cadre la modélisation linguistique pour un système de génération de la LSF. Nous présentons dans un premier temps les différentes approches linguistiques ayant pour but la description linguistique des langues des signes (LS). Nous présentons ensuite les travaux effectués en informatique pour les modéliser.Dans un deuxième temps, nous proposons une approche permettant de prendre en compte les caractéristiques linguistiques propres au LS tout en respectant les contraintes d’un processus de formalisation. En étudiant des liens entre des fonctions sémantiques et leurs formes observées dans les corpus LSF, nous avons identifié plusieurs règles de production. Nous présentons finalement le fonctionnement des règles comme étant un système susceptible de modéliser un énoncé entier en LSF
The recognition of French Sign Language (LSF) as a natural language in 2005 has created an important need for the development of tools to make information accessible to the deaf public. With this prospect, this thesis aims at linguistic modeling for a system of generation of LSF. We first present the different linguistic approaches aimed at describing the sign language (SL). We then present the models proposed in computer science. In a second step, we propose an approach allowing to take into account the linguistic properties of the SL while respecting the constraints of a formalisation process.By studying the links between semantic functions and their observed forms in LSF Corpora, we have identified several production rules. We finally present the rule functioning as a system capable of modeling an entire utterance in LSF
Estilos ABNT, Harvard, Vancouver, APA, etc.
26

Cripwell, Liam. "Controllable and Document-Level Text Simplification". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0186.

Texto completo da fonte
Resumo:
La simplification de texte est une tâche qui consiste à réécrire un texte pour le rendre plus facile à lire et à comprendre pour un public plus large, tout en exprimant toujours le même sens fondamental. Cela présente des avantages potentiels pour certains utilisateurs (par exemple, les locuteurs non natifs, les enfants, les personnes ayant des difficultés de lecture), tout en étant prometteur en tant qu'étape de prétraitement pour les tâches de Traitement Automatique des Langues (TAL) en aval. Les progrès récents dans les modèles génératifs neuronaux ont conduit au développement de systèmes capables de produire des sorties très fluides. Cependant, étant donné la nature de "boîte noire" (black box) de ces systèmes de bout en bout, l'utilisation de corpus d'entraînement pour apprendre implicitement comment effectuer les opérations de réécriture nécessaires. Dans le cas de la simplification, ces ensembles de données comportent des limitation en termes à la fois de quantité et de qualité, la plupart des corpus étant soit très petits, soit construits automatiquement, soit soumis à des licences d'utilisation strictes. En conséquence, de nombreux systèmes ont tendance à être trop conservateurs, n'apportant souvent aucune modification au texte original ou se limitant à la paraphrase de courtes séquences de mots sans modifications structurelles substantielles. En outre, la plupart des travaux existants sur la simplification du texte se limitent aux entrées au niveau de la phrase, les tentatives d'application itérative de ces approches à la simplification au niveau du document ne parviennent en effet souvent pas à préserver de manière cohérente la structure du discours du document. Ceci est problématique, car la plupart des applications réelles de simplification de texte concernent des documents entiers. Dans cette thèse, nous étudions des stratégies pour atténuer la conservativité des systèmes de simplification tout en favorisant une gamme plus diversifiée de types de transformation. Cela implique la création de nouveaux ensembles de données contenant des instances d'opérations sous-représentées et la mise en œuvre de systèmes contrôlables capables d'être adaptés à des transformations spécifiques et à différents niveaux de simplicité. Nous étendons ensuite ces stratégies à la simplification au niveau du document, en proposant des systèmes capables de prendre en compte le contexte du document environnant. Nous développons également des techniques de contrôlabilité permettant de planifier les opérations à effectuer, à l'avance et au niveau de la phrase. Nous montrons que ces techniques permettent à la fois des performances élevées et une évolutivité des modèles de simplification
Text simplification is a task that involves rewriting a text to make it easier to read and understand for a wider audience, while still expressing the same core meaning. This has potential benefits for disadvantaged end-users (e.g. non-native speakers, children, the reading impaired), while also showing promise as a preprocessing step for downstream NLP tasks. Recent advancement in neural generative models have led to the development of systems that are capable of producing highly fluent outputs. However, these end-to-end systems often rely on training corpora to implicitly learn how to perform the necessary rewrite operations. In the case of simplification, these datasets are lacking in both quantity and quality, with most corpora either being very small, automatically constructed, or subject to strict licensing agreements. As a result, many systems tend to be overly conservative, often making no changes to the original text or being limited to the paraphrasing of short word sequences without substantial structural modifications. Furthermore, most existing work on text simplification is limited to sentence-level inputs, with attempts to iteratively apply these approaches to document-level simplification failing to coherently preserve the discourse structure of the document. This is problematic, as most real-world applications of text simplification concern document-level texts. In this thesis, we investigate strategies for mitigating the conservativity of simplification systems while promoting a more diverse range of transformation types. This involves the creation of new datasets containing instances of under-represented operations and the implementation of controllable systems capable of being tailored towards specific transformations and simplicity levels. We later extend these strategies to document-level simplification, proposing systems that are able to consider surrounding document context and use similar controllability techniques to plan which sentence-level operations to perform ahead of time, allowing for both high performance and scalability. Finally, we analyze current evaluation processes and propose new strategies that can be used to better evaluate both controllable and document-level simplification systems
Estilos ABNT, Harvard, Vancouver, APA, etc.
27

Mickus, Timothee. "On the Status of Word Embeddings as Implementations of the Distributional Hypothesis". Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0066.

Texto completo da fonte
Resumo:
Cette thèse s'intéresse au statut des plongements lexicaux (ou "word embeddings"), c'est-à-dire des vecteurs de mots issus de modèles de Traitement Automatique des Langues. Plus particulièrement, notre intérêt se porte sur leur valeur linguistique et la relation qu'ils entretiennent avec la sémantique distributionnnelle, le champ d'études fondé sur l'hypothèse que le contexte est corrélé au sens. L'objet de notre recherche est d'établir si ces plongements lexicaux peuvent être considérés comme une implémentation concrète de la sémantique distributionnelle. Notre première approche dans cette étude consiste à comparer les plongements lexicaux à d'autres représentations du sens, en particulier aux définitions telles qu'on en trouve dans des dictionnaires. Cette démarche se fonde sur l'hypothèse que des représentations sémantiques de deux formalismes distincts devraient être équivalentes, et que par conséquent l'information encodée dans les représentations sémantiques distributionnelles devrait être équivalente à celle encodée dans les définitions. Nous mettons cette idée à l'épreuve à travers deux protocoles expérimentaux distincts~: le premier est basé sur la similarité globale des espaces métrisables décrits par les vecteurs de mots et les définitions, le second repose sur des réseaux de neurones profonds. Dans les deux cas, nous n'obtenons qu'un succès limité, ce qui suggère soit que la sémantique distributionnelle et les dictionnaires encodent des informations différentes, soit que les plongements lexicaux ne sont pas motivés d'un point de vue linguistique. Le second angle que nous adoptons ici pour étudier le rapport entre sémantique distributionnelle et plongements lexicaux consiste à formellement définir ce que nous attendons des représentations sémantiques distributionnelles, puis de comparer nos attentes à ce que nous observons effectivement dans les plongements lexicaux. Nous construisons un jeu de données de jugements humains sur l'hypothèse distributionnelle. Nous utilisons ensuite ce jeu pour obtenir des prédictions sur une tâche de substituabilité distributionnelle de la part de modèles de plongements lexicaux. Bien que nous observions un certain degré de performance de la part des modèles en questions, leur comportement se démarque très clairement de celui de nos annotateurs humains. Venant renforcer ces résultats, nous remarquons qu'une large famille de modèles de plongements qui ont rencontré un franc succès, ceux basés sur l'architecture Transformer, présente des artéfacts directement imputables à l'architecture qu'elle emploie plutôt qu'à des facteurs d'ordre sémantique. Nos expériences suggèrent que la validité linguistique des plongements lexicaux n'est aujourd'hui pas un problème résolu. Trois grandes conclusions se dégagent de nos expériences. Premièrement, la diversité des approches en sémantique distributionnelles n'impliquent pas que ce champ d'étude est voué aux approches informelles: nous avons vu que le linguiste peut s'appuyer sur la substituabilité distributionnelle. Deuxièmement, comme on ne peut pas aisément comparer la sémantique distributionnelle à une autre théorie lexicale, il devient nécessaire d'étudier si la sémantique distributionnelle s'intéresse bien au sens, ou bien si elle porte sur une série de faits entièrement distincte. Troisièmement, bien que l'on puisse souligner une différence entre la qualité des plongements lexicaux et ce qu'on attend qu'ils puisse faire, la possibilité d'étudier cette différence sous un angle quantitatif est de très bon augure pour les travaux à venir
This dissertation studies the status of word embeddings, i.e, vectors produced by NLP systems, insofar they are relevant to linguistic studies. We more specifically focus on the relation between word embeddings and distributional semantics-the field of study based on the assumption that context correlates to meaning. We question whether word embeddings can be seen as a practical implementation of distributional semantics. Our first approach to this inquiry consists in comparing word embeddings to some other representation of meaning, namely dictionary definitions. The assumption underlying this approach is that semantic representations from distinct formalisms should be equivalent, and therefore the information encoded in distributional semantics representations should be equivalent to that of definitions. We test this assumption using two distinct experimental protocols: the first is based on overall metric space similarity, the second relies on neural networks. In both cases, we find limited success, suggesting that either distributional semantics and dictionaries encode different information, or that word embeddings are not linguistically coherent representations of distributional semantics. The second angle we adopt to study the relation between word embeddings and distributional semantics consists in formalizing our expectations for distributional semantics representations, and compare these expectations to what we observe for word embeddings. We construct a dataset of human judgments on the distributional hypothesis, which we use to elicit predictions on distributional substitutability from word embeddings. While word embeddings attain some degree of performance on this task, their behavior and that of our human annotators are found to drastically differ. Strengthening these results, we observe that a large family of broadly successful embedding models all exhibit artifacts imputable to the neural network architecture they use, rather than to any semantically meaningful factor. Our experiments suggest that, while we can formally delineate criteria we expect of distributional semantics models, the linguistic validity of word embeddings is not a solved problem. Three main conclusions emerge from our experiments. First, the diversity of studies in distributional semantics do not entail that no formal statements regarding this theory can be made: we saw that distributional substitutability provides a very convenient handle for the linguist to grasp. Second, that we cannot easily relate distributional semantics to another lexical semantic theory questions whether the distributional hypothesis actually provides an alternative account of meaning, or whether it deals with a very distinct set of facts altogether. Third, while the gap in quality between practical implementations of distributional semantics and our expectations necessarily adds on to the confusion, that we can make quantitative statements about this gap should be taken as a very encouraging sign for future research
Estilos ABNT, Harvard, Vancouver, APA, etc.
28

Kervajan, LoÏc. "Contribution à la traduction automatique français/langue des signes française (LSF) au moyen de personnages virtuels : Contribution à la génération automatique de la LSF". Thesis, Aix-Marseille 1, 2011. http://www.theses.fr/2011AIX10172.

Texto completo da fonte
Resumo:
Depuis la loi du 11-02-2005 pour l’égalité des droits et des chances, les lieux ouverts au public doivent accueillir les Sourds en Langue des Signes Française (LSF). C’est dans le cadre du développement d’outils technologiques de diffusion de LSF que nous avons travaillé, plus particulièrement au niveau de la traduction automatique du français écrit vers la LSF. Notre thèse commence par un état de l’art relatif aux connaissances sur la LSF (ressources disponibles et supports d’expression de la LSF) avant d’approfondir des notions de grammaire descriptive. Notre hypothèse de travail est la suivant : la LSF est une langue et, à ce titre, la traduction automatique lui est applicable.Nous décrivons ensuite les spécifications linguistiques pour le traitement automatique, en fonction des observations mises en avant dans l’état de l’art et des propositions de nos informateurs. Nous détaillons notre méthodologie et présentons l’avancée de nos travaux autour de la formalisation des données linguistiques à partir des spécificités de la LSF dont certaines (model verbal, modification adjectivale et adverbiale, organisation des substantifs, problématiques de l’accord) ont nécessité un traitement plus approfondi. Nous présentons le cadre applicatif dans lequel nous avons travaillé : les systèmes de traduction automatique et d’animation de personnage virtuel de France Telecom R&D. Puis, après un rapide état de l’art sur les technologies avatar nous décrivons nos modalités de contrôle du moteur de synthèse de geste grâce au format d’échange mis au point. Enfin, nous terminons par nos évaluations et perspectives de recherche et de développements qui pourront suivre cette Thèse.Notre approche a donné ses premiers résultats puisque nous avons atteint notre objectif de faire fonctionner la chaîne complète de traduction : de la saisie d'un énoncé en français jusqu'à la réalisation de l'énoncé correspondant en LSF par un personnage de synthèse
Since the law was voted the 11-02-2005 for equal rights and opportunities: places open to anyone (public places, shops, internet, etc.) should welcome the Deaf in French Sign Language (FSL). We have worked on the development of technological tools to promote LSF, especially in machine translation from written French to FSL.Our thesis begins with a presentation of knowledge on FSL (theoretical resources and ways to edit FSL) and follows by further concepts of descriptive grammar. Our working hypothesis is: FSL is a language and, therefore, machine translation is relevant.We describe the language specifications for automatic processing, based on scientific knowledge and proposals of our native FSL speaker informants. We also expose our methodology, and do present the advancement of our work in the formalization of linguistic data based on the specificities of FSL which certain (verbs scheme, adjective and adverb modification, organization of nouns, agreement patterns) require further analysis.We do present the application framework in which we worked on: the machine translation system and virtual characters animation system of France Telecom R&D.After a short avatar technology presentation, we explain our control modalities of the gesture synthesis engine through the exchange format that we developed.Finally, we conclude with an evaluation, researches and developments perspectives that could follow this thesis.Our approach has produced its first results since we have achieved our goal of running the full translation chain: from the input of a sentence in French to the realization of the corresponding sentence in FSL with a synthetic character
Estilos ABNT, Harvard, Vancouver, APA, etc.
29

Manishina, Elena. "Data-driven natural language generation using statistical machine translation and discriminative learning". Thesis, Avignon, 2016. http://www.theses.fr/2016AVIG0209/document.

Texto completo da fonte
Resumo:
L'humanité a longtemps été passionnée par la création de machines intellectuelles qui peuvent librement intéragir avec nous dans notre langue. Tous les systèmes modernes qui communiquent directement avec l'utilisateur partagent une caractéristique commune: ils ont un système de dialogue à la base. Aujourd'hui pratiquement tous les composants d'un système de dialogue ont adopté des méthodes statistiques et les utilisent largement comme leurs modèles de base. Jusqu'à récemment la génération de langage naturel (GLN) utilisait pour la plupart des patrons/modèles codés manuellement, qui représentaient des phrases types mappées à des réalisations sémantiques particulières. C'était le cas jusqu'à ce que les approches statistiques aient envahi la communauté de recherche en systèmes de dialogue. Dans cette thèse, nous suivons cette ligne de recherche et présentons une nouvelle approche à la génération de la langue naturelle. Au cours de notre travail, nous nous concentrons sur deux aspects importants du développement des systèmes de génération: construire un générateur performant et diversifier sa production. Deux idées principales que nous défendons ici sont les suivantes: d'abord, la tâche de GLN peut être vue comme la traduction entre une langue naturelle et une représentation formelle de sens, et en second lieu, l'extension du corpus qui impliquait traditionnellement des paraphrases définies manuellement et des règles spécialisées peut être effectuée automatiquement en utilisant des méthodes automatiques d'extraction des synonymes et des paraphrases bien connues et largement utilisées. En ce qui concerne notre première idée, nous étudions la possibilité d'utiliser le cadre de la traduction automatique basé sur des modèles ngrams; nous explorons également le potentiel de l'apprentissage discriminant (notamment les champs aléatoires markoviens) appliqué à la GLN; nous construisons un système de génération qui permet l'inclusion et la combinaison des différents modèles et qui utilise un cadre de décodage efficace (automate à état fini). En ce qui concerne le second objectif, qui est l'extension du corpus, nous proposons d'élargir la taille du vocabulaire et le nombre de l'ensemble des structures syntaxiques disponibles via l'intégration des synonymes et des paraphrases. À notre connaissance, il n'y a pas eu de tentatives d'augmenter la taille du vocabulaire d'un système de GLN en incorporant les synonymes. À ce jour, la plupart d'études sur l'extension du corpus visent les paraphrases et recourent au crowdsourcing pour les obtenir, ce qui nécessite une validation supplémentaire effectuée par les développeurs du système. Nous montrons que l'extension du corpus au moyen d'extraction automatique de paraphrases et la validation automatique sont tout aussi efficaces, étant en même temps moins coûteux en termes de temps de développement et de ressources. Au cours d'expériences intermédiaires nos modèles ont montré une meilleure performance que celle obtenue par le modèle de référence basé sur les syntagmes et se sont révélés d'être plus robustes, pour le traitement des combinaisons inconnues de concepts, que le générateur à base des règles. L'évaluation humaine finale a prouvé que les modèles représent une alternative solide au générateur à base des règles
The humanity has long been passionate about creating intellectual machines that can freely communicate with us in our language. Most modern systems communicating directly with the user share one common feature: they have a dialog system (DS) at their base. As of today almost all DS components embraced statistical methods and widely use them as their core models. Until recently Natural Language Generation (NLG) component of a dialog system used primarily hand-coded generation templates, which represented model phrases in a natural language mapped to a particular semantic content. Today data-driven models are making their way into the NLG domain. In this thesis, we follow along this new line of research and present several novel data-driven approaches to natural language generation. In our work we focus on two important aspects of NLG systems development: building an efficient generator and diversifying its output. Two key ideas that we defend here are the following: first, the task of NLG can be regarded as the translation between a natural language and a formal meaning representation, and therefore, can be performed using statistical machine translation techniques, and second, corpus extension and diversification which traditionally involved manual paraphrasing and rule crafting can be performed automatically using well-known and widely used synonym and paraphrase extraction methods. Concerning our first idea, we investigate the possibility of using NGRAM translation framework and explore the potential of discriminative learning, notably Conditional Random Fields (CRF) models, as applied to NLG; we build a generation pipeline which allows for inclusion and combination of different generation models (NGRAM and CRF) and which uses an efficient decoding framework (finite-state transducers' best path search). Regarding the second objective, namely corpus extension, we propose to enlarge the system's vocabulary and the set of available syntactic structures via integrating automatically obtained synonyms and paraphrases into the training corpus. To our knowledge, there have been no attempts to increase the size of the system vocabulary by incorporating synonyms. To date most studies on corpus extension focused on paraphrasing and resorted to crowd-sourcing in order to obtain paraphrases, which then required additional manual validation often performed by system developers. We prove that automatic corpus extension by means of paraphrase extraction and validation is just as effective as crowd-sourcing, being at the same time less costly in terms of development time and resources. During intermediate experiments our generation models showed a significantly better performance than the phrase-based baseline model and appeared to be more robust in handling unknown combinations of concepts than the current in-house rule-based generator. The final human evaluation confirmed that our data-driven NLG models is a viable alternative to rule-based generators
Estilos ABNT, Harvard, Vancouver, APA, etc.
30

Moriceau, Véronique. "Intégration de données dans un système question-réponse sur le Web". Toulouse 3, 2007. http://www.theses.fr/2007TOU30019.

Texto completo da fonte
Resumo:
Nous nous plaçons dans le cadre des systèmes question-réponse sur le Web. Nos objectifs sont de modéliser, concevoir et évaluer un système capable, à partir d'une question en langue, de rechercher les réponses pertinentes sur le Web et de générer une réponse synthétique, même quand le moteur de recherche sélectionne plusieurs réponses potentielles. Nous nous sommes intéressés aux questions temporelles et numériques. Notre système a pour but : - l'intégration d'informations provenant des réponses potentielles à une question en utilisant une base de connaissances et des connaissances extraites des pages Web. Ce composant permet de détecter les incohérences de données et de prendre en compte les attentes de l'utilisateur pour produire une réponse appropriée, - la production en langue de réponses synthétiques et pertinentes vis-à-vis de l'utilisateur. En effet, il faut produire des réponses courtes, intelligibles et qui expriment le savoir-faire coopératif mis en oeuvre pour résoudre les incohérences de données. Nous proposons également des méthodes d'évaluation adéquates pour évaluer le système d'un point de vue technique et d'un point de vue cognitif
In the framework of question-answering systems on the Web, our main goals are to model, develop and evaluate a system which can, from a question in natural language, search for relevant answers on the Web and generate a synthetic answer, even if the search engine selected several candidate answers. We focused on temporal and numerical questions. Our system deals with : - the integration of data from candidate answers by using a knowledge base and knowledge extracted from the Web. This component allows the detection of data inconsistencies and deals with user expectations in order to produce a relevant answer, - the generation of synthetic answers in natural language which are relevant w. R. T users. Indeed, generated answers have to be short, understandable and have to express the cooperative know-how which has been used to solve data inconsistencies. We also propose evaluation methods to evaluate our system from a technical and cognitive point of view
Estilos ABNT, Harvard, Vancouver, APA, etc.
31

Mba, Mathieu Leonel. "Génération automatique de plate-forme matérielles distribuées pour des applications de traitement du signal". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS341.

Texto completo da fonte
Resumo:
Les langues locales ou langues maternelles propres aux individus jouent un rôle important pour leur épanouissement dans leurs différentes activités socio-économiques. Les langues africaines, et spécifiquement les langues camerounaises sont exposées à la disparition au profit des langues étrangères adoptées comme langues officielles au lendemain des indépendances. C’est la raison pour laquelle il est primordial de les numériser et les intégrer dans la majorité des services dématérialisés pour leur pérennisation. La reconnaissance vocale, largement utilisée comme interface d'interaction homme machine, peut être non seulement un outil d'intégration des langues locales dans les applications, mais aussi un outil de collecte et de numérisation des corpus. Les systèmes embarqués sont l'environnement par excellence de déploiement des applications qui exploitent cette interface d'interaction homme machine. Cela implique qu'il est nécessaire de prendre des mesures (à travers la réduction du temps de réponse) pour satisfaire la contrainte de temps réel très souvent rencontrée dans ce type d'application. Deux approches existent pour la réduction du temps de réponse des applications à savoir la parallélisation et l'usage des architectures matérielles efficaces. Dans cette thèse, nous exploitons une approche hybride pour réduire le temps de réponse d'une application. Nous le faisons par la parallélisation de cette application et sa mise en œuvre sur architecture reconfigurable. Une architecture dont les langages de mise en œuvre sont connus pour être de bas niveau. De plus, au vu de la multitude des problématiques posées par la mise en œuvre des systèmes parallèles sur architecture reconfigurable, il se pose un problème de productivité de l'ingénieur. Dans cette thèse, en vue de mettre en œuvre un système de reconnaissance vocale temps réel sur système embarqué, nous proposons, une approche de mise en œuvre productive d'applications parallèles sur architecture reconfigurable. Notre approche exploite MATIP un outil de conception orienté plateforme, comme FPGA Overlay basé sur la synthèse de haut niveau. Nous exploitons cette approche pour mettre en œuvre un modèle parallèle d'un algorithme d'extraction des caractéristiques pour la reconnaissance des langues à tons (caractéristique de la majorité des langues camerounaises). L'expérimentation de cette solution sur des mots isolés de la langue Kóló, en comparaison à d'autres propositions (version logicielle et IP matérielles), montre que, notre approche est non seulement productive en temps de mise en œuvre, mais aussi l'application parallèle obtenue est efficace en temps de traitement. C’est la raison pour laquelle nous avons mis en œuvre XMATIP une extension de MATIP pour rendre cette approche compatible à la co-conception et co-synthèse matérielle logicielle
Local languages or mother tongues of individuals play an essential role in their fulfillment in their various socio-economic activities. African languages and specifically Cameroonian languages are exposed to disappearance in favor of foreign languages adopted as official languages after independence. This is why it is essential to digitalize and integrate them into the majority of dematerialized services for their sustainability. Speech recognition, widely used as a human-machine interface, can be not only a tool for integrating local languages into applications but also a tool for collecting and digitizing corpora. Embedded systems are the preferred environment for deploying applications that use this human-machine interface. This implies that it is necessary to take measures (through the reduction of the reaction time) to satisfy the real-time constraint very often met in this type of application. Two approaches exist for the reduction of the application's response time, namely parallelization and the use of efficient hardware architectures. In this thesis, we exploit a hybrid approach to reduce the response time of an application. We do this by parallelizing this application and implementing it on a reconfigurable architecture. An architecture whose implementation languages are known to be low-level. Moreover, given the multitude of problems posed by the implementation of parallel systems on reconfigurable architecture, there is a problem with design productivity for the engineer. In this thesis, to implement a real-time speech recognition system on an embedded system, we propose an approach for the productive implementation of parallel applications on reconfigurable architecture. Our approach exploits MATIP, a platform-based design tool, as an FPGA Overlay based on high-level synthesis. We exploit this approach to implement a parallel model of a feature extraction algorithm for the recognition of tonal languages (characteristic of the majority of Cameroonian languages). The experimentation of this implementation on isolated words of the Kóló language, in comparison to other implementations (software version and hardware IP), shows that our approach is not only productive in implementation time but also the obtained parallel application is efficient in processing time. This is the reason why we implemented XMATIP an extension of MATIP to make this approach compatible with hardware-software co-design and co-synthesis
Estilos ABNT, Harvard, Vancouver, APA, etc.
32

Kow, Eric. "Réalisation de surface : ambiguïté et déterminisme". Phd thesis, Université Henri Poincaré - Nancy I, 2007. http://tel.archives-ouvertes.fr/tel-00192773.

Texto completo da fonte
Resumo:
La réalisation de surface est une partie du processus global de génération de langue naturelle. Étant donné une grammaire et une représentation du sens, le réalisateur de surface produit une chaîne en langue naturelle que la grammaire associe au sens donné en entrée. Cette thèse présente trois extension de GenI, un réalisateur de surface pour une grammaire de type FB-LTAG.

La première extension augmente l'efficacité du réalisateur pour le traitement de l'ambiguïté lexicale. C'est une adaptation de l'optimisation par « étiquetage électrostatique » qui existe déjà pour l'analyse.

La deuxième extension concerne le nombre de sorties retournées par le réalisateur. En temps normal, l'algorithme GenI retourne toutes les phrases associées à une même forme logique. Alors qu'on peut considérer que ces entrées ont le même sens, elles présentent souvent de subtiles nuances. Ici, nous montrons comment la spécification de l'entrée peut être augmentée d'annotations qui permettent un contrôle de ces facteurs supplémentaires. L'extension est permise par le fait que la grammaire FB-LTAG utilisée par le générateur a été construite à partir d'une « métagrammaire », mettant explicitement en oeuvre les généralisations qu'elle code.

La dernière extension donne la possibilité au réalisateur de servir d'environnement de débuggage de la métagrammaire. Les erreurs dans la métagrammaire peuvent avoir des conséquences importantes pour la grammaire. Comme le réalisateur donne en sortie toutes les chaînes associées à une sémantique d'entrée, il peut être utilisé pour trouver ces erreurs et les localiser dans la métagrammaire.
Estilos ABNT, Harvard, Vancouver, APA, etc.
33

Molina, Villegas Alejandro. "Compression automatique de phrases : une étude vers la génération de résumés". Phd thesis, Université d'Avignon, 2013. http://tel.archives-ouvertes.fr/tel-00998924.

Texto completo da fonte
Resumo:
Cette étude présente une nouvelle approche pour la génération automatique de résumés, un des principaux défis du Traitement de la Langue Naturelle. Ce sujet, traité pendant un demi-siècle par la recherche, reste encore actuel car personne n'a encore réussi à créer automatiquement des résumés comparables, en qualité, avec ceux produits par des humains. C'est dans ce contexte que la recherche en résumé automatique s'est divisée en deux grandes catégories : le résumé par extraction et le résumé par abstraction. Dans le premier, les phrases sont triées de façon à ce que les meilleures conforment le résumé final. Or, les phrases sélectionnées pour le résumé portent souvent des informations secondaires, une analyse plus fine s'avère nécessaire.Nous proposons une méthode de compression automatique de phrases basée sur l'élimination des fragments à l'intérieur de celles-ci. À partir d'un corpus annoté, nous avons créé un modèle linéaire pour prédire la suppression de ces fragments en fonction de caractéristiques simples. Notre méthode prend en compte trois principes : celui de la pertinence du contenu, l'informativité ; celui de la qualité du contenu, la grammaticalité, et la longueur, le taux de compression. Pour mesurer l'informativité des fragments,nous utilisons une technique inspirée de la physique statistique : l'énergie textuelle.Quant à la grammaticalité, nous proposons d'utiliser des modèles de langage probabilistes.La méthode proposée est capable de générer des résumés corrects en espagnol.Les résultats de cette étude soulèvent divers aspects intéressants vis-à- vis du résumé de textes par compression de phrases. On a observé qu'en général il y a un haut degré de subjectivité de la tâche. Il n'y a pas de compression optimale unique mais plusieurs compressions correctes possibles. Nous considérons donc que les résultats de cette étude ouvrent la discussion par rapport à la subjectivité de l'informativité et son influence pour le résumé automatique.
Estilos ABNT, Harvard, Vancouver, APA, etc.
34

Narayan, Shashi. "Generating and simplifying sentences". Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0166.

Texto completo da fonte
Resumo:
Selon la représentation d’entrée, cette thèse étudie ces deux types : la génération de texte à partir de représentation de sens et à partir de texte. En la première partie (Génération des phrases), nous étudions comment effectuer la réalisation de surface symbolique à l’aide d’une grammaire robuste et efficace. Cette approche s’appuie sur une grammaire FB-LTAG et prend en entrée des arbres de dépendance peu profondes. La structure d’entrée est utilisée pour filtrer l’espace de recherche initial à l’aide d’un concept de filtrage local par polarité afin de paralléliser les processus. Afin nous proposons deux algorithmes de fouille d’erreur: le premier, un algorithme qui exploite les arbres de dépendance plutôt que des données séquentielles et le second, un algorithme qui structure la sortie de la fouille d’erreur au sein d’un arbre afin de représenter les erreurs de façon plus pertinente. Nous montrons que nos réalisateurs combinés à ces algorithmes de fouille d’erreur améliorent leur couverture significativement. En la seconde partie (Simplification des phrases), nous proposons l’utilisation d’une forme de représentations sémantiques (contre à approches basées la syntaxe ou SMT) afin d’améliorer la tâche de simplification de phrase. Nous utilisons les structures de représentation du discours pour la représentation sémantique profonde. Nous proposons alors deux méthodes de simplification de phrase: une première approche supervisée hybride qui combine une sémantique profonde à de la traduction automatique, et une seconde approche non-supervisée qui s’appuie sur un corpus comparable de Wikipedia
Depending on the input representation, this dissertation investigates issues from two classes: meaning representation (MR) to text and text-to-text generation. In the first class (MR-to-text generation, "Generating Sentences"), we investigate how to make symbolic grammar based surface realisation robust and efficient. We propose an efficient approach to surface realisation using a FB-LTAG and taking as input shallow dependency trees. Our algorithm combines techniques and ideas from the head-driven and lexicalist approaches. In addition, the input structure is used to filter the initial search space using a concept called local polarity filtering; and to parallelise processes. To further improve our robustness, we propose two error mining algorithms: one, an algorithm for mining dependency trees rather than sequential data and two, an algorithm that structures the output of error mining into a tree to represent them in a more meaningful way. We show that our realisers together with these error mining algorithms improves on both efficiency and coverage by a wide margin. In the second class (text-to-text generation, "Simplifying Sentences"), we argue for using deep semantic representations (compared to syntax or SMT based approaches) to improve the sentence simplification task. We use the Discourse Representation Structures for the deep semantic representation of the input. We propose two methods: a supervised approach (with state-of-the-art results) to hybrid simplification using deep semantics and SMT, and an unsupervised approach (with competitive results to the state-of-the-art systems) to simplification using the comparable Wikipedia corpus
Estilos ABNT, Harvard, Vancouver, APA, etc.
35

Narayan, Shashi. "Generating and simplifying sentences". Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0166/document.

Texto completo da fonte
Resumo:
Selon la représentation d’entrée, cette thèse étudie ces deux types : la génération de texte à partir de représentation de sens et à partir de texte. En la première partie (Génération des phrases), nous étudions comment effectuer la réalisation de surface symbolique à l’aide d’une grammaire robuste et efficace. Cette approche s’appuie sur une grammaire FB-LTAG et prend en entrée des arbres de dépendance peu profondes. La structure d’entrée est utilisée pour filtrer l’espace de recherche initial à l’aide d’un concept de filtrage local par polarité afin de paralléliser les processus. Afin nous proposons deux algorithmes de fouille d’erreur: le premier, un algorithme qui exploite les arbres de dépendance plutôt que des données séquentielles et le second, un algorithme qui structure la sortie de la fouille d’erreur au sein d’un arbre afin de représenter les erreurs de façon plus pertinente. Nous montrons que nos réalisateurs combinés à ces algorithmes de fouille d’erreur améliorent leur couverture significativement. En la seconde partie (Simplification des phrases), nous proposons l’utilisation d’une forme de représentations sémantiques (contre à approches basées la syntaxe ou SMT) afin d’améliorer la tâche de simplification de phrase. Nous utilisons les structures de représentation du discours pour la représentation sémantique profonde. Nous proposons alors deux méthodes de simplification de phrase: une première approche supervisée hybride qui combine une sémantique profonde à de la traduction automatique, et une seconde approche non-supervisée qui s’appuie sur un corpus comparable de Wikipedia
Depending on the input representation, this dissertation investigates issues from two classes: meaning representation (MR) to text and text-to-text generation. In the first class (MR-to-text generation, "Generating Sentences"), we investigate how to make symbolic grammar based surface realisation robust and efficient. We propose an efficient approach to surface realisation using a FB-LTAG and taking as input shallow dependency trees. Our algorithm combines techniques and ideas from the head-driven and lexicalist approaches. In addition, the input structure is used to filter the initial search space using a concept called local polarity filtering; and to parallelise processes. To further improve our robustness, we propose two error mining algorithms: one, an algorithm for mining dependency trees rather than sequential data and two, an algorithm that structures the output of error mining into a tree to represent them in a more meaningful way. We show that our realisers together with these error mining algorithms improves on both efficiency and coverage by a wide margin. In the second class (text-to-text generation, "Simplifying Sentences"), we argue for using deep semantic representations (compared to syntax or SMT based approaches) to improve the sentence simplification task. We use the Discourse Representation Structures for the deep semantic representation of the input. We propose two methods: a supervised approach (with state-of-the-art results) to hybrid simplification using deep semantics and SMT, and an unsupervised approach (with competitive results to the state-of-the-art systems) to simplification using the comparable Wikipedia corpus
Estilos ABNT, Harvard, Vancouver, APA, etc.
36

TOMEH, BACHIRA. "Les quantificateurs dans le langage naturel". Poitiers, 1991. http://www.theses.fr/1991POIT5004.

Texto completo da fonte
Resumo:
Les quantificateurs sont des operateurs des langues naturelles (universels ou existentiels, affirmatifs ou negatifs) pou lesquels il existe un decalage entre leur utilisation dans le domaine discursif et celui de la logique. Ils ont ete l'ob multiples travaux des logiciens et des phychologues pour etudier par exemple le syllogisme "dont les operateurs logiques sont des quantificateurs", ou les processus du raisonnement. Mais la plupart de ces etudes ont porte sur les quantificateurs standards : quelques, chaque, aucun, et non pas sur d'autres formulations. Le but principal de la presente recherche est d'etudier d'une part les processus cognitifs sous-jacents au traitement des quantificateurs, et d'autre part su ces processus sont les memes ou non par rapport aux differentes formulations appartenant au meme type de quantificateurs. Nous avons essaye d'explorer la representation des quantificateurs a travers les procedures experimentales suivantes : - etudes du temps de reaction dans un processus de verification des phrases quantifiees ; - etude du traitement des quantificateurs dans une resolution de syllogismes ; - etude de l'evaluation numerique qui pourrait etre representee par un quantificateur donne ; - exploration de la representation graphique des quantificateurs. Dans la plupart des experiences, nous avons choisi les quantificateurs suivants : - universels : tous les, tout, les chaque - existentiels : quelques, plusieurs, il y a, certains les resultats permettent de mettre en evidence plusieurs dimensions dans la signification des quantificateurs du langage naturel
Quantifiers are generators of natural languages (either universal or existential, either affirmative or negative) for wh there in an interval between their use in the fields of discusse and logic. They have been the topic of logicians' and psychologists' manifold works in the study of, for instance, syllogism whose logical operators are quantifiers, or the processes fo reasoning. But the focus of most of those studies has been standard quantifiers (some, each even, none) and not other formulations. The chief aim of this work of research is to study, on the hand, the cognitive generations which lie under the processing of quantifiers, and whether, on the one hand, those operations are the same or not, in relation to the different formulations belaying to the same type of quantifiers. We have tried to survey the representation of quantifiers through the following experiments : - a study of reaction time while checking quantified sentences - a study of the processing of quantifiers while solving syllogisms. - a study of the semantic proximity of quantifiers - a study of the numerical evaluation which might be represented by a given quantifier - a survey of the graphic representation of quantifiers in most experiments, we have chosen the following quantifiers : - universal : all the, all, the, each - existential : some, many, there is the results enable us to stress several dimensions in the meaning of the quantifiers of natural language
Estilos ABNT, Harvard, Vancouver, APA, etc.
37

Fouquère, Christophe. "Systèmes d'analyse tolérante du langage naturel". Grenoble 2 : ANRT, 1988. http://catalogue.bnf.fr/ark:/12148/cb376136855.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
38

Fouqueré, Christophe. "Systèmes d'analyse tolérante du langage naturel". Paris 13, 1988. http://www.theses.fr/1988PA132003.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
39

Sabatier, Paul. "Contribution au développement d'interfaces en langage naturel". Paris 7, 1987. http://www.theses.fr/1987PA077081.

Texto completo da fonte
Resumo:
Etude du problème de la compréhension du langage naturel dans le cadre du développement d'interfaces pour la consultation de bases de connaissances. L'intérêt, les limites, les fonctions et les architectures des interfaces sont exposes. Les connaissances lexicales, syntaxiques et sémantiques mises en œuvre pour la compréhension sont spécifiées et étudiées sur les aspects linguistiques et leurs modes de représentation. Quatre réalisations d'interfaces en langage naturel illustrant les approches retenues sont présentées dans différents domaines et accompagnées de programmes commentes écrits en prolog
Estilos ABNT, Harvard, Vancouver, APA, etc.
40

JOAB, MICHELE. "Modelisation d'un dialogue pedagogique en langage naturel". Paris 6, 1990. http://www.theses.fr/1990PA066556.

Texto completo da fonte
Resumo:
Ce travail presente un systeme d'enseignement intelligemment assiste par ordinateur pour la resolution d'exercices d'algebre. La communication entre le systeme et l'apprenant s'appuie sur un modele de dialogue en langage naturel independant du domaine de connaissances. L'initiative du dialogue est partagee de maniere effective entre le systeme et l'apprenant. Elle est repartie differemment selon le niveau de connaissances de l'apprenant et la phase de la session pedagogique en cours. Les interventions explicatives du systeme sont planifiees pour structurer les informations communiquees a l'apprenant. Simultanement, le systeme adapte ses interventions aux propos de l'apprenant. En effet, le modele de dialogue evalue la pertinence tant des propos de l'apprenant que des propos potentiels du systeme. La gestion du dialogue verifie des contraintes de coherence differenciees selon le degre d'initiative des participants
Estilos ABNT, Harvard, Vancouver, APA, etc.
41

Sabatier, Paul. "Contribution au développement d'interfaces en langage naturel". Grenoble 2 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37609547k.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
42

Max, Aurélien. "De la création de documents normalisés à la normalisation de documents en domaine contraint". Grenoble 1, 2003. http://www.theses.fr/2003GRE10227.

Texto completo da fonte
Resumo:
Les documents en domaine contraint doivent répondre à de nombreuses conditions de bonne formation qui sont souvent difficiles à appliquer. Un courant de recherche actif s’intéresse à la création de documents normalisés par spécification du contenu sémantique, facilitant ainsi de nombreuses applications de ces documents, dont la production multilingue. Néanmoins, les systèmes actuels ne permettent pas l’analyse d’un document existant afin de le normaliser. Dans ce contexte, nous proposons une approche réutilisant les ressources de tels systèmes pour recréer le contenu sémantique d’un document, à partir duquel sa forme textuelle normalisée est ensuite générée. Cette approche s’articule autour de deux paradigmes centraux : la génération inversée floue, qui permet de trouver heuristiquement des représentations sémantiques candidates, et la négociation interactive, qui permet à un expert du domaine de valider progressivement la représentation sémantique correspondant au document originel
Well-formedness conditions on documents in constrained domains are often hard to apply. An active research trend approaches the authoring of normalized documents through semantic specification, thereby facilitating such applications as multilingual production. However, the current systems are not able to analyse an existing document in order to normalize it. We therefore propose an approach that reuses the resources of such systems to recreate the semantic content of a document, from which a normalized textual version can be generated. This approach is based on two main paradigms : fuzzy inverted generation, which heuristically finds candidate semantic representations, and interactive negotiation, which allows an expert of the domain to progressively validate the semantic representation that corresponds to the original document
Estilos ABNT, Harvard, Vancouver, APA, etc.
43

Vert, Jean-Philippe. "Méthodes statistiques pour la modélisation du langage naturel". Paris 6, 2001. http://www.theses.fr/2001PA066247.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
44

Gaita, Mihai. "Le langage naturel en tant que problème philosophique". Paris 8, 1993. http://www.theses.fr/1993PA080867.

Texto completo da fonte
Resumo:
Si l'on part de l'opposition aristotelicienne entre deixis ("monstration") et apodeixis ("demostration"), il est posible de redefinir le langage naturel comme reposant sur l'intersubjectivite originaire de la parole, et non pas comme decoulant des principes d'une grammaire pure. Ce qui caracterise une proposition deictique, c'est son independance par rapport a l'apodeiris, plutot que sa dependance a l'egard de certains aspects du contexte " comme le pensent, en suivant une longue tradition, des auteurs comme david kaplan. En tant qu'eminemment deictique, le langage naturel nous semble s'accorder parfaitement avec la notion heracliteenne de logos xunos
Starting from aristotle's opposition between deixis ("pointing") and apodeixis ("proof"), we argue that language is radically indexical. Some authors take indexicality as a phenomenon of context-sensitivity we claim that indexicality means total neutrality towards apodeixis and suggest a definition of speech that seems to get on well with heraclite's notion of logos xunos
Estilos ABNT, Harvard, Vancouver, APA, etc.
45

Ameli, Samila. "Construction d'un langage de dictionnaire conceptuel en vue du traitement du langage naturel : application au langage médical". Compiègne, 1989. http://www.theses.fr/1989COMPD226.

Texto completo da fonte
Resumo:
Ce travail de recherche consiste en la réalisation d'un système documentaire dit de nouvelle génération, capable de prendre en compte le contenu de chaque document et d'exécuter la recherche documentaire par une comparaison du sens des textes (questions et documents). La compréhension des textes n'étant possible qu'à l'aide d'une base de connaissances, un dictionnaire conceptuel a été mis au point dans le but de représenter tous les concepts et leurs relations, écrits en langage clair et simplifié. Ce langage appelé « SUMIX » permet (1) de prendre en compte le contexte lors de la résolution des polysémies, (2) de résoudre nombre de difficultés imposées aux cogniticiens lors de la création de la base par un mécanisme d'héritage des propriétés et ainsi donner la possibilité de faire des inférences (3) de définir certaines relations inter-conceptuelles dépendantes du domaine d'application par une gestion de métaconnaissances. Ce dictionnaire conceptuel va servir à deux moments : (1) au moment de la création des fichiers inversés en indexant le concept et non la chaîne de caractères, on permet d'avoir, lors de l'extraction conceptuelle, un sous-ensemble le plus grand possible de dossiers pertinents (2) au moment de la comparaison structurelle qui est la comparaison finale, effectuée dossier par dossier, sur le sur-ensemble de dossiers déterminé à l'étape de l'extraction conceptuelle
This study deals with the realisation of a « new generation » information retrieval system, taking consideration of texts signification. This system compares texts (questions and documents) by their content. A knowledge base being indispensable for text “comprehension”, a dictionary of concepts has been designed in which are defined the concepts and their mutual relations thru a user friendly language called SUMIX. SUMIX enables us (1) to solve ambiguities due to polysemia by considering context dependencies, (2) to make use of property inheritance and so can largely help cogniticiens in the creation of the knowledge and inference base, (3) to define subject dependant relation between concepts which make possible metaknowledge handling. The dictionary of concepts is essentially used (1) to index concepts (and not characters string) which enables us to select a wide range of documents in the conceptual extraction phase, (2) to filter the previously selected documents by comparing the structure of each document with that of the query in the structural analysis phase
Estilos ABNT, Harvard, Vancouver, APA, etc.
46

Faille, Juliette. "Data-Based Natural Language Generation : Evaluation and Explainability". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0305.

Texto completo da fonte
Resumo:
Les modèles de génération de langage naturel (NLG) ont récemment atteint de très hautes performances. Les textes qu'ils produisent sont généralement corrects sur le plan grammatical et syntaxique, ce qui les rend naturels. Bien que leur sens soit correct dans la grande majorité des cas, même les modèles de NLG les plus avancés produisent encore des textes avec des significations partiellement inexactes. Dans cette thèse, en nous concentrons sur le cas particulier des problèmes liés au contenu des textes générés, nous proposons d'évaluer et d'analyser les modèles utilisés dans les tâches de verbalisation de graphes RDF (Resource Description Framework) et de génération de questions conversationnelles. Tout d'abord, nous étudions la tâche de verbalisation des graphes RDF et en particulier les omissions et hallucinations d'entités RDF, c'est-à-dire lorsqu'un texte généré automatiquement ne mentionne pas toutes les entités du graphe RDF d'entrée ou mentionne d'autres entités que celles du graphe d'entrée. Nous évaluons 25 modèles de verbalisation de graphes RDF sur les données WebNLG. Nous développons une méthode pour détecter automatiquement les omissions et les hallucinations d'entités RDF dans les sorties de ces modèles. Nous proposons une métrique basée sur le nombre d'omissions ou d'hallucinations pour quantifier l'adéquation sémantique des modèles NLG avec l'entrée. Nous constatons que cette métrique est corrélée avec ce que les annotateurs humains considèrent comme sémantiquement correct et nous montrons que même les modèles les plus globalement performants sont sujets à des omissions et à des hallucinations. Suite à cette observation sur la tendance des modèles de verbalisation RDF à générer des textes avec des problèmes liés au contenu, nous proposons d'analyser l'encodeur de deux de ces modèles, BART et T5. Nous utilisons une méthode d'explicabilité par sondage et introduisons deux sondes de classification, l'une paramétrique et l'autre non paramétrique, afin de détecter les omissions et les déformations des entités RDF dans les plongements lexicaux des modèles encodeur-décodeur. Nous constatons que ces classifieurs sont capables de détecter ces erreurs dans les encodages, ce qui suggère que l'encodeur des modèles est responsable d'une certaine perte d'informations sur les entités omises et déformées. Enfin, nous proposons un modèle de génération de questions conversationnelles basé sur T5 qui, en plus de générer une question basée sur un graphe RDF d'entrée et un contexte conversationnel, génère à la fois une question et le triplet RDF correspondant. Ce modèle nous permet d'introduire une procédure d'évaluation fine évaluant automatiquement la cohérence avec le contexte de la conversation et l'adéquation sémantique avec le graphe RDF d'entrée. Nos contributions s'inscrivent dans les domaines de l'évaluation en NLG et de l'explicabilité. Nous empruntons des techniques et des méthodologies à ces deux domaines de recherche afin d'améliorer la fiabilité des modèles de génération de texte
Recent Natural Language Generation (NLG) models achieve very high average performance. Their output texts are generally grammatically and syntactically correct which makes them sound natural. Though the semantics of the texts are right in most cases, even the state-of-the-art NLG models still produce texts with partially incorrect meanings. In this thesis, we propose evaluating and analyzing content-related issues of models used in the NLG tasks of Resource Description Framework (RDF) graphs verbalization and conversational question generation. First, we focus on the task of RDF verbalization and the omissions and hallucinations of RDF entities, i.e. when an automatically generated text does not mention all the input RDF entities or mentions other entities than those in the input. We evaluate 25 RDF verbalization models on the WebNLG dataset. We develop a method to automatically detect omissions and hallucinations of RDF entities in the outputs of these models. We propose a metric based on omissions or hallucination counts to quantify the semantic adequacy of the NLG models. We find that this metric correlates well with what human annotators consider to be semantically correct and show that even state-of-the-art models are subject to omissions and hallucinations. Following this observation about the tendency of RDF verbalization models to generate texts with content-related issues, we propose to analyze the encoder of two such state-of-the-art models, BART and T5. We use the probing explainability method and introduce two probing classifiers (one parametric and one non-parametric) to detect omissions and distortions of RDF input entities in the embeddings of the encoder-decoder models. We find that such probing classifiers are able to detect these mistakes in the encodings, suggesting that the encoder of the models is responsible for some loss of information about omitted and distorted entities. Finally, we propose a T5-based conversational question generation model that in addition to generating a question based on an input RDF graph and a conversational context, generates both a question and its corresponding RDF triples. This setting allows us to introduce a fine-grained evaluation procedure automatically assessing coherence with the conversation context and the semantic adequacy with the input RDF. Our contributions belong to the fields of NLG evaluation and explainability and use techniques and methodologies from these two research fields in order to work towards providing more reliable NLG models
Estilos ABNT, Harvard, Vancouver, APA, etc.
47

Nazarenko, Adeline. "Compréhension du langage naturel : le problème de la causalité". Paris 13, 1994. http://www.theses.fr/1994PA132007.

Texto completo da fonte
Resumo:
Cette thèse porte sur la compréhension de textes écrits en langage naturel. Elle s'intéresse au problème de la causalité dans le cadre d'un système de question/réponse: il s'agit de répondre automatiquement aux questions pourquoi?. Ce travail distingue deux phases dans le processus de compréhension. On construit d'abord une représentation sémantique du texte, sous la forme de graphes conceptuels. Cette représentation est ensuite exploitée par le module de question/réponse qui extrait ou calcule l'information pertinente en regard de la question posée. Pour construire la représentation de la phrase, on utilise les graphes de définition donnés par un lexique sémantique. Les connecteurs (parce que, puisque, car, donc. . . ), qui jouent un rôle fondamental dans l'expression de la causalité, sont définis avec précision dans ce lexique. L'analyse sémantique combine ensuite ces définitions pour construire le graphe de la phrase. On montre que la structure de celle-ci, ses éventuelles ambigui͏̈tés et les phénomènes énonciatifs, essentiels dans la compréhension de la causalité, sont représentables dans les graphes et que la construction de ces graphes obéit à des principes réguliers, linguistiquement fondés. Le système exploite ces représentations sémantiques pour répondre aux questions causales. Différentes stratégies sont mises en oeuvre, selon que l'information causale est plus ou moins accessible. Lorsque la représentation sémantique contient une relation cause, des opérations d'extraction y accèdent à travers les structures enchâssées et les contextes. Si l'information causale est moins explicite, d'autres stratégies sont appelées. On peut simuler le processus naturel d'interprétation qui tend à lire causalement certaines relations conceptuelles ou discursives (relations temporelles, coordination,. . . ). On peut également faire des inférences. L'étude des relations causales montre en effet qu'elles ne constituent pas des faits mais des lectures de la réalité. En simulant ce processus d'interprétation, on peut donc construire des informations causales à partir de données non causales
Estilos ABNT, Harvard, Vancouver, APA, etc.
48

Cavazza, Marc. "Analyse semantique du langage naturel par construction de modeles". Paris 7, 1991. http://www.theses.fr/1991PA077220.

Texto completo da fonte
Resumo:
La comprehension automatique du langage naturel necessite un grand nombre de connaissances. Des connaissances linguistiques sont indispensables pour construire une representation informatique de la phase et des connaissances sur le monde de reference permettent d'effectuer les inferences indispensables a une bonne comprehension. Nous decrivons la realisation d'un analyseur semantique qui aborde ces deux aspects de la comprehension automatique en s'inspirant d'une theorie linguistique, la semantique componentielle differentielle, et d'une theorie cognitive, la theorie des modeles mentaux. Dans ce systeme, l'analyse d'une phrase se fait en deux temps: la premiere etape construit une representation conceptuelle de la phrase en prenant comme point de depart son arbre syntaxique. On utilise pour cela un lexique semantique et un ensemble de regles heuristiques traitant les phenomenes semantiques prealablement identifies au cours d'une etude de corpus. A partir de cette representation conceptuelle, on construit un modele de la situation decrite par la phrase. Ce modele represente les differents objets du discours et permet de simuler l'evolution du monde. Cette simulation est a la base des inferences de comprehension, les resultats de la simulation etant interpretes en termes de concepts du domaine. Ce programme a ete entierement implemente et a correctement analyse plusieurs dizaines de phrases extraites de comptes rendus medicaux. Nous presensons une premiere evaluation de cette approche ainsi que les applications envisageables a moyen terme
Estilos ABNT, Harvard, Vancouver, APA, etc.
49

Maršík, Jiří. "Les effects et les handlers dans le langage naturel". Thesis, Université de Lorraine, 2016. http://www.theses.fr/2016LORR0322/document.

Texto completo da fonte
Resumo:
Ces travaux s’intéressent à la modélisation formelle de la sémantique des langues naturelles. Pour cela, nous suivons le principe de compositionnalité qui veut que le sens d’une expression complexe soit une fonction du sens de ses parties. Ces fonctions sont généralement formalisées à l’aide du [lambda]-calcul. Cependant, ce principe est remis en cause par certains usages de la langue, comme les pronoms anaphoriques ou les présuppositions. Ceci oblige à soit abandonner la compositionalité, soit modifier les structures du sens. Dans le premier cas, le sens n’est alors plus obtenu par un calcul qui correspond à des fonctions mathématiques, mais par un calcul dépendant du contexte, ce qui le rapproche des langages de programmation qui manipulent leur contexte avec des effets de bord. Dans le deuxième cas, lorsque les structures de sens sont ajustées, les nouveaux sens ont tendance à avoir une structure de monade. Ces dernières sont elles-mêmes largement utilisées en programmation fonctionnelle pour coder des effets de bord, que nous retrouvons à nouveau. Par ailleurs, s’il est souvent possible de proposer le traitement d’un unique phénomène, composer plusieurs traitements s’avère être une tâche complexe. Nos travaux proposent d’utiliser les résultats récents autour des langages de programmation pour parvenir à combiner ces modélisations par les effets de bord. Pour cela, nous étendons le [lambda]-calcul avec une monade qui implémente les effects et les handlers, une technique récente dans l’étude des effets de bord. Dans la première partie de la thèse, nous démontrons les propriétés fondamentales de ce calcul (préservation de type, confluence et terminaison). Dans la seconde partie, nous montrons comment utiliser le calcul pour le traitement de plusieurs phénomènes linguistiques : deixis, quantification, implicature conventionnelle, anaphore et présupposition. Enfin, nous construisons une unique grammaire qui gère ces phénomènes et leurs interactions
In formal semantics, researchers assign meanings to sentences of a natural language. This work is guided by the principle of compositionality: the meaning of an expression is a function of the meanings of its parts. These functions are often formalized using the [lambda]-calculus. However, there are areas of language which challenge the notion of compositionality, e.g. anaphoric pronouns or presupposition triggers. These force researchers to either abandon compositionality or adjust the structure of meanings. In the first case, meanings are derived by processes that no longer correspond to pure mathematical functions but rather to context-sensitive procedures, much like the functions of a programming language that manipulate their context with side effects. In the second case, when the structure of meanings is adjusted, the new meanings tend to be instances of the same mathematical structure, the monad. Monads themselves being widely used in functional programming to encode side effects, the common theme that emerges in both approaches is the introduction of side effects. Furthermore, different problems in semantics lead to different theories which are challenging to unite. Our thesis claims that by looking at these theories as theories of side effects, we can reuse results from programming language research to combine them.This thesis extends [lambda]-calculus with a monad of computations. The monad implements effects and handlers, a recent technique in the study of programming language side effects. In the first part of the thesis, we prove some of the fundamental properties of this calculus: subject reduction, confluence and termination. Then in the second part, we demonstrate how to use the calculus to implement treatments of several linguistic phenomena: deixis, quantification, conventional implicature, anaphora and presupposition. In the end, we build a grammar that features all of these phenomena and their interactions
Estilos ABNT, Harvard, Vancouver, APA, etc.
50

Maršík, Jiří. "Les effects et les handlers dans le langage naturel". Electronic Thesis or Diss., Université de Lorraine, 2016. http://www.theses.fr/2016LORR0322.

Texto completo da fonte
Resumo:
Ces travaux s’intéressent à la modélisation formelle de la sémantique des langues naturelles. Pour cela, nous suivons le principe de compositionnalité qui veut que le sens d’une expression complexe soit une fonction du sens de ses parties. Ces fonctions sont généralement formalisées à l’aide du [lambda]-calcul. Cependant, ce principe est remis en cause par certains usages de la langue, comme les pronoms anaphoriques ou les présuppositions. Ceci oblige à soit abandonner la compositionalité, soit modifier les structures du sens. Dans le premier cas, le sens n’est alors plus obtenu par un calcul qui correspond à des fonctions mathématiques, mais par un calcul dépendant du contexte, ce qui le rapproche des langages de programmation qui manipulent leur contexte avec des effets de bord. Dans le deuxième cas, lorsque les structures de sens sont ajustées, les nouveaux sens ont tendance à avoir une structure de monade. Ces dernières sont elles-mêmes largement utilisées en programmation fonctionnelle pour coder des effets de bord, que nous retrouvons à nouveau. Par ailleurs, s’il est souvent possible de proposer le traitement d’un unique phénomène, composer plusieurs traitements s’avère être une tâche complexe. Nos travaux proposent d’utiliser les résultats récents autour des langages de programmation pour parvenir à combiner ces modélisations par les effets de bord. Pour cela, nous étendons le [lambda]-calcul avec une monade qui implémente les effects et les handlers, une technique récente dans l’étude des effets de bord. Dans la première partie de la thèse, nous démontrons les propriétés fondamentales de ce calcul (préservation de type, confluence et terminaison). Dans la seconde partie, nous montrons comment utiliser le calcul pour le traitement de plusieurs phénomènes linguistiques : deixis, quantification, implicature conventionnelle, anaphore et présupposition. Enfin, nous construisons une unique grammaire qui gère ces phénomènes et leurs interactions
In formal semantics, researchers assign meanings to sentences of a natural language. This work is guided by the principle of compositionality: the meaning of an expression is a function of the meanings of its parts. These functions are often formalized using the [lambda]-calculus. However, there are areas of language which challenge the notion of compositionality, e.g. anaphoric pronouns or presupposition triggers. These force researchers to either abandon compositionality or adjust the structure of meanings. In the first case, meanings are derived by processes that no longer correspond to pure mathematical functions but rather to context-sensitive procedures, much like the functions of a programming language that manipulate their context with side effects. In the second case, when the structure of meanings is adjusted, the new meanings tend to be instances of the same mathematical structure, the monad. Monads themselves being widely used in functional programming to encode side effects, the common theme that emerges in both approaches is the introduction of side effects. Furthermore, different problems in semantics lead to different theories which are challenging to unite. Our thesis claims that by looking at these theories as theories of side effects, we can reuse results from programming language research to combine them.This thesis extends [lambda]-calculus with a monad of computations. The monad implements effects and handlers, a recent technique in the study of programming language side effects. In the first part of the thesis, we prove some of the fundamental properties of this calculus: subject reduction, confluence and termination. Then in the second part, we demonstrate how to use the calculus to implement treatments of several linguistic phenomena: deixis, quantification, conventional implicature, anaphora and presupposition. In the end, we build a grammar that features all of these phenomena and their interactions
Estilos ABNT, Harvard, Vancouver, APA, etc.
Oferecemos descontos em todos os planos premium para autores cujas obras estão incluídas em seleções literárias temáticas. Contate-nos para obter um código promocional único!

Vá para a bibliografia