Dissertations / Theses: 'Génération de textes'

1

Hankach, Pierre. "Génération automatique de textes par satisfaction de contraintes." Paris 7, 2009. http://www.theses.fr/2009PA070027.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous nous intéressons dans cette thèse à la construction d'un système de génération automatique - un logiciel informatique capable de transformer une représentation formelle de l'information en un texte en langage naturel. Dans notre approche, nous définissons la génération comme un problème de satisfaction de contraintes (CSP). Le système résultant garantit un traitement intégré des opérations de la génération car les différentes dépendances sont prises en compte et aucune priorité n'est donnée à un type d'opération par rapport aux autres. Pour définir le problème de satisfaction de contraintes, nous représentons les opérations de construction du texte par des variables de décision. Les opérations individuelles qui réalisent un même type d'expressions minimales dans le texte sont groupées ensemble et constituent une tâche de la génération. Nous classons les variables de décision selon les types d'opérations qu'elles représentent (e. G. Variables de sélection du contenu, variables de structuration du document. . . ). Les règles linguistiques régissant les opérations sont représentées par des contraintes sur les variables. Une contrainte peut être définie sur des variables d'un ou plusieurs type(s), marquant la dépendance entre les opérations correspondantes. La production d'un texte consiste en la résolution du système global des contraintes, c'est-à-dire trouver une affectation complète des variables qui ne viole pas les contraintes. Dans le cadre de la définition de la grammaire de contraintes, nous formulons notamment la partie qui régit les opérations de structuration du document. Nous modélispns par des contraintes la structure rhétorique développée par la SORT afin d'aboutir à des textes cohérents à la sortie du générateur. Auparavant, afin d'augmenter les capacités de génération de notre système, nous étendons cette structure rhétorique pour couvrir les textes non canoniques. En plus de la définition de ces contraintes pour la cohérence, nous formulons un ensemble de contraintes qui permettent de façonner la macrostructure en fonction des buts communicatifs afin de favoriser leur réalisation. Enfin, nous proposons une solution au problème de la complexité de calcul de la génération de textes de grande taille. Cette solution repose sur la génération de ces textes par paquet de propositions. Le problème de génération du texte global est ainsi défini comme plusieurs problèmes de génération de parties du texte. Ces parties sont de taille limitée et la complexité associée à leur génération reste raisonnable. Le partitionnement proposé est motivé par des considérations linguistiques
We address in this thesis the construction of a natural language generation System - computer software that transforms a formal representation of information into a text in natural language. In our approach, we define the generation problem as a constraint satisfaction problem (CSP). The implemented System ensures an integrated processing of generation operations as their different dependencies are taken into account and no priority is given to any type of operation over the others. In order to define the constraint satisfaction problem, we represent the construction operations of a text by decision variables. Individual operations that implement the same type of minimal expressions in the text form a generation task. We classify decision variables according to the type of operations they represent (e. G. Content selection variables, document structuring variables. . . ). The linguistic rules that govern the operations are represented as constraints on the variables. A constraint can be defined over variables of the same type or different types, capturing the dependency between the corresponding operations. The production of a text consists of resolving the global System of constraints, that is finding an evaluation of the variables that satisfies all the constraints. As part of the grammar of constraints for generation, we particularly formulate the constraints that govern document structuring operations. We model by constraints the rhetorical structure of SORT in order to yield coherent texts as the generator's output. Beforehand, in order to increase the generation capacities of our System, we extend the rhetorical structure to cover texts in the non-canonical order. Furthermore, in addition to defining these coherence constraints, we formulate a set of constraints that enables controlling the form of the macrostructure by communicative goals. Finally, we propose a solution to the problem of computational complexity of generating large texts. This solution is based on the generation of a text by groups of clauses. The problem of generating a text is therefore divided into many problems of reduced complexity, where each of them is concerned with generating a part of the text. These parts are of limited size so the associated complexity to their generation remains reasonable. The proposed partitioning of generation is motivated by linguistic considerations

2

Godbout, Mathieu. "Approches par bandit pour la génération automatique de résumés de textes." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69488.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce mémoire aborde l'utilisation des méthodes par bandit pour résoudre la problématique de l'entraînement de modèles de générations de résumés extractifs. Les modèles extractifs, qui bâtissent des résumés en sélectionnant des phrases d'un document original, sont difficiles à entraîner car le résumé cible correspondant à un document n'est habituellement pas constitué de manière extractive. C'est à cet effet que l'on propose de voir la production de résumés extractifs comme différents problèmes de bandit, lesquels sont accompagnés d'algorithmes pouvant être utilisés pour l'entraînement. On commence ce document en présentant BanditSum, une approche tirée de la litérature et qui voit la génération des résumés d'un ensemble de documents comme un problème de bandit contextuel. Ensuite, on introduit CombiSum, un nouvel algorithme qui formule la génération du résumé d'un seul document comme un bandit combinatoire. En exploitant la formule combinatoire, CombiSum réussit à incorporer la notion du potentiel extractif de chaque phrase à son entraînement. Enfin, on propose LinCombiSum, la variante linéaire de CombiSum qui exploite les similarités entre les phrases d'un document et emploie plutôt la formulation en bandit linéaire combinatoire.
This thesis discusses the use of bandit methods to solve the problem of training extractive abstract generation models. The extractive models, which build summaries by selecting sentences from an original document, are difficult to train because the target summary of a document is usually not built in an extractive way. It is for this purpose that we propose to see the production of extractive summaries as different bandit problems, for which there exist algorithms that can be leveraged for training summarization models.In this paper, BanditSum is first presented, an approach drawn from the literature that sees the generation of the summaries of a set of documents as a contextual bandit problem. Next,we introduce CombiSum, a new algorithm which formulates the generation of the summary of a single document as a combinatorial bandit. By exploiting the combinatorial formulation,CombiSum manages to incorporate the notion of the extractive potential of each sentence of a document in its training. Finally, we propose LinCombiSum, the linear variant of Com-biSum which exploits the similarities between sentences in a document and uses the linear combinatorial bandit formulation instead

3

Boussema, Kaouther. "Système de génération automatique de programmes d'entrées-sorties : le système IO." Paris 9, 1998. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1998PA090048.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse présente le système IO et ses principaux composants. Ce système est un générateur automatique de programmes d’entrées-sorties pour les données présentes dans des fichiers séquentiels. A partir d’une spécification de la forme et du contenu d’un fichier d’entrée-sortie (syntaxe, modèle conceptuel et liens entre modèle conceptuel et syntaxe), IO produit un programme d’entrée-sortie. Le programme d’entrée transforme un fichier de sa représentation textuelle en sa représentation dite conceptuelle, commune à IO et Descartes (générateur automatique de programmes développé à la Direction des Etudes et Recherches d’Electricité de France, Clamart). Inversement, le programme de sortie transforme un fichier de sa représentation conceptuelle en sa représentation textuelle. 10 comporte deux parties : Un composant loin assurant la génération des programmes d’entrées et un composant IOOut produisant les programmes de sorties. IO est essentiellement écrit en Yacc, C et Descartes

4

Chali, Yllias. "L'expansion de texte. Une approche basée sur l'explication par questions/réponses pour la génération de versions de textes." Toulouse 3, 1997. http://www.theses.fr/1997TOU30078.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'expansion de texte consiste a etendre une version d'un texte a partir d'une version noyau qui est la version la plus reduite du texte. La selection et l'ordre dans lequel les details sont introduits et organises constituent la generation de versions multiples d'un meme texte. Le but de l'expansion de texte est d'engendrer des explications en termes de reponses a des questions telles que pourquoi ?, comment ?, quand ? et ou ? sucsitees par les enonces du texte. Ces explications permettent de mener l'allocutaire a augmenter ses connaissances a propos des evenements et des etats narres dans le texte. Nous presentons une modelisation de cette operation basee sur la representation des connaissances des structures syntaxiques et semantiques des phrases selon l'approche de harris dans structures mathematiques du langage, et la representation des liens semantiques entre phrases a l'aide de la structure questions/reponses. Le processus d'expansion de texte consiste en une operation de selection du contenu a introduire dans la version courante et en une operation de capture de relation rhetorique en vue d'assurer la coherence du texte etendu. Guide par une analyse de la production humaine d'explication, nous avons implemente le systeme d'expansion de texte (texpan) basee sur une formalisation d'operateurs-plans qui integrent une theorie d'actes communicatifs (incluant des relations de structure rhetorique, les actes illocutoires et actes locutoires), et leur effets attendus sur les connaissances, les croyances et les buts de l'utilisateur. Le systeme utilise un planificateur de texte hierarchique et procede par decomposition des actes communicatifs. Durant la planification, l'expansion est basee sur la construction d'un treillis de relations questions/reponses entre phrases elementaires. Le paradigme de planification instaure au sein de texpan integre a la fois la planification au niveau texte et la planification au niveau phrase. La planification de l'expansion de texte est declenchee quand un but d'expansion est soumis au systeme ; a ce point, le planificateur de texte hierarchique effectue une recherche d'operateurs-plans qui accomplissent le but soumis. Ces actes sont decomposes en d'autres actes et eventuellement en actes illocutoires qui se decomposent en actes locutoires. Le processus de decomposition est guide par le but d'expansion, l'operation d'expansion et un modele utilisateur. Le resultat de la planification de texte est un plan communicatif hierarchique qui inclue une decomposition de plans communicatifs et une decomposition d'effets qui capture les effets des segments de texte sur les connaissances, les croyances et les buts de l'utilisateur.

5

Manuélian, Hélène. "Descriptions définies et démonstratives : analyses de corpus pour la génération de textes." Phd thesis, Nancy 2, 2003. http://tel.archives-ouvertes.fr/tel-00526602.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La thèse porte sur la génération automatique de descriptions définies et démonstratives. Il s'agit d'établir les contraintes linguistiques qui régissent leur production, et d'identifier les connaissances non linguistiques qui entrent en jeu dans cette production. Les algorithmes existant traitent essentiellement la génération de descriptions définies lorsque leur référent est déjà connu et les pronoms. Notre objectif est de parvenir à la génération de descriptions définies référant à des entités nouvelles et de descriptions démonstratives. Pour y parvenir, nous avons étudié un corpus de 10 000 descriptions définies et démonstratives. Notre thèse s'articule autour de deux grandes parties. Dans la première partie, nous réalisons un état de l'art dans les trois domaines qui nous concernent et dans la seconde, nous présentons les résultats de notre étude, et les extensions des algorithmes que nous proposons. Dans le premier chapitre, nous exposons les données théoriques et empiriques connues sur la référence, les expressions référentielles en français, et en anglais. Nous concluons par une synthèse montrant les limites de ces analyses. Nous présentons dans le deuxième chapitre la problématique de la génération d'expressions référentielles, et les algorithmes existant. Nous présentons l'algorithme de Gardent et Striegnitz, et montrons en quoi il nous semble être le plus approprié pour les extensions que nous souhaitons réaliser. Le troisième chapitre présente les concepts liés la linguistique de corpus et au traitement de corpus électroniques. Nous terminons la première partie par une synthèse exposant comment se lient les problèmes posés par les trois domaines abordés. Le cinquième chapitre de notre thèse présente les travaux ralisés sur le corpus, des pré-traitements informatiques à l'extraction des résultats. Dans le sixième chapitre, nous exposons les résultats d'une étude approfondie des anaphores associatives annotées dans notre corpus, et une extension de l'algorithme de Gardent et Striegnitz. Le septième chapitre présente une étude des descriptions définies et démonstratives et une seconde extension de l'algorithme de Gardent et Striegnitz, en tenant compte de la notion d'informativité d'une expression référentielle. Le dernier chapitre présente les contraintes identifiées l'aide du corpus sur le choix du déterminant des descriptions, et nous montrons qu'elles sont à la fois syntaxiques et sémantiques.

6

Ponton, Claude (1966. "Génération automatique de textes en langue naturelle : essai de définition d'un système noyau." Grenoble 3, 1996. http://www.theses.fr/1996GRE39030.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Une des caracteristiques commune a de tres nombreux systemes de generation est la forte dependance qu'ils entretiennent chacun avec leur application. Si quelques tentatives de definition de systemes "non dedies" ont ete faites, aucune ne permet la prise en compte des caracteristiques de l'application (comme son formalisme) et de la situation enonciative (domaine d'application, utilisateur,. . . ). L'objectif de cette these est la definition d'un systeme de generation a la fois non dedie et permettant la prise en compte de ces differents elements. Un tel systeme est appele "systeme noyau de generation". Dans cette perspective, nous avons mene l'etude de 94 systemes de generation selon des criteres pertinents par rapport a notre objectif. Cette etude sert de base a la suite de notre travail. La definition du generateur noyau passe par la determination de la frontiere entre l'application et la generation noyau (taches du generateur, entrees, sorties, donnees,. . . ). Il est necessaire, en effet, de connaitre les roles de chacune des deux parties et leurs moyens de communication avant de pouvoir construire le generateur noyau. Il resulte de cette etude que le generateur noyau considere en entree une representation formelle quelconque du contenu et un ensemble de contraintes decrivant la situation enonciative. Le generateur noyau traite alors ce que l'on nomme generalement le "comment le dire?" et il est capable de produire toutes les solutions repondant aux contraintes d'entree. Cette partie de definition est suivie de la realisation d'une premiere maquette du generateur noyau qui a ete testee sur deux applications distinctes a tous points de vue (formalisme, domaine, type de textes,. . . ). Enfin, ce travail debouche sur des perspectives d'evolution du generateur noyau notamment sur le formalisme de representation des connaissances (cotopies d'objets) et sur l'architecture (architecture distribuee)
One of the common features with many generation systems is the strong dependence on the application. If few definition attempts of "non dedicated" systems have been realised, none of them permis to take into account the application characteristics (as its formalism) and the communication context (application field, user,. . . ). The purpose of this thesis is the definition of a generation system both non dedicated and permitting to take into account these elements. Such a system is called a "kernel generation system". In this perspective, we have studied 94 generation systems through objective relevant criteria. This study is used as a basis in the continuation of our work. The definition of a kernel generator needs the determination of the frontier between the application and the kernel generation (generator tasks, inputs, outputs, data,. . . ). Effectively, it is necessary to be aware of the role of both parts and their communication ways before designing the kernel generator. It results of this study that our generator considers as input any formal content representation as well as a set of constraints describing the communication context. The kernel generator then processes what is generally called the "how to say it?" and is able to produce every solutions according to the input constraints. This definition part is followed by the achievement of a first generator prototype which has been tested through two applications distinct in all respects (formalism, field, type of texts,. . . ). Finally, this work opens out on some evolution perspectives for the generator particulary on knowledge representation formalism (cotopies d'objets) and on architecture (distributed architecture)

7

Namer, Fiammetta. "Pronominalisation et effacement du sujet en génération automatique de textes en langues romanes." Paris 7, 1990. http://www.theses.fr/1990PA077249.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail est centre sur la generation de textes a partir de representations semantiques, en francais et en italien. Les points abordes concernent essentiellement les aspects syntaxiques de la pronominalisation: nous montrons que les pronoms personnels et, pour l'italien, le sujet vide, tiennent une place capitale dans le mecanisme de synthese d'un texte. Apres avoir presente le modele de l. Danlos, dont nous nous sommes inspires, nous detaillons les aspects linguistiques de la pronominalisation et leurs consequences en generation: les dependances non locales et croisees mises en jeu par les contraintes de co-occurrence entre pronoms. Apres avoir montre la nature similaire, mais aussi les differences qui existent entre l'effacement du sujet et la formation d'un pronom, nous decrivons les conditions morphologiques, semantiques et syntaxiques necessaires a la realisation de ces deux operations. Nous etudions alors deux approches de la synthese d'une phrase: une approche sequentielle et une approche globale, qui realise toutes les phrases potentielles, avec ou sans pronoms, en parallele, et effectue un choix final. Le chapitre 5 est consacre a l'etude des conditions stylistiques de pronominalisation, basees sur le parallelisme de structure. Ces contraintes apportent des arguments en faveur de l'approche globale, dont nous detaillons les avantages. Dans le chapitre 6, nous utilisons l'application recursive de cette approche pour resoudre des problemes de pronominalisation dans les phrases a completive, et ce apres avoir mis en evidence la complexite de ce phenomene. Enfin, le dernier chapitre decrit le programme qui a ete realise. Ce programme engendre des resumes d'operas de verdi en italien, qui sont presentes et commentes

8

Faiz, Rim. "Modélisation formelle des connaissances temporelles à partir de textes en vue d'une génération automatique de programmes." Paris 9, 1996. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1996PA090023.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de notre travail correspond à une réflexion méthodologique sur la modélisation des connaissances temporelles dans le domaine juridique. Le but final est d'extraire une modélisation formelle par traduction d'un texte en langage naturel dans un formalisme formel de représentation des connaissances, puis d'en déduire automatiquement un programme. L'analyse de corpus de textes de lois nous a permis de mettre en évidence que le problème essentiel au niveau de la représentation de ces types de textes n'est pas seulement lie à la logique déontique, mais aussi à la représentation du temps, c'est-à-dire à la logique temporelle. Les notions de date et de délai qui posent des problèmes d'imputation et de déclenchement d'ordre sont, en effet, relativement importantes en droit. En effet, la représentation du temps (délai, date, etc. ) est fondamentale dans la détermination d'une décision en matière de prestations. Certains problèmes relatifs à l'utilisation du temps nous ont permis d'étudier d'une manière conceptuelle l'incorporation de fonctions temporelles dans notre modèle, dans le but de représenter les relations temporelles entre les concepts. Nous avons représenté, en plus du positionnement des entités temporelles les unes par rapport aux autres, les relations de ces entités dans un repère absolu, les dates de début de ces entités, leurs dates de fin et leurs durées, mais aussi le positionnement dans le temps, la granularité du temps, etc. Nous avons également établi une méthodologie permettant de montrer le mécanisme de passage d'un texte en langage naturel à une spécification formelle dans un langage ayant la lisibilité du langage naturel. Le processus de traduction formelle s'effectue en trois étapes: l'étape de traduction du texte en langage naturel à sa représentation littérale semi-formelle, l'étape de passage de cette représentation littérale à une représentation formelle mais ambiguë et incomplète et enfin l'étape de désambiguïsation résolvant les problèmes d'ambiguïté et d'incomplétude. Une vue globale de l'ensemble a été représentée dans le formalisme SADT. Ce processus de traduction formelle, qui est une aide au passage des textes juridiques en langage naturel vers des programmes opérationnels pour implémenter des systèmes d'information juridiques, représente pour notre méthode un outil intéressant pour la conception et la validation des textes juridiques en particulier pour les points difficiles et complexes. Un prototype Temdeo (temporel et déontique) a été conçu permettant le passage automatique de la spécification formelle au programme informatique. Ce système permet aux juristes d'être plus explicite sur les buts ou les alternatives, de procéder à une analyse et calcul sur le temps à partir de textes. Cette analyse est d'autant plus rapide, automatique et correcte qu'elle va leur permettre d'automatiser certaines actions en minimisant le risque d'erreurs

9

Fan, Huihui. "Text Generation with and without Retrieval." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0164.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Tous les jours, nous écrivons --- qu'il s'agisse d'envoyer un texte rapide à votre mère ou de rédiger un article scientifique tel que cette thèse. Les logiciels modernes de messagerie instantanée suggèrent souvent le mot à écrire ensuite, les courriers électroniques peuvent être lancés à l'aide d'un autocomposeur et les rédactions sont améliorées grâce à des suggestions de la machine. Ces technologies sont le fruit d'années de recherche sur la génération de texte, un domaine du traitement du langage naturel dont l'objectif est de produire automatiquement un langage naturel fluide et lisible par l'homme. À petite échelle, les systèmes de génération de texte peuvent générer des mots ou des phrases isolés, mais leurs applications vont bien au-delà. Par exemple, les systèmes de résumé, de dialogue et même la rédaction d'articles entiers de Wikipédia reposent sur la technologie fondamentale de génération de texte. La production d'un langage naturel fluide, précis et utile est confrontée à de nombreux défis. Les progrès récents en matière de génération de texte, qui s'appuient principalement sur l'apprentissage d'architectures de réseaux neuronaux sur de grands ensembles de données, ont considérablement amélioré la lisibilité de surface du texte généré par la machine. Cependant, les systèmes actuels nécessitent des améliorations sur de nombreux axes, notamment la génération de textes autres que l'anglais et la rédaction de textes de plus en plus longs. Bien que le domaine ait connu des progrès rapides, la recherche s'est surtout concentrée sur la langue anglaise, où des ensembles de données d'entraînement et d'évaluation à grande échelle pour diverses tâches sont facilement disponibles. Néanmoins, les applications allant de l'autocorrection à l'autocomposition de texte devraient être disponibles universellement. Après tout, la majorité de la population mondiale n'écrit pas en anglais. Dans ce travail, nous créons des systèmes de génération de texte pour diverses tâches avec la capacité d'incorporer des langues autres que l'anglais, soit sous forme d'algorithmes qui s'étendent facilement à de nouvelles langues. Au-delà de nos travaux sur la génération de textes multilingues, nous nous concentrons sur un élément essentiel des systèmes de génération : la connaissance. Pour bien écrire, il faut d'abord savoir quoi écrire. Ce concept de connaissance est incroyablement important dans les systèmes de génération de texte. Par exemple, la rédaction automatique d'un article complet sur Wikipédia nécessite une recherche approfondie sur le sujet de l'article. L'instinct de recherche est souvent intuitif --- il y a quelques décennies, les gens se seraient rendus dans une bibliothèque, remplacés aujourd'hui par les informations disponibles sur le World Wide Web. Cependant, pour les systèmes automatisés, la question n'est pas seulement de savoir quelles connaissances utiliser pour générer du texte, mais aussi comment récupérer ces connaissances et les utiliser au mieux pour atteindre l'objectif de communication visé. Nous relevons le défi de la génération de texte basée sur la récupération. Nous présentons plusieurs techniques permettant d'identifier les connaissances pertinentes à différentes échelles : des connaissances locales disponibles dans un paragraphe à l'identification de l'aiguille dans la botte de foin à l'échelle du web complet, en passant par le passage au crible de Wikipedia. Nous décrivons des architectures de réseaux neuronaux capables d'effectuer efficacement des recherches à grande échelle, en utilisant des mécanismes de précalcul et de mise en cache. Enfin, nous utilisons ces architectures dans des tâches nouvelles, beaucoup plus difficiles, qui repoussent les limites des modèles de génération de texte qui fonctionnent bien aujourd'hui : des tâches qui nécessitent des connaissances, mais qui exigent également que les modèles produisent des résultats longs et structurés en langage naturel
Every day we write --- from sending your mother a quick text to drafting a scientific article such as this thesis. The writing we do often goes hand-in-hand with automated assistance. For example, modern instant messaging software often suggests what word to write next, emails can be started with an autocomposer, and essays are improved with machine-suggested edits. These technologies are powered by years of research on text generation, a natural language processing field with the goal of automatically producing fluent, human-readable natural language. At a small scale, text generation systems can generate individual words or sentences, but have wide-reaching applications beyond that. For instance, systems for summarization, dialogue, and even the writing of entire Wikipedia articles are grounded in foundational text generation technology.Producing fluent, accurate, and useful natural language faces numerous challenges. Recent advances in text generation, principally leveraging training neural network architectures on large datasets, have significantly improved the surface-level readability of machine-generated text. However, current systems necessitate improvement along numerous axes, including generation beyond English and writing increasingly longer texts. While the field has seen rapid progress, much research focus has been directed towards the English language, where large-scale training and evaluation datasets for various tasks are readily available. Nevertheless, applications from autocorrect to autocomposition of text should be available universally. After all, by population, the majority of the world does not write in English. In this work, we create text generation systems for various tasks with the capability of incorporating languages beyond English, either as algorithms that easily extend to new languages or multilingual models encompassing up to 20 languages in one model.Beyond our work in multilingual text generation, we focus on a critical piece of generation systems: knowledge. A pre-requisite to writing well is knowing what to write. This concept of knowledge is incredibly important in text generation systems. For example, automatically writing an entire Wikipedia article requires extensive research on that article topic. The instinct to research is often intuitive --- decades ago people would have gone to a library, replaced now by the information available on the World Wide Web. However, for automated systems, the question is not only what knowledge to use to generate text, but also how to retrieve that knowledge and best utilize it to achieve the intended communication goal.We face the challenge of retrieval-based text generation. We present several techniques for identifying relevant knowledge at different scales: from local knowledge available in a paragraph to sifting through Wikipedia, and finally identifying the needle-in-the-haystack on the scale of the full web. We describe neural network architectures that can perform large-scale retrieval efficiently, utilizing pre-computation and caching mechanisms. Beyond how to retrieve knowledge, we further investigate the form the knowledge should take --- from natural language such as Wikipedia articles or text on the web to structured inputs in the form of knowledge graphs. Finally, we utilize these architectures in novel, much more challenging tasks that push the boundaries of where text generation models work well today: tasks that necessitate knowledge but also require models to produce long, structured natural language output, such as answering complex questions or writing full Wikipedia articles

10

Popesco, Liana. "Analyse et génération de textes à partir d'un seul ensemble de connaissances pour chaque langue naturelle et de meta-règles de structuration." Paris 6, 1986. http://www.theses.fr/1986PA066138.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le système analyseur/générateur construit réalise des traductions sémantiques multilingues en contexte limité. Caractéristiques principales: unicité de l'ensemble de connaissances fourni pour chaque langue; représentation interne exclusivement sémantique; réorganisation, par le système, de la grammaire initiale (atn sémantico-syntaxique), en vue de la génération; déduction (à partir de principes généraux donnes sous forme de métarègles) de règles de structuration spécifiques à chaque langue, règles utilisables en génération.

11

Colin, Émilie. "Traitement automatique des langues et génération automatique d'exercices de grammaire." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0059.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le thème support de cette thèse la génération de paraphrases sur support neuronal. Nos perspectives sont éducatives : créer des exercices de grammaire pour le français. La paraphrase est une opération de reformulation. Nos travaux tendent à attester que les modèles séquence vers séquence ne sont pas de simples répétiteurs mais peuvent apprendre la syntaxe. Nous avons montré, en combinant divers modèles, que la représentation de l'information sous de multiples formes (en utilisant de la donnée formelle (RDF), couplée à du texte pour l'étendre ou le réduire, ou encore seulement du texte) permet d'exploiter un corpus sous différents angles, augmentant la diversité des sorties, exploitant les leviers syntaxiques mis en place. Nous nous sommes penchée sur un problème récurrent, celui de la qualité des données, et avons obtenu des paraphrases avec une haute adéquation syntaxique (jusqu'à 98% de couverture de la demande) et un très bon niveau linguistique. Nous obtenons jusqu'à 83.97 points de BLEU*, 78.41 de plus que la moyenne de nos lignes de base, sans levier syntaxique. Ce taux indique un meilleur contrôle des sorties, pourtant variées et de bonne qualité en l'absence de levier. Nous avons ensuite travaillé depuis du texte brut en passant, pour la génération de phrases, par la production d'une représentation du sens de ce texte qui puisse servir d'entrée à la génération de paraphrases. Le passage à du texte en français était aussi pour nous un impératif. Travailler depuis du texte brut, en automatisant les procédures, nous a permis de créer un corpus de plus de 450 000 couples représentations/phrases, grâce auquel nous avons appris à générer des textes massivement corrects (92% sur la validation qualitative). Anonymiser ce qui n'est pas fonctionnel a participé notablement à la qualité des résultats (68.31 de BLEU, soit +3.96 par rapport à la ligne de base, qui était la génération depuis des données non anonymisées). La représentation formelle de l'information dans un cadre linguistique particulier à une langue est une tâche ardue. Cette thèse offre des pistes de méthodes pour automatiser cette opération. Par ailleurs, nous n'avons pu traiter que des phrases relativement courtes. L'utilisation de modèles neuronaux plus récents permettrait sans doute d'améliorer les résultats. Enfin, l'usage de traits adéquats en sortie permettrait des vérifications poussées. *BLEU (Papineni et al., 2002) : qualité d'un texte sur une échelle de 0 (pire) à 100 (meilleur)
Our perspectives are educational, to create grammar exercises for French. Paraphrasing is an operation of reformulation. Our work tends to attest that sequence-to-sequence models are not simple repeaters but can learn syntax. First, by combining various models, we have shown that the representation of information in multiple forms (using formal data (RDF), coupled with text to extend or reduce it, or only text) allows us to exploit a corpus from different angles, increasing the diversity of outputs, exploiting the syntactic levers put in place. We also addressed a recurrent problem, that of data quality, and obtained paraphrases with a high syntactic adequacy (up to 98% coverage of the demand) and a very good linguistic level. We obtain up to 83.97 points of BLEU-4*, 78.41 more than our baseline average, without syntax leverage. This rate indicates a better control of the outputs, which are varied and of good quality in the absence of syntax leverage. Our idea was to be able to work from raw text : to produce a representation of its meaning. The transition to French text was also an imperative for us. Working from plain text, by automating the procedures, allowed us to create a corpus of more than 450,000 sentence/representation pairs, thanks to which we learned to generate massively correct texts (92% on qualitative validation). Anonymizing everything that is not functional contributed significantly to the quality of the results (68.31 of BLEU, i.e. +3.96 compared to the baseline, which was the generation of text from non-anonymized data). This second work can be applied the integration of a syntax lever guiding the outputs. What was our baseline at time 1 (generate without constraint) would then be combined with a constrained model. By applying an error search, this would allow the constitution of a silver base associating representations to texts. This base could then be multiplied by a reapplication of a generation under constraint, and thus achieve the applied objective of the thesis. The formal representation of information in a language-specific framework is a challenging task. This thesis offers some ideas on how to automate this operation. Moreover, we were only able to process relatively short sentences. The use of more recent neural modelswould likely improve the results. The use of appropriate output strokes would allow for extensive checks. *BLEU : quality of a text (scale from 0 (worst) to 100 (best), Papineni et al. (2002))

12

Moyse, Gilles. "Résumés linguistiques de données numériques : interprétabilité et périodicité de séries." Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066526.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nos travaux s'inscrivent dans le domaine des résumés linguistiques flous (RLF) qui permettent la génération de phrases en langage naturel, descriptives de données numériques, et offrent ainsi une vision synthétique et compréhensible de grandes masses d'information. Nous nous intéressons d'abord à l'interprétabilité des RLF, capitale pour fournir une vision simplement appréhendable de l'information à un utilisateur humain et complexe du fait de sa formulation linguistique. En plus des travaux existant à ce sujet sur les composants élémentaires des RLF, nous proposons une approche globale de l'interprétabilité des résumés vus comme un ensemble de phrases et nous intéressons plus spécifiquement à la question de leur cohérence. Afin de la garantir dans le cadre de la logique floue standard, nous introduisons une formalisation originale de l'opposition entre phrases de complexité croissante. Ce formalisme nous permet de démontrer que les propriétés de cohérence sont vérifiables par le choix d'un modèle de négation spécifique. D'autre part, nous proposons sur cette base un cube en 4 dimensions mettant en relation toutes les oppositions possibles entre les phrases d'un RLF et montrons que ce cube généralise plusieurs structures d'opposition logiques existantes. Nous considérons ensuite le cas de données sous forme de séries numériques et nous intéressons à des résumés linguistiques portant sur leur périodicité : les phrases que nous proposons indiquent à quel point une série est périodique et proposent une formulation linguistique appropriée de sa période. La méthode d’extraction proposée, nommée DPE pour Detection of Periodic Events, permet de segmenter les données de manière adaptative et sans paramètre utilisateur, en utilisant des outils issus de la morphologie mathématique. Ces segments sont ensuite utilisés pour calculer la période de la série temporelle ainsi que sa périodicité, calculée comme un degré de qualité sur le résultat renvoyé mesurant à quel point la série est périodique. Enfin, DPE génère des phrases comme « Environ toutes les 2 heures, l'afflux de client est important ». Des expériences sur des données artificielles et réelles confirment la pertinence de l'approche. D’un point de vue algorithmique, nous proposons une implémentation incrémentale et efficace de DPE, basée sur l’établissement de formules permettant le calcul de mises à jour des variables. Cette implémentation permet le passage à l'échelle de la méthode ainsi que l'analyse en temps réel de flux de données. Nous proposons également une extension de DPE basée sur le concept de périodicité locale permettant d'identifier les sous-séquences périodiques d'une série temporelle par l’utilisation d’un test statistique original. La méthode, validée sur des données artificielles et réelles, génère des phrases en langage naturel permettant d’extraire des informations du type « Toutes les deux semaines sur le premier semestre de l'année, les ventes sont élevées »
Our research is in the field of fuzzy linguistic summaries (FLS) that allow to generate natural language sentences to describe very large amounts of numerical data, providing concise and intelligible views of these data. We first focus on the interpretability of FLS, crucial to provide end-users with an easily understandable text, but hard to achieve due to its linguistic form. Beyond existing works on that topic, based on the basic components of FLS, we propose a general approach for the interpretability of summaries, considering them globally as groups of sentences. We focus more specifically on their consistency. In order to guarantee it in the framework of standard fuzzy logic, we introduce a new model of oppositions between increasingly complex sentences. The model allows us to show that these consistency properties can be satisfied by selecting a specific negation approach. Moreover, based on this model, we design a 4-dimensional cube displaying all the possible oppositions between sentences in a FLS and show that it generalises several existing logical opposition structures. We then consider the case of data in the form of numerical series and focus on linguistic summaries about their periodicity: the sentences we propose indicate the extent to which the series are periodic and offer an appropriate linguistic expression of their periods. The proposed extraction method, called DPE, standing for Detection of Periodic Events, splits the data in an adaptive manner and without any prior information, using tools from mathematical morphology. The segments are then exploited to compute the period and the periodicity, measuring the quality of the estimation and the extent to which the series is periodic. Lastly, DPE returns descriptive sentences of the form ``Approximately every 2 hours, the customer arrival is important''. Experiments with artificial and real data show the relevance of the proposed DPE method. From an algorithmic point of view, we propose an incremental and efficient implementation of DPE, based on established update formulas. This implementation makes DPE scalable and allows it to process real-time streams of data. We also present an extension of DPE based on the local periodicity concept, allowing the identification of local periodic subsequences in a numerical series, using an original statistical test. The method validated on artificial and real data returns natural language sentences that extract information of the form ``Every two weeks during the first semester of the year, sales are high''

13

Cripwell, Liam. "Controllable and Document-Level Text Simplification." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0186.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La simplification de texte est une tâche qui consiste à réécrire un texte pour le rendre plus facile à lire et à comprendre pour un public plus large, tout en exprimant toujours le même sens fondamental. Cela présente des avantages potentiels pour certains utilisateurs (par exemple, les locuteurs non natifs, les enfants, les personnes ayant des difficultés de lecture), tout en étant prometteur en tant qu'étape de prétraitement pour les tâches de Traitement Automatique des Langues (TAL) en aval. Les progrès récents dans les modèles génératifs neuronaux ont conduit au développement de systèmes capables de produire des sorties très fluides. Cependant, étant donné la nature de "boîte noire" (black box) de ces systèmes de bout en bout, l'utilisation de corpus d'entraînement pour apprendre implicitement comment effectuer les opérations de réécriture nécessaires. Dans le cas de la simplification, ces ensembles de données comportent des limitation en termes à la fois de quantité et de qualité, la plupart des corpus étant soit très petits, soit construits automatiquement, soit soumis à des licences d'utilisation strictes. En conséquence, de nombreux systèmes ont tendance à être trop conservateurs, n'apportant souvent aucune modification au texte original ou se limitant à la paraphrase de courtes séquences de mots sans modifications structurelles substantielles. En outre, la plupart des travaux existants sur la simplification du texte se limitent aux entrées au niveau de la phrase, les tentatives d'application itérative de ces approches à la simplification au niveau du document ne parviennent en effet souvent pas à préserver de manière cohérente la structure du discours du document. Ceci est problématique, car la plupart des applications réelles de simplification de texte concernent des documents entiers. Dans cette thèse, nous étudions des stratégies pour atténuer la conservativité des systèmes de simplification tout en favorisant une gamme plus diversifiée de types de transformation. Cela implique la création de nouveaux ensembles de données contenant des instances d'opérations sous-représentées et la mise en œuvre de systèmes contrôlables capables d'être adaptés à des transformations spécifiques et à différents niveaux de simplicité. Nous étendons ensuite ces stratégies à la simpliﬁcation au niveau du document, en proposant des systèmes capables de prendre en compte le contexte du document environnant. Nous développons également des techniques de contrôlabilité permettant de planifier les opérations à effectuer, à l'avance et au niveau de la phrase. Nous montrons que ces techniques permettent à la fois des performances élevées et une évolutivité des modèles de simplification
Text simplification is a task that involves rewriting a text to make it easier to read and understand for a wider audience, while still expressing the same core meaning. This has potential benefits for disadvantaged end-users (e.g. non-native speakers, children, the reading impaired), while also showing promise as a preprocessing step for downstream NLP tasks. Recent advancement in neural generative models have led to the development of systems that are capable of producing highly fluent outputs. However, these end-to-end systems often rely on training corpora to implicitly learn how to perform the necessary rewrite operations. In the case of simplification, these datasets are lacking in both quantity and quality, with most corpora either being very small, automatically constructed, or subject to strict licensing agreements. As a result, many systems tend to be overly conservative, often making no changes to the original text or being limited to the paraphrasing of short word sequences without substantial structural modifications. Furthermore, most existing work on text simplification is limited to sentence-level inputs, with attempts to iteratively apply these approaches to document-level simplification failing to coherently preserve the discourse structure of the document. This is problematic, as most real-world applications of text simplification concern document-level texts. In this thesis, we investigate strategies for mitigating the conservativity of simplification systems while promoting a more diverse range of transformation types. This involves the creation of new datasets containing instances of under-represented operations and the implementation of controllable systems capable of being tailored towards specific transformations and simplicity levels. We later extend these strategies to document-level simplification, proposing systems that are able to consider surrounding document context and use similar controllability techniques to plan which sentence-level operations to perform ahead of time, allowing for both high performance and scalability. Finally, we analyze current evaluation processes and propose new strategies that can be used to better evaluate both controllable and document-level simplification systems

14

Faille, Juliette. "Data-Based Natural Language Generation : Evaluation and Explainability." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0305.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les modèles de génération de langage naturel (NLG) ont récemment atteint de très hautes performances. Les textes qu'ils produisent sont généralement corrects sur le plan grammatical et syntaxique, ce qui les rend naturels. Bien que leur sens soit correct dans la grande majorité des cas, même les modèles de NLG les plus avancés produisent encore des textes avec des significations partiellement inexactes. Dans cette thèse, en nous concentrons sur le cas particulier des problèmes liés au contenu des textes générés, nous proposons d'évaluer et d'analyser les modèles utilisés dans les tâches de verbalisation de graphes RDF (Resource Description Framework) et de génération de questions conversationnelles. Tout d'abord, nous étudions la tâche de verbalisation des graphes RDF et en particulier les omissions et hallucinations d'entités RDF, c'est-à-dire lorsqu'un texte généré automatiquement ne mentionne pas toutes les entités du graphe RDF d'entrée ou mentionne d'autres entités que celles du graphe d'entrée. Nous évaluons 25 modèles de verbalisation de graphes RDF sur les données WebNLG. Nous développons une méthode pour détecter automatiquement les omissions et les hallucinations d'entités RDF dans les sorties de ces modèles. Nous proposons une métrique basée sur le nombre d'omissions ou d'hallucinations pour quantifier l'adéquation sémantique des modèles NLG avec l'entrée. Nous constatons que cette métrique est corrélée avec ce que les annotateurs humains considèrent comme sémantiquement correct et nous montrons que même les modèles les plus globalement performants sont sujets à des omissions et à des hallucinations. Suite à cette observation sur la tendance des modèles de verbalisation RDF à générer des textes avec des problèmes liés au contenu, nous proposons d'analyser l'encodeur de deux de ces modèles, BART et T5. Nous utilisons une méthode d'explicabilité par sondage et introduisons deux sondes de classification, l'une paramétrique et l'autre non paramétrique, afin de détecter les omissions et les déformations des entités RDF dans les plongements lexicaux des modèles encodeur-décodeur. Nous constatons que ces classifieurs sont capables de détecter ces erreurs dans les encodages, ce qui suggère que l'encodeur des modèles est responsable d'une certaine perte d'informations sur les entités omises et déformées. Enfin, nous proposons un modèle de génération de questions conversationnelles basé sur T5 qui, en plus de générer une question basée sur un graphe RDF d'entrée et un contexte conversationnel, génère à la fois une question et le triplet RDF correspondant. Ce modèle nous permet d'introduire une procédure d'évaluation fine évaluant automatiquement la cohérence avec le contexte de la conversation et l'adéquation sémantique avec le graphe RDF d'entrée. Nos contributions s'inscrivent dans les domaines de l'évaluation en NLG et de l'explicabilité. Nous empruntons des techniques et des méthodologies à ces deux domaines de recherche afin d'améliorer la fiabilité des modèles de génération de texte
Recent Natural Language Generation (NLG) models achieve very high average performance. Their output texts are generally grammatically and syntactically correct which makes them sound natural. Though the semantics of the texts are right in most cases, even the state-of-the-art NLG models still produce texts with partially incorrect meanings. In this thesis, we propose evaluating and analyzing content-related issues of models used in the NLG tasks of Resource Description Framework (RDF) graphs verbalization and conversational question generation. First, we focus on the task of RDF verbalization and the omissions and hallucinations of RDF entities, i.e. when an automatically generated text does not mention all the input RDF entities or mentions other entities than those in the input. We evaluate 25 RDF verbalization models on the WebNLG dataset. We develop a method to automatically detect omissions and hallucinations of RDF entities in the outputs of these models. We propose a metric based on omissions or hallucination counts to quantify the semantic adequacy of the NLG models. We find that this metric correlates well with what human annotators consider to be semantically correct and show that even state-of-the-art models are subject to omissions and hallucinations. Following this observation about the tendency of RDF verbalization models to generate texts with content-related issues, we propose to analyze the encoder of two such state-of-the-art models, BART and T5. We use the probing explainability method and introduce two probing classifiers (one parametric and one non-parametric) to detect omissions and distortions of RDF input entities in the embeddings of the encoder-decoder models. We find that such probing classifiers are able to detect these mistakes in the encodings, suggesting that the encoder of the models is responsible for some loss of information about omitted and distorted entities. Finally, we propose a T5-based conversational question generation model that in addition to generating a question based on an input RDF graph and a conversational context, generates both a question and its corresponding RDF triples. This setting allows us to introduce a fine-grained evaluation procedure automatically assessing coherence with the conversation context and the semantic adequacy with the input RDF. Our contributions belong to the fields of NLG evaluation and explainability and use techniques and methodologies from these two research fields in order to work towards providing more reliable NLG models

15

Barrère, Killian. "Architectures de Transformer légères pour la reconnaissance de textes manuscrits anciens." Electronic Thesis or Diss., Rennes, INSA, 2023. http://www.theses.fr/2023ISAR0017.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En reconnaissance d’écriture manuscrite, les architectures Transformer permettent de faibles taux d’erreur, mais sont difficiles à entraîner avec le peu de données annotées disponibles. Dans ce manuscrit, nous proposons des architectures Transformer légères adaptées aux données limitées. Nous introduisons une architecture rapide basée sur un encodeur Transformer, et traitant jusqu’à 60 pages par seconde. Nous proposons aussi des architectures utilisant un décodeur Transformer pour inclure l’apprentissage de la langue dans la reconnaissance des caractères. Pour entraîner efficacement nos architectures, nous proposons des algorithmes de génération de données synthétiques adaptées au style visuel des documents modernes et anciens. Nous proposons également des stratégies pour l’apprentissage avec peu de données spécifiques, et la réduction des erreurs de prédiction. Nos architectures, combinées à l’utilisation de données synthétiques et de ces stratégies, atteignent des taux d’erreur compétitifs sur des lignes de texte de documents modernes. Sur des documents anciens, elles parviennent à s’entraîner avec des nombres limités de données annotées, et surpassent les approches de l’état de l’art. En particulier, 500 lignes annotées sont suffisantes pour obtenir des taux d’erreur caractères proches de 5%
Transformer architectures deliver low error rates but are challenging to train due to limited annotated data in handwritten text recognition. We propose lightweight Transformer architectures to adapt to the limited amounts of annotated handwritten text available. We introduce a fast Transformer architecture with an encoder, processing up to 60 pages per second. We also present architectures using a Transformer decoder to incorporate language modeling into character recognition. To effectively train our architectures, we offer algorithms for generating synthetic data adapted to the visual style of modern and historical documents. Finally, we propose strategies for learning with limited data and reducing prediction errors. Our architectures, combined with synthetic data and these strategies, achieve competitive error rates on lines of text from modern documents. For historical documents, they train effectively with minimal annotated data, surpassing state-ofthe- art approaches. Remarkably, just 500 annotated lines are sufficient for character error rates close to 5%

16

Raynaud, Tanguy. "Génération de questions à choix multiples thématiques à partir de bases de connaissances." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSES066.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'évaluation de connaissances à travers un support de questions à choix multiples est une méthode fiable et largement utilisée, y compris dans des contextes officiels, comme pour l'examen du code de la route. Cette méthode d'évaluation offre en effet de nombreux avantages, comme une égalité de notation entre les candidats, ou de façon plus pragmatique, une possibilité de correction automatique.L'émergence des MOOCs, des cours dispensés sous un format numérique, a contribué à accroître ce besoin d'évaluation automatique. Les travaux de cette thèse s'inscrivent ainsi dans ce contexte, en proposant une solution permettant de générer des questions thématiques, c'est à dire des questions centrées autour d'un thème prédéfini.Les travaux présentés dans cette thèse utilisent des bases de connaissances comme sources de données pour générer automatiquement des questions à choix multiples thématiques. L'utilisation de bases de connaissances dans ce contexte pose ainsi un certain nombre de défis scientifiques qui constituent les contributions des travaux présentés :- Les entités des bases de connaissances ne sont généralement pas explicitement corrélés à des thèmes. Cette thèse présente ainsi une méthode basée sur les méta-données de Wikipedia permettant d'identifier et de trier les entités de bases de connaissances en fonction de thèmes prédéfinis.- Pour qu'une question soit intelligible, son énoncé doit être grammaticalement correct, et contenir suffisamment d'informations pour lever toute ambiguïté quand-à la bonne réponse. Dans cette optique, nous avons introduit des modèles de questions permettant d'identifier des entités au sein de bases de connaissances, et de générer des énoncés en langage naturel.- Dans une questions à choix multiples, les distracteurs (mauvaises réponses) sont aussi important que l'énoncé, de mauvais distracteurs rendant la question trop facile. Dans une dernière contribution, nous présentons la méthode utilisée pour sélectionner des distracteurs qui soient non seulement pertinents vis-à-vis de l'énoncé de la question, mais aussi de son contexte
The use of multiple choice questions to assess knowledge is a reliable and widely used method, even in official contexts. Such a method offers many advantages, including equality of marking between candidates, or, more pragmatically, the possibility of automatic correction.With the emergence of MOOCs (courses delivered in a digital format), the need for automatic evaluation has increased. The scope of this thesis is part of this context, by proposing a solution that enables automatic thematic question generation.The work presented in this thesis uses knowledge bases as data sources to automatically generate thematic multiple-choice questions.The use of knowledge bases in this context thus raises several scientific challenges that constitute the contributions of the presented work:- Knowledge base entities are generally not explicitly correlated to themes. This thesis presents a method based on Wikipedia metadata to identify and sort knowledge base entities according to predefined themes.- In order to be intelligible, a question must be grammatically correct, and must include enough information to remove any ambiguity about the correct answer. To that end, we have introduced question templates to identify entities within knowledge bases and generate natural language statements.- In a multiple choice questions, distractors (wrong answers) are no less important than the statement. Wrong distractors are easilly discarded and affect the whole question difficulty. In a last contribution, we present the method used to select distractors that are not only relevant to the question's statement, but also to its context

17

Moyse, Gilles. "Résumés linguistiques de données numériques : interprétabilité et périodicité de séries." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066526/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nos travaux s'inscrivent dans le domaine des résumés linguistiques flous (RLF) qui permettent la génération de phrases en langage naturel, descriptives de données numériques, et offrent ainsi une vision synthétique et compréhensible de grandes masses d'information. Nous nous intéressons d'abord à l'interprétabilité des RLF, capitale pour fournir une vision simplement appréhendable de l'information à un utilisateur humain et complexe du fait de sa formulation linguistique. En plus des travaux existant à ce sujet sur les composants élémentaires des RLF, nous proposons une approche globale de l'interprétabilité des résumés vus comme un ensemble de phrases et nous intéressons plus spécifiquement à la question de leur cohérence. Afin de la garantir dans le cadre de la logique floue standard, nous introduisons une formalisation originale de l'opposition entre phrases de complexité croissante. Ce formalisme nous permet de démontrer que les propriétés de cohérence sont vérifiables par le choix d'un modèle de négation spécifique. D'autre part, nous proposons sur cette base un cube en 4 dimensions mettant en relation toutes les oppositions possibles entre les phrases d'un RLF et montrons que ce cube généralise plusieurs structures d'opposition logiques existantes. Nous considérons ensuite le cas de données sous forme de séries numériques et nous intéressons à des résumés linguistiques portant sur leur périodicité : les phrases que nous proposons indiquent à quel point une série est périodique et proposent une formulation linguistique appropriée de sa période. La méthode d’extraction proposée, nommée DPE pour Detection of Periodic Events, permet de segmenter les données de manière adaptative et sans paramètre utilisateur, en utilisant des outils issus de la morphologie mathématique. Ces segments sont ensuite utilisés pour calculer la période de la série temporelle ainsi que sa périodicité, calculée comme un degré de qualité sur le résultat renvoyé mesurant à quel point la série est périodique. Enfin, DPE génère des phrases comme « Environ toutes les 2 heures, l'afflux de client est important ». Des expériences sur des données artificielles et réelles confirment la pertinence de l'approche. D’un point de vue algorithmique, nous proposons une implémentation incrémentale et efficace de DPE, basée sur l’établissement de formules permettant le calcul de mises à jour des variables. Cette implémentation permet le passage à l'échelle de la méthode ainsi que l'analyse en temps réel de flux de données. Nous proposons également une extension de DPE basée sur le concept de périodicité locale permettant d'identifier les sous-séquences périodiques d'une série temporelle par l’utilisation d’un test statistique original. La méthode, validée sur des données artificielles et réelles, génère des phrases en langage naturel permettant d’extraire des informations du type « Toutes les deux semaines sur le premier semestre de l'année, les ventes sont élevées »
Our research is in the field of fuzzy linguistic summaries (FLS) that allow to generate natural language sentences to describe very large amounts of numerical data, providing concise and intelligible views of these data. We first focus on the interpretability of FLS, crucial to provide end-users with an easily understandable text, but hard to achieve due to its linguistic form. Beyond existing works on that topic, based on the basic components of FLS, we propose a general approach for the interpretability of summaries, considering them globally as groups of sentences. We focus more specifically on their consistency. In order to guarantee it in the framework of standard fuzzy logic, we introduce a new model of oppositions between increasingly complex sentences. The model allows us to show that these consistency properties can be satisfied by selecting a specific negation approach. Moreover, based on this model, we design a 4-dimensional cube displaying all the possible oppositions between sentences in a FLS and show that it generalises several existing logical opposition structures. We then consider the case of data in the form of numerical series and focus on linguistic summaries about their periodicity: the sentences we propose indicate the extent to which the series are periodic and offer an appropriate linguistic expression of their periods. The proposed extraction method, called DPE, standing for Detection of Periodic Events, splits the data in an adaptive manner and without any prior information, using tools from mathematical morphology. The segments are then exploited to compute the period and the periodicity, measuring the quality of the estimation and the extent to which the series is periodic. Lastly, DPE returns descriptive sentences of the form ``Approximately every 2 hours, the customer arrival is important''. Experiments with artificial and real data show the relevance of the proposed DPE method. From an algorithmic point of view, we propose an incremental and efficient implementation of DPE, based on established update formulas. This implementation makes DPE scalable and allows it to process real-time streams of data. We also present an extension of DPE based on the local periodicity concept, allowing the identification of local periodic subsequences in a numerical series, using an original statistical test. The method validated on artificial and real data returns natural language sentences that extract information of the form ``Every two weeks during the first semester of the year, sales are high''

18

Shimorina, Anastasia. "Natural Language Generation : From Data Creation to Evaluation via Modelling." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0080.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La génération en langue naturelle (natural language generation, NLG) est le processus qui consiste à générer du texte dans une langue naturelle à partir de données d’entrée. Ces entrées peuvent prendre la forme de textes, de documents, d’images, de tableaux, de graphes (réseaux de connaissances), de bases de données, d’actes de dialogue, ou d’autres représentations sémantiques. Les méthodes récentes en NLG, principalement basées sur des modèles neuronaux, ont apporté des améliorations significatives. Malgré ces récents progrès, de nombreux problèmes liés à la tâche de génération subsistent, tels que celui de la fidélité aux données d’entrée, du développement de modèles multilingues, ou de la génération à partir de peu d’exemples. Cette thèse explore trois aspects de la NLG : tout d’abord, la création de données d’apprentissage, puis le développement de modèles de génération, et enfin l’évaluation des méthodes proposées. Nous abordons la question du multilinguisme et proposons des stratégies de traduction semi-automatique de corpus destinés à l’entraînement de modèles de NLG. Nous montrons que les entités nommées constituent un obstacle majeur dans la réalisation de la tâche de traduction, ici considérée de l’anglais vers le russe. Nous décrivons ensuite deux méthodes de traitement des entités rares dans les données d’apprentissages des modèles de NLG : la copie et la délexicalisation. Nous démontrons que l’effet de ces deux mécanismes varie fortement selon la manière dont les données sont construites, et que les entités rares ont un impact important sur les performances des modèles. Concernant la génération multilingue, nous développons une approche modulaire de réalisation de surface superficielle (shallow surface realisation, SSR) pour plusieurs langues. Notre approche consiste à diviser la tâche de SSR en trois composantes : l’ordonnancement des mots, l’inflexion morphologique et la génération de contractions. Nous montrons, via la délexicalisation, que la composante d’ordonnancement s’appuie principalement sur les informations syntaxiques. En plus de nos contributions concernant la modélisation, nous proposons un cadre d’analyse des erreurs axé sur l’ordre des mots, pour la tâche de SSR. Ce cadre permet d’obtenir un aperçu linguistique des performances des modèles au niveau de la phrase et d’identifier les cas où un modèle échoue. Enfin, nous abordons le sujet de l’évaluation de manière plus générale et comparons différentes métriques automatiques et humaines ; nous soulignons la différence entre les méthodes d’évaluation au niveau de la phrase et les méthodes d’évaluations au niveau du corpus
Natural language generation is a process of generating a natural language text from some input. This input can be texts, documents, images, tables, knowledge graphs, databases, dialogue acts, meaning representations, etc. Recent methods in natural language generation, mostly based on neural modelling, have yielded significant improvements in the field. Despite this recent success, numerous issues with generation prevail, such as faithfulness to the source, developing multilingual models, few-shot generation. This thesis explores several facets of natural language generation from creating training datasets and developing models to evaluating proposed methods and model outputs. In this thesis, we address the issue of multilinguality and propose possible strategies to semi-automatically translate corpora for data-to-text generation. We show that named entities constitute a major stumbling block in translation exemplified by the English-Russian translation pair. We proceed to handle rare entities in data-to-text modelling exploring two mechanisms: copying and delexicalisation. We demonstrate that rare entities strongly impact performance and that the impact of these two mechanisms greatly varies depending on how datasets are constructed. Getting back to multilinguality, we also develop a modular approach for shallow surface realisation in several languages. Our approach splits the surface realisation task into three submodules: word ordering, morphological inflection and contraction generation. We show, via delexicalisation, that the word ordering component mainly depends on syntactic information. Along with the modelling, we also propose a framework for error analysis, focused on word order, for the shallow surface realisation task. The framework enables to provide linguistic insights into model performance on the sentence level and identify patterns where models underperform. Finally, we also touch upon the subject of evaluation design while assessing automatic and human metrics, highlighting the difference between the sentence-level and system-level type of evaluation

19

Hadjadj, Mohammed. "Modélisation de la Langue des Signes Française : Proposition d’un système à compositionalité sémantique." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS560/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La reconnaissance de la langue des signes française (LSF) comme une langue à part entière en 2005 a créé un besoin important de développement d’outils informatiques pour rendre l’information accessible au public sourd. Dans cette perspective, cette thèse a pour cadre la modélisation linguistique pour un système de génération de la LSF. Nous présentons dans un premier temps les différentes approches linguistiques ayant pour but la description linguistique des langues des signes (LS). Nous présentons ensuite les travaux effectués en informatique pour les modéliser.Dans un deuxième temps, nous proposons une approche permettant de prendre en compte les caractéristiques linguistiques propres au LS tout en respectant les contraintes d’un processus de formalisation. En étudiant des liens entre des fonctions sémantiques et leurs formes observées dans les corpus LSF, nous avons identifié plusieurs règles de production. Nous présentons finalement le fonctionnement des règles comme étant un système susceptible de modéliser un énoncé entier en LSF
The recognition of French Sign Language (LSF) as a natural language in 2005 has created an important need for the development of tools to make information accessible to the deaf public. With this prospect, this thesis aims at linguistic modeling for a system of generation of LSF. We first present the different linguistic approaches aimed at describing the sign language (SL). We then present the models proposed in computer science. In a second step, we propose an approach allowing to take into account the linguistic properties of the SL while respecting the constraints of a formalisation process.By studying the links between semantic functions and their observed forms in LSF Corpora, we have identified several production rules. We finally present the rule functioning as a system capable of modeling an entire utterance in LSF

20

Pascual, Elsa. "Représentation de l'architecture textuelle et génération de texte." Toulouse 3, 1991. http://www.theses.fr/1991TOU30123.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail s'inscrit dans le cadre de la modélisation de la communication écrite. Nous nous focalisons sur la représentation, en vue de génération automatique de texte, d'une composante des structures de textes, l'architecture. Elle nous est rendue perceptible par le biais des caractéristiques typo-dispositionnelles et syntaxiques des objets textuels. Une étude des travaux en génération permet de constater que cet aspect n'a reçu que très peu d'attention. Nous proposons un modèle de représentation de l'architecture textuelle sous forme de métadiscours, qui est une suite particulière de phrases du sous-langage spécialisé de la prodution de textes. Pour élaborer le modèle, nous avons analysé de nombreux phénomènes architecturaux, du double point de vue des aspects logico-linguistiques et visuels. Nous présentons un système de génération de textes architecturés mettant en oeuvre ce modèle. Une considération théorique permet d'affirmer que les composantes qui déterminent le contenu, l'expression linguistique et l'architecture des textes entretiennent des relations complexes. Le choix de l'entrée du système s'est porté sur les preuves d'une logique épistémique, sous forme de tableaux sémantiques particuliers : ce type de base permet une observation privilégiée de la composante architecturale. Nous proposons un ensemble de phénomènes architecturaux et de segments discursifs permettant la génération de textes exprimant ces preuves. Nous déterminons les facteurs intervenant lors des choix architecturaux, et montrons que leur prise en compte requiert une étude approfondie de nature et de portée cognitive. Le module de détermination du métadiscours est développé en Prolog

21

Mickus, Timothee. "On the Status of Word Embeddings as Implementations of the Distributional Hypothesis." Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0066.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'intéresse au statut des plongements lexicaux (ou "word embeddings"), c'est-à-dire des vecteurs de mots issus de modèles de Traitement Automatique des Langues. Plus particulièrement, notre intérêt se porte sur leur valeur linguistique et la relation qu'ils entretiennent avec la sémantique distributionnnelle, le champ d'études fondé sur l'hypothèse que le contexte est corrélé au sens. L'objet de notre recherche est d'établir si ces plongements lexicaux peuvent être considérés comme une implémentation concrète de la sémantique distributionnelle. Notre première approche dans cette étude consiste à comparer les plongements lexicaux à d'autres représentations du sens, en particulier aux définitions telles qu'on en trouve dans des dictionnaires. Cette démarche se fonde sur l'hypothèse que des représentations sémantiques de deux formalismes distincts devraient être équivalentes, et que par conséquent l'information encodée dans les représentations sémantiques distributionnelles devrait être équivalente à celle encodée dans les définitions. Nous mettons cette idée à l'épreuve à travers deux protocoles expérimentaux distincts~: le premier est basé sur la similarité globale des espaces métrisables décrits par les vecteurs de mots et les définitions, le second repose sur des réseaux de neurones profonds. Dans les deux cas, nous n'obtenons qu'un succès limité, ce qui suggère soit que la sémantique distributionnelle et les dictionnaires encodent des informations différentes, soit que les plongements lexicaux ne sont pas motivés d'un point de vue linguistique. Le second angle que nous adoptons ici pour étudier le rapport entre sémantique distributionnelle et plongements lexicaux consiste à formellement définir ce que nous attendons des représentations sémantiques distributionnelles, puis de comparer nos attentes à ce que nous observons effectivement dans les plongements lexicaux. Nous construisons un jeu de données de jugements humains sur l'hypothèse distributionnelle. Nous utilisons ensuite ce jeu pour obtenir des prédictions sur une tâche de substituabilité distributionnelle de la part de modèles de plongements lexicaux. Bien que nous observions un certain degré de performance de la part des modèles en questions, leur comportement se démarque très clairement de celui de nos annotateurs humains. Venant renforcer ces résultats, nous remarquons qu'une large famille de modèles de plongements qui ont rencontré un franc succès, ceux basés sur l'architecture Transformer, présente des artéfacts directement imputables à l'architecture qu'elle emploie plutôt qu'à des facteurs d'ordre sémantique. Nos expériences suggèrent que la validité linguistique des plongements lexicaux n'est aujourd'hui pas un problème résolu. Trois grandes conclusions se dégagent de nos expériences. Premièrement, la diversité des approches en sémantique distributionnelles n'impliquent pas que ce champ d'étude est voué aux approches informelles: nous avons vu que le linguiste peut s'appuyer sur la substituabilité distributionnelle. Deuxièmement, comme on ne peut pas aisément comparer la sémantique distributionnelle à une autre théorie lexicale, il devient nécessaire d'étudier si la sémantique distributionnelle s'intéresse bien au sens, ou bien si elle porte sur une série de faits entièrement distincte. Troisièmement, bien que l'on puisse souligner une différence entre la qualité des plongements lexicaux et ce qu'on attend qu'ils puisse faire, la possibilité d'étudier cette différence sous un angle quantitatif est de très bon augure pour les travaux à venir
This dissertation studies the status of word embeddings, i.e, vectors produced by NLP systems, insofar they are relevant to linguistic studies. We more specifically focus on the relation between word embeddings and distributional semantics-the field of study based on the assumption that context correlates to meaning. We question whether word embeddings can be seen as a practical implementation of distributional semantics. Our first approach to this inquiry consists in comparing word embeddings to some other representation of meaning, namely dictionary definitions. The assumption underlying this approach is that semantic representations from distinct formalisms should be equivalent, and therefore the information encoded in distributional semantics representations should be equivalent to that of definitions. We test this assumption using two distinct experimental protocols: the first is based on overall metric space similarity, the second relies on neural networks. In both cases, we find limited success, suggesting that either distributional semantics and dictionaries encode different information, or that word embeddings are not linguistically coherent representations of distributional semantics. The second angle we adopt to study the relation between word embeddings and distributional semantics consists in formalizing our expectations for distributional semantics representations, and compare these expectations to what we observe for word embeddings. We construct a dataset of human judgments on the distributional hypothesis, which we use to elicit predictions on distributional substitutability from word embeddings. While word embeddings attain some degree of performance on this task, their behavior and that of our human annotators are found to drastically differ. Strengthening these results, we observe that a large family of broadly successful embedding models all exhibit artifacts imputable to the neural network architecture they use, rather than to any semantically meaningful factor. Our experiments suggest that, while we can formally delineate criteria we expect of distributional semantics models, the linguistic validity of word embeddings is not a solved problem. Three main conclusions emerge from our experiments. First, the diversity of studies in distributional semantics do not entail that no formal statements regarding this theory can be made: we saw that distributional substitutability provides a very convenient handle for the linguist to grasp. Second, that we cannot easily relate distributional semantics to another lexical semantic theory questions whether the distributional hypothesis actually provides an alternative account of meaning, or whether it deals with a very distinct set of facts altogether. Third, while the gap in quality between practical implementations of distributional semantics and our expectations necessarily adds on to the confusion, that we can make quantitative statements about this gap should be taken as a very encouraging sign for future research

22

Billiez, Jacqueline. "La génération du texte cendrarsien : poétique et sémiotique du fragmentaire." Grenoble 3, 1993. http://www.theses.fr/1993GRE39002.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Inversant l'habituelle strategie de lecture qui a donne jusqu'a present le grand role aux anecdotes biographiques ou symboliques, la generation du texte cendrarsien met en evidence, par une approche scripturaliste, en remontant, mot apres mot, vers les processus de production, que la chaine des recits souvent fabuleux, insolites, attribues a une prodigieuse imagination, a egalement une dimension metatextuelle. Lieu d'affrontement d'un antagonisme, logique du texte contre logique du sens, l'ecriture cendrarsienne prend souvent son objet narratif ou descriptif les diverses operations requises par l'acte d'ecrire et par l'acte de lire, soit sous le masque d'une thematique guerriere ou mystique, soit en construisant un dialogue fictif avec le texte d'autrui qui apparait alors comme un rival. Fragmente, coupe, reecrit, le texte cendrarsien ne peut se reconstruire que par une lecture translineaire instruite par une theorie du texte qui contre les effets de representation. Tel fragment offre un reflet du systeme sans que ce reflet soit perceptible dans un espace aussi restreint: c'est la lign de defense du texte du cote de l'ecriture. Inversement la mise en relation, par le reemploi d'une liste lexicale infiniment sollicitee permet de reconstituer le systeme : c'est la ligne d'attaque du texte du cote de la lecture. Une telle approche fait changer l'ecrivain de famille d'accueil. Voyageur du livre plutot que du train, arme d'une main coupante plutot que coupee, le poete cendrars entaille les mots du dictionnaire et construit sur sa machine a ecrire un vaste ensemble textuel dont le lecteur est partie prenante
This study reverses the usual strategy that privileged biographical or symbolic anecdotes. Thanks to a scriptural approach that connected word after word back to its production process, it shows that the chain of often fantastic stories credited to a prodigious imagination, also has a metatextual dimension. Cendrars'writing, an area of confrontation between the logics of meaning and the logics of text, often chooses as its narratives object the operation required by the act of writing and the act of reading, either masked by a stock of themes in which the warlike and the mystical are prominent, or conducting a conflictual dialogue with another writer's text. Cendrars'text, fragmented, re-written, can only be reconstructed by a translinear reading informed by a theory of text that defeats the effect of representation. A given fragment may offer a reflection of the system without that reflection being perceptible in such as a restrical space: defensive strategy of the text. Conversely, cross-references to a limited end ever-recycled lexicon make it possible to reconstitute the system : offensive strategy of the reader. Such as approach changes the writer's class. A traveller on books rather than trains, equipped with a cutting than cut hand, cendrars the poet chisels the words of the dictionary and builds on its typewriter a vast network of which the reader is a part

23

Cavalier, Arthur. "Génération procédurale de textures pour enrichir les détails surfaciques." Thesis, Limoges, 2019. http://www.theses.fr/2019LIMO0108.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le sillage de l'augmentation de la puissance graphique des machines grands publics, le domaine de la synthèse d'images réalistes nous propose de se plonger dans des mondes virtuels toujours plus détaillés. Les artistes sont alors sollicités pour remplir et animer ces scènes virtuelles complexes. Il en résulte un temps de création prohibitif, un coût mémoire grandissant et des difficultés pour rendre de manière correcte et efficace cette profusion de détails. De nombreux outils de génération procédurale de contenu ont alors été proposés pour aider les studios à gérer ces problèmes. Dans cette thèse, nous nous sommes intéressés à la synthèse de détails mésoscopiques à la volée pour ajouter facilement du détail à la surface des modèles 3D. En se concentrant sur la synthèse procédurale de texture, nous avons proposé des améliorations pour rendre correctement des textures modifiant non seulement la couleur de la surface d'un objet mais feignant aussi le relief de la surface en temps réel. Nous avons travaillé sur la synthèse de motifs structurés contrôlables dans le but de proposer une méthodologie permettant de rendre des textures de grande qualité à la volée sans défauts d'aliassage. Nous avons étendu aussi la génération de texture à la synthèse de détails géométriques mésoscopiques, en synthétisant à la volée des cartes de normales venant perturber le calcul de l'éclairage de la surface pour y faire apparaître des aspérités
With the increasing power of consumer machines, Computer Graphics is offering us the opportunity to immerse ourselves in ever more detailed virtual worlds. The artists are thus tasked to model and animate these complex virtual scenes. This leads to a prohibitive authoring time, a bigger memory cost and difficulties to correctly and efficiently render this abundance of details. Many tools for procedural content generation have been proposed to resolve these issues. In this thesis, we focused our work on on-the-fly generation of mesoscopic details in order to easily add tiny details on 3D mesh surfaces. By focusing on procedural texture synthesis, we proposed some improvements in order to correctly render textures that modify not only the surface color but faking the surface meso-geometry in real-time. We have presented a methodology for rendering high quality textures without aliasing issues for controllable structured pattern synthesis. We also proposed an on-the-fly normal map generation to disturb the shading calculation and to add irregularites and relief to the textured surface

24

Di, Cristo Philippe. "Génération automatique de la prosodie pour la synthèse à partir du texte." Aix-Marseille 1, 1998. http://www.theses.fr/1998AIX11050.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette these a pour theme la problematique de la synthese vocale et propose de decrire la realisation de deux systemes complets de synthese de la parole a partir du texte. La visee ultime de notre etude est de produire un signal dont le niveau de qualite prosodique puisse etre comparable a celui d'une voix humaine. La qualite de la prosodie est en effet essentielle pour la comprehension, ainsi que pour l'acceptabilite de la synthese, en particulier dans le cas de longs textes lus. Notre objectif est egalement de contribuer a l'elaboration d'un systeme de synthese independant de la langue, bien que notre these soit consacree a la synthese du francais. Nous presentons donc dans cette these l'elaboration de deux systemes complets de generation de la prosodie pour la synthese de la parole. Le premier est base sur une approche probabiliste tandis que le deuxieme s'appuie des representations linguistiques (phonologiques et phonetiques) de l'accentuation, du rythme et de l'intonation. Pour permettre, dans des experimentations futures, l'etude de la complementarite de ces deux methodes, nous nous proposons d'avoir recours a une methode commune de codage de la prosodie, en l'occurrence le systeme intsint. Nous pensons, en effet et bien que cela reste a demontrer, qu'un systeme a base de connaissances linguistiques peut etre applique sur les resultats d'un modele probabiliste (qui necessite pour sa part peu d'informations prosodiques) afin d'ameliorer les performances de la synthese a partir du texte. Nous proposons d'ailleurs en conclusion de ce travail, un prolongement possible qui contribuerait a etendre les possibilites des systemes actuels. Nous presentons egalement un environnement pour le traitement de textes. Il se compose d'un segmenteur (dont le but est de decouper le texte en constituants : mots, phrases, paragraphes), d'un module d'acces lexical (permettant d'acceder aux categories morpho-syntaxique du texte), d'un desambiguisateur morpho-syntaxique (dont le role est de selectionner une categorie parmi le choix possible en fonction du contexte) et d'un module de phonemisation (dont la tache est de transcrire les elements du texte en alphabet phonetique).

25

Kou, Huaizhong. "Génération d'adaptateurs web intelligents à l'aide de techniques de fouilles de texte." Versailles-St Quentin en Yvelines, 2003. http://www.theses.fr/2003VERS0011.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse définit un système d'informations Web d'intégration sémantique, appelé SEWISE qui peut intégrer des informations textuelles provenant de différentes sources Web. Dans SEWISE les adaptateurs Web sont construits autour de différents sites Web pour extraire automatiquement des informations intéressantes. Des technologies de fouille de texte sont alors employées pour découvrir des sémantiques abordées dans les documents. SEWISE peut assister à la recherche des informations sur le Web. Trois problèmes liés à la catégorisation de document sont étudiés. Premièrement, nous étudions les approches de sélection de termes et nous proposons deux approches CBA et IBA pour choisir ces termes. Puis, pour estimer des associations statistiques entre termes, un modèle mathématique est proposé. Finalement, les algorithmes de calculs de scores de catégories employées par des classificateurs k-NN sont étudiés. Deux algorithmes pondérés CBW et IBW pour calculer des scores de catégories sont proposés
This thesis defines a system framework of semantically integrating Web information, called SEWISE. It can integrate text information from various Web sources belonging to an application domain into common domain-specific concept ontology. In SEWISE, Web wrappers are built around different Web sites to automatically extract interesting information from. Text mining technologies are then used to discover the semantics Web documents talk about. SEWISE can ease topic-oriented information researches over the Web. Three problems related to the document categorization are studied. Firstly, we investigate the approaches to feature selection and proposed two approaches CBA and IBA to select features. To estimate statistic term associations and integrate them within document similarity model, a mathematical model is proposed. Finally, the category score calculation algorithms used by k-NN classifiers are studied. Two weighted algorithms CBW and IBW to calculate category score are proposed

26

Pouchot, Stéphanie. "L'analyse de corpus et la génération automatique de texte : méthodes et usages." Grenoble 3, 2003. http://www.theses.fr/2003GRE39006.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La communication entre une machine et un individu peut prendre différentes formes (icônes, sons, textes. . . ). Le but de la génération automatique de textes est la production informatisée de messages en langue naturelle destinés à des lecteurs humains. Le résultat doit être compréhensible, adapté et, idéalement, se rapprocher des productions humaines. Cette thèse présente un travail de recherche consacré à l'amélioration des performances d'un processus de génération automatique du français écrit. Basée sur l'étude d'un ensemble de textes réels, cette recherche a consisté en l'identification et l'étude de caractéristiques propres à la langue naturelle (mise en forme, vocabulaire. . . ) à re-produire de manière automatique. Nous présentons ces critères, la manière dont ils sont compatibles entre eux et nous proposons une nouvelle architecture pour le système de génération permettant de les intégrer au processus.

27

Dischler, Jean-Michel. "La génération de textures 3D et de textures a microstructure complexe pour la synthese d'images." Université Louis Pasteur (Strasbourg) (1971-2008), 1996. http://www.theses.fr/1996STR13015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

28

Andriamarozakaniaina, Tahiry. "Du texte à la génération d'environnements virtuels 3D : application à la scénographie théâtrale." Phd thesis, Université Toulouse le Mirail - Toulouse II, 2012. http://tel.archives-ouvertes.fr/tel-00772129.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'inscrit dans le cadre d'un projet pluridisciplinaire, le projet DRAMA, qui consiste à générer des scènes virtuelles 3D à partir des descriptions contenues dans les textes théâtraux. L'un des objectifs de ce projet consiste à simplifier au maximum la tâche des utilisateurs finaux en leur offrant un outil simple, rapide, et efficace. Ainsi, la technique adoptée dans cette étude est axée sur la modélisation déclarative d'environnements virtuels qui s'appuie sur trois phases (description, génération et prise de connaissances). La phase de description permet au concepteur de décrire l'environnement à partir d'un ensemble de propriétés, interprétées en un ensemble de contraintes destinées à un système de génération qui produit un ou plusieurs environnements virtuels solutions.Dans le cadre de ce projet DRAMA, des nouvelles méthodes de balisage ont été proposées afin de détecter les éléments essentiels pour la création d'une pièce théâtrale, notamment les informations sur les placements d'objets. Par ailleurs, les utilisateurs peuvent, aussi, lancer des requêtes au niveau du texte à partir de ces balises. Les propriétés sur les placements seront traduites en contraintes spatiales grâce aux données initialement stockées dans une base de connaissance qui utilise le langage XML. Une technique adoptant la méthode des métaheuristiques est ensuite utilisée pour la résolution des contraintes de placements obtenues précédemment. La gestion des propriétés physiques des objets (collision, gravité, friction) a été aussi gérée à partir d'un moteur physique. À la fin, les scènes solutions finales seront proposées à l'utilisateur, en utilisant un moteur de rendu 3D.

29

Alaa, eddine Jalal. "Technique de caractérisation de textiles nouvelle génération pour le blindage électromagnétique." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALT064.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le blindage électromagnétique consiste à réduire le champ électromagnétique au voisinage d'un objet en interposant une barrière entre la source du champ et l'objet à protéger. L’objectif de la thèse est le développement de techniques de caractérisation et prédiction de performances de blindage nouvelle génération à base de textiles et polymères pour des applications avioniques entre le DC et 1 GHz. Elle se déroule dans le cadre du projet FUI NextGen qui s’inscrit dans le domaine de la protection de câblage aéronautique.La thèse est composée de deux grandes parties : 1) la caractérisation de l’efficacité de blindage à partir des tests sur des échantillons plans (matériau plein ou tresse métallique), 2) la mesure d’impédance de transfert pour des gaines.Dans la littérature, la mesure de l’efficacité de blindage (SE en anglais pour shielding efficiency) est généralement obtenue soit en espace libre soit dans une chambre réverbérante ou anéchoïque. Dans ces méthodes, le matériau sous test est placé entre deux antennes, la valeur de l’efficacité de blindage mesurée dépend alors de la bande d’opération des antennes (> à quelques MHz) ne permettant pas d’atteindre des fréquences basses de quelques kHz. L’efficacité de blindage est obtenue en mesurant l’atténuation du champ électromagnétique à travers un matériau par rapport à la transmission du champ sans matériau. Dans notre cas, la mesure d’efficacité de blindage est réalisée à l’aide d’une cellule coaxiale en prenant en compte les paramètres affectant la mesure comme le contact électrique, le dynamique de mesure… Dans cette cellule, l’efficacité de blindage peut être mesurée à partir du DC, ce qui est en accord avec la demande du domaine aéronautique. Ces mesures sont validées à l’aide de modélisations théoriques et de simulations électromagnétiquesConcernant la mesure d’impédance de transfert Z_t des gaines, elle est réalisée avec une cellule triaxiale. L’impédance de transfert est alors définie comme le quotien de la tension V_1 induite au circuit intérieur par le courant I_2 introduit dans le circuit externe sur une longueur de couplage donnée. La norme actuelle de la mesure de l’impédance de transfert est définie jusqu’au 100 MHz. Dans la cellule développée dans le cadre de cette thèse, la mesure atteint la fréquence de 300 MHz sans adaptation.Enfin pour faire le lien entre l’efficacité de blindage et l’impédance de transfert, un modèle de prédiction de l’impédance de transfert à partir de la mesure de l’efficacité de blindage est proposé.Jalal ALAA EDDINE
Electromagnetic shielding consists in reducing the electromagnetic field in the vicinity of an object by interposing a barrier between the source of the field and the object to be protected. The objective of the thesis is the development of techniques for characterizing and predicting new generation armor performance based on textiles and polymers for avionics applications between DC and 1 GHz. It takes place within the framework of the FUI NextGen project which is part of the field of aeronautical wiring protection. The thesis is composed of two main parts: 1) the characterization of the shielding efficiency from tests on plane samples (solid material or metal braid), 2) the transfer impedance measurement for sheaths.In the literature, the measurement of shielding efficiency (SE) is generally obtained either in free space or in a reverberating or anechoic chamber. In these methods, the material under test is placed between two antennas. The value of the measured shielding efficiency depends on the operating band of the antennas which starts at a few MHz and cannot reach low frequencies in the band of a few kHz. Shielding efficiency is obtained by measuring the attenuation of the electromagnetic field through a material relative to the transmission of the field without material. Herein, the shielding efficiency measurement is made by a coaxial cell, considering all the parameters that affect the measurement such as electrical contact, measurement dynamics, etc., allowing leasuring the effectiveness of shielding from DC to 1 GHz and this suits the demand in the aeronautical field. These measurements are validated with theoretical modeling and electromagnetic simulations.Concerning the sheath transfer impedance, its measurement is carried out with a triaxial cell. The transfer impedance (Z_t) is defined as the quotient of the voltage (V1) induced in the internal circuit by the current (I2) introduced into the external circuit over a given coupling length. The current standard of transfer impedance measurement is defined up to 100 MHz while in our developed cell the measurement reaches the frequency of 300 MHz without adaptation.Finally, to make the link between the shielding efficiency and the transfer impedance, a model for predicting the transfer impedance from the measurement of the shielding efficiency is proposed.Jalal ALAA EDDINE

30

Salmon, Raphael. "Natural language generation using abstract categorial grammars." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCC196/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse explore l'usage des Grammaires Categorielles Abstraites (CGA) pour la Génération Automatique de Texte (GAT) dans un contexte industriel. Les systèmes GAT basés sur des théories linguistiques ont un long historique, cependant ils sont relativement peu utilisés en industrie, qui préfère les approches plus "pragmatiques", le plus souvent pour des raisons de simplicité et de performance. Cette étude montre que les avancées récentes en linguistique computationnelle permettent de concilier le besoin de rigueur théorique avec le besoin de performance, en utilisant CGA pour construire les principaux modules d'un système GAT de qualité industrielle ayant des performances comparables aux méthodes habituellement utilisées en industrie
This thesis explores the usage of Abstract Categorial Grammars (ACG) for Natural Language Generation (NLG) in an industrial context. While NLG system based on linguistic theories have a long history, they are not prominent in industry, which, for the sake of simplicity and efficiency, usually prefer more ``pragmatic" methods. This study shows that recent advances in computational linguistics allow to conciliate the requirements of soundness and efficiency, by using ACG to build the main elements of a production grade NLG framework (document planner and microplanner), with performance comparable to existing, less advanced methods used in industry

31

Aslanides, Sophie. "Syntaxe et structure d'un texte : les connecteurs du français dans un système de génération automatique." Paris 7, 1995. http://www.theses.fr/1995PA070081.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette these propose une etude linguistique des connecteurs du francais dans le but de construire les bases de donnees linguistiques fournies a un systeme de generation automatique de textes. Partant de l'hypothese que les connecteurs peuvent etre consideres comme des "predicats textuels", nous avons cherche a decrire leurs cadres de souscategorisation. Ces contextes sont appeles "structures de discours" (sd), et sont les unites elementaires sur lesquelles opere le choix lexical dans le systeme de generation. Elles sont organisees dans une hierarchie dominee par des relations conceptuelles et representant les relations d'inclusion, partielle, totale ou nulle, entre les differentes classes de sd construites aotour de chaque connecteur. Cette representation de l'interface entre le conceptuel et le linguistique ne suffit cependant pas a garantir la non-ambiguite des discours produits, et une etude complementaire de la polysemie (de alors que, par exemple) et de la neutralite (de et) permet de faire apparaitre certaines proprietes syntaxiques discriminantes entre divers effets de sens d'un meme connecteur. Un dernier type d'ambiguite est etudie : celui qui apparait dans des discours p11 c1 p12 c2 p2, ou les phenomenes de portee multiplient les lectures possibles. Cette multiplicite depend de facteurs aussi divers que les relations exprimees par les connecteurs, les evenements relies, l'ordre dans lequel ils sont exprimes, et les constructions syntaxiques choisies. Toutes les donnees linguistiques mises au jour precedemment sont representees dans un formalisme arborescent inspire des grammaires d'arbres adjoints, et donnent lieu a la construction des arbres elementaires correspondant aux connecteurs et a une representation arborescente de la structure du texte a produire
This study aims defining the content and structure of the linguistic databases of a nlg system. More precisely, it concentrates on the lexical encoding of cue-prases - in which we include the full-stop, complex verb- phrases, relativization and participles - and the evaluation of the potential ambiguities of a complex discourse structure. As demonstrated by danlos (1985), the relevant item for lexical choice is not the connective by itself, but a set of constraints attached to if (henceforth, discourse structure, or ds). To define the relevant dss for a given semantic relation, a thorough analysis of the linguistic properties of cue-phrases is required, and more specifically, the determination of differential syntactic properties that reflect semantic variation. Once defined the dss families, i. E. All the possible dss built around a given cue-phrase - they are organised in a hierarchy which can serve as an interface between the conceptual level and the lexicon. But the ambiguities of complex discourse structures are thus only partly controlled. We therefore study the possible scope ambiguities in p1 c1 p2 c2 p3 discourses, and show the various factors which interfere with the choice of cue-phrases to create ambiguity (subordinate clause moving, ellipsis, pronominalisation, causal inference). The last part of this work proposes a tag-inspired tree representation for elementary dss and discusses the linguistic relevance of possible representations for complex dss as tree-structures

32

Ulysse, Jean-Christophe. "Génération d'atlas de textures de radiosité pour le rendu réaliste en temps réel." Vandoeuvre-les-Nancy, INPL, 2003. http://www.theses.fr/2003INPL052N.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La radiosité est une méthode à la fois physiquement correcte et efficace pour simuler l'illumination globale. Cependant, les modèles CAO complexes sont difficilement visualisables une fois illuminés. Dans cette thèse, nous présentons une approche pour optimiser la visualisation de ces modèles illuminés. Celle-ci est basée sur des atlas de textures qui permettent de stocker l'illumination dans des textures, ensuite plaquées sur les modèles en temps réel par des cartes graphiques. Les contributions consistent en une méthode robuste de génération d'atlas ainsi qu'une méthode efficace pour construire des textures à partir de données d'illumination globale, toutes deux adaptées aux modèles facettisés complexes. Les résultats présentés sont appliqués à des modèles architecturaux et issus de l'industrie du design. Ils montrent que, tout en étant simple à intégrer dans un logiciel de rendu existant, cette approche autorise la visualisation temps réel de ce type de modèles illuminés
Radiosity is a method both physically correct and efficient to simulate global illumination. However, huge and complex CAD models are difficult to visualise when simulated by radiosity. In this thesis, we present an approach to optimise visualisation of such illuminated models. It is based on textures atlas that can store illumination in textures which are mapped on models in real time by graphies hardware. Our contributions are : (1) a robust approach to generate atlas and (2) a method to efficiently build those textures from global illumination data, which are both well suited to complex facettized models. The results presented are applied to architectural models and models from design industry. They show that, while this approach is simple to be integrated in an existing rendering software, it allows a real time visualisation of this kind of illuminated models

33

Paranthoën, Thomas. "Génération aléatoire et structure des automates à états finis." Rouen, 2004. http://www.theses.fr/2004ROUES032.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La génération aléatoire de structures combinatoires en plus de permettre de mieux connaître les comportements des objets que l'on génère, permet de tester les algorithmes basés sur ces structures. Dans le cas des automates déterministes nous donnons les algorithmes de génération qui construisent ces objets sur n'importe quel alphabet. Nous observons que quasiment tous les automates déterministes complets et accessibles sont minimaux. Dans le cas des automates non déterministes nous établissons un protocole de génération probabiliste qui maximise la taille des déterminisés des automates générés. Par ailleurs, nous formalisons la technique de déterminisation partielle. Nous établissons une structure de données, les recouvrements d'automates, qui permet de manipuler et de donner des propriétés des automates non déterministes. Nous en déduisons une technique qui réduit la complexité de l'algorithme de déterminisation exhaustif classique
Random generation of combinatoric structures allows one to test algorithms based on this structure, and to investigate the behavior of these structures. In the case of deterministic automata, we give the generation algorithms that allow us to build these objects on any alphabets. We show that almost all complete accessible deterministic automata are minimal. In the case of nondeterministic automata we establish a probabilistic generation protocol that maximise the deterministic automata associated with these nondeterministic automata. Finally we continue the progress in the use of determinization for the pattern-matching problem. We formalize the technique of the partial determinization. We establish a data structure: the deterministic cover. This structure allows one to manipulate and to give properties of non-deterministic automata. We deduce from this structure a technique that reduces the complexity of the classical brute force determinization algorithm

34

Tournemire, Stéphanie de. "Identification et génération automatique de contours prosodiques pour la synthèse vocale à partir du texte en français." Paris, ENST, 1998. http://www.theses.fr/1998ENST0017.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En français, comme dans la plupart des langues indo-européennes, la prosodie dépend de nombreux facteurs (la syntaxe, la sémantique, la pragmatique, le locuteur) difficiles à modéliser par un seul système de synthèse à partir du texte (tts). Ainsi, généralement, la création d'une nouvelle voix synthétique consiste à modifier les niveaux acoustiques sans introduire de nouvelles caractéristiques prosodiques. Les techniques d'apprentissage automatique permettent d'extraire automatiquement les régularités prosodiques présentes dans un corpus de parole enregistrée. Néanmoins, ces techniques nécessitent la transcription prosodique (souvent) manuelle de corpus importants, créant par là-même un frein à l'acquisition rapide de nouveaux modèles prosodiques. Cette étude propose une solution permettant de capturer automatiquement une nouvelle prosodie à partir d'un corpus de parole enregistrée. La méthodologie de construction du modelé prosodique comporte trois principales étapes : la transcription prosodique semi-automatique d'un corpus enregistre, l'apprentissage automatique d'un modèle de prédiction des contours prosodiques à partir du corpus transcrit et l'intégration de ce modèle dans un système de synthèse de parole à partir du texte. La mise au point de la méthodologie s'appuie sur la réalisation d'un modèle prosodique de f0 et des durées pour le français à partir d'un corpus enregistre. L'erreur objective moyenne produite par le modèle sur la base de test est de 20 hz pour f0 et de 17 ms pour les durées des phonèmes. Les résultats d'un test subjectif ont situé le modèle prosodique développe comme équivalent au système standard de génération des contours prosodiques du cnet (cnetvox). La méthodologie est appliquée à l'acquisition des paramètres prosodiques d'un second locuteur à partir d'un corpus enregistre par ce nouveau locuteur. Les performances du nouveau modèle prosodique permettent de valider la méthodologie.

35

Charton, Eric. "Génération de phrases multilingues par apprentissage automatique de modèles de phrases." Phd thesis, Université d'Avignon, 2010. http://tel.archives-ouvertes.fr/tel-00622561.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d'attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d'exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l'implémentation d'un système de GAT en plusieurs langues et améliore les capacités d'adaptations d'un système de génération à un domaine sémantique particulier. La production, d'après un corpus d'apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l'extraction d'information et de la classification. Nous décrivons le système d'étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d'information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l'intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d'investigations prometteuses sur la nature du processus de formation de phrases

36

Narayan, Shashi. "Generating and simplifying sentences." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0166/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Selon la représentation d’entrée, cette thèse étudie ces deux types : la génération de texte à partir de représentation de sens et à partir de texte. En la première partie (Génération des phrases), nous étudions comment effectuer la réalisation de surface symbolique à l’aide d’une grammaire robuste et efficace. Cette approche s’appuie sur une grammaire FB-LTAG et prend en entrée des arbres de dépendance peu profondes. La structure d’entrée est utilisée pour filtrer l’espace de recherche initial à l’aide d’un concept de filtrage local par polarité afin de paralléliser les processus. Afin nous proposons deux algorithmes de fouille d’erreur: le premier, un algorithme qui exploite les arbres de dépendance plutôt que des données séquentielles et le second, un algorithme qui structure la sortie de la fouille d’erreur au sein d’un arbre afin de représenter les erreurs de façon plus pertinente. Nous montrons que nos réalisateurs combinés à ces algorithmes de fouille d’erreur améliorent leur couverture significativement. En la seconde partie (Simplification des phrases), nous proposons l’utilisation d’une forme de représentations sémantiques (contre à approches basées la syntaxe ou SMT) afin d’améliorer la tâche de simplification de phrase. Nous utilisons les structures de représentation du discours pour la représentation sémantique profonde. Nous proposons alors deux méthodes de simplification de phrase: une première approche supervisée hybride qui combine une sémantique profonde à de la traduction automatique, et une seconde approche non-supervisée qui s’appuie sur un corpus comparable de Wikipedia
Depending on the input representation, this dissertation investigates issues from two classes: meaning representation (MR) to text and text-to-text generation. In the first class (MR-to-text generation, "Generating Sentences"), we investigate how to make symbolic grammar based surface realisation robust and efficient. We propose an efficient approach to surface realisation using a FB-LTAG and taking as input shallow dependency trees. Our algorithm combines techniques and ideas from the head-driven and lexicalist approaches. In addition, the input structure is used to filter the initial search space using a concept called local polarity filtering; and to parallelise processes. To further improve our robustness, we propose two error mining algorithms: one, an algorithm for mining dependency trees rather than sequential data and two, an algorithm that structures the output of error mining into a tree to represent them in a more meaningful way. We show that our realisers together with these error mining algorithms improves on both efficiency and coverage by a wide margin. In the second class (text-to-text generation, "Simplifying Sentences"), we argue for using deep semantic representations (compared to syntax or SMT based approaches) to improve the sentence simplification task. We use the Discourse Representation Structures for the deep semantic representation of the input. We propose two methods: a supervised approach (with state-of-the-art results) to hybrid simplification using deep semantics and SMT, and an unsupervised approach (with competitive results to the state-of-the-art systems) to simplification using the comparable Wikipedia corpus

37

Pichon, Noémie. "Méthode de génération de données d’inventaire du génie des procédés textiles : contribution à l’écoconception des vêtements." Electronic Thesis or Diss., Centrale Lille Institut, 2023. http://www.theses.fr/2023CLIL0039.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’industrie de la mode et du textile est une chaine de valeur complexe, fortement fragmentée et mondialisée qui nécessite de nombreux corps de métiers, dont les expertises sont spécifiques et le niveau de connaissance sur les enjeux environnementaux du secteur s’avère très hétérogène. A l’heure où la prise en compte des problématiques climatiques et environnementales n’a jamais été aussi présente, la littérature scientifique s’est étoffée pour évaluer les impacts sur l’environnement et la santé humaine de ce secteur d’activité identifié comme la quatrième industrie la plus polluante d'Europe, toutes catégories d'impact confondues. L’éco-conception des produits est une démarche aujourd’hui centrale pour l’atteinte des objectifs de réduction des impacts du secteur. L’enjeu est aujourd’hui d’étendre son usage à un maximum d’acteurs.L’objet principal de ces travaux a été de mettre au point une méthode de génération de données d’Inventaire du Cycle de Vie (ICV) textile afin de favoriser la démarche d’éco-conception et d’amélioration continue de l’étape de production du cycle de vie d’un vêtement. Les travaux de recherche ont été conduits à l’échelle la plus fine du génie des procédés textiles, c’est-à-dire à l’échelle du procédé unitaire. Une illustration de cette méthode pour une étape spécifique de transformation du génie textile : de la fibre aux fils, aussi appelée filature a donc été opérée, incluant le calcul des incertitudes. Enfin, l’analyse des contributions aux résultats a mis en évidence des leviers d’éco-conception
The fashion and textile industry is a complex, highly fragmented, and globalized valuechain, requiring a wide range of professions with specific expertise, and a highly heterogeneous level ofknowledge regarding the sector's environmental burdens. Given that climate and environmental issueshave never been so high on the agenda, scientific literature has been growing in recent years to assessthe environmental and human health impacts of this sector, which has been identified as the fourth mostpolluting industry in Europe, all impact categories combined. The eco-design of products is today acentral approach to achieve the sector's impact reduction targets. The challenge today is to extend itsuse to as many players as possible.The main aim of this research was to develop a method for generating textile Life Cycle Inventory(LCI) data, in order to promote eco-design and continuous improvement in the production stage of agarment's life cycle. The research work was carried out at the finest scale of textile process engineering,i.e. at the unit process scale. An illustration of this method for a specific transformation stage in textileengineering: from fiber to yarn, also known as spinning, was therefore carried out, including thecalculation of uncertainties. Finally, the analysis of the contributions to the results highlighted eco-design leverages

38

Charton, Éric. "Génération de phrases multilingues par apprentissage automatique de modèles de phrases." Thesis, Avignon, 2010. http://www.theses.fr/2010AVIG0175/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d’attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d’exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l’implémentation d’un système de GAT en plusieurs langues et améliore les capacités d’adaptations d’un système de génération à un domaine sémantique particulier. La production, d’après un corpus d’apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l’extraction d’information et de la classification. Nous décrivons le système d’étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d’information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l’intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d’investigations prometteuses sur la nature du processus de formation de phrases
Natural Language Generation (NLG) is the natural language processing task of generating natural language from a machine representation system. In this thesis report, we present an architecture of NLG system relying on statistical methods. The originality of our proposition is its ability to use a corpus as a learning resource for sentences production. This method offers several advantages : it simplifies the implementation and design of a multilingual NLG system, capable of sentence production of the same meaning in several languages. Our method also improves the adaptability of a NLG system to a particular semantic field. In our proposal, sentence generation is achieved trough the use of sentence models, obtained from a training corpus. Extracted sentences are abstracted by a labelling step obtained from various information extraction and text mining methods like named entity recognition, co-reference resolution, semantic labelling and part of speech tagging. The sentence generation process is achieved by a sentence realisation module. This module provide an adapted sentence model to fit a communicative intent, and then transform this model to generate a new sentence. Two methods are proposed to transform a sentence model into a generated sentence, according to the semantic content to express. In this document, we describe the complete labelling system applied to encyclopaedic content to obtain the sentence models. Then we present two models of sentence generation. The first generation model substitute the semantic content to an original sentence content. The second model is used to find numerous proto-sentences, structured as Subject, Verb, Object, able to fit by part a whole communicative intent, and then aggregate all the selected proto-sentences into a more complex one. Our experiments of sentence generation with various configurations of our system have shown that this new approach of NLG have an interesting potential

39

Narayan, Shashi. "Generating and simplifying sentences." Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0166.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Selon la représentation d’entrée, cette thèse étudie ces deux types : la génération de texte à partir de représentation de sens et à partir de texte. En la première partie (Génération des phrases), nous étudions comment effectuer la réalisation de surface symbolique à l’aide d’une grammaire robuste et efficace. Cette approche s’appuie sur une grammaire FB-LTAG et prend en entrée des arbres de dépendance peu profondes. La structure d’entrée est utilisée pour filtrer l’espace de recherche initial à l’aide d’un concept de filtrage local par polarité afin de paralléliser les processus. Afin nous proposons deux algorithmes de fouille d’erreur: le premier, un algorithme qui exploite les arbres de dépendance plutôt que des données séquentielles et le second, un algorithme qui structure la sortie de la fouille d’erreur au sein d’un arbre afin de représenter les erreurs de façon plus pertinente. Nous montrons que nos réalisateurs combinés à ces algorithmes de fouille d’erreur améliorent leur couverture significativement. En la seconde partie (Simplification des phrases), nous proposons l’utilisation d’une forme de représentations sémantiques (contre à approches basées la syntaxe ou SMT) afin d’améliorer la tâche de simplification de phrase. Nous utilisons les structures de représentation du discours pour la représentation sémantique profonde. Nous proposons alors deux méthodes de simplification de phrase: une première approche supervisée hybride qui combine une sémantique profonde à de la traduction automatique, et une seconde approche non-supervisée qui s’appuie sur un corpus comparable de Wikipedia
Depending on the input representation, this dissertation investigates issues from two classes: meaning representation (MR) to text and text-to-text generation. In the first class (MR-to-text generation, "Generating Sentences"), we investigate how to make symbolic grammar based surface realisation robust and efficient. We propose an efficient approach to surface realisation using a FB-LTAG and taking as input shallow dependency trees. Our algorithm combines techniques and ideas from the head-driven and lexicalist approaches. In addition, the input structure is used to filter the initial search space using a concept called local polarity filtering; and to parallelise processes. To further improve our robustness, we propose two error mining algorithms: one, an algorithm for mining dependency trees rather than sequential data and two, an algorithm that structures the output of error mining into a tree to represent them in a more meaningful way. We show that our realisers together with these error mining algorithms improves on both efficiency and coverage by a wide margin. In the second class (text-to-text generation, "Simplifying Sentences"), we argue for using deep semantic representations (compared to syntax or SMT based approaches) to improve the sentence simplification task. We use the Discourse Representation Structures for the deep semantic representation of the input. We propose two methods: a supervised approach (with state-of-the-art results) to hybrid simplification using deep semantics and SMT, and an unsupervised approach (with competitive results to the state-of-the-art systems) to simplification using the comparable Wikipedia corpus

40

El, Jed Olfa. "WebSum : système de résumé automatique de réponses des moteurs de recherche." Toulouse 3, 2006. http://www.theses.fr/2006TOU30145.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s’inscrit dans le cadre général de la recherche d’information et plus précisément, dans le cadre de la classification et l’organisation des documents Web. Notre objectif est de développer un système de résumé automatique des réponses d’un moteur de recherche dans un style encyclopédique (WebSum). Ce type de résumé vise à classer les réponses issues d’une recherche d’information à l’aide d’un moteur de recherche, selon les différents thèmes ou ce que nous appelons dans nos travaux, les facettes de la requête utilisateur. Pour réaliser cet objectif, nous proposons : Une méthode d’identification des facettes structurantes d’une requête donnée qui s’inspire du Lexique Génératif de Pustejovsky (Pustejovsky, 1995) ; Une approche de classification des réponses d’un moteur de recherche autour des différentes facettes de la requête ; Une méthode d’évaluation de la pertinence des pages Web permettant de trier, à l’intérieur d’une même facette, les réponses selon un ordre de pertinence
This thesis lies within the general framework of the information retrieval and more precisely, within the framework of the web document classification and organization. Our objective is to develop a system of automatic summarizing of the search engine answers in the encyclopaedic style (WebSum). This type of summary aims at classifying the search engine answers according to the various topics or what we call in our work, facets of the user query. To carry out this objective, we propose : - A method of identification of the facets of a given query based on the generative lexicon; - An approach of classification of the search engine answers under this various facets; - And a method of evaluation of the relevance of the web pages

41

Solanki, Jigar. "Approche générative conjointe logicielle-matérielle au développement du support protocolaire d’applications réseaux." Thesis, Bordeaux, 2014. http://www.theses.fr/2014BORD0301/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les communications entre les applications réseaux sont régies par un ensemble de règles regroupées sous forme de protocoles. Les messages protocolaires sont gérés par une couche de l’application réseau connue comme étant la couche de support protocolaire. Cette couche peut être de nature logicielle, matérielle ou conjointe. Cette couche se trouve à la frontière entre le coeur de l’application et le monde extérieur. A ce titre, elle représente un composant névralgique de l’application. Les performances globales de l’application sont ainsi directement liées aux performances de la couche de support protocolaire associée.Le processus de développement de ces couches consiste à traduire une spécification du protocole, écrite dans un langage de haut niveau tel que ABNF dans un langage bas niveau, logiciel ou matériel. Avec l’avènement des systèmes embarqués, de plus en plus de systèmes sur puce proposent l’utilisation de ressources matérielles afin d’accroître les performances des applicatifs. Néanmoins, peu de processus de développement de couches de support protocolaire tirent parti de ces ressources, en raison notamment de l’expertise nécessaire dans ce domaine.Cette thèse propose une approche générative conjointe logicielle-matérielle au développement du support protocolaire d’applications réseaux, pour améliorer leur performance tout en restant ergonomique pour le développeur de l’application. Notre approche est basée sur l’exploitation d’un langage dédié, appellé Zebra pour générer les différents composants logiciels et matériels formant la couche de support. L’expertise nécessaire est déportée dans l’utilisation du langage Zebra et les composants matériels générés permettent d’accroître les performances de l’application.Les contributions de cette thèse sont les suivantes : Nous avons effectué une analyse des protocoles et applications réseaux. Cette analyse nous a permis d’identifier les composants pour lesquels il est possible d’obtenir des gains de performances.Nous avons conçu et exploité un langage dédié, Zebra, permettant de décrire les différentes entités de la couche de support protocolaire et générant les éléments logiciels et matériels la composant. Nous avons construit un système sur puce exécutant un système d’exploitation Linux afin d’étayer notre approche. Nous avons conçu des accélérateurs matériels déployables pour différents protocoles réseaux sur ce système et pilotables par les applicatifs. Afin de rendre l’accès aux accélérateurs matériels transparent pour les applications réseaux, nous avons développé un intergiciel gérant l’ensemble de ces accès. Cet intergiciel permet à plusieurs applications et/ou à plusieurs clients d’une même application d’utiliser les accélérateurs pour le traitement des messages protocolaires. Nous avons évalué les performances de notre approche dans des conditions réelles. Nous avons comparé ces performances à celles de couches de supports faisant référence dans le domaine. Nous avons constaté un gain de performance conséquent pour l’approche que nous proposons
Communications between network applications is achieved by using rulesets known as protocols. Protocol messages are managed by the application layer known as the protocol parsing layer or protocol handling layer. Protocol parsers are coded in software, in hardware or based on a co-design approach. They represent the interface between the application logic and the outside world. Thus, they are critical components of network applications. Global performances of network applications are directly linked to the performances of their protocol parser layers.Developping protocol parsers consists of translating protocol specifications, written in a high level language such as ABNF towards low level software or hardware code. As the use of embedded systems is growing, hardware ressources become more and more available to applications on systems on chip (SoC). Nonetheless, developping a network application that uses hardware ressources is challenging, requiring not only expertise in hardware design, but also a knowledge of the protocols involved and an understanding of low-level network programming.This thesis proposes a generative hardware-software co-design based approach to the developpement of network protocol message parsers, to improve their performances without increasing the expertise the developper may need. Our approach is based on a dedicated language, called Zebra, that generates both hardware and software elements that compose protocol parsers. The necessary expertise is deported in the use of the Zebra language and the generated hardware components permit to improve global performances.The contributions of this thesis are as follows : We provide an analysis of network protocols and applications. This analysis allows us to detect the elements which performances can be improved using hardware ressources. We present the domain specific language Zebra to describe protocol handling layers. Software and hardware components are then generated according to Zebra specifications. We have built a SoC running a Linux operating system to assess our approach.We have designed hardware accelerators for different network protocols that are deployed and driven by applications. To increase sharing of parsing units between several tasks, we have developped a middleware that seamlessly manages all the accesses to the hardware components. The Zebra middleware allows several clients to access the ressources of a hardware accelerator. We have conducted several set of experiments in real conditions. We have compared the performances of our approach with the performances of well-knownprotocol handling layers. We observe that protocol handling layers baded on our approach are more efficient that existing approaches

42

Chen, Yong. "Analyse et interprétation d'images à l'usage des personnes non-voyantes : application à la génération automatique d'images en relief à partir d'équipements banalisés." Thesis, Paris 8, 2015. http://www.theses.fr/2015PA080046/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’information visuelle est une source d’information très riche à laquelle les non-voyants et mal voyants (ou Personnes Aveugles et Malvoyantes : PAM) n’ont pas toujours accès. La présence des images constitue un réel handicap pour les PAM. Une transcription de ces images en relief peut augmenter leur accessibilité aux PAM. En prenant en compte les aspects de la cognition tactile chez les non-voyants, les règles, et les recommandations de la conception d’une image en relief, nous avons orienté notre travail sur les analyses et les comparaisons des techniques de traitement d’image numérique pour trouver les méthodes adaptées afin de créer une procédure automatique de création d’images en relief. A la fin de ce travail, nous avons testé les images en relief créées avec des non-voyants. Deux points importants ont été évalués :  Le taux de compréhension d’une image en relief ; Le temps d’exploration nécessaire.Les résultats suggèrent que les images faites par ce système sont accessibles pour les non-voyants braillistes. Le système implémenté peut être considéré comme un outil efficace de création d’image en relief :  Le système propose une possibilité de généraliser et formaliser la procédure de création d'image en relief ;  Le système donne une solution très rapide et facile.Le système peut traiter des images pédagogiques avec du contenu sémantique simplifié. Il peut donc être utilisé dans de nombreux cas d’utilisation. Par exemple, il peut être utilisé comme un outil pratique pour rendre accessible les images numériques. Il permet aussi la coopération avec d’autres modalités de présentation d’image au non-voyant, par exemple avec une carte interactive classique
Visual information is a very rich source of information to which blind and visually impaired people (BVI) not always have access. The presence of images is a real handicap for the BVI. The transcription into an embossed image may increase the accessibility of an image to BVI. Our work takes into account the aspects of tactile cognition, the rules and the recommendations for the design of an embossed image. We focused our work on the analysis and comparison of digital image processing techniques in order to find the suitable methods to create an automatic procedure for embossing images. At the end of this research, we tested the embossed images created by our system with users with blindness. In the tests, two important points were evaluated:  The degree of understanding of an embossed image; The time required for exploration.The results suggest that the images made by this system are accessible to blind users who know braille. The implemented system can be regarded as an effective tool for the creation of an embossed image. The system offers an opportunity to generalize and formalize the procedure for creating an embossed image. The system gives a very quick and easy solution.The system can process pedagogical images with simplified semantic contents. It can be used as a practical tool for making digital images accessible. It also offers the possibility of cooperation with other modalities of presentation of the image to blind people, for example a traditional interactive map

43

Bourreau, Pierre. "Jeux de typage et analyse de lambda-grammaires non-contextuelles." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2012. http://tel.archives-ouvertes.fr/tel-00733964.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les grammaires catégorielles abstraites (ou λ-grammaires) sont un formalisme basé sur le λ-calcul simplement typé. Elles peuvent être vues comme des grammaires générant de tels termes, et ont été introduites aﬁn de modéliser l'interface entre la syntaxe et la sémantique du langage naturel, réunissant deux idées fondamentales : la distinction entre tectogrammaire (c.a.d. structure profonde d'un énoncé) et phénogrammaire (c.a.d représentation de la surface d'un énoncé) de la langue, exprimé par Curry ; et une modélisation algébrique du principe de compositionnalité aﬁn de rendre compte de la sémantique des phrases, due à Montague. Un des avantages principaux de ce formalisme est que l'analyse d'une grammaires catégorielle abstraite permet de résoudre aussi bien le problème de l'analyse de texte, que celui de la génération de texte. Des algorithmes d'analyse efﬁcaces ont été découverts pour les grammaires catégorielles abstraites de termes linéaires et quasi-linéaires, alors que le problème de l'analyse est non-élémentaire dans sa forme la plus générale. Nous proposons d'étudier des classes de termes pour lesquels l'analyse grammaticale reste solvable en temps polynomial. Ces résultats s'appuient principalement sur deux théorèmes de typage : le théorème de cohérence, spéciﬁant qu'un λ-terme donné est l'unique habitant d'un certain typage ; et le théorème d'expansion du sujet, spéciﬁant que deux termes β-équivalents habitent les même typages. Aﬁn de mener cette étude à bien, nous utiliserons une représentation abstraite des notions de λ-termes et de typages, sous forme de jeux. En particulier, nous nous appuierons grandement sur cette notion aﬁn de démontrer le théorème de cohérence pour de nouvelles familles de λ-termes et de typages. Grâce à ces résultats, nous montrerons qu'il est possible de construire de manière directe, un reconnaisseur dans le langage Datalog, pour des grammaires catégorielles abstraites de λ-termes quasi-afﬁnes.

44

Vaillant, Pascal. "Interaction entre modalités sémiotiques : de l'icône à la langue." Phd thesis, Université Paris Sud - Paris XI, 1997. http://tel.archives-ouvertes.fr/tel-00327266.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La question de la communication par icônes prend d'autant plus d'importance que la circulation accrue des personnes et des biens oblige aujourd'hui à des formes de communication indépendantes des langues. Cette thèse s'est fixé pour tâche de comprendre et de décrire le signe iconique dans sa spécificité, afin de pouvoir proposer une grille d'analyse commune à celui-ci et à la langue, extensible aux genres multimodaux. Dans un premier temps, les débats portant sur la nature de l'iconicité sont discutés. L'iconicité est plus qu'une simple ressemblance entre un signe et son objet : c'est un mode d'institution de code visuel qui met en oeuvre des conventions culturelles de représentation et de transcription. Le signe iconique est par la suite soumis à l'érosion diachronique. Une grille d'analyse des différents systèmes sémiotiques est ensuite proposée ; elle distingue les notions de figure comme segment minimal d'un texte, et de caractère comme élément interne, ce qui permet de clarifier la transposition de la notion de double articulation aux sémiotiques non-linguistiques. Les systèmes de signes iconiques ont ainsi, chacun dans son genre particulier, un « système sémiologique » de figures minimales et de règles d'assemblage. Une vision de la lecture de l'image comme processus interprétatif et contextuel est exposée : les formes de la Gestalttheorie y sont identifiées aux lieux d'émergence du sens. Des études de cas de genres multimodaux (dessin et texte) montrent en outre comment les différentes modalités se partagent le contenu sémantique. La partie applicative de la thèse comporte une présentation descriptive de trois langages de pictogrammes d'une importance particulière ; et une implantation informatique d'un logiciel de communication par icônes pour handicapés du langage. Ce logiciel procède à une analyse sémantique de séquences d'icônes agrammaticales, et génère ensuite la meilleure interprétation calculée, sous la forme d'un message en français.

45

Max, Aurélien. "De la création de documents normalisés à la normalisation de documents en domaine contraint." Grenoble 1, 2003. http://www.theses.fr/2003GRE10227.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les documents en domaine contraint doivent répondre à de nombreuses conditions de bonne formation qui sont souvent difficiles à appliquer. Un courant de recherche actif s’intéresse à la création de documents normalisés par spécification du contenu sémantique, facilitant ainsi de nombreuses applications de ces documents, dont la production multilingue. Néanmoins, les systèmes actuels ne permettent pas l’analyse d’un document existant afin de le normaliser. Dans ce contexte, nous proposons une approche réutilisant les ressources de tels systèmes pour recréer le contenu sémantique d’un document, à partir duquel sa forme textuelle normalisée est ensuite générée. Cette approche s’articule autour de deux paradigmes centraux : la génération inversée floue, qui permet de trouver heuristiquement des représentations sémantiques candidates, et la négociation interactive, qui permet à un expert du domaine de valider progressivement la représentation sémantique correspondant au document originel
Well-formedness conditions on documents in constrained domains are often hard to apply. An active research trend approaches the authoring of normalized documents through semantic specification, thereby facilitating such applications as multilingual production. However, the current systems are not able to analyse an existing document in order to normalize it. We therefore propose an approach that reuses the resources of such systems to recreate the semantic content of a document, from which a normalized textual version can be generated. This approach is based on two main paradigms : fuzzy inverted generation, which heuristically finds candidate semantic representations, and interactive negotiation, which allows an expert of the domain to progressively validate the semantic representation that corresponds to the original document

46

Dufour-Lussier, Valmi. "Reasoning with qualitative spatial and temporal textual cases." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0182/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse propose un modèle permettant la mise en œuvre d'un système de raisonnement à partir de cas capable d'adapter des procédures représentées sous forme de texte en langue naturelle, en réponse à des requêtes d'utilisateurs. Bien que les cas et les solutions soient sous forme textuelle, l'adaptation elle-même est d'abord appliquée à un réseau de contraintes temporelles exprimées à l'aide d'une algèbre qualitative, grâce à l'utilisation d'un opérateur de révision des croyances. Des méthodes de traitement automatique des langues sont utilisées pour acquérir les représentations algébriques des cas ainsi que pour regénérer le texte à partir du résultat de l'adaptation
This thesis proposes a practical model making it possible to implement a case-based reasoning system that adapts processes represented as natural language text in response to user queries. While the cases and the solutions are in textual form, the adaptation itself is performed on networks of temporal constraints expressed with a qualitative algebra, using a belief revision operator. Natural language processing methods are used to acquire case representations and to regenerate text based on the adaptation result

47

Chikhi, Nacim Fateh. "Calcul de centralité et identification de structures de communautés dans les graphes de documents." Phd thesis, Université Paul Sabatier - Toulouse III, 2010. http://tel.archives-ouvertes.fr/tel-00619177.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, nous nous intéressons à la caractérisation de grandes collections de documents (en utilisant les liens entre ces derniers) afin de faciliter leur utilisation et leur exploitation par des humains ou par des outils informatiques. Dans un premier temps, nous avons abordé la problématique du calcul de centralité dans les graphes de documents. Nous avons décrit les principaux algorithmes de calcul de centralité existants en mettant l'accent sur le problème TKC (Tightly Knit Community) dont souffre la plupart des mesures de centralité récentes. Ensuite, nous avons proposé trois nouveaux algorithmes de calcul de centralité (MHITS, NHITS et DocRank) permettant d'affronter le phénomène TKC. Les différents algorithmes proposés ont été évalués et comparés aux approches existantes. Des critères d'évaluation ont notamment été proposés pour mesurer l'effet TKC. Dans un deuxième temps, nous nous sommes intéressés au problème de la classification non supervisée de documents. Plus précisément, nous avons envisagé ce regroupement comme une tâche d'identification de structures de communautés (ISC) dans les graphes de documents. Nous avons décrit les principales approches d'ISC existantes en distinguant les approches basées sur un modèle génératif des approches algorithmiques ou classiques. Puis, nous avons proposé un modèle génératif (SPCE) basé sur le lissage et sur une initialisation appropriée pour l'ISC dans des graphes de faible densité. Le modèle SPCE a été évalué et validé en le comparant à d'autres approches d'ISC. Enfin, nous avons montré que le modèle SPCE pouvait être étendu pour prendre en compte simultanément les liens et les contenus des documents.

48

Gzawi, Mahmoud. "Désambiguïsation de l’arabe écrit et interprétation sémantique." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE2006.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse se situe à l’intersection des domaines de la recherche en linguistique et du traitement automatique de la langue. Ces deux domaines se croisent pour la construction d’outils de traitement de texte, et des applications industrielles intégrant des solutions de désambiguïsation et d’interprétation de la langue.Une tâche difficile et très peu abordée et appliqué est arrivée sur les travaux de l’entreprise Techlimed, celle de l’analyse automatique des textes écrits en arabe. De nouvelles ressources sont apparues comme les lexiques de langues et les réseaux sémantiques permettant à la création de grammaires formelles d’accomplir cette tâche.Une métadonnée importante pour l’analyse de texte est de savoir « qu’est-ce qui est dit, et que signifie-t-il ? ». Le domaine de linguistique computationnelle propose des méthodes très diverses et souvent partielle pour permettre à l’ordinateur de répondre à de telles questions.L’introduction et l’application des règles de grammaire descriptives de langues dans les langages formels spécifiques au traitement de langues par ordinateur est l’objet principal de cette thèse.Au-delà de la réalisation d’un système de traitement et d’interprétation de textes en langue arabe, basé aussi sur la modélisation informatique, notre intérêt s’est porté sur l’évaluation des phénomènes linguistiques relevés par la littérature et les méthodes de leur formalisation en informatique.Dans tous les cas, nos travaux de recherche ont été testés et validés dans un cadre expérimental rigoureux autour de plusieurs formalismes et outils informatiques.Nos expérimentations concernant l'apport de la grammaire syntaxico-sémantique, a priori, ont montré une réduction importante de l’ambiguïté linguistique dans le cas de l'utilisation d’une grammaire à état fini écrite en Java et une grammaire générativetransformationnelle écrite en Prolog, intégrant des composants morphologiques, syntaxiques et sémantiques.La mise en place de notre étude a requis la construction d’outils de traitement de texte et d’outils de recherche d’information. Ces outils ont été construits par nos soins et sont disponible en Open-source.La réussite de l’application de nos travaux à grande échelle s’est conclue par la condition d’avoir de ressources sémantiques riches et exhaustives. Nous travaux ont été redirigés vers une démarche de production de telles ressources, en termes de recherche d’informations et d’extraction de connaissances. Les tests menés pour cette nouvelle perspective ont étéfavorables à d’avantage de recherche et d’expérimentation
This thesis lies at the frontier of the fields of linguistic research and the automatic processing of language. These two fields intersect for the construction of natural language processing tools, and industrial applications integrating solutions for disambiguation and interpretation of texts.A challenging task, briefly approached and applied, has come to the work of the Techlimed company, that of the automatic analysis of texts written in Arabic. Novel resources have emerged as language lexicons and semantic networks allowing the creation of formal grammars to accomplish this task.An important meta-data for text analysis is "what is being said, and what does it mean". The field of computational linguistics offers very diverse and, mostly, partial methods to allow the computer to answer such questions.The main purpose of this thesis is to introduce and apply the rules of descriptive language grammar in formal languages specific to computer language processing.Beyond the realization of a system of processing and interpretation of texts in Arabic language based on computer modeling, our interest has been devoted to the evaluation of the linguistic phenomena described by the literature and the methods of their formalization in computer science.In all cases, our research was tested and validated in a rigorous experimental framework around several formalisms and computer tools.The experiments concerning the contribution of syntaxico-semantic grammar, a priori, have demonstrated a significant reduction of linguistic ambiguity in the case of the use of a finite-state grammar written in Java and a transformational generative grammarwritten in Prolog, integrating morphological, syntactic and semantic components.The implementation of our study required the construction of tools for word processing, information retrieval tools. These tools were built by us and are available in Open-source.The success of the application of our work in large scale was concluded by the requirement of having rich and comprehensive semantic resources. Our work has been redirected towards a process of production of such resources, in terms of informationretrieval and knowledge extraction. The tests for this new perspective were favorable to further research and experimentation

49

Landes, Pierre-Edouard. "Extraction d'information pour l'édition et la synthèse par l'exemple en rendu expressif." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00637651.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse prend pour cadre la synthèse par l'exemple et l'édition de contenu graphique en infographie et propose une réflexion sur les possibles sources d'information utiles à ces fins. Contrairement aux techniques "procédurales", l'approche par l'exemple se distingue par sa grande simplicité d'utilisation : reviennent en effet à l'algorithme de synthèse l'identification, analyse et reproduction des éléments caractéristiques des exemples fournis en entrée par l'utilisateur. Ce mode de création de même que les techniques approfondies d'édition ont grandement contribué à la facilitation de la production à grande échelle de contenus graphiques convaincants et ainsi participé à l'adoption par la communauté des artistes des outils proposés par le support numérique. Mais pour être ainsi exploitées, celles-ci doivent également être hautement contrôlables tout en évitant l'écueil de n'être que le simple prolongement de la main de l'artiste. Nous explorons ici cette thématique dans le cadre de la création de rendus dits expressifs et étudions les interactions (collaboratives ou concurrentielles) entre les différentes sources d'information au cœur de ce processus. Ces dernières sont à notre sens au nombre de trois : l'analyse automatique des données d'entrée avant rendu ou traitement ; l'utilisation de modèles a priori en vue de leur compréhension ; et enfin le contrôle explicite par l'utilisateur. En les combinant au plus juste, nous proposons des techniques nouvelles dans divers domaines de la synthèse en rendu expressif. Au delà du réalisme photographique, le rendu expressif se caractérise par sa poursuite de critères plus difficilement quantifiables tels la facilité de compréhension ou le caractère artistique de ses résultats. La subjectivité de tels objectifs nous force donc ici plus qu'ailleurs à estimer avec soin les sources d'information à privilégier, le niveau d'implication à accorder à l'utilisateur (sans que ce choix ne s'opère au détriment de la qualité théorique de la méthode), ainsi que le possible recours à des modèles d'analyse (sans en compromettre la généralité). Trois principales instances de synthèse sont ici détaillés : la génération de textures, la désaturation d'images, et la représentation de maillages par le dessin au trait. La grande variété des données d'entrée (textures matricielles ou vectorielles, images complexes, géométries 3d), des modalités de synthèse (imitation, conversion, représentation alternative) et d'objectifs (reproduction de la signature visuelle d'une texture, restitution crédible de contrastes chromatiques, génération de dessins conformes au style de l'utilisateur) permettent l'examen de divers équilibres entre ces sources d'information et l'exploration de degrés plus ou moins élevés d'interaction avec l'utilisateur.

50

Dufour-Lussier, Valmi. "Reasoning with qualitative spatial and temporal textual cases." Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0182.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse propose un modèle permettant la mise en œuvre d'un système de raisonnement à partir de cas capable d'adapter des procédures représentées sous forme de texte en langue naturelle, en réponse à des requêtes d'utilisateurs. Bien que les cas et les solutions soient sous forme textuelle, l'adaptation elle-même est d'abord appliquée à un réseau de contraintes temporelles exprimées à l'aide d'une algèbre qualitative, grâce à l'utilisation d'un opérateur de révision des croyances. Des méthodes de traitement automatique des langues sont utilisées pour acquérir les représentations algébriques des cas ainsi que pour regénérer le texte à partir du résultat de l'adaptation
This thesis proposes a practical model making it possible to implement a case-based reasoning system that adapts processes represented as natural language text in response to user queries. While the cases and the solutions are in textual form, the adaptation itself is performed on networks of temporal constraints expressed with a qualitative algebra, using a belief revision operator. Natural language processing methods are used to acquire case representations and to regenerate text based on the adaptation result

Dissertations / Theses on the topic 'Génération de textes'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles