Dissertations / Theses on the topic 'Simplification Automatique des Textes'

To see the other types of publications on this topic, follow the link: Simplification Automatique des Textes.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Simplification Automatique des Textes.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Hijazi, Rita. "Simplification syntaxique de textes à base de représentations sémantiques exprimées avec le formalisme Dependency Minimal Recursion Semantics (DMRS)." Electronic Thesis or Diss., Aix-Marseille, 2022. http://theses.univ-amu.fr.lama.univ-amu.fr/221214_HIJAZI_602vzfxdu139bxtesm225byk629aeqyvw_TH.pdf.

Full text
Abstract:
La simplification de textes consiste à transformer un texte en une version plus simple à lire et/ou à comprendre et plus accessible à un public cible, tout en conservant son information, son contenu et son sens originaux. Cette thèse se concentre sur la simplification syntaxique de textes en anglais, une tâche pour laquelle les systèmes automatiques existants présentent certaines limites. Pour les dépasser, nous proposons tout d’abord une nouvelle méthode de simplification syntaxique exploitant des dépendances sémantiques exprimées en DMRS (Dependency Minimal Recursion Semantics), une représentation sémantique profonde sous forme de graphes combinant sémantique et syntaxe. La simplification syntaxique consiste alors à représenter la phrase complexe en un graphe DMRS, transformer selon des stratégies spécifiques ce graphe en d’autres graphes DMRS qui généreront des phrases plus simples. Cette méthode permet la simplification syntaxique de constructions complexes, en particulier des opérations de division basées sur des appositives, sur des coordinations et sur des subordinations ; ainsi que la transformation de formes passives en formes actives. Les résultats obtenus par ce système de simplification syntaxique sur ce corpus de référence sur les opérations de division de phrases surpassent ceux des systèmes existants du même type dans la production de phrases simples, grammaticales et conservant le sens, démontrant ainsi tout l’intérêt de notre approche de la simplification syntaxique à base de représentations sémantiques en DMRS
Text simplification is the task of making a text easier to read and understand and more accessible to a target audience. This goal can be reached by reducing the linguistic complexity of the text while preserving the original meaning as much as possible. This thesis focuses on the syntactic simplification of texts in English, a task for which these automatic systems have certain limitations. To overcome them, we first propose a new method of syntactic simplification exploiting semantic dependencies expressed in DMRS (Dependency Minimal Recursion Semantics), a deep semantic representation in the form of graphs combining semantics and syntax. Syntactic simplification enables to represent the complex sentence in a DMRS graph, transforming this graph according to specific strategies into other DMRS graphs, which will generate simpler sentences. This method allows the syntactic simplification of complex constructions, in particular division operations such as subordinate clauses, appositive clauses, coordination and also the transformation of passive forms into active forms. The results obtained by this system of syntactic simplification surpass those of the existing systems of the same type in the production of simple, grammatical sentences and preserving the meaning, thus demonstrating all the interest of our approach to syntactic simplification based on semantic representations in DMRS
APA, Harvard, Vancouver, ISO, and other styles
2

Tremblay, Christian. "L' apport de la modélisation des connaissances à la codification et à la simplification des textes normatifs : Analyse sémantico-syntaxique des textes normatifs ou la linguistique générale au service du droit." Paris 2, 2002. http://www.theses.fr/2002PA020115.

Full text
Abstract:
La présente recherche explore les voies d'une lecture automatisée des textes normatifs et de la construction de bases de connaissances juridiques interrogeables en langage naturel. Après avoir étudié les problèmes théoriques de l'interprétation du droit (première partie) et des structures syntaxiques, sémantiques et conceptuelles du langage (seconde partie), la recherche, en faisant appel aux ressources de la linguistique générale, de la sémantique interprétative et de la logique naturelle, a mis en évidence les structures spécifiques des textes normatifs, qualifiées dans le contexte de la recherche, d'opérations normatives, opérations correspondant à une spécialisation, dans le champ du droit, des opérations logico-discursives de la logique naturelle (troisième partie). La recherche débouche (quatrième partie) sur un modèle général de gestion des connaissances juridiques tendant à une compréhension automatisée des textes normatifs.
APA, Harvard, Vancouver, ISO, and other styles
3

Farzindar, Atefeh. "Résumé automatique de textes juridiques." Paris 4, 2005. http://www.theses.fr/2005PA040032.

Full text
Abstract:
Nous avons travaillé sur la production automatique de résumé pour le domaine juridique. Nous avons développé le système LetSum, un outil informatique en vue d'extraire l'information pertinente sous une forme condensée. Nous avons collaboré avec les avocats du centre de recherche en droit public. Notre méthode est basée sur l'analyse manuelle des jugements et de leurs résumés rédigés par les résumeurs professionnels. Dans cette méthode, nous identifions le plan d'organisation d'un jugement et ses différents thèmes discursifs qui regroupent les phrases autour d'un même sujet. La création du résumé par LetSum se fait en quatre étapes: 1) Segmentation thématique détermine l'organisation du document et encadre les segments du texte associés avec un thème précis dans la jurisprudence. Nous avons divisé un jugement en cinq thèmes: Introduction (qui? a fait quoi? à qui?), Contexte (recompose l'histoire du litige et l'histoire judiciaire), Questions de droit (identifient le problème juridique dont le tribunal est saisi), Raisonnement juridique (contient l'analyse du juge et Conclusion (décision finale de la cour). 2) Filtrage qui identifie les segments qui peuvent être supprimés dans les documents, sans perdre les informations pertinentes pour le résumé, comme les citations. 3) Sélection des unités textuelles candidates pour le résumé qui construit une liste d'unités saillantes candidates pour chaque thème. 4) Production du résumé qui choisit les unités pour le résumé final et les combine. L'évaluation de 120 résumés automatiques par 12 avocats montre la qualité des résumés produits par LetSum qui est jugé excellente
We have developed a summarization system, called LetSum, for producing short summaries for legal decisions. We have collaborated with the lawyers of the Public Law Research Center of Université de Montréal. Our method is based on the manual analysis of the judgments by comparing manually written summaries and source documents, which investigates the extraction of the most important units based on the identification of thematic structure of the document. The production of the summary is done in four steps:1. Thematic segmentation detects the thematic structure of a judgment. We distinguish seven themes: Decision data (gives the complete reference of the decision and the relation between the parties for planning the decision. ), Introduction (who? did what? to whom?), Context (recomposes the story from the facts and events), Submission (presents the point of view the parties), Issues (identifies the questions of law), Juridical Analysis (describes the analysis of the judge), Conclusion (the final decision of the court). 2. Filtering identifies parts of the text which can be eliminated, without losing relevant information for the summary, like the citations. 3. Selection builds a list of the best candidate units for each structural level of the summary. 4. Production chooses the units for the final summary and combines them in order to produce a summary of about 10% of the judgement. The evaluations of 120 summaries by 12 lawyers show the quality of summaries produced by LetSum, which are judgedexcellent
APA, Harvard, Vancouver, ISO, and other styles
4

Narayan, Shashi. "Generating and simplifying sentences." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0166/document.

Full text
Abstract:
Selon la représentation d’entrée, cette thèse étudie ces deux types : la génération de texte à partir de représentation de sens et à partir de texte. En la première partie (Génération des phrases), nous étudions comment effectuer la réalisation de surface symbolique à l’aide d’une grammaire robuste et efficace. Cette approche s’appuie sur une grammaire FB-LTAG et prend en entrée des arbres de dépendance peu profondes. La structure d’entrée est utilisée pour filtrer l’espace de recherche initial à l’aide d’un concept de filtrage local par polarité afin de paralléliser les processus. Afin nous proposons deux algorithmes de fouille d’erreur: le premier, un algorithme qui exploite les arbres de dépendance plutôt que des données séquentielles et le second, un algorithme qui structure la sortie de la fouille d’erreur au sein d’un arbre afin de représenter les erreurs de façon plus pertinente. Nous montrons que nos réalisateurs combinés à ces algorithmes de fouille d’erreur améliorent leur couverture significativement. En la seconde partie (Simplification des phrases), nous proposons l’utilisation d’une forme de représentations sémantiques (contre à approches basées la syntaxe ou SMT) afin d’améliorer la tâche de simplification de phrase. Nous utilisons les structures de représentation du discours pour la représentation sémantique profonde. Nous proposons alors deux méthodes de simplification de phrase: une première approche supervisée hybride qui combine une sémantique profonde à de la traduction automatique, et une seconde approche non-supervisée qui s’appuie sur un corpus comparable de Wikipedia
Depending on the input representation, this dissertation investigates issues from two classes: meaning representation (MR) to text and text-to-text generation. In the first class (MR-to-text generation, "Generating Sentences"), we investigate how to make symbolic grammar based surface realisation robust and efficient. We propose an efficient approach to surface realisation using a FB-LTAG and taking as input shallow dependency trees. Our algorithm combines techniques and ideas from the head-driven and lexicalist approaches. In addition, the input structure is used to filter the initial search space using a concept called local polarity filtering; and to parallelise processes. To further improve our robustness, we propose two error mining algorithms: one, an algorithm for mining dependency trees rather than sequential data and two, an algorithm that structures the output of error mining into a tree to represent them in a more meaningful way. We show that our realisers together with these error mining algorithms improves on both efficiency and coverage by a wide margin. In the second class (text-to-text generation, "Simplifying Sentences"), we argue for using deep semantic representations (compared to syntax or SMT based approaches) to improve the sentence simplification task. We use the Discourse Representation Structures for the deep semantic representation of the input. We propose two methods: a supervised approach (with state-of-the-art results) to hybrid simplification using deep semantics and SMT, and an unsupervised approach (with competitive results to the state-of-the-art systems) to simplification using the comparable Wikipedia corpus
APA, Harvard, Vancouver, ISO, and other styles
5

Nakamura-Delloye, Yayoi. "Alignement automatique de textes parallèles Français-Japonais." Phd thesis, Université Paris-Diderot - Paris VII, 2007. http://tel.archives-ouvertes.fr/tel-00266261.

Full text
Abstract:
L'alignement automatique consiste à trouver une correspondance entre des unités de textes parallèles. Nous nous intéressons plus particulièrement à la réalisation d'un système qui procède à l'alignement au niveau des propositions, unités profitables dans beaucoup d'applications.
La présente thèse est constituée de deux types de travaux : les travaux introducteurs et ceux constituant le noyau central. Ce dernier s'articule autour de la notion de proposition syntaxique.
Les travaux introducteurs comprennent l'étude des généralités sur l'alignement ainsi que des travaux consacrés à l'alignement des phrases. Ces travaux ont conduit à la réalisation d'un système d'alignement des phrases adapté au traitement des textes français et japonais.
Le noyau de la thèse est composé de deux types de travaux, études linguistiques et réalisations informatiques. Les études linguistiques se divisent elles-mêmes en deux sujets : la proposition en français et la proposition en japonais. Le but de nos études sur la proposition française est de définir une grammaire pour la détection des propositions. Pour cet effet, nous avons cherché à définir une typologie des propositions, basée sur des critères uniquement formels. Dans les études sur le japonais, nous définissons d'abord la phrase japonaise sur la base de l'opposition thème-rhème. Nous tentons ensuite d'élucider la notion de proposition.
Les réalisations informatiques comportent trois tâches composant ensemble au final l'opération d'alignement des propositions, incarnées par trois systèmes informatiques distincts : deux détecteurs de propositions (un pour le français et un pour le japonais), ainsi qu'un système d'alignement des propositions.
APA, Harvard, Vancouver, ISO, and other styles
6

Nakamura, Delloye Yayoi. "Alignement automatique de textes parallèles français - japonais." Paris 7, 2007. http://www.theses.fr/2007PA070054.

Full text
Abstract:
L'alignement automatique consiste à trouver une correspondance entre des unités de textes parallèles. Nous nous intéressons plus particulièrement à la réalisation d'un système qui procède à l'alignement au niveau des propositions, unités profitables dans beaucoup d'applications. La présente thèse est constituée de deux types de travaux : les travaux introducteurs et ceux constituant le noyau central. Ce dernier s'articule autour de la notion de proposition syntaxique. Les travaux introducteurs comprennent l'étude des généralités sur l'alignement ainsi que des travaux consacrés à l'alignement des phrases. Ces travaux ont conduit à la réalisation d'un système d'alignement des phrases adapté au traitement des textes français et japonais. Le noyau de la thèse est composé de deux types de travaux, études linguistiques et réalisations informatiques. Les études linguistiques se divisent elles-mêmes en deux sujets : la proposition en français et la proposition en japonais. Le but de nos études sur la proposition française est de définir une grammaire pour la détection des propositions. Pour cet effet, nous avons cherché à définir une typologie des propositions, basée sur des critères uniquement formels. Dans les études sur le japonais, nous définissons d'abord la phrase japonaise sur la base de l'opposition thème-rhème. Nous tentons ensuite d'élucider la notion de proposition. Les réalisations informatiques comportent trois tâches composant ensemble au final l'opération d'alignement des propositions, incarnées par trois systèmes informatiques distincts : deux détecteurs de propositions (un pour le français et un pour le japonais), ainsi qu'un système d'alignement des propositions
Automatic alignment aims to match elements of parallel texts. We are interested especially in the implementation of a System which carries out alignment at the clause level. Clause is a beneficial linguistic unit for many applications. This thesis consists of two types of works: the introductory works and those that constitute the thesis core. It is structured around the concept of syntactic clause. The introductory works include an overview of alignment and studies on sentence alignment. These works resulted in the creation of a sentence alignment System adapted to French and Japanese text processing. The thesis core consists of two types of works: linguistic studies and implementations. The linguistic studies are themselves divided into two topics: French clause and Japanese clause. The goal of our French clause studies is to define a grammar for clause identification. For this purpose, we attempted to define a typological classification of clauses, based on formal criteria only. In Japanese studies, we first define the Japanese sentence on the basis of the theme-rheme structure. We then try to elucidate the notion of clause. Implementation works consist of three tasks which finally constitute the clause alignment processing. These tasks are carried out by three separate tools: two clauses identification Systems (one for French texts and one for Japanese texts) and a clause alignment System
APA, Harvard, Vancouver, ISO, and other styles
7

Feat, Jym. "Parametres enonciatifs et comprehension automatique de textes." Paris 6, 1986. http://www.theses.fr/1986PA066553.

Full text
Abstract:
On ne peut faire de l'analyse automatique de textes de facon efficace que si on considere que le texte construit progressivement un environnement permettant l'analyse de chaque nouvel enonce. L'environnement est une collection d'objets relies par des liens de reperage et de specification. Pour acceder a ces objets, on pose l'existence d'une structure appelee situation enonciative (site), definie par trois pointeurs: moi, toi, quoi
APA, Harvard, Vancouver, ISO, and other styles
8

Jalam, Radwan. "Apprentissage automatique et catégorisation de textes multilingues." Lyon 2, 2003. http://theses.univ-lyon2.fr/documents/lyon2/2003/jalam_r.

Full text
Abstract:
Notre travail s'intéresse à l'application de méthodes issues de l'apprentissage automatique à la catégorisation de textes multilingues. Il comporte deux parties. Une première partie donne une présentation générale de la catégorisation de textes : Définitions, objectifs généraux et domaines d'application ; Adaptation des algorithmes d'apprentissage aux spécificités des textes ; La méthode de sélection de termes multivariée ; Le codage en n-grammes et les mots ; Les méthodes d'apprentissage et la mesure de leurs performances ; les texts réalisés pour comparer les algorithmes d'apprentissage sur les textes. La deuxième partie s'intéresse à l'apprentissage de textes multilingues en comparant deux chaînes possibles : Chaîne 1 : reconnaissance de la langue, puis utilisation de règles de classement construites pour chaque langue ; il faut alors avoir construit un modèle adapté à chacune des langues. Chaîne 2 : utilisation de la traduction automatique dans le processus de catégorisation ; cette solution permet d'utiliser un seul ensemble de règles de classement. Ici, il y a deux options : 1. Construire un modèle unique sur l'ensemble d'apprentissage d'une langue donnée ; ensuite, pour classer un nouveau texte, (I) reconnaissance de sa langue, (II) traduction de ce texte vers la langue d'apprentissage, (III) application du modèle de prédiction sur le texte traduit ; ici la phase de traduction n'intervient que dans la phase de classement. 2. Faire intervenir la traduction automatique dès la phase d'apprentissage : à partir d'un ensemble étiqueté de textes en différentes langues, traduction automatique dès la phase d'apprentissage : à partir d'un enemble étiqueté de textes en différentes langues, traduction automatique de tous ces textes vers une langue cible et apprentissage sur cet ensemble de textes traduits ; ensuite, pour classer un nouveau texte, la procédure est la même. Nous testons nos algorithmes sur des corpus multilingues.
APA, Harvard, Vancouver, ISO, and other styles
9

Feat, Jym. "Paramètres énonciatifs et compréhension automatique de textes." Grenoble 2 : ANRT, 1986. http://catalogue.bnf.fr/ark:/12148/cb37597622q.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Jalam, Radwan Chauchat Jean-Hugues. "Apprentissage automatique et catégorisation de textes multilingues." Lyon : Université Lumière Lyon 2, 2003. http://demeter.univ-lyon2.fr/sdx/theses/lyon2/2003/jalam_r.

Full text
APA, Harvard, Vancouver, ISO, and other styles
11

Garneau, Cyril. "Simplification automatique de modèle et étude du régime permanent." Master's thesis, Université Laval, 2009. http://hdl.handle.net/20.500.11794/21802.

Full text
Abstract:
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2009-2010
Les modèles mathématiques servant à simuler le comportement de stations d'épurations représentent un outil puissant pour concevoir une nouvelle installation ou prédire le comportement d'une station d'épuration déjà existante. Cependant, ces modèles ne fournissent aucune information sur un système particulier sans un algorithme pour les résoudre. Il existe actuellement un grand nombre d'algorithmes d'intégration capables de calculer la solution d'un modèle avec précision. Cependant, les temps de calcul en jeux représentent toujours l'un des obstacles à une utilisation extensive des modèles. Deux approches permettent de réduire les temps de calcul, à savoir l'utilisation de matériel informatique plus puissant ou le développement de logiciels et algorithmes plus performants. L'objectif principal de ce mémoire est de proposer une troisième voie, soit la simplification automatique d'un modèle sur la base de ses valeurs propres. Le jacobien, une approximation locale du modèle, est utilisé comme base de l'étude des valeurs propres. Une méthode d'homotopie est ensuite utilisée pour maintenir le lien entre les valeurs propres et les variables d'état d'un jacobien simplifié à sa seule diagonale aux valeurs propres du jacobien entier. Puisque les valeurs propres représentent une approximation valable de la dynamique des variables d'état d'un modèle, il est possible de trier ces variables d'état sur la base de leurs valeurs propres associées. Les variables d'état présentant une dynamique très rapide par rapport à l'échelle de temps d'intérêt seront alors considérées comme étant toujours à l'équilibre, ce qui permet de négliger leur dynamique transitoire et donc d'accélérer la résolution du modèle. Cette simplification est réalisée à l'intérieur d'un algorithme d'intégration de type Diagonal Implicite de Runge-Kutta capable de résoudre des systèmes d'équations différentielles et algébriques. Ce mémoire s'attaque également à un cas particulier de la simulation, soit le calcul du régime permanent. Ce calcul peut être réalisé par des algorithmes performants ne recherchant que les valeurs des variables d'état mettant à zéro les équations différentielles. Ces algorithmes sont cependant peu fiables puisque toute solution mathématique est jugée valide, peu importe la réalité physique. La solution proposée est l'injection de connaissance sous forme de bornes aux valeurs que peuvent prendre les variables d'état. Des équations algébriques implicites sont construites automatiquement sur ces bornes pour forcer la convergence dans l'intervalle voulu.
APA, Harvard, Vancouver, ISO, and other styles
12

Hankach, Pierre. "Génération automatique de textes par satisfaction de contraintes." Paris 7, 2009. http://www.theses.fr/2009PA070027.

Full text
Abstract:
Nous nous intéressons dans cette thèse à la construction d'un système de génération automatique - un logiciel informatique capable de transformer une représentation formelle de l'information en un texte en langage naturel. Dans notre approche, nous définissons la génération comme un problème de satisfaction de contraintes (CSP). Le système résultant garantit un traitement intégré des opérations de la génération car les différentes dépendances sont prises en compte et aucune priorité n'est donnée à un type d'opération par rapport aux autres. Pour définir le problème de satisfaction de contraintes, nous représentons les opérations de construction du texte par des variables de décision. Les opérations individuelles qui réalisent un même type d'expressions minimales dans le texte sont groupées ensemble et constituent une tâche de la génération. Nous classons les variables de décision selon les types d'opérations qu'elles représentent (e. G. Variables de sélection du contenu, variables de structuration du document. . . ). Les règles linguistiques régissant les opérations sont représentées par des contraintes sur les variables. Une contrainte peut être définie sur des variables d'un ou plusieurs type(s), marquant la dépendance entre les opérations correspondantes. La production d'un texte consiste en la résolution du système global des contraintes, c'est-à-dire trouver une affectation complète des variables qui ne viole pas les contraintes. Dans le cadre de la définition de la grammaire de contraintes, nous formulons notamment la partie qui régit les opérations de structuration du document. Nous modélispns par des contraintes la structure rhétorique développée par la SORT afin d'aboutir à des textes cohérents à la sortie du générateur. Auparavant, afin d'augmenter les capacités de génération de notre système, nous étendons cette structure rhétorique pour couvrir les textes non canoniques. En plus de la définition de ces contraintes pour la cohérence, nous formulons un ensemble de contraintes qui permettent de façonner la macrostructure en fonction des buts communicatifs afin de favoriser leur réalisation. Enfin, nous proposons une solution au problème de la complexité de calcul de la génération de textes de grande taille. Cette solution repose sur la génération de ces textes par paquet de propositions. Le problème de génération du texte global est ainsi défini comme plusieurs problèmes de génération de parties du texte. Ces parties sont de taille limitée et la complexité associée à leur génération reste raisonnable. Le partitionnement proposé est motivé par des considérations linguistiques
We address in this thesis the construction of a natural language generation System - computer software that transforms a formal representation of information into a text in natural language. In our approach, we define the generation problem as a constraint satisfaction problem (CSP). The implemented System ensures an integrated processing of generation operations as their different dependencies are taken into account and no priority is given to any type of operation over the others. In order to define the constraint satisfaction problem, we represent the construction operations of a text by decision variables. Individual operations that implement the same type of minimal expressions in the text form a generation task. We classify decision variables according to the type of operations they represent (e. G. Content selection variables, document structuring variables. . . ). The linguistic rules that govern the operations are represented as constraints on the variables. A constraint can be defined over variables of the same type or different types, capturing the dependency between the corresponding operations. The production of a text consists of resolving the global System of constraints, that is finding an evaluation of the variables that satisfies all the constraints. As part of the grammar of constraints for generation, we particularly formulate the constraints that govern document structuring operations. We model by constraints the rhetorical structure of SORT in order to yield coherent texts as the generator's output. Beforehand, in order to increase the generation capacities of our System, we extend the rhetorical structure to cover texts in the non-canonical order. Furthermore, in addition to defining these coherence constraints, we formulate a set of constraints that enables controlling the form of the macrostructure by communicative goals. Finally, we propose a solution to the problem of computational complexity of generating large texts. This solution is based on the generation of a text by groups of clauses. The problem of generating a text is therefore divided into many problems of reduced complexity, where each of them is concerned with generating a part of the text. These parts are of limited size so the associated complexity to their generation remains reasonable. The proposed partitioning of generation is motivated by linguistic considerations
APA, Harvard, Vancouver, ISO, and other styles
13

Friburger, Nathalie. "Reconnaissance automatique des noms propres : application à la classification automatique de textes journalistiques." Tours, 2002. http://www.theses.fr/2002TOUR4011.

Full text
Abstract:
Dans les textes journalistiques, les noms propres sont très importants pour une compréhension précise du sens des textes, mais ils sont très peu représentés dans les ressources lexicales disponibles. Le travail réalisé ici cherche à automatiser leur extraction et leur catégorisation. Nous avons implanté le système CasSys qui permet l'utilisation de cascade de transducteurs et peut ainsi réaliser de l'analyse syntaxique d'un texte ou de l'extraction d'information. Le système d'extraction de noms propres crée, extracNP, utilise casSys ; les phénomènes d'ambigui͏̈tés, de segmentation et de catégorisation des noms propres sont ainsi gérés par la cascade. Par cette méthode, nous avons obtenu une précision de 94% avec un rappel de plus de 93%. Puis, nous avons montré que les noms propres sont porteurs d'une information qui les rend particulièrement intéressants pour obtenir une classification de qualité.
APA, Harvard, Vancouver, ISO, and other styles
14

Buet, François. "Modèles neuronaux pour la simplification de parole, application au sous-titrage." Electronic Thesis or Diss., université Paris-Saclay, 2022. https://theses.hal.science/tel-03920729.

Full text
Abstract:
Dans le contexte linguistique, la simplification est généralement définie comme le processus consistant à réduire la complexité d'un texte (ou de paroles), tout en préservant au mieux son sens. Son application principale est de rendre plus aisée la compréhension et la lecture pour un utilisateur. Elle est entre autres une solution envisagée pour renforcer la lisibilité des textes auprès des sourds et malentendants (la surdité étant souvent à l'origine d'un retard dans l'apprentissage de la lecture), en particulier dans le cas du sous-titrage. Alors que les sous-titres interlinguistiques servent à diffuser les films et programmes dans d'autres langues, les sous-titres intralinguistiques sont le seul moyen, avec l'interprétation en langue des signes, par lequel sourds et malentendants peuvent accéder aux contenus audio-visuels. Or la vidéo a pris une place importante dans la société, que ce soit dans le contexte professionnel, récréatif, ou de l'éducation. Afin de garantir l'égalité des individus dans la participation à la vie publique et sociale, un certain nombre de pays dans le monde (dont la France) ont mis en oeuvre des obligations légales concernant le sous-titrage des émissions télévisées. ROSETTA (RObot de Sous-titrage Et Toute Traduction Adaptés) est un projet de recherche collaboratif privé-public, qui se propose de développer des solutions technologiques d'accessibilité pour les contenus audiovisuels en français. La présente thèse, réalisée dans le cadre de ce projet, vise à étudier la simplification automatique de la parole par des modèles neuronaux, et à l'adapter au contexte du sous-titrage intralinguistique d'émissions télévisées en français. Nos travaux portent principalement sur l'analyse de méthodes de contrôle de longueur, l'adaptation de modèles de sous-titrage aux genres télévisuels, et l'évaluation de la segmentation des sous-titres. Nous présentons notamment un nouveau corpus pour le sous-titrage créé à partir de données recueillies au cours du projet ROSETTA, ainsi qu'une nouvelle métrique pour l'évaluation des sous-titres, Sigma
In the context of linguistics, simplification is generally defined as the process consisting in reducing the complexity of a text (or speech), while preserving its meaning as much as possible. Its primary application is to make understanding and reading easier for a user. It is regarded, inter alia, as a way to enhance the legibility of texts toward deaf and hard-of-hearing people (deafness often causes a delay in reading development), in particular in the case of subtitling. While interlingual subtitles are used to disseminate movies and programs in other languages, intralingual subtitles (or captions) are the only means, with sign language interpretation, by which the deaf and hard-of-hearing can access audio-visual contents. Yet videos have taken a prominent place in society, wether for work, recreation, or education. In order to ensure the equality of people through participation in public and social life, many countries in the world (including France) have implemented legal obligations concerning television programs subtitling. ROSETTA (Subtitling RObot and Adapted Translation) is a public-private collaborative research program, seeking to develop technological accessibility solutions for audio-visual content in French. This thesis, conducted within the ROSETTA project, aims to study automatic speech simplification with neural models, and to apply it into the context of intralinguistic subtitling for French television programs. Our work mainly focuses on analysing length control methods, adapting subtitling models to television genres, and evaluating subtitles segmentation. We notably present a new subtitling corpus created from data collected as part of project ROSETTA, as well as a new metric for subtitles evaluation, Sigma
APA, Harvard, Vancouver, ISO, and other styles
15

Kosawat, Krit. "Méthodes de segmentation et d'analyse automatique de textes thaï." Phd thesis, Université Paris-Est, 2003. http://tel.archives-ouvertes.fr/tel-00626256.

Full text
Abstract:
Ce travail de thèse a pour objectif de concevoir et réaliser un module informaticolinguistique apte à effectuer des analyses automatiques de textes thaï sous le système INTEX © . Basé fondamentalement sur les langues indo-européennes écrites avec l'alphabet latin, INTEX © rencontre quelques difficultés pour travailler sur une langue très différente comme le thaï. Le problème crucial est la segmentation en mots et en phrases, étant donné que le thaï n'a pas de séparateur de mot : une phrase est écrite en une séquence de lettres continues, et les séparateurs de phrase sont fréquemment ambigus. Aussi avons-nous développé et évalué deux méthodes de segmentation en mots, par expressions rationnelles et par transducteurs à nombre fini d'états, qui découpent respectivement des textes thaï en lettres et en syllabes. Nous avons également créé les dictionnaires électroniques du thaï qui servent à la fois à reconnaître les mots à partir des lettres ou des syllabes et à les étiqueter avec les codes syntaxiques et sémantiques. Deux méthodes de segmentation en phrases thaï, par la ponctuation et par mots-clés, sont également proposées et évaluées. Nous montrons enfin que, grâce à notre travail, INTEX © est capable d'analyser des documents thaï, malgré toutes les difficultés.
APA, Harvard, Vancouver, ISO, and other styles
16

Vinot, Romain. "Classification automatique de textes dans des catégories non thématiques." Phd thesis, Télécom ParisTech, 2004. http://pastel.archives-ouvertes.fr/pastel-00000812.

Full text
Abstract:
La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classification faiblement supervisée qui détecte des sous-classes et sélectionne les plus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à flux temporel à partir du calcul du taux d'activité des sous-classes.
APA, Harvard, Vancouver, ISO, and other styles
17

Jilani, Inès. "Extraction automatique de connaissances à partir de textes biomédicaux." Paris 6, 2009. http://www.theses.fr/2009PA066271.

Full text
Abstract:
L'évolution rapide de la masse d'informations disponible sur l'Internet, et particulièrement le nombre important de publications scientifiques dans le domaine biomédical indexées dans Medline, rend impossible la lecture et l'interprétation manuelles de toute la littérature scientifique par les biologistes et la annotateurs. Nous proposons d'extraire automatiquement des connaissances concernant les gènes et protéines à partir de textes, grâce à une méthode issue du traitement automatique des langues, les patrons lexico-syntaxiques. Ils sont construits pour réaliser l'annotation fonctionnelle des gènes et protéines, avec des fonctions provenant de Gene Ontology. En outre, la connaissance extraite est qualifiée grâce à une échelle de confiance. En effet, les auteurs nuancent leurs assertions dans les textes, ces marqueurs sont donc repérés par notre méthode et permettent de catégoriser les phrases dans des classes de confiance distinctes. Enfin, un prototype implémentant les méthodes mises au point pour l'extraction de connaissances et pour sa qualification a été développé afin d'assister les biologistes et les annoteurs dans leurs tâches quotidiennes.
APA, Harvard, Vancouver, ISO, and other styles
18

Nosary, Ali. "Reconnaissance automatique de textes manuscrits par adaptation au scripteur." Rouen, 2002. http://www.theses.fr/2002ROUES007.

Full text
Abstract:
Les travaux présentés dans ce mémoire abordent le problème de la reconnaissance hors-ligne de textes manuscrits. Ces travaux décrivent un système de reconnaissance de textes exploitant un principe original d'adaptation à l'écriture à reconnaître. Ce principe d'adaptation, inspiré des principaux effets contextuels observés chez un lecteur humain, est basé sur l'apprentissage,au cours de la reconnaissance, des particularités graphiques représentatives de l'écriture du scripteur (invariants du scripteur). La reconnaissance de mots procède selon une approche analytique basée sur le principe de segmentation-reconnaissance. L'adaptation en ligne du système de reconnaissance repose sur l'itération de phases de reconnaissance de mots qui permettent d'étiqueter les représentations du scripteur (allographes) sur l'ensemble du texte et de phases de réévaluation des modèles de caractères. La mise en application de notre stratégie de reconnaissance par adaptation nécessite de recourir à un schéma de reconnaissance interactif capable de faire interagir les traitements aux différents niveaux contextuels. Le modèle d'interaction retenu est basé sur le paradigme multi-agent. Les tests réalisés sur un échantillon d'une quinzaine de scripteurs tous inconnus du système montrent l'intérêt du schéma d'adaptation proposé puisque nous obtenons une amélioration de la reconnaissance, à la fois des lettres et des mots, au cours des itérations
This thesis deals with the problem of off-line handwritten text recognition. It describes a system of text recognition which exploits an original principle of adaptation to the handwriting to be recognized. The adaptation principle, inspired by contextual effects observed from a human reader, is based on the automatic learning, during the recognition, of the graphical characteristics of the handwriting (writer invariants). The word recognition proceeds according to an analytical approach based on a segmentation-recognition principle. The on-line adaptation of the recognition system relies on the iteration of two steps : a word recognition step which allows to label the writer's representations (allographes) on the whole text and a revaluation step of character models. The implementation of our adaptation strategy requires an interactive recognition scheme able to make interact treatments at various contextual levels. The interaction model retained is based on the multi-agent paradigm
APA, Harvard, Vancouver, ISO, and other styles
19

Vinot, Romain. "Classification automatique de textes dans des catégories non thématiques /." Paris : École nationale supérieure des télécommunications, 2004. http://catalogue.bnf.fr/ark:/12148/cb39294964h.

Full text
APA, Harvard, Vancouver, ISO, and other styles
20

Rosmorduc, Serge. "Analyse morpho-syntaxique de textes non ponctués : application aux textes hieroglyphiques." Cachan, Ecole normale supérieure, 1996. http://www.theses.fr/1996DENS0028.

Full text
Abstract:
Nous proposons un cadre logiciel pour l'étude linguistique de corpus de textes. Nous développons plus particulièrement un étiqueteur syntaxique robuste, afin de permettre des recherches dans un corpus sur des données grammaticales. L'accent étant mis sur le traitement de textes corrompus et/ou non ponctues, l'analyse utilise deux mécanismes complémentaires : le premier est un analyseur hors contexte structurant le texte selon une grammaire très lâche ; le second est un système de désambigüisation par automates, dont le but est de guider l'analyse en fournissant une représentation de l'usage.
APA, Harvard, Vancouver, ISO, and other styles
21

Kraif, Olivier. "Constitution et exploitation de bi-textes pour l'Aide à la traduction." Nice, 2001. http://www.theses.fr/2001NICE2018.

Full text
Abstract:
La présente étude est centrée sur les problèmes liés à la constitution des corpus bi-textuels et à leur exploitation pour l'aide à la traduction. D'abord, nous distinguons la traduction en tant qu'activité de communication du simple transcodage, impliquant le transfert des unités et des structures d'une langue vers une autre. Ainsi nous montrons que la traduction est une affaire d'interprétation. Nous examinons les problèmes découlant des divergences entre les organisations lexicales et grammaticales des deux langues, et montrons qu'il est difficile d'aboutir à des systèmes de transformation généraux dès lors qu'on intégre les phénomènes idiomatiques. Nous en tirons la notion d'unité de traduction, cristallisant différents types de phénomènes contrastifs. La deuxième partie est consacrée à l'alignement phrastique, visant à la constitution automatique de bi-textes. Nous développons les techniques les plus répandues et les mieux éprouvées, tant du point de vue des indices que des algorithmes. Par un travail empirique, nous montrons comment articuler ces techniques de façon optimale sur la base d'une heuristique simple. Enfin nous abordons les problèmes de l'alignement au niveau lexical. Nous montrons que le critère de compositionnalité traductionnelle au niveau des mots ne permet pas d'extraire des couples cohérents, tant du point de vue de la segmentation qu'au niveau de l'équivalence des segments appariés. Nous introduisons le concept de correspondance lexicale, désignant l'appariement d'unités prédéfinies au niveau contrastif, et dont le transfert est considéré comme facultatif. Nous montrons empiriquement comment ces correspondances peuvent être extraites à partir d'indices adaptés et d'algorithmes simples. Les bi-textes apparaissent comme des gisements d'informations contrastives, dont les outils d'observation statistique permettent d'extraire les régularités, les équivalences générales émergeant à travers la masse des traductions particulières.
APA, Harvard, Vancouver, ISO, and other styles
22

Martin, Louis. "Simplification automatique de phrases à l'aide de méthodes contrôlables et non supervisées." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS265.

Full text
Abstract:
Dans cette thèse nous étudions la tâche de la simplification automatique de phrases. Dans un premier temps nous étudions les différentes manières d'évaluer les modèles de simplification, mettons en lumière plusieurs faiblesse des méthodes actuelles, et proposons de nouvelles contributions. Nous proposons ensuite d'entrainer des modèles de simplification de phrases qui puissent être adaptés à l'utilisateur visé, permettant une plus grande flexibilité de simplification. Enfin nous étendons le champ d'application de la simplification de phrases à plusieurs langues, en proposant des méthodes qui ne nécessitent pas de données d'entrainements annotées, mais qui obtiennent néanmoins de très solides performances
In this thesis we study the task of automatic sentence simplification. We first study the different methods used to evaluate simplification models, highlight several shortcomings of current approaches, and propose new contributions. We then propose to train sentence simplification models that can be adapted to the target user, allowing for greater simplification flexibility. Finally, we extend the scope of sentence simplification to several languages, by proposing methods that do not require annotated training data, but that nevertheless achieve very strong performance
APA, Harvard, Vancouver, ISO, and other styles
23

Cotto, Daniel. "Traitement automatique des textes en vue de la synthèse vocale." Toulouse 3, 1992. http://www.theses.fr/1992TOU30225.

Full text
Abstract:
Ce travail se situe dans le cadre du traitement automatique du langage naturel. Nous nous interessons plus particulierement a la synthese de texte quelconque. Notre objectif est d'ameliorer la qualite des synthetiseurs vocaux actuellement commercialises pour, d'une part, offrir aux handicapes visuels une interface d'entree-sortie de substitution plus conviviale et, d'autre part, faire en sorte qu'un jour la synthese vocale soit consideree comme une interface complementaire aux entrees-sorties standards. Nous exposons la problematique de la synthese vocale a partir de texte ainsi que diverses methodes permettant d'effectuer une analyse linguistique des textes. Cette etude nous a conduit au developpement de deux outils de pretraitement linguistiques: texor et texorplus. Le developpement de texorplus a ete effectue sous l'environnement de assp egalement realise durant cette these. Texor est un environnement parametrable pour synthetiser des textes quelconques en se fixant comme priorite un temps de reponse reduit. Il se compose d'un module metatextuel et d'un module textuel pour notamment prendre en compte les traits de presentation et les inattendus (sigles, abreviations,. . . ). Texorplus a pour but de prendre en compte les textes quelconques en se fixant comme priorite une prosodie de qualite. Il effectue a l'aide de assp une analyse syntaxique des phrases pour positionner des marqueurs prosodiques. Assp est un analyseur linguistique pouvant prendre en compte certains aspects syntaxiques, semantiques voire pragmatiques du langage. Pour realiser l'analyse, celui-ci combine les formalismes bases sur l'unification aux reseaux de transition augmentes
APA, Harvard, Vancouver, ISO, and other styles
24

Gurtner, Karine. "Extraction automatique de connaissances à partir de corpus de textes." Paris 7, 2000. http://www.theses.fr/2000PA077104.

Full text
Abstract:
L'extraction automatique de connaissances réalisée dans cette thèse consiste à repérer certains événements présents dans un texte. Ces événements sont constitués par un verbe ou un substantif représentant l'action et des entités factuelles représentant les circonstances de cette action (acteur et date de l'action par exemple). Indépendamment de la conception proprement dite du système d'extraction, plusieurs réflexions préalables ont été menées sur les applications de la recherche documentaire et de l'extraction automatique de connaissances, notamment sur les applications à la recherche littéraire. L'étude menée a entraîné la recherche des procédures d'analyse existantes et fait ressortir les difficultés propres à chaque langue pour le Traitement Automatique du Langage Naturel. La méthode d'extraction des connaissances utilisée est fondée sur une analyse syntaxique du texte puis sur un repérage des mots ou des catégories grammaticales introduisant systématiquement le même type d'entités factuelles. Le système comporte quatre étages. Après avoir repéré et étiqueté les entités factuelles selon leur type (noms de personnes, noms de lieux, noms de sociétés, dates ou mesures), puis les avoir comparées entre elles, une réflexion a été menée sur la manière dont les liaisons entre ces entités factuelles et leur liaison à l'action pourraient être repérées. Nous avons alors abouti, au quatrième étage du système, à la transformation de toutes les informations obtenues précédemment en une base de données. Les problèmes relatifs à la réalisation des deux derniers étages du système qui permettraient de réaliser les liaisons et donc de structurer les connaissances sous forme de base de données ont été mis en évidence. Cette recherche et les difficultés rencontrées ont révélé que le travail effectué débouchait sur d'autres applications.
APA, Harvard, Vancouver, ISO, and other styles
25

Pham, Thi Nhung. "Résolution des anaphores nominales pour la compréhension automatique des textes." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCD049/document.

Full text
Abstract:
Toutes les informations présentes actuellement sur le web représentent une source d‘informations colossale, qui s‘enrichit de jour en jour. L‘analyse automatique de ces informations, qui sont plus souvent non-structurées, constitue un véritable enjeu économique et scientifique. La résolution des anaphores nominales s‘inscrit dans la structuration des informations grâce à l‘identification du lien entre des groupes nominaux, elle permet de simplifier des tâches à différentes applications : la traduction automatique, le résumé ou l‘extraction automatique d‘information, le data mining etc. Dans ce contexte, le travail que nous avons mené dans cette thèse évoque différentes méthodes de résolution des anaphores nominales de deux types : infidèles et associatives. En nous fondant sur divers aspects autours de la notion d‘anaphore nominale et des notions de voisinage comme la résolution d‘anaphores pronominales, la résolution de coréférences ; en combinant des méthodes existantes avec des outils et des ressources disponibles pour la langue française, notre travail s‘attache à trois modules : module de prétraitement du corpus, module de résolution des anaphores nominales et le module d‘évaluation. Au module de prétraitement, les ressources lexicales sont constituées et mobilisées grâces aux analyses au niveau linguistique des anaphores nominales. La plateforme Unitex est le principal outil utilisé à cette étape. Pour les anaphores du type infidèle, nous avons utilisé deux méthodes différentes : la première mobilise des ressources lexicales simples avec les entrées de groupes nominaux uniquement ; la deuxième mobilise des ressources plus élaborées (les entrées de groupes nominaux et verbaux). Pour les anaphores associatives du type méronymique, nous nous fondons sur la théorie des classes d‘objets afin de décrire le type de relation anaphorique établie Résumé 17 entre l‘expression anaphorique et son antécédent. Les ressources utilisées pour ce type d‘anaphore sont ainsi divisées hiérarchiquement selon les classes et les domaines. Le module de résolution est l‘étape de décision, nous nous basons sur le calcul du poids de saillance de chacun des antécédents potentiels pour sélectionner le meilleur candidat. Chaque candidat peut avoir différents facteurs de saillance, qui correspond à sa probabilité d'être sélectionné. Le poids de saillance final est calculé par le moyen pondéré des poids de saillance élémentaires. Les facteurs de saillances sont proposés après les analyses syntaxiques et sémantiques du corpus. L‘évaluation de notre travail constitue un vrai enjeu à cause de la complexité de la tâche, mais elle nous permet d‘avoir une vue globale sur nos méthodes de travail. La comparaison des résultats obtenus permet de visualiser l‘apport de chaque paramètre utilisé. L‘évaluation de notre travail nous permet également de voir les erreurs au niveau du prétraitement (l‘extraction des syntagmes nominaux, des syntagmes verbaux…), cela nous a permis d‘intégrer un module de correction dans notre système
In order to facilitate the interpretation of texts, this thesis is devoted to the development of a system to identify and resolve the indirect nominal anaphora and the associative anaphora. Resolution of the indirect nominal anaphora is based on calculating salience weights of candidate antecedents with the purpose of associating these antecedents with the anaphoric expressions identified. It is processed by twoAnnexe317different methods based on a linguistic approach: the first method uses lexical and morphological parameters; the second method uses morphological and syntactical parameters. The resolution of associative anaphora is based on syntactical and semantic parameters.The results obtained are encouraging: 90.6% for the indirect anaphora resolution with the first method, 75.7% for the indirect anaphora resolution with the second method and 68.7% for the associative anaphora resolution. These results show the contribution of each parameter used and the utility of this system in the automatic interpretation of the texts
APA, Harvard, Vancouver, ISO, and other styles
26

Arnulphy, Béatrice. "Désignations nominales des événements : étude et extraction automatique dans les textes." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00758062.

Full text
Abstract:
Ma thèse a pour but l'étude des désignations nominales des événements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une démarche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles à une application particulière. Dans ce but général, de nombreuses campagnes d'extraction d'information ont été menées~: pour chaque événement considéré, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). Dès le départ, ces challenges touchent de près aux entités nommées (éléments " notables " des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'événement. Pourtant, ces travaux ne s'intéressent que peu aux mots utilisés pour décrire l'événement (particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme un tout englobant, comme la quantité et la qualité des informations qui le composent. Contrairement aux travaux en extraction d'informations générale, notre intérêt principal est porté uniquement sur la manière dont sont nommés les événements qui se produisent et particulièrement à la désignation nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les événements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un événement peut être évoqué par une description verbale ou nominale. Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous avons observé et comparé les différents aspects présentés dans l'état de l'art jusqu'à construire une définition de l'événement et une typologie des événements en général, et qui conviennent dans le cadre de nos travaux et pour les désignations nominales des événements. Nous avons aussi dégagé de nos études sur corpus différents types de formation de ces noms d'événements, dont nous montrons que chacun peut être ambigu à des titres divers. Pour toutes ces études, la composition d'un corpus annoté est une étape indispensable, nous en avons donc profité pour élaborer un guide d'annotation dédié aux désignations nominales d'événements. Nous avons étudié l'importance et la qualité des lexiques existants pour une application dans notre tâche d'extraction automatique. Nous avons aussi, par des règles d'extraction, porté intérêt au cotexte d'apparition des noms pour en déterminer l'événementialité. À la suite de ces études, nous avons extrait un lexique pondéré en événementialité (dont la particularité est d'être dédié à l'extraction des événements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de représenter des événements. Utilisée comme indice pour l'extraction des noms d'événements, cette pondération permet d'extraire des noms qui ne sont pas présents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillé sur des traits d'apprentissage contextuels en partie fondés sur la syntaxe pour extraire de noms d'événements.
APA, Harvard, Vancouver, ISO, and other styles
27

Muhammad, Humayoun. "Développement du système MathNat pour la formalisation automatique des textes mathématiques." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00680095.

Full text
Abstract:
Le langage mathématique courant et les langages mathématiques formelssont très éloignés. Par <> nousentendons la prose que le mathématicien utilise tous les jours dansses articles et ses livres. C'est une langue naturelle avec desexpressions symboliques et des notations spécifiques. Cette langue està la fois flexible et structurée mais reste sémantiquementintelligible par tous les mathématiciens.Cependant, il est très difficile de formaliser automatiquement cettelangue. Les raisons principales sont: la complexité et l'ambiguïté deslangues naturelles en général, le mélange inhabituel entre languenaturelle et notations symboliques tout aussi ambiguë et les sautsdans le raisonnement qui sont pour l'instant bien au-delà descapacités des prouveurs de théorèmes automatiques ou interactifs.Pour contourner ce problème, les assistants de preuves actuelsutilisent des langages formels précis dans un système logique biendéterminé, imposant ainsi de fortes restrictions par rapport auxlangues naturelles. En général ces langages ressemblent à des langagesde programmation avec un nombre limité de constructions possibles etune absence d'ambiguïté.Ainsi, le monde des mathématiques est séparé en deux, la vastemajorité qui utilise la langue naturelle et un petit nombre utilisantaussi des méthodes formelles. Cette seconde communauté est elle-mêmesubdivisée en autant de groupes qu'il y a d'assistants de preuves. Onperd alors l'intelligibilité des preuves pour tous les mathématiciens.Pour résoudre ce problème, on peut se demander:est-il possible d'écrire un programme qui comprend la langue naturellemathématique et qui la traduit vers un langage formel afin depermettre sa validation?Ce problème se subdivise naturellement en deux sous-problèmes tous lesdeux très difficiles:1. l'analyse grammaticale des textes mathématiques et leur traductiondans un langage formel,2. la validation des preuves écrites dans ce langage formel.Le but du projet MathNat (Mathematics in controlled Natural languages)est de faire un premier pas pour répondre à cette question trèsdifficile, en se concentrant essentiellement sur la première question.Pour cela, nous développons CLM (Controlled Language for Mathematics)qui est un sous-ensemble de l'anglais avec une grammaire et un lexiquerestreint, mais qui inclut tout de même quelques ingrédientsimportants des langues naturelles comme les pronoms anaphoriques, lesréférences, la possibilité d'écrire la même chose de plusieursmanières, des adjectifs distributifs ou non, ...Le second composant de MathNath est MathAbs (Mathematical Abstractlanguage). C'est un langage formel, indépendant du choix d'un systèmelogique permettant de représenter la sémantique des textes enpréservant leur structure et le fil du raisonnement. MathAbs est conçucomme un langage intermédiaire entre CLM et un système logique formelpermettant la vérification des preuves.Nous proposons un système qui permet de traduire CLM vers MathAbsdonnant ainsi une sémantique précise à CLM. Nous considèrons que cetravail est déjà un progrès notable, même si pour l'instant on estloin de pouvoir vérifier formellement toutes les preuves en MathAbsainsi générées.Pour le second problème, nous avons réalisé une petite expérience entraduisant MathAbs vers une liste de formules en logique du premierordre dont la validité garantit la correction de la preuve. Nous avonsensuite essayé de vérifier ces formules avec des prouveurs dethéorèmes automatiques validant ainsi quelques exemples.
APA, Harvard, Vancouver, ISO, and other styles
28

Fourour, Nordine. "Identification et catégorisation automatique des entités nommées dans les textes français." Nantes, 2004. http://www.theses.fr/2004NANT2126.

Full text
Abstract:
La reconnaissance des entités nommées (EN) reste un problème pour de nombreuses applications de Traitement Automatique des Langues Naturelles. Conséquemment à une étude linguistique permettant l'émergence de paramètres définitoires opérationnels liés au concept d'entité nommée, un état de l'art du domaine et une étude en corpus fondée sur des critères graphiques et référentiels, nous présentons Nemesis, un système d'identification et de catégorisation des EN du français, fondé sur l'analyse des évidences interne et externe réalisée à l'aide de lexiques de mots déclencheurs et de règles de réécriture et comportant une phase d'apprentissage. Dans cette version minimale, Nemesis atteint environ 90% en précision et 80% en rappel. Pour augmenter le rappel, nous proposons différents modules optionnels (examen d'un contexte encore plus large et utilisation du Web comme source de nouveaux contextes) et une étude pour la réalisation d'un module de désambiguïsation et d'apprentissage de règles
Named Entity (NE) Recognition is a recurring problem in the different domain of Natural Language Processing. As a result of, a linguistic investigation allowing to set-up operational parameters defining the concept of named entity, a state of art of the domain, and a corpus investigation using referential and graphical criteria, we present Nemesis - a French named entity recognizer. This system analyzes the internal and external evidences by using grammar rules and trigger word lexicons, and includes a learning process. With these processes, Nemesis performance achieves about 90% of precision and 80% of recall. To increase the recall, we put forward optional modules (analysis of the wide context and utilization of the Web as a source of new contexts) and investigate in setting up a disambiguation and grammar rules inference module
APA, Harvard, Vancouver, ISO, and other styles
29

Godbout, Mathieu. "Approches par bandit pour la génération automatique de résumés de textes." Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/69488.

Full text
Abstract:
Ce mémoire aborde l'utilisation des méthodes par bandit pour résoudre la problématique de l'entraînement de modèles de générations de résumés extractifs. Les modèles extractifs, qui bâtissent des résumés en sélectionnant des phrases d'un document original, sont difficiles à entraîner car le résumé cible correspondant à un document n'est habituellement pas constitué de manière extractive. C'est à cet effet que l'on propose de voir la production de résumés extractifs comme différents problèmes de bandit, lesquels sont accompagnés d'algorithmes pouvant être utilisés pour l'entraînement. On commence ce document en présentant BanditSum, une approche tirée de la litérature et qui voit la génération des résumés d'un ensemble de documents comme un problème de bandit contextuel. Ensuite, on introduit CombiSum, un nouvel algorithme qui formule la génération du résumé d'un seul document comme un bandit combinatoire. En exploitant la formule combinatoire, CombiSum réussit à incorporer la notion du potentiel extractif de chaque phrase à son entraînement. Enfin, on propose LinCombiSum, la variante linéaire de CombiSum qui exploite les similarités entre les phrases d'un document et emploie plutôt la formulation en bandit linéaire combinatoire.
This thesis discusses the use of bandit methods to solve the problem of training extractive abstract generation models. The extractive models, which build summaries by selecting sentences from an original document, are difficult to train because the target summary of a document is usually not built in an extractive way. It is for this purpose that we propose to see the production of extractive summaries as different bandit problems, for which there exist algorithms that can be leveraged for training summarization models.In this paper, BanditSum is first presented, an approach drawn from the literature that sees the generation of the summaries of a set of documents as a contextual bandit problem. Next,we introduce CombiSum, a new algorithm which formulates the generation of the summary of a single document as a combinatorial bandit. By exploiting the combinatorial formulation,CombiSum manages to incorporate the notion of the extractive potential of each sentence of a document in its training. Finally, we propose LinCombiSum, the linear variant of Com-biSum which exploits the similarities between sentences in a document and uses the linear combinatorial bandit formulation instead
APA, Harvard, Vancouver, ISO, and other styles
30

Frath, Pierre. "Semantique, reference et acquisition automatique de connaissances a partir de textes." Strasbourg 2, 1997. http://www.theses.fr/1997STR20079.

Full text
Abstract:
L'acquisition automatique de connaissances a partir de textes consiste, idealement, a generer une representation structuree d'un corpus fourni en entree a un systeme informatique. Cette representation doit pouvoir etre interrogee par un humain ou par une machine. La conception et la realisation d'un tel systeme soulevent des difficultes considerables, tant sur le plan theorique que technique. Ce travail a pour but d'examiner ces deux aspects du probleme. Une premiere partie est consacree a une analyse de l'etat de l'art. Elle consiste en une vue structuree des deux grandes familles d'approches du probleme de l'acquisition de connaissances : l'extraction automatique de terminologie, et l'acquisition de connaissances par projection de modeles conceptuels. Une seconde partie etudie les fondement souvent implicites du traitement automatique des langues, c'est-a-dire le positivisme logique et la semantique lexicale componentielle. En guise d'alternative a la componentialite, nous proposons une semantique du signe, de l'usage et de la reference inspiree de charles sanders peirce, de ludwig wittgenstein et de georges kleiber. Dans la troisieme partie, il est procede a l'analyse semantique referentielle d'un corpus de textes medicaux. Nous y definissons deux types de reference : la denomination et la denotation. La premiere consiste en une reference arbitraire, preconstruite, et opaque; la seconde, en une reference discursive, construite, et transparente. Dans la quatrieme partie, nous construisons manuellement une representation detaillee d'un fragment du corpus afin d'examiner la pertinence pratique de l'analyse theorique, et de fixer des objectifs precis au systeme. Enfin, la cinquieme partie est consacree a la construction aussi automatisee que possible d'une base de connaissances terminologiques capable de representer un corpus de textes techniques ou scientifiques, et qui soit suffisamment structuree pour permettre des usages applicatifs par exemple en terminologie ou en modelisation de domaines. En somme, ce travail examine le probleme de l'acquisition automatique de connaissances en liant intimement la theorie et la pratique, la finalite technologique donnant une ligne directrice aux discussions theoriques
Automatic knowledge acquisition from text ideally consists in generating a structured representation of a corpus, which a human or a machine should be able to query. Designing and realising such a system raises a number of difficulties, both theoretical and practical, which we intend to look into. The first part of this dissertation studies the two main approaches to the problem : automatic terminology retrieval, and model driven knowledge acquisition. The second part studies the mostly implicit theoretical foundations of natural language processing i. E. Logical positivism and componential lexical semantics. We offer an alternative inspired from the work of charles sanders peirce, ludwig wittgenstein and georges kleiber, i. E. A semantics based on the notions of sign, usage and reference. The third part is devoted to a detailed semantic analysis of a medical corpus. Reference is studied through two notions, denomination and denotation. Denominations allow for arbitrary, preconstructed and opaque reference; denotations, for discursive, constructed and transparent reference. In the fourth part, we manually construct a detailed representation of a fragment of the corpus. The aim is to study the relevance of the theoretical analysis and to set precise objectives to the system. The fifth part focuses on implementation. It is devoted to the construction of a terminological knowledge base capable of representing a domain corpus, and sufficiently structured for use by applications in terminology or domain modelling for example. In a nutshell, this dissertation examines automatic knowledge acquisition from text from a theoretical and technical point of view, with the technology setting the guidelines for the theoretical discussions
APA, Harvard, Vancouver, ISO, and other styles
31

Ould, Abdel Vetah Mohamed. "Apprentissage automatique appliqué à l'extraction d'information à partir de textes biologiques." Paris 11, 2005. http://www.theses.fr/2005PA112133.

Full text
Abstract:
Dans le cadre de cette thèse nous nous sommes intéressés à l'extraction d'informations à partir de données textuelles. Dans ce domaine, deux grandes approches co-existent. La première, qui consiste en un traitement statistique superficiel présente l'avantage d'avoir une mise en oeuvre facile. En revanche, l'information extraite est souvent imprécise, de nature incomplète et bruitée. La deuxième voie, consiste à privilégier des techniques plus profondes d'analyse et de normalisation textuelles ainsi que l'exploitation des techniques d'apprentissage automatique pour acquérir les ressources nécessaires à la tâche. Ce type d'approche, complexe et dont la mise en oeuvre est difficile permet une meilleure prise en compte de la diversité des formulations dans le texte. Il permet également un gain de temps appréciable quand il s'agit d'adapter les ressources, notamment quand la tâche d'extraction change. Dans cette thèse, nous avons contribué à la mise en place d'une chaîne complète d'extraction des interactions géniques à partir de résumés scientifique issus de MedLine basée sur cette seconde famille d'approches. Dans la première partie de notre travail, nous avons mis au point un module de filtrage de phrases, disponible en ligne et déjà utilisé par les biologistes, permettant d'identifier automatiquement les phrases parlant d'interactions. Dans un deuxième temps, nous avons proposé une méthode originale d'acquisition de règles d'extraction basée sur une abstraction de l'analyse syntaxique Les résultats préliminaires obtenus sont prometteurs et montrent que cette abstraction permet d'obtenir une bonne représentation pour l'apprentissage des règles d'extraction
This thesis is about information extraction from textual data. Two main approaches co-exist in this field. The first approach is based on shallow text analysis. These methods are easy to implement but the information they extract is often incomplete and noisy. The second approach requires deeper structural linguistic information. Compared to the first approach, it has the double advantage of being easily adaptable and of taking into account the diversity of formulation which is an intrinsic characteristic of textual data. In this thesis, we have contributed to the realization of a complete information extraction tool based on this latter approach. Our tool is dedicated to the automatic extraction of gene interactions described in MedLine abstracts. In the first part of the work, we develop a filtering module that allows the user to identify the sentences referring to gene interactions. The module is available on line and already used by biologists. The second part of the work introduces an original methodology based on an abstraction of the syntactic analysis for automatical learning of information extraction rules. The preliminary results are promising and show that our abstraction approach provides a good representation for learning extraction rules
APA, Harvard, Vancouver, ISO, and other styles
32

Boussema, Kaouther. "Système de génération automatique de programmes d'entrées-sorties : le système IO." Paris 9, 1998. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1998PA090048.

Full text
Abstract:
Cette thèse présente le système IO et ses principaux composants. Ce système est un générateur automatique de programmes d’entrées-sorties pour les données présentes dans des fichiers séquentiels. A partir d’une spécification de la forme et du contenu d’un fichier d’entrée-sortie (syntaxe, modèle conceptuel et liens entre modèle conceptuel et syntaxe), IO produit un programme d’entrée-sortie. Le programme d’entrée transforme un fichier de sa représentation textuelle en sa représentation dite conceptuelle, commune à IO et Descartes (générateur automatique de programmes développé à la Direction des Etudes et Recherches d’Electricité de France, Clamart). Inversement, le programme de sortie transforme un fichier de sa représentation conceptuelle en sa représentation textuelle. 10 comporte deux parties : Un composant loin assurant la génération des programmes d’entrées et un composant IOOut produisant les programmes de sorties. IO est essentiellement écrit en Yacc, C et Descartes
APA, Harvard, Vancouver, ISO, and other styles
33

Chabbat, Bertrand Pinon Jean-Marie Ou-Halima Mohamed. "Modélisation multiparadigme de textes réglementaires." Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=chabbat.

Full text
APA, Harvard, Vancouver, ISO, and other styles
34

Szulman, Sylvie. "Enrichissement d'une base de connaissances à partir de textes en langage naturel." Paris 13, 1990. http://www.theses.fr/1990PA132020.

Full text
Abstract:
Cette thèse présente l'utilisation d'intelligence artificielle dans un systeme de génie logiciel. Nous avons construit un outil base sur la représentation des connaissances permettant d'analyser et de comprendre des spécifications exprimées en langage naturel. Apres une analyse de modèles étudiés dans le domaine des bases de connaissances et une présentation de méthodes de spécifications informelles, nous décrivons notre systeme de traitement du langage naturel qui s'articule autour d'une base de connaissances constituée par un réseau sémantique a-la-klone. Le traitement du langage naturel débute par une analyse syntaxique qui transforme les textes en un ensemble de relations syntaxiques. L'analyse sémantique propose une interprétation de ces relations en des relations sémantiques et effectue une traduction dans le langage du réseau sémantique. L'analyse sémantique utilise des règles sémantiques créées à partir d'étude des textes d'un cahier des charges. Ces règles sont des règles contextuelles, ou prennent en compte des règles spécifiques d'analyse et de traduction en langage réseau. A l'initialisation du système, le réseau sémantique contient des connaissances linguistiques, des connaissances générales et d'autres plus spécifiques du domaine de l'application traitée. Le réseau sémantique est progressivement enrichi par la représentation en langage réseau des commentaires en langage naturel décrivant les données et les fonctionnalités de l'application. L'enrichissement n'est effectif qu'après plusieurs phases de validations permettant la détection d'ambigüités et d'incohérences dans les commentaires
APA, Harvard, Vancouver, ISO, and other styles
35

Nam, Hyeonsook. "Analyse linguistique de textes économiques en français en vue d'un traitement automatique." Nice, 1996. http://www.theses.fr/1996NICE2033.

Full text
Abstract:
Le présent travail est une étude terminologique sur le domaine de la finance, en vue d'un traitement automatique. On y analyse les formes dérivées et composées d'un corpus, mettant évidence sur la relation syntactico-sémantique qu'entretiennent leurs constituants, dans le but de déterminer quels formants sont productifs dans la langue économique. Les expressions idiomatiques ou récurrentes du corpus sont également traitées. L'étude met également en contraste, dans le dernier temps, les termes économiques du coréen et ceux du français en vue de proposer une aide à la rédaction et à la traduction
The present study is a terminological analysis of the financial domain, in a natural language processing perspective. The derived and compounded forms of a corpus are analysed, emphasis being put on the syntactic and semantic relations between their elements, in order to pick out the constituents that are most productive in the economical language. The research also includes the idiomatic and recurrent expressions of the corpus. As a conclusion, korean and french economical terms are contrasted, so as to supply the translater with an editing and translation toolbox
APA, Harvard, Vancouver, ISO, and other styles
36

Wandji, Tchami Ornella. "Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes." Thesis, Lille 3, 2018. http://www.theses.fr/2018LIL3H015/document.

Full text
Abstract:
Grâce à l’évolution de la technologie à travers le Web, la documentation relative à la santé est de plus en plus abondante et accessible à tous, plus particulièrement aux patients, qui ont ainsi accès à une panoplie d’informations sanitaires. Malheureusement, la grande disponibilité de l’information médicale ne garantit pas sa bonne compréhension par le public visé, en l’occurrence les non-experts. Notre projet de thèse a pour objectif la création d’une ressource de simplification de textes médicaux, à partir d’une analyse syntaxico-sémantique des verbes dans quatre corpus médicaux en français qui se distinguent de par le degré d’expertise de leurs auteurs et celui des publics cibles. La ressource conçue contient 230 patrons syntaxicosémantiques des verbes (appelés pss), alignés avec leurs équivalents non spécialisés. La méthode semi-automatique d’analyse des verbes appliquée pour atteindre notre objectif est basée sur quatre tâches fondamentales : l’annotation syntaxique des corpus, réalisée grâce à l’analyseur syntaxique Cordial (Laurent, Dominique et al, 2009) ; l’annotation sémantique des arguments des verbes, à partir des catégories sémantiques de la version française de la terminologie médicale Snomed Internationale (Côté, 1996) ; l’acquisition des patrons syntactico-sémantiqueset l’analyse contrastive du fonctionnement des verbes dans les différents corpus. Les patrons syntaxico-sémantiques des verbes acquis au terme de ce processus subissent une évaluation (par trois équipes d’experts en médecine) qui débouche sur la sélection des candidats constituant la nomenclature de la ressource de simplification. Les pss sont ensuite alignés avec leurs correspondants non spécialisés, cet alignement débouche sur le création de la ressource de simplification, qui représente le résultat principal de notre travail de thèse. Une évaluation du rendement du contenu de la ressource a été effectuée avec deux groupes d’évaluateurs : des linguistes et des non-linguistes. Les résultats montrent que la simplification des pss permet de faciliter la compréhension du sens du verbe en emploi spécialisé, surtout lorsque un certains paramètres sont réunis
With the evolution of Web technology, healthcare documentation is becoming increasinglyabundant and accessible to all, especially to patients, who have access to a large amount ofhealth information. Unfortunately, the ease of access to medical information does not guaranteeits correct understanding by the intended audience, in this case non-experts. Our PhD work aimsat creating a resource for the simplification of medical texts, based on a syntactico-semanticanalysis of verbs in four French medical corpora, that are distinguished according to the levelof expertise of their authors and that of the target audiences. The resource created in thepresent thesis contains 230 syntactico-semantic patterns of verbs (called pss), aligned withtheir non-specialized equivalents. The semi-automatic method applied, for the analysis of verbs,in order to achieve our goal is based on four fundamental tasks : the syntactic annotation of thecorpora, carried out thanks to the Cordial parser (Laurent et al., 2009) ; the semantic annotationof verb arguments, based on semantic categories of the French version of a medical terminologyknown as Snomed International (Côté, 1996) ; the acquisition of syntactico-semantic patternsof verbs and the contrastive analysis of the verbs behaviors in the different corpora. Thepss, acquired at the end of this process, undergo an evaluation (by three teams of medicalexperts) which leads to the selection of candidates constituting the nomenclature of our textsimplification resource. These pss are then aligned with their non-specialized equivalents, thisalignment leads to the creation of the simplification resource, which is the main result of ourPhD study. The content of the resource was evaluated by two groups of people : linguists andnon-linguists. The results show that the simplification of pss makes it easier for non-expertsto understand the meaning of verbs used in a specialized way, especially when a certain set ofparameters is collected
APA, Harvard, Vancouver, ISO, and other styles
37

Loughraïeb, Mounira. "Valence et rôles thématiques comme outils de réduction d’ambiguïtés en traitement automatique de textes écrits." Nancy 2, 1990. http://www.theses.fr/1990NAN21005.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Chabbat, Bertrand. "Modélisation multiparadigme de textes réglementaires." Lyon, INSA, 1997. http://theses.insa-lyon.fr/publication/1997ISAL0118/these.pdf.

Full text
Abstract:
L'objectif de cette thèse est de concevoir un modèle capable de représenter les textes législatifs et réglementaires en vue de leur manipulation par une organisation dont les textes réglementaires constituent une matière première. La maintenance coordonnée et cohérente de l'ensemble des objets réglementaires (textes et règles de systèmes experts) est l'enjeu principal de notre étude. La Caisse Nationales d'Allocations Familiales (Cnaf) a servi de cadre à ces travaux de recherche. Nous analysons tout d'abord les flux de textes, de l'Assemblée Nationale aux utilisateurs finaux, et nous mettons en évidence les spécificités de ces textes. Noue proposons un méta-modèle permettant de représenter de manière générale des modélisations de la sémantique pour les documents. Après avoir choisi les normes SGML et HyTime, nous proposons un paradigme logique défini par une modélisation logique de textes réglementaires utilisant les spécificités de ces textes. Nous proposons également un paradigme indexation et recherche d'information prenant en compte la sémantique des informations qui y sont contenues. Afin de répondre au besoin de maintenance coordonnée de l'ensemble des objets réglementaires, nous proposons ensuite un paradigme sémantique défini par une modélisation sémantique (utilisant SGML et HyTime) basée sur les théories du droit. Cette modélisation permet de repérer à l'intérieur des textes les règles de systèmes experts qui sont touchées par des évolution législatives. Nous synthétisons enfin l'ensemble dans une modélisation multiparadigme de textes réglementaires
The topic of this thesis is the design of a model that is able to represent legal texts so that they can be handled by an organization for which legal texts are a raw material. The coordinated and consistent maintenance of the legal objects (texts and expert system rules) is the main goal of our study. The French Famdy Allowance National Fund (Cnaf) has supported this research work. First of all, we analyse the text flows from the parliament to the final users, and we highlight the specificities of these legal texts. Then, we propose a metamodel able to represent different kinds of semantic models for documents. We choose the SGML and HyTime norms and propose a logical paradigm defined by a logical modeling of legal texts relying on the specificities of these texts. We also propose another paradigm called indexing and information retrieval taking account of the semantics of information. To answer to the need of a coordinated maintenance for legal objects, we then propose a semantic paradigm defined by a semantic modeling (using SGML and HyTime) relying on the legal theories. This modeling enables the users to locate precisely inside the texts the expert system rules and predicates that are concerned by legislative changes. At last, we synthesize the whole in a multiparadigm modeling of legal texts
APA, Harvard, Vancouver, ISO, and other styles
39

Alsandouk, Fatima. "Grammaire de scene : processus de comprehension de textes de description geometrique." Toulouse 2, 1990. http://www.theses.fr/1990TOU20058.

Full text
APA, Harvard, Vancouver, ISO, and other styles
40

Morsi, Youcef Ihab. "Analyse linguistique et extraction automatique de relations sémantiques des textes en arabe." Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCC019.

Full text
Abstract:
Cette recherche porte sur le développement d’un outil de traitement automatique de la langue arabe standard moderne, au niveau morphologique et sémantique, avec comme objectif final l’extraction d’information dans le domaine de l’innovation technologique en entreprise. En ce qui concerne l’analyse morphologique, notre outil comprend plusieurs traitements successifs qui permettent d’étiqueter et de désambiguïser les occurrences dans les textes : une couche morphologique (Gibran 1.0), qui s’appuie sur les schèmes arabes comme traits distinctifs ; une couche contextuelle (Gibran 2.0), qui fait appel à des règles contextuelles ; et une troisième couche (Gibran 3.0) qui fait appel à un modèle d’apprentissage automatique. Notre méthodologie est évaluée sur le corpus annoté Arabic-PADT UD treebank. Les évaluations obtiennent une F-mesure de 0,92 et 0,90 pour les analyses morphologiques. Ces expérimentations montrent, entre autres, la possibilité d’améliorer une telle ressource par les analyses linguistiques. Cette approche nous a permis de développer un prototype d’extraction d’information autour de l’innovation technologique pour la langue arabe. Il s’appuie sur l’analyse morphologique et des patrons syntaxico-sémantiques. Cette thèse s’inscrit dans un parcours docteur-entrepreneur
This thesis focuses on the development of a tool for the automatic processing of Modern Standard Arabic, at the morphological and semantic levels, with the final objective of Information Extraction on technological innovations. As far as the morphological analysis is concerned, our tool includes several successive processing stages that allow to label and disambiguate occurrences in texts: a morphological layer (Gibran 1.0), which relies on Arabic pattern as distinctive features; a contextual layer (Gibran 2.0), which uses contextual rules; and a third layer (Gibran 3.0), which uses a machine learning model. Our methodology is evaluated using the annotated corpus Arabic-PADT UD treebank. The evaluations obtain an F-measure of 0.92 and 0.90 for the morphological analyses. These experiments demontrate the possibility of improving such a corpus through linguistic analyses. This approach allowed us to develop a prototype of information extraction on technological innovations for the Arabic language. It is based on the morphological analysis and syntaxico-semantic patterns. This thesis is part of a PhD-entrepreneur course
APA, Harvard, Vancouver, ISO, and other styles
41

Constant, Mathieu. "Grammaires locales pour l'analyse automatique de textes : méthodes de construction et outils de gestion." Marne-la-Vallée, 2003. http://www.theses.fr/2003MARN0169.

Full text
Abstract:
L'explosion du nombre de documents disponibles (notamment sur Internet) a rendu le domaine du Traitement Automatique des Langues (TAL) et ses outils incontournables. De nombreux chercheurs marquent l'importance de la linguistique dans ce domaine. Ils préconisent la construction de larges bases de descriptions linguistiques, composées de lexiques et de grammaires. Cette démarche a un gros inconvénient : elle nécessite un investissement lourd qui s'inscrit sur le long terme. Pour palier à ce problème, il est nécessaire de mettre au point des méthodes et des outils informatiques d'aide à la construction de composants linguistiques fins et directement applicables à des textes. Nous nous sommes penché sur le problème des grammaires locales qui décrivent des contraintes précises et locales sous la forme de graphes. Deux questions fondamentales se posent : Comment construire efficacement des grammaires précises, complètes et applicables à des textes ? Comment gérer leur nombre et leur éparpillement ? Comme solution au premier problème, nous avons proposé un ensemble de méthodes simples et empiriques. Nous avons exposé des processus d'analyse linguistique et de représentation à travers deux phénomènes : les expressions de mesure (un immeuble d'une hauteur de 20 mètres) et les adverbes de lieu contenant un nom propre locatif (à l'île de la Réunion), deux points critiques du TAL. Sur la base de M. Gross (1975), nous avons ramené chaque phénomène à une phrase élémentaire. Ceci nous a permis de classer sémantiquement certains phénomènes au moyen de critères formels. Nous avons systématiquement étudié le comportement de ces phrases selon les valeurs lexicales de ses éléments. Les faits observés ont ensuite été représentés formellement soit directement dans des graphes à l'aide d'un éditeur, soit par l'intermédiaire de tables syntaxiques ensuite converties semi-automatiquement en graphes. Au cours de notre travail, nous avons été confronté à des systèmes relationnels de tables syntaxiques pour lesquels la méthode standard de conversion due à E. Roche (1993) ne fonctionnait plus. Nous avons donc élaboré une nouvelle méthode adaptée avec des formalismes et des algorithmes permettant de gérer le cas où les informations sur les graphes à construire se trouvent dans plusieurs tables. En ce qui concerne le deuxième problème, nous avons proposé et implanté un prototype de système de gestion de grammaires locales : une bibliothèque en-ligne de graphes. Le but à terme est de centraliser et de diffuser les grammaires locales construites au sein du réseau RELEX. Nous avons conçu un ensemble d'outils permettant à la fois de stocker de nouveaux graphes et de rechercher des graphes suivant différents critères. L'implémentation d'un moteur de recherche de grammaires nous a également permis de nous pencher sur un nouveau champ d'investigation dans le domaine de la recherche d'information : la recherche d'informations linguistiques dans des grammaires locales
Many researchers in the field of Natural Language Processing have shown the significance of descriptive linguistics and especially the use of large-scaled databases of fine-grained linguistic components composed of lexicons and grammars. This approach has a drawback: it requires long-term investment. It is then necessary to develop methods and computational tools to help the construction of such data that are required to be directly applicable to texts. This work focuses on a specific linguistic representation: local grammars that describe precise and local constraints in the form of graphs. Two issues arise : How to efficiently build precise, complete and text-applicable grammars? How to deal with their growing number and their dispersion ? To handle the first problem, a set of simple and empirical methods have been exposed on the basis of M. Gross (1975)'s lexicon-grammar methodology. The whole process of linguistic analysis and formal representation has been described through the examples of two original phenomena: expressions of measurement (un immeuble d'une hauteur de 20 mètres) and locative prepositional phrases containing geographical proper names (à l'île de la Réunion). Each phenomenon has been narrowed to elementary sentences. This enables semantically classify them according to formal criteria. The syntactical behavior of these sentences has been systematically studied according to the lexical value of their elements. Then, the observed properties have been encoded either directly in the form of graphs with an editor or in the form of syntactical matrices then semi-automatically converted into graphs according to E. Roche (1993). These studies led to develop new conversion algorithms in the case of matrix systems where linguistic information is encoded in several matrices. For the second issue, a prototype on-line library of local grammars have been designed and implemented. The objective is to centralize and distribute local grammars constructed within the RELEX network of laboratories. We developed a set of tools allowing users to both store new graphs and search for graphs according to different criteria. The implementation of a grammar search engine led to an investigation into a new field of information retrieval: searching of linguistic information into sets of local grammars
APA, Harvard, Vancouver, ISO, and other styles
42

Roussarie, Laurent. "Un modele theorique d'inference de structures semantiques et discursives dans le cadre de la generation automatique de textes." Paris 7, 2000. http://www.theses.fr/2000PA070059.

Full text
Abstract:
Cette these est consacree au probleme de la structuration du discours dans la perspective de la ge♭ neration automatique de textes. De nombreux travaux abordent cette operation en montrant qu'elle doit intervenir des les premieres etapes du processus de generation. Il est courant, egalement, de constater que les modeles de structuration de discours proposes jusqu'ici tiennent pour acquise et predeterminee la notion de proposition, c'est-a-dire une classe d'objets qui sont deja de nature lin♭ guistique. Nous commencons par souligner le paradoxe que ce type d'approches peut induire : un generateur produit du texte a partir de donnees supposees independantes de la langue ; or d'une part la structuration du discours consiste habituellement a agencer des lots de propositions et d'autre part ledecoupage et le dosage de l'information dans des formes propositionnelles ressortissent deja a la mise en discours, c'est-a-dire a la mise en langue. Notre etude propose alors un modele theorique de generation profonde systematique qui, par hy♭ pothese, prend en entree des donnees codees sous forme mathematique pour les affranchir de tout prejuge linguistique. Le champ d'etude est delimite en s'appliquant au cas des recits portant sur des phenomenes spatio-temporels, et l'objectif central est de produire toutes les paraphrases discursives possibles pour relater un meme episode. Le modele consiste en un jeu d'inferences logiques qui parcourt un systeme de representations stratifie. Plusieurs ensembles de regles permettent tour a tour d'inferer d'abord des formulations logiques elementaires, puis des schemas d'evenements, puis des propositions minimales et enfin des plans de discours structures par des relations rhetoriques et qui s'inscrivent dans le cadre de la sdr. T (segmented discourse representation theory). Nous insistons egalement sur la necessite de gerer rigoureusement des phenomenes semantiques comme les inferences implicites ou les presuppositions.
APA, Harvard, Vancouver, ISO, and other styles
43

Hue, Jean-François. "L'analyse contextuelle des textes en langue naturelle : les systèmes de réécritures typées." Nantes, 1995. http://www.theses.fr/1995NANT2034.

Full text
Abstract:
Nous soutenons que le traitement automatique de la langue naturelle peut être réalisé, notamment dans une approche contextuelle, par une analyse syntaxico-sémantique en plusieurs passes, non linéaire, non ascendante, ni descendante, et non totale. Nous proposons dans ce but un modèle pour les grammaires, les systèmes de réécritures typées. Des logiciels d'application qui illustrent cette démarche et le concept de systèmes de réécritures typées sont exposés
APA, Harvard, Vancouver, ISO, and other styles
44

Denjean, Pascale. "Interrogation d'un système vidéotex arborescent : l"indexation des textes." Toulouse 3, 1989. http://www.theses.fr/1989TOU30235.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Yousfi-Monod, Mehdi. "Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2007. http://tel.archives-ouvertes.fr/tel-00185367.

Full text
Abstract:
Le travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spécifiquement d'une application de ce dernier au résumé automatique de textes.
L'originalité de la thèse consiste à s'attaquer à une variété fort peu explorée, la compression de textes, par une technique non supervisée.
Ce travail propose un système incrémental et interactif d'élagage de l'arbre syntagmatique des phrases, tout en préservant la cohérence syntaxique et la conservation du contenu informationnel important.
Sur le plan théorique, le travail s'appuie sur la théorie du gouvernement de Noam Chomsky et plus particulièrement sur la représentation formelle de la théorie X-barre pour aboutir à un fondement théorique important pour un modèle computationnel compatible avec la compression syntaxique de phrases.
Le travail a donné lieu a un logiciel opérationnel, nommé COLIN, qui propose deux modalités : une compression automatique, et une aide au résumé sous forme semi-automatique, dirigée par l'interaction avec l'utilisateur.
Le logiciel a été évalué grâce à un protocole complexe par 25 utilisateurs bénévoles.
Les résultats de l'expérience montrent que 1) la notion de résumé de référence qui sert aux évaluations classiques est discutable 2) les compressions semi-automatiques ont été fortement appréciées 3) les compressions totalement automatiques ont également obtenu de bons scores de satisfaction.
À un taux de compression supérieur à 40% tous genres confondus, COLIN fournit un support appréciable en tant qu'aide à la compression de textes, ne dépend d'aucun corpus d'apprentissage, et présente une interface convivial.
APA, Harvard, Vancouver, ISO, and other styles
46

Yousfi, Monod Mehdi. "Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus." Montpellier 2, 2007. http://www.theses.fr/2007MON20228.

Full text
Abstract:
Le travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spécifiquement d'une application de ce dernier au résumé automatique de textes. Si le résumé automatique fait l'objet depuis de nombreuses années de recherches plurithématiques et de campagnes d'évaluation, la variété des types de résumé est très grande et correspond à des besoins fort différents. L'originalité de la thèse consiste à s'attaquer à une variété fort peu explorée, la compression de textes, dont l'utilité est évidente (pour les scientifiques, les journalistes, les auteurs qui doivent réduire leurs articles ouécrits à un nombre donné de mots). A l'intérieur de cette variété, les rares pistes suivies dans l'état-de-l'art proposent majoritairement des techniques supervisées ou des méthodes fondées sur des modèles indépendants de la langue. Une originalité complémentaire du travail consiste à s'appuyer sur la représentation syntaxique des phrases du textes sous forme arborescente et de proposer un système incrémental d'élagage de l'arbre des dépendances, tout en préservant la cohérence syntaxique (arbre valide) et la conservation du contenu informationnel important. Sur le plan théorique, le travail s'appuie sur la théorie du gouvernement de Chomsky, reprise également dans des modèles tels que HPSG, et plus particulièrement sur la représentation formelle de la théorie X-Barre. Mais au-delà de cet appui, la thèse présente un fondement théorique important pour un modèle computationnel compatible avec la compression syntaxique de phrases. Intégré dans l'environnement de développement SYGMART de Jacques Chauché, et s'adossant fortement aux sorties de son analyseur syntaxique du français SYGFRAN, le travail a donné lieu a un logiciel opérationnel, nommé COLIN qui propose deux modalités : une compression automatique, et une aide au résumé sous forme semi-automatique, dirigée par l'interaction avec l'utilisateur. Le logiciel a été évalué grâce à un protocole complexe par 39 utilisateurs bénévoles. Les variables testées sont le genre du texte, le taux de compression, la qualité de la compression et le temps de compression. Les résultats de l'expérience montrent que 1) la notion de résumé de référence qui sert aux évaluations classiques est discutable, car les résumés "manuels" ont été appréciés de manière mitigée par les juges humains 2) les compressions semi-automatiques ont été fortement appréciées 3) les compressions totalement automatiques ont également obtenu de bons scores de satisfaction. À un taux de compression supérieur au tiers (plus de 33% du texte élagué) tous genres confondus, COLIN fournit un support appréciable en tant qu'aide à la compression de textes, ne dépend d'aucun corpus d'apprentissage, et présente un environnement interface convivial
APA, Harvard, Vancouver, ISO, and other styles
47

Nguyen, Thi Minh Huyen. "Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens." Phd thesis, Université Henri Poincaré - Nancy I, 2006. http://tel.archives-ouvertes.fr/tel-00105592.

Full text
Abstract:
Le travail présenté dans ce mémoire porte sur la construction des outils et ressources linguistiques pour les tâches fondamentales de traitement automatique de la langue vietnamienne, dans un contexte monolingue ainsi que multilingue. Nous présentons pour cette langue encore peu étudiée des solutions possibles aux problèmes d'annotation morpho-syntaxique (définition de descripteurs lexicaux « de référence », construction d'un lexique avec ces descriptions, des outils de segmentation et d'étiquetage lexical), d'analyse syntaxique (première tentative de modélisation de la grammaire vietnamienne en employant le formalisme TAG, cadre de construction de ressources pour l'analyse syntaxique) et d'alignement multilingue (constitution d'un corpus multilingue, développement d'un système d'alignement multilingue). Afin d'assurer la réutilisabilité des travaux réalisés, et dans l'espoir de les voir stimuler le développement du TAL au Vietnam, nous avons apporté une attention particulière aux questions de normalisation de la gestion des ressources linguistiques.
APA, Harvard, Vancouver, ISO, and other styles
48

Zemirli, Zouhir. "Synthèse vocale de textes arabes voyellés." Toulouse 3, 2004. http://www.theses.fr/2004TOU30262.

Full text
Abstract:
Nous nous intéressons à l’utilité et l’utilisabilité de la structure visuelle des textes, pour leur transposition à l’oral par des systèmes de synthèse de parole (TTS). Nous proposons la synoptique d’un système qui conduit à une représentation du texte interprétable par un TTS. Nous avons partiellement réalisé le module spécifique aux stratégies d’oralisation, afin de rendre articulables la part signifiante des textes, souvent oubliée. Des spécifications ont été précisées et partiellement intégrées par un partenaire industriel. Des hypothèses prédictives quant à l’impact sur la mémorisation/compréhension de deux stratégies issues de notre modèle d’oralisation par reformulation des textes écrits pour être lus silencieusement, ont été formulées et testées. Ce travail a montré que des fonctions cognitives étaient perdues. Des prototypes, exploitant la notion d’image de page, ont été imaginés à travers des interfaces dans lesquelles la multimodalité a pour rôle de combler cette lacune
The text to speech synthesis consists in creating speech by analysis of a text which is subjected to no restriction. The object of this thesis is to describe the modeling and the taking into account of knowledge in phonetic, phonological, morpho-lexical and syntactic necessary to the development of a complete system of voice synthesis starting from diacritized arab texts. The automatic generation of the prosodico-phonetics sequence required the development of several components. The morphosyntaxic labelling "TAGGAR" carries out grammatical labelling, a marking and a syntactic grouping and the automatic insertion of the pauses. Graphemes to phonemes conversion is ensured by using lexicons, syntactic grammars, morpho-orthographical and phonological rules. A multiplicative model of prediction of the duration of the phonemes is described and a model of generation of the prosodic contours based on the accents of the words and the syntactic group is presented
APA, Harvard, Vancouver, ISO, and other styles
49

Scharff, Christelle. "Déduction avec contraintes et simplification dans les théories équationnelles." Nancy 1, 1999. http://docnum.univ-lorraine.fr/public/SCD_T_1999_0271_SCHARFF.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
50

Moulinier, Isabelle. "Une approche de la categorisation de textes par l'apprentissage symbolique." Paris 6, 1996. http://www.theses.fr/1996PA066638.

Full text
Abstract:
L'objectif principal des travaux presentes dans cette these est de determiner si la classification automatique, en particulier au moyen de l'apprentissage symbolique supervise, peut etre appliquee a la categorisation de documents, tache qui permet d'affecter des categories semantiques a des documents en fonction de leur contenu. Le memoire s'articule autour de deux axes complementaires. L'axe principal consiste a determiner si les techniques d'apprentissage apportent des solutions aux preoccupations de la recherche documentaire, en particulier le filtrage de documents. Dans cette optique, il est necessaire de prendre en compte les caracteristiques des collections textuelles, en particulier celles liees aux dimensions des donnees textuelles (plusieurs milliers d'exemples et des dizaines de milliers d'attributs), qui sortent du cadre classique des applications de l'apprentissage. Ce probleme constitue le second axe de notre travail. Pour des raisons de complexite, notre demarche est d'introduire une etape prealable de selection d'attributs avant tout apprentissage. Ceci nous conduit a proposer une methode originale de reduction, appelee scar, qui tire parti des caracteristiques des donnees textuelles. Nous comparons scar a deux methodes classiques pour la reduction de dimension. Nous evaluons ces methodes sur la collection reuters-22 173, dont la taille est consequente. Nous nous interessons ensuite aux liens entre le presuppose d'apprentissage (nature de l'apprentissage) et les donnees textuelles, dans l'optique d'une application au filtrage. Nos resultats montrent que, malgre la relative equivalence observee en moyenne en comparant les differents algorithmes proposes, on peut distinguer une reelle influence du presuppose d'apprentissage sur la performance de l'algorithme, lorsque celui est applique a certaines classes de problemes que nous avons identifie.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography