Dissertations / Theses: 'Traitement automatique du langage naturel – Linguistique – Informatique'

1

Mela, Augusta. "Traitement automatique de la coordination par et." Paris 13, 1992. http://www.theses.fr/1992PA132040.

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'analyse des constructions coordonnées a toujours constitué un centre d'intérêt aussi bien en linguistique théorique qu'en linguistique computationnelle. Le phénomène de la coordination par "et" est à la fois large et subtil. Une chaîne conjonctionnelle peut apparaître à droite de presque n'importe quel élément d'une chaîne, constituant ou non-constituant mais pas n'importe où. Cela pose à la fois le problème théorique de rendre compte précisément de l'ensemble des constructions autorisées et le problème calculatoire d'analyser ces constructions le plus efficacement possible. Dans cette thèse nous dressons un inventaire des difficultés occasionnées par ces constructions; nous présentons un état de l'art: précisement nous exposons comme différents formalismes syntaxiques, (tg, gpsg, lfg, ccg) abordent ces problèmes. Nous en tirons des conséquences concernant le choix d'un cadre formel adéquat pour la description de la coordination. Nous proposons un critère de coordination base sur le pouvoir constructeur de têtes lexicales. Nous prétendons que ce critère rend compte des phénomènes structurels que sont les coordinations de constituants de même catégorie et des coordinations de plus d'un constituant, et qu'il est pertinent mais insuffisant pour la coordination de catégories différentes et la coordination à trouée qui sont des phénomènes plus sémantiques.

2

Hagège, Caroline. "Analyse syntaxique automatique du portugais." Clermont-Ferrand 2, 2000. http://www.theses.fr/2000CLF20028.

Full text

APA, Harvard, Vancouver, ISO, and other styles

3

Haddad, Afifa Le Guern Michel. "Traitement des nominalisations anaphoriques en indexation automatique." [S.l.] : [s.n.], 2001. http://theses.univ-lyon2.fr/sdx/theses/lyon2/intranet/haddad_a.

Full text

APA, Harvard, Vancouver, ISO, and other styles

4

Al-Shafi, Bilal. "Traitement informatique des signes diacritiques : pour une application automatique et didactique." Université de Besançon, 1996. http://www.theses.fr/1996BESA1029.

Full text

APA, Harvard, Vancouver, ISO, and other styles

5

Oh, Hyun-Gum. "Représentation des valeurs sémantiques du passé composé français en vue d'un traitement informatique." Paris 4, 1991. http://www.theses.fr/1991PA040070.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous présentations un modèle de résolution concernant le problème du temps et de l'aspect dans la langue française, étude détaillée du cas du passé composé, en vue d'un traitement informatique. Cette thèse est constituée de trois parties : première partie, généralités et concepts théoriques ; deuxième partie, valeurs du passé composé ; troisième partie, stratégie d'exploration contextuelle. Nous montrons qu'un traitement automatique des langues naturelles visant à construire des représentations sémantiques des temps est possible en utilisant que des informations linguistiques contextuelles, celles-ci exprimant un savoir grammatical et non pas un savoir sur le monde externe. Notre approche linguistique a été implémentée sur machine à l'aide d'un générateur de système experts "snark"
We present a model solving the problem of tense and aspect in the French language, detail research of "passé compose". There are three parties in this thesis: first, generality and theoric concept second ; values of "passé compose" in French; third: strategie of contextual exploration. Its shows that a natural language processing the aim of which is to build semantic representations of tenses is possible thanks to only linguistic data without using any other knowledge of the world. This linguistic approach has been implemented by a generator of expert system called "snark"

6

Paumier, Sébastien. "De la reconnaissance des formes linguistiques à l'analyse syntaxique." Marne-la-Vallée, 2003. http://www.theses.fr/2003MARN0162.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La plupart des descriptions des langues naturelles consistent en une accumulation de règles décrivant le comportement des différents éléments du langage. Cependant, si beaucoup de règles générales ont été établies, leurs exceptions n'ont pratiquement pas été étudiées, ce qui fait que ces descriptions sont incomplètes, voire erronées lorsque le nombre de cas particuliers n'est pas négligeable. Pour remédier à cela, un examen minutieux des phrases élémentaires du français a été mené au LADL. Ces travaux ont abouti à une description très fine des propriétés syntaxiques de ces phrases, codée sous la forme de matrices appelées tables de lexique-grammaire. En 1993, il a été montré que l'on pouvait exploiter les données de ces tables pour effectuer l'analyse automatique de phrases simples. Nous avons étudié un moyen d'étendre ces travaux, de façon à traiter exhaustivement les données du lexique-grammaire, afin de pouvoir analyser n'importe quelle phrase simple du français. Le traitement complet de toutes ces constructions est une opération qui prendra beaucoup de temps, ce qui nous a conduit à nous poser la question de la maintenance de données à long terme. Nous avons ainsi pris le parti d'utiliser un formalisme de description très simple, celui des grammaires locales, afin que les données soient représentées d'une façon la plus claire possible, et qu'elles puissent être maintenues facilement. Dans un premier temps, nous avons testé la puissance de description de notre modèle, à travers l'examen de diverses constructions. Bien que simple, il s'est avéré bien adapté à la description de structures syntaxiques, et a mis en évidence le fait que la distinction entre la recherche de motifs et l'analyse syntaxique n'est qu'une question d'échelle de description. En contrepartie de cette simplicité, nous avons du faire face aux problèmes informatique soulevés par l'exploitation de nos grammaires, en particulier à cause des ordres de grandeur atteints par les données accumulées. Nous avons donc étudié dans un second temps différentes méthodes permettant de manipuler ces données, les unes mettant en jeu des transformations opérant sur les grammaires, les autres concernant les programmes destinés à les appliquer. Les résultats que nous avons obtenus montrent que notre modèle est viable, et que l'accumulation des grammaires décrivant toutes les structures de phrases simples du français est réalisable, ce qui devrait permettre, à terme, d'obtenir un analyseur syntaxique exact pour ces constructions
Most of natural language descriptions are made of sets of rules modelling the behavior of words. However, whereas many general rules have been established, exceptions to these rules are not often studied. Consequently, these rules are incomplete, and even inaccurate when the number of particular cases is too large. To solve this problem, the LADL team has studied in detail basic sentences of French. This work led to a very fine description of the syntactic properties of these sentences, stored in matrices called lexicon-grammar tables. In 1993, the proof was made by Emmanuel Roche that these data could be used to perform automatic parsing. We have studied a way to extend this work, in order to take into account the whole data contained in lexicon-grammar tables, so that we could analyse any basic sentence of French. As this study will take a long time, we had to address the issue of maintenance of data through a long period of time. In fact, we tried to make the formalism to design our grammars as simple as possible, so that they would be easily maintained. In a first step, we verified that this formalism was powerful enough, through the examination of several syntactic structures. We have shown that this formalism, though simple, was adapted to syntactic description and parsing, which suggests that the difference between pattern matching and syntactic analysis is just a matter of scale. In return, we had to solve computational problems, mainly related due to the huge amount of data we had to deal with. So, in a second step, we studied methods to handle these data in reasonable time, either by transforming grammars or by optimizing programs. Our results show that our model is reliable, and so, that it is possible to build an exploitable set of grammars describing all the basic sentences of French. They show the way for efficient syntactic parsers for these constructions

7

EL, HAROUCHY ZAHRA. "Dictionnaire et grammaire pour le traitement automatique des ambiguites morphologiques des mots simples en francais." Besançon, 1997. http://www.theses.fr/1997BESA1010.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En analyse automatique d'un texte, une des premieres etapes consiste a determiner les categories grammaticales des mots. Pour ce faire; un dictionnaire a ete cree sur la base d'une reconnaissance de la ou des categories grammaticales des mots simples a partir de leur terminaison. Ce dictionnaire que nous appelons dictionnaire automatique est un ensemble de regles generales (qui peuvent comprendre des sous-regles). Une regle generale enonce une terminaison. Un operateur (la ou les categories grammaticales) est associe a chaque regle. Nous avons par exemple la regle generale suivante : "les mots termines par 'able' sont des adjectifs". Comme exceptions (ou sous-regles) a cette regle generale, nous avons des noms ("cartable,. . . "), des verbes conjugues ("accable,. . . ") et des ambiguites morphologiques de type "nom et verbe conjugue (comme "sable table,. . . ") et des ambiguites de type "nom et adjectif" (comme comptable ,. . . ). Des lors un tel dictionnaire met en evidence les mots possedant plusieurs categories grammaticales. Lorsque le dictionnaire automatique detecte dans un texte un mot polycategoriel, il y a renvoi a la grammaire qui se charge de lever les ambiguites morphologiques par un examen du contexte immediat. Les regles de la grammaire fonctionnent comme un ensemble de combinaisons possibles d'elements pouvant suivre et/ou preceder la forme ambigue (par exemple une regle annonce qu'une forme ambigue de type "pronom ou article" precedee de "a cause de" est alors un article)
When carrying out the automatic analysis of a text, one of the first stages consists in determining the grammatical categories of the words. In order to do this, a dictionary has been designed which recognises the one or several grammatical categories of non-compound words from their endings. This dictionary, which we have called automatic dictionary, is a collection of general rules (which can consist of sub- rules). A general rule sets forth an ending. An operator (the one or several grammatical categories) is associated with each rule. For example, we have the following general rule: +words ending in 'able' are adjectives;. Examples of exceptions to (or sub-rules) of this general rule are nouns such as (+cartable ;), conjugated verbs like (+ accable ;), and morphological ambiguities such as + noun and conjugated verb (like +sable;, +table. . . ;), and ambiguities such as + adjectival nouns ;(like, for example, + comptable ;. . . ) consequently, this sort of dictionary gives prominence to those words posessing several grammatical categories. When the automatic dictionary detects a word posessing several categories, the grammar system is consulted,of which the role is to pick out the morphological ambiguities by studying the immediate context. The rules in the grammar system work like a group of possible combinations of elements capable of going after and-or before the ambiguous form ( for example, a rule states that an ambiguous form such as + pronoun or article ; preceded by + a cause de ; is, in fact, an article)

8

Diakité, Mohamed Lamine. "Relations entre les phrases : contribution à la représentation sémantique des textes pour la compréhension automatique du langage naturel." Dijon, 2005. http://www.theses.fr/2005DIJOS025.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail décrit dans cette thèse présente une approche de représentation sémantique des textes pour contribuer à une compréhension automatique du langage naturel. L'approche que nous avons proposée est fondée sur le constat de la nécessité de disposer des connaissances sur les textes analysés pour pouvoir dégager leur sens. Nous avons donc proposé une approche d'acquisition semi-automatique de connaissances à partir des textes. L'acquisition de ces connaissances est guidée par une hiérarchie de classes d'entités organisées dans une ontologie. En nous appuyant également sur le principe de la sémantique compositionnelle, nous avons proposé d'identifier les relations entre les différentes entités du texte. Nous nous sommes notamment intéressés au problème d'anaphores pronominales pour lequel nous avons proposé une méthode de résolution
The work described in this thesis presents an approach of semantic representation of texts to contribute to an automatic comprehension of the natural language. The proposed approach is based on the evidence of the need for knowledge on the analyzed texts in order to discover their meaning. We thus proposed a semi-automatic approach of knowledge acquisition from texts. This acquisition is guided by a hierarchy of classes of entities organized in an ontology. Based on the principle of compositional semantic, we propose to identify relations between different entities of the text. We were interested in particular in the problem of pronominal anaphora for which we proposed a resolution method

9

Timimi, Ismaïl. "De la paraphrase linguistique à la recherche d'information, le système 3 AD : théorie et implantation (aide à l'analyse automatique du discours)." Grenoble 3, 1999. http://www.theses.fr/1999GRE39025.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Chercheurs et praticiens sont souvent confrontes a une double exigence : d'une part, le recueil de donnees textuelles provenant de differents corpus et bases documentaires ; d'autre part, le developpement d'outils d'informatiques destines a la gestion et a l'analyse de ces donnees. Comme contribution au rapprochement de ces deux volets, nous explorons dans ce travail, l'analyse de l'information discursive a partir d'un modele algebrique, ameliore par des formalismes linguistiques. Nous presentons la theorie de la methode definie ainsi que l'implantation du logiciel afferent, dit 3ad (aide a l'analyse automatique du discours). Dans une premiere partie, nous introduisons d'abord un rappel sur la theorie de la paraphrase, (application d'origine de 3ad). Ensuite, nous presentons les algorithmes mathematiques de 3ad. Ils calculent des distances entre les differentes phrases du corpus, a partir de matrices de couts liees aux operations classiques sur les mots : insertion, effacement et substitution. De facon generale, plus le nombre de mots communs a deux phrases est grand, plus la distance est petite, et par suite, plus elles seront en paraphrase. L'integration des outils graphiques del'analyse des donnees multidimensionnelles permet de visualiser sur des cartes, la disposition des phrases au sein des classes de paraphrases. Enfin, nous developpons un formalisme linguistique pour augmenter les performances de cette approche numerique. Ce formalisme integre plusieurs niveaux d'analyse en tal (morphologie, segmentation, syntaxe, semantique). Dans une seconde partie, nous proposons une autre facette du systeme 3ad, orientee vers une nouvelle application, qu'est la recherche d'information et ses derives. Nous montrons comment utiliser le systeme 3ad, comme un outil d'aide a la representation du contenu du document (extraction, filtrage et resume automatique) ; comment le systeme 3ad contribue a synthetiser les documents volumineux et apparier ces syntheses avec des requetes ; comment utiliser 3ad comme un outil de classification automatique (avec des scores pour chaque requete) ; comment 3ad peut cooperer avec un generateur de paraphrases en langue naturelle, pour les reformulations de requetes (en vue d'endiguer le bruit et le silence). Nous finirons par esquisser des possibilites de developpement de 3ad. Ces possibilites visent a relever un defi pour la ri, a savo

10

Fort, Karën. "Les ressources annotées, un enjeu pour l’analyse de contenu : vers une méthodologie de l’annotation manuelle de corpus." Paris 13, 2012. http://scbd-sto.univ-paris13.fr/intranet/edgalilee_th_2012_fort.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’annotation manuelle de corpus est devenue un enjeu fondamental pour le Traitement Automatique des Langues (TAL). En effet, les corpus annotés sont utilisés aussi bien pour créer que pour évaluer des outils de TAL. Or, le processus d’annotation manuelle est encore mal connu et les outils proposés pour supporter ce processus souvent mal utilisés, ce qui ne permet pas de garantir le niveau de qualité de ces annotations. Nous proposons dans cette thèse une vision unifiée de l’annotation manuelle de corpus pour le TAL. Ce travail est le fruit de diverses expériences de gestion et de participation à des campagnes d’annotation, mais également de collaborations avec différents chercheur(e)s. Nous proposons dans un premier temps une méthodologie globale pour la gestion de campagnes d’annotation manuelle de corpus qui repose sur deux piliers majeurs : une organisation des campagnes d’annotation qui met l’évaluation au coeur du processus et une grille d’analyse des dimensions de complexité d’une campagne d’annotation. Un second volet de notre travail a concerné les outils du gestionnaire de campagne. Nous avons pu évaluer l’influence exacte de la pré-annotation automatique sur la qualité et la rapidité de correction humaine, grâce à une série d’expériences menée sur l’annotation morpho-syntaxique de l’anglais. Nous avons également apporté des solutions pratiques concernant l’évaluation de l’annotation manuelle, en donnant au gestionnaire les moyens de sélectionner les mesures les plus appropriées. Enfin, nous avons mis au jour les processus en oeuvre et les outils nécessaires pour une campagne d’annotation et instancié ainsi la méthodologie que nous avons décrite
Manual corpus annotation has become a key issue for Natural Langage Processing (NLP), as manually annotated corpora are used both to create and to evaluate NLP tools. However, the process of manual annotation remains underdescribed and the tools used to support it are often misused. This situation prevents the campaign manager from evaluating and guarantying the quality of the annotation. We propose in this work a unified vision of manual corpus annotation for NLP. It results from our experience of annotation campaigns, either as a manager or as a participant, as well as from collaborations with other researchers. We first propose a global methodology for managing manual corpus annotation campaigns, that relies on two pillars: an organization for annotation campaigns that puts evaluation at the heart of the process and an innovative grid for the analysis of the complexity dimensions of an annotation campaign. A second part of our work concerns the tools of the campaign manager. We evaluated the precise influence of automatic pre-annotation on the quality and speed of the correction by humans, through a series of experiments on part-of-speech tagging for English. Furthermore, we propose practical solutions for the evaluation of manual annotations, that proche che vide the campaign manager with the means to select the most appropriate measures. Finally, we brought to light the processes and tools involved in an annotation campaign and we instantiated the methodology that we described

11

Delannoy, Jean-François. "Un système fondé sur les objets pour le suivi de situation à partir de textes en langage naturel." Aix-Marseille 3, 1991. http://www.theses.fr/1991AIX30063.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le but de tenir a jour, a partir de rapports quotidiens en anglais, un historique et une representation de la situation navale, le systeme concu dans cette etude assure les trois fonctions d'acquisition (comprehension de textes en langage naturel), memorisation (integration de la nouvelle connaissance dans la base), et interrogation/exploitation (requetes sur des elements de la situation et signalement automatique des anomalies). La modelisation s'appuie sur une etude prealable des textes et du domaine. Au premier niveau, la semantique des textes consiste en evenements ponctuels correspondant a chaque proposition linguistique. Le deuxieme niveau est celui d'une semantique referentielle sur une modelisation du domaine en representation orientee objets. Le monde de reference est constitue d'objets permanents subdivises en navires, entites geographiques et types d'actions. Les evenements sont des instances d'action, creees dynamiquement lors du traitement. La continuite temporelle de l'activite des navires est prise en charge par la structure de tache, alimentee par une succession d'evenements instances du meme type d'action geres en fonction de leur date. Le traitement des enonces aboutit a creer ou inactiver des objets et a enrichir ou modifier leur description. Apres une discussion comparee des grammaires d'unification et des applications des objets au traitement du langage naturel, on choisit d'associer une representation par frames et une grammaire de clauses definies possedant le statut de methode de la classe rapport. Le prototype est implante en objlog, vu comme langage hybride

12

Constant, Mathieu. "Grammaires locales pour l'analyse automatique de textes : méthodes de construction et outils de gestion." Marne-la-Vallée, 2003. http://www.theses.fr/2003MARN0169.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'explosion du nombre de documents disponibles (notamment sur Internet) a rendu le domaine du Traitement Automatique des Langues (TAL) et ses outils incontournables. De nombreux chercheurs marquent l'importance de la linguistique dans ce domaine. Ils préconisent la construction de larges bases de descriptions linguistiques, composées de lexiques et de grammaires. Cette démarche a un gros inconvénient : elle nécessite un investissement lourd qui s'inscrit sur le long terme. Pour palier à ce problème, il est nécessaire de mettre au point des méthodes et des outils informatiques d'aide à la construction de composants linguistiques fins et directement applicables à des textes. Nous nous sommes penché sur le problème des grammaires locales qui décrivent des contraintes précises et locales sous la forme de graphes. Deux questions fondamentales se posent : Comment construire efficacement des grammaires précises, complètes et applicables à des textes ? Comment gérer leur nombre et leur éparpillement ? Comme solution au premier problème, nous avons proposé un ensemble de méthodes simples et empiriques. Nous avons exposé des processus d'analyse linguistique et de représentation à travers deux phénomènes : les expressions de mesure (un immeuble d'une hauteur de 20 mètres) et les adverbes de lieu contenant un nom propre locatif (à l'île de la Réunion), deux points critiques du TAL. Sur la base de M. Gross (1975), nous avons ramené chaque phénomène à une phrase élémentaire. Ceci nous a permis de classer sémantiquement certains phénomènes au moyen de critères formels. Nous avons systématiquement étudié le comportement de ces phrases selon les valeurs lexicales de ses éléments. Les faits observés ont ensuite été représentés formellement soit directement dans des graphes à l'aide d'un éditeur, soit par l'intermédiaire de tables syntaxiques ensuite converties semi-automatiquement en graphes. Au cours de notre travail, nous avons été confronté à des systèmes relationnels de tables syntaxiques pour lesquels la méthode standard de conversion due à E. Roche (1993) ne fonctionnait plus. Nous avons donc élaboré une nouvelle méthode adaptée avec des formalismes et des algorithmes permettant de gérer le cas où les informations sur les graphes à construire se trouvent dans plusieurs tables. En ce qui concerne le deuxième problème, nous avons proposé et implanté un prototype de système de gestion de grammaires locales : une bibliothèque en-ligne de graphes. Le but à terme est de centraliser et de diffuser les grammaires locales construites au sein du réseau RELEX. Nous avons conçu un ensemble d'outils permettant à la fois de stocker de nouveaux graphes et de rechercher des graphes suivant différents critères. L'implémentation d'un moteur de recherche de grammaires nous a également permis de nous pencher sur un nouveau champ d'investigation dans le domaine de la recherche d'information : la recherche d'informations linguistiques dans des grammaires locales
Many researchers in the field of Natural Language Processing have shown the significance of descriptive linguistics and especially the use of large-scaled databases of fine-grained linguistic components composed of lexicons and grammars. This approach has a drawback: it requires long-term investment. It is then necessary to develop methods and computational tools to help the construction of such data that are required to be directly applicable to texts. This work focuses on a specific linguistic representation: local grammars that describe precise and local constraints in the form of graphs. Two issues arise : How to efficiently build precise, complete and text-applicable grammars? How to deal with their growing number and their dispersion ? To handle the first problem, a set of simple and empirical methods have been exposed on the basis of M. Gross (1975)'s lexicon-grammar methodology. The whole process of linguistic analysis and formal representation has been described through the examples of two original phenomena: expressions of measurement (un immeuble d'une hauteur de 20 mètres) and locative prepositional phrases containing geographical proper names (à l'île de la Réunion). Each phenomenon has been narrowed to elementary sentences. This enables semantically classify them according to formal criteria. The syntactical behavior of these sentences has been systematically studied according to the lexical value of their elements. Then, the observed properties have been encoded either directly in the form of graphs with an editor or in the form of syntactical matrices then semi-automatically converted into graphs according to E. Roche (1993). These studies led to develop new conversion algorithms in the case of matrix systems where linguistic information is encoded in several matrices. For the second issue, a prototype on-line library of local grammars have been designed and implemented. The objective is to centralize and distribute local grammars constructed within the RELEX network of laboratories. We developed a set of tools allowing users to both store new graphs and search for graphs according to different criteria. The implementation of a grammar search engine led to an investigation into a new field of information retrieval: searching of linguistic information into sets of local grammars

13

Trouilleux, François. "Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français." Clermont-Ferrand 2, 2001. https://hal.archives-ouvertes.fr/tel-01152394.

Full text

APA, Harvard, Vancouver, ISO, and other styles

14

Stroppa, Nicolas. "Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles /." Paris : École nationale supérieure des télécommunications, 2006. http://catalogue.bnf.fr/ark:/12148/cb40129220d.

Full text

APA, Harvard, Vancouver, ISO, and other styles

15

Amoia, Marilisa. "Reconnaissance d'implications textuelles à forte composante linguistique." Phd thesis, Nancy 1, 2008. http://tel.archives-ouvertes.fr/tel-00338608.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette thèse, j'étudie la manière dont les ressources lexicales basées sur l'organisation de la connaissance lexicale dans des classes qui partagent des propriétés communes (syntactiques, sémantiques, etc.) permettent le traitement automatique de la langue naturelle et en particulier la reconnaissance symbolique d'implications textuelles. Tout d'abord, je présente une approche robuste et à large couverture sur la reconnaissance de paraphrases verbales lexico-structurelle basée sur la classification de verbes anglais par Levin. Puis, je montre qu'en étendant le cadre proposé par Levin pour traiter les modèles d'inférence généraux, on obtient une classification d'adjectifs anglais qui, comparée à des approches antérieures, propose une caractérisation sémantique à grain plus fin de leurs propriétés déductives. De plus, je développe un cadre sémantique compositionnel pour assigner à des adjectifs une représentation sémantique sur la base d'une approche ontologiquement variée (Hobbs85) et qui permet ainsi l'inférence de premier ordre pour tous les types d'adjectifs, y compris les adjectifs extensionnels. Enfin, je présente un corpus de test pour l'inférence basée sur les adjectifs que j'ai développée comme ressource pour l'évaluation de systèmes de traitement automatique de l'inférence de la langue naturelle.

16

Azzam, Saliha. "Traitement informatique des ambigui͏̈tés (anaphores et rattachement du syntagme prépositionnel) du langage naturel : réalisation d'un prototype : clam." Paris 4, 1995. http://www.theses.fr/1995PA040063.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Notre etude presente une methodologie d'analyse semantique, c'est-a-dire une methodologie de transformation du texte dans une representation cible s'exprimant dans un langage dit "intelligent" comprehensible par l'ordinateur. Le principal objectif est de pouvoir interroger cette representation sur le sens su texte. La representation cible obtenue doit representer d'une facon rigoureuse et fidele le contenu des textes. Les principaux obstacles pour atteindre un tel objectif sont sans conteste les diverses ambiguites qui se manifestent a tous les niveaux de la comprehension. Dans notre etude, on s'est particulierement penche sur deux types d'ambiguite principales sources d'appauvrissement des resultats : les anaphores et le rattachement des syntagmes prepositionnels. Le probleme des anaphores concerne des "references" implicites faites a des "entites" du texte, via par exemple des pronoms. Le deuxieme probleme est lie au caractere "tres" ambigu des prepositions, causant une "multi-interpretation" du texte traite. Nous proposons une analyse qui integre une solution pour resoudre chacun de ces deux problemes et egalement une methodologie pour coordonner les deux procedures de resolution de facon efficace. Nous presentons une methodologie pour integrer, de facon "harmonieuse", le traitement des ambiguites dans la strategie generale d'analyse semantique
Our work presents a conceptual analysis methodology, i. E. , a methodology to translate natural language texts into a target language understandable by the computer. The main aim is to exploit this representation and ask questions about the semantic contain of the texts. The ontained representation must represent strictly the texts contain. The main obstacles to attempt this objective are incontestably the several kinds of ambiguity that are present at each comprehension level. In our study, we particularly focused on two types of ambiguity that are the main reasons of impoverishment results : the anaphors ambiguity and the prepositional attachment ambiguity. The anaphors problem is concerned with the implicit references to text "entities", as using, for example pronouns. The problem of preposotional attachment is caused by the very ambiguous feature of the prepositions, leading to several interpretations in the text understanding process. We propose a solution to deal with each of these two problems and a methodology to cordinate both procedures efficiently. We present a methodology to integrate, in "harmonious" way, the disambiguation process into the general strategy of the conceptual analysis

17

Fleury, Serge. "Polas fritas : prototypes oriented language has freed us. la programmation a prototypes, un outil pour une linguistique experimentale: mise en oeuvre de representations evolutives des connaissances pour le traitement automatique du langage naturel." Paris 7, 1997. http://www.theses.fr/1997PA070039.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Notre travail vise a confronter certains paradigmes informatiques aux problemes que pose le traitement automatique de la construction du sens. Le probleme a resoudre consiste a definir les comportements qu'il est possible d'attacher aux mots dans le cadre d'un analyseur a mots. Il s'agit d'une part de determiner ces comportements et d'autre part de les representer. La langue evolue en permanence et les resultats acquis par la description linguistique sont toujours remis en question. Il en va de meme pour les comportements lexicaux: les savoirs associes aux mots ne sont pas donnes une fois pour toutes. On utilise donc le prototype (dans le cadre de la programmation a prototypes) comme un outil de representation de certains faits linguistiques dans la mesure ou nous pensons qu'il peut repoemes que posent ces faits de langue. Cet outil de representation conduit a construire des structures de representation simples et ajustables pour rendre compte justement des problemes d'ajustements qui sont a l'oeuvre dans la construction du sens dans le langage naturel. Ce modele de representation permet de construire progressivement les entites informatiques suivant les connaissances dont on dispose sur le domaine vise: si de nouvelles connaissances sont mises au jour, on peut affiner le processus de representations deja amorce en tenant compte de ces nouvelles informations sans avoir a reconstruire entierement de nouvelles structures. L'evaluation de connaissances representees prealablement comme prototypiques permet d'envisager une classification hierarchisee des savoirs represente meme si celle-ci reste evolutive. La pap encourage une approche de representation faite de petits sauts successifs qui ameliore la qualite de la representation produite. Cette demarche s'accorde aussi avec la necessaire approche artisanale que constitue le travail du linguiste dans sa volonte de decrire les comportements des faits de langue
This work deals with the confrontation between data-processing tools for natural language processing and the problem arising from automatic treatment to construct sense. This work aims to develop tools that respond to these problems. The problem to solve consists in defining behaviors that one can assign to words in the framework of a word parser. Nlp systems must represent linguistic information and the processes of representation are constrained to determine these information, they must presume what these knowledge are able to do. The language is always moving and the linguistic descriptions must be ajusted. The behaviors of words follow these permanent evolutions. Our work deals with a process of representation which does not predefines all the knowledge that can be associated to the words. We use the prototype as part of prototype-based language as a tool for representation of linguistic facts, in so far as we think that it can propose an answer for the problem we face. This tool leads us to build simple and ajustable structures of representation to suit to the adjustement dimension of natural languages. Prototype-based languages allow to build evolutive structure of representation that can be adjust when new information becomes available. Prototype-based language can easily change the representation of refinements, prototype-based language lead us to construct an evolutive syntactic classification for words. Our work aims to develop a stronger and effective connection between the work of the linguist and the nlp systems. The manual refinements of the results produced here follow this initial aim. Prototype-based language encourage an approach for representation which consists in successive leaps and which improves the quality of the representation that is produced. Futhermore, these processes go together with the 'home-made" but necessary- work of the linguist and his will to describe the way language events work

18

Hankach, Pierre. "Génération automatique de textes par satisfaction de contraintes." Paris 7, 2009. http://www.theses.fr/2009PA070027.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous nous intéressons dans cette thèse à la construction d'un système de génération automatique - un logiciel informatique capable de transformer une représentation formelle de l'information en un texte en langage naturel. Dans notre approche, nous définissons la génération comme un problème de satisfaction de contraintes (CSP). Le système résultant garantit un traitement intégré des opérations de la génération car les différentes dépendances sont prises en compte et aucune priorité n'est donnée à un type d'opération par rapport aux autres. Pour définir le problème de satisfaction de contraintes, nous représentons les opérations de construction du texte par des variables de décision. Les opérations individuelles qui réalisent un même type d'expressions minimales dans le texte sont groupées ensemble et constituent une tâche de la génération. Nous classons les variables de décision selon les types d'opérations qu'elles représentent (e. G. Variables de sélection du contenu, variables de structuration du document. . . ). Les règles linguistiques régissant les opérations sont représentées par des contraintes sur les variables. Une contrainte peut être définie sur des variables d'un ou plusieurs type(s), marquant la dépendance entre les opérations correspondantes. La production d'un texte consiste en la résolution du système global des contraintes, c'est-à-dire trouver une affectation complète des variables qui ne viole pas les contraintes. Dans le cadre de la définition de la grammaire de contraintes, nous formulons notamment la partie qui régit les opérations de structuration du document. Nous modélispns par des contraintes la structure rhétorique développée par la SORT afin d'aboutir à des textes cohérents à la sortie du générateur. Auparavant, afin d'augmenter les capacités de génération de notre système, nous étendons cette structure rhétorique pour couvrir les textes non canoniques. En plus de la définition de ces contraintes pour la cohérence, nous formulons un ensemble de contraintes qui permettent de façonner la macrostructure en fonction des buts communicatifs afin de favoriser leur réalisation. Enfin, nous proposons une solution au problème de la complexité de calcul de la génération de textes de grande taille. Cette solution repose sur la génération de ces textes par paquet de propositions. Le problème de génération du texte global est ainsi défini comme plusieurs problèmes de génération de parties du texte. Ces parties sont de taille limitée et la complexité associée à leur génération reste raisonnable. Le partitionnement proposé est motivé par des considérations linguistiques
We address in this thesis the construction of a natural language generation System - computer software that transforms a formal representation of information into a text in natural language. In our approach, we define the generation problem as a constraint satisfaction problem (CSP). The implemented System ensures an integrated processing of generation operations as their different dependencies are taken into account and no priority is given to any type of operation over the others. In order to define the constraint satisfaction problem, we represent the construction operations of a text by decision variables. Individual operations that implement the same type of minimal expressions in the text form a generation task. We classify decision variables according to the type of operations they represent (e. G. Content selection variables, document structuring variables. . . ). The linguistic rules that govern the operations are represented as constraints on the variables. A constraint can be defined over variables of the same type or different types, capturing the dependency between the corresponding operations. The production of a text consists of resolving the global System of constraints, that is finding an evaluation of the variables that satisfies all the constraints. As part of the grammar of constraints for generation, we particularly formulate the constraints that govern document structuring operations. We model by constraints the rhetorical structure of SORT in order to yield coherent texts as the generator's output. Beforehand, in order to increase the generation capacities of our System, we extend the rhetorical structure to cover texts in the non-canonical order. Furthermore, in addition to defining these coherence constraints, we formulate a set of constraints that enables controlling the form of the macrostructure by communicative goals. Finally, we propose a solution to the problem of computational complexity of generating large texts. This solution is based on the generation of a text by groups of clauses. The problem of generating a text is therefore divided into many problems of reduced complexity, where each of them is concerned with generating a part of the text. These parts are of limited size so the associated complexity to their generation remains reasonable. The proposed partitioning of generation is motivated by linguistic considerations

19

Wurbel, Nathalie. "Dictionnaires et bases de connaissances : traitement automatique de données dictionnairiques de langue française." Aix-Marseille 3, 1995. http://www.theses.fr/1995AIX30035.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'utilisation des versions informatisees de dictionnaires courants comme sources d'informations en traitement automatique du langage naturel a ete encouragee par la masse de connaissances lexicales et semantiques qu'ils contiennent. Cependant, apres 15 annees de recherches, les resultats apparaissent decevants et n'ont pas debouche sur une evaluation des bases de connaissances dictionnairiques, ni sur l'etude des retombees de ces recherches. Nous avons realise l'evaluation d'un dictionnaire francais. En nous placant dans le cadre de la construction automatique de taxinomies, nous avons repertorie les anomalies et les imperfections des informations extraites de facon automatique dont nous donnons une classification detaillee. Ces observations ont ete utilisees pour definir un modele de dictionnaire informatise destine a la fois a des utilisateurs humains et a des systemes de traitement automatique du langage naturel, ou les informations dictionnairiques sont representees dans une base de connaissances orientee objets. Nous proposons un automate de generation de definitions, fournissant un outil puissant d'aide a la redaction pour les lexicographes

20

Lebarbé, Thomas. "Hiérarchie Inclusive des Unités Linguistiques en Analyse Syntaxique Coopérative : Le segment, unité intermédiaire entre chunk et phrase dans le traitement linguistique par système multi-agents." Caen, 2002. http://www.theses.fr/2002CAEN2019.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nos recherches se sont portées sur le domaine de l'analyse syntaxique automatiques, domaine dont nous ne traitons ici que deux aspects majeurs : linguistique et informatique. Dans la partie linguistique, nous présentons les étapes de découverte, formalisation et validation de la notion de segment, unité linguistique entre le syntagme minimal (chunk) et la phrase. Une évaluation de l'analyseur syntaxique GREYC'98 et une étude des arbres de dépendance projetables, nous ont permis de mettre en évidence un certain nombre de mots grammaticaux et ponctuations qui sont à la fois à l'origine des erreurs de l'analyseur évalué et marqueurs de branches unaires au sein des des représentations arborescentes. Ceci nous a permis de définir le segment , intermédiaire entre le chunk et la phase, donnat ainsi naissance à une hiérarchie inclusive des constituants (mots, chunks, segments, phrases). Nous donnons certaines des propriétés du segment qui le rendent utile et simplificateur pour le calcul des relations de dépendance entre chunks. La notion de segment est alors validée : sur corpus oral, établissant ainsi que le segment est fortement marqué prosodiquement ; sur corpus écrit, de manière à montrer quelles erreurs de l'analyseur GREYC'98 auraient pu être évitées en utilisant la notion de segment [etc]

21

Culioli-Atwood, Marie-Hélène. "Operations referentielles. Analyse de la determination en francais en vue d'un traitement informatise." Paris 7, 1992. http://www.theses.fr/1992PA070014.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de la these est (1) de rassembler un maximum d'observations systematiques et detaillees concernant l'apparition des determinants en francais (dans le schema determinant + n): (2) de construire un systeme de representation metalinguistique permettant la modelisation des faits; (3) de construire des procedures de raisonnement, en vue d'un traitement algorithmique, soit en generation soit en analyse. L'ouvrage fournit les bases conceptuelles de la modelisation, a la fois sur le plan formel et sur le plan semantique. La these comporte trois parties: analyse des problemes lies aux manipulations paraphrastique en cause; etude de groupes de predicats nominalises, a partir de classements semantiques; etude des determinants dans les groupes prepositionnels. Cette recherche construit les etapes preliminaires a tout traitement automatique de la determination, telle qu'elle fonctionne dans un texte francais quelconque
The purpose of the thesis is (1) to gather a maximun of systematic and detailed observations concerning the occurence of determiners in french ( in the pattern det. + n ); (2) to build a system of metalinguistic representation enabling the modelling of facts; (3) to build procedures of reasoning having in mind an algorithmic treatment whether in generation or in analysis. The work gives the conceptual basis for modelling both on a formal and a semantic level. The thesis is made up of three parts: analysis of the problems in relation to the paraphrastic manipulations; study of groups of nominalised predicates based on semantic classifications; study of determiners in prepositional phrases. This work of research builds the preliminary steps of any computerized treatment of determination as used in a french text

22

Hassoun, Mohamed. "Conception d'un dictionnaire pour le traitement automatique de l'arabe dans différents contextes d'application." Lyon 1, 1987. http://www.theses.fr/1987LYO10035.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le dictionnaire est concu pour le traitement automatique de l'arabe dans le cadre du programme de recherche samia (synthese et analyse morphologiques informatisees de l'arabe). Partant du modele linguistique concu par le programme samia (traits morphologiques, regles de contextualisation), on a cherche a definir une structuration des donnees permettant la constitution d'un dictionnaire utilisable dans les deux contextes de l'analyse et de la synthese morphologiques. On examine les conditions de consultation et d'exploitation du dictionnaire ainsi que son implementation sur le sgbd relationnel informix

23

Besombes, Jérôme. "Un modèle algorithmique de la généralisation de structures dans le processus d'acquisition du langage." Nancy 1, 2003. http://www.theses.fr/2003NAN10156.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le sujet de notre étude est l'apprentissage des langages réguliers d'arbres pour la modélisation algorithmique de l'acquisition du langage. L'hypothèse émise est celle d'une structuration arborescente des données mises à disposition de l'apprenti ; ces données sont des phrases correctes entendues et l'apprentissage est effectif dès lors qu'une représentation du langage auquel appartiennent ces phrases est construite. Cette représentation doit permettre de générer de nouvelles phrases compatibles avec le langage et non présentées en exemples. Considérant que le signal perçu (une phrase entendue) est traduit sous forme d'arbre, il apparaît que la généralisation de ces structures arborescente est un élément constitutif de l'apprentissage. Nous avons développé plusieurs modèles pour cette généralisation sous forme d'algorithmes prenant en compte différents types de structures en entrée et différents niveaux d'apport d'information. Ces nouveaux modèles offrent l'avantage d'unifier des résultats majeurs dans la théorie de l'inférence grammaticale, et d'étendre ces résultats, en particulier par la considération de structures nouvelles non étudiées précédemment pour l'apprentissage
The subject of our study is the learning of regular tree languages for an algorithmic modeling of language acquisition. For this, we suppose that data are structured; these data are heard correct sentences and the learning is effective since a representation of the language to which these sentences belong is built. From this representation the learner is able to generate new sentences compatible with the language and not presented as examples. Considering that heard sentences are translated into trees, it appears that the generalization of these tree structures is a component of the learning. We developed several models for this generalization in the form of algorithms taking into account various types of structures as input and various levels of contribution of information. These new models offer the advantage of unifying major results in the theory of the grammatical inference, and of extending these results, in particular by the consideration of new structures not studied previously in the learnability point of view

24

Larouk, Omar. "Extraction de connaissances à partir de documents textuels : traitement automatique de la coordination (connecteurs et ponctuation)." Lyon 1, 1994. http://www.theses.fr/1994LYO10029.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La conception de bases de donnees (bdd) textuelles passe par la description du contenu des textes figurant dans cette base de donnees. Dans les systemes classiques booleens, cette construction se fait l'aide d'une liste de mots-cles se trouvant dans un lexique structure a priori. La consultation de la bdd se fait a l'aide des requetes composees de descripteurs. Par comparaison avec les descripteurs decrivant le contenu des documents, la recherche d'information echoue ou non. Une premiere partie aura d'abord pour objectif d'emettre des critiques sur des methodes existantes afin de preciser notre cadre general d'analyse. Elle sera suivie par une longue presentation des problemes de la coordination a travers les differentes disciplines (interrogation des bases de donnees documentaires, analyse de la requete composee, problematiques du statut du descripteur documentaire et des conjonctions de coordination). Nous ferons appel a la representation logique afin de montrer l'erreur dominante chez les logiciens et les concepteurs des systemes informatiques qui consiste a assimiler directement le coordonnant linguistique au connecteur logique. Pour marquer notre distance avec cette erreur, nous preconisons la solution logico-semantique qui montre que la coordination linguistique est porteuse d'informations oubliees par les concepteurs. Parmi les modeles choisis, nous avons surtout oriente notre critique sur ceux qui ont analyse le probleme de la coordination. Notre choix est de rejeter le modele informatique de maegaard&spang, le modele formel de chomsky, le modele linguistique de tesniere, etc qui detruisent l'information coordinative. Ceci nous permet de proposer notre calcul des images logico-semantiques (l'information cachee portee par les conjonctions de coordination) en vue d'une structuration de la chaine textuelle. Cette these a ete ecrite essentiellement dans l'optique de l'informatique orientee vers les systemes documentaires. Elle fait appel aux techniques d'extraction et de representation des connaissances. Toutefois lorsque, nous constatons l'existence de liens dans l'analyse d'un phenomene, nous essayons de montrer la proximite entre les differentes disciplines. Cette interdisciplinarite nous a permis de s'interesser a la logique mathematique, a la logique analytique, aux logiques non-classiques (combinatoire, multivalente), a la linguistique (analyse syntaxique et semantique), mais aussi a la pragmatique qui fait appel aux notions de presupposition et d'implicite. Nous proposerons une structuration des donnees textuelles basee sur les resultats issus de notre recherche ou les connecteurs symetriques seront analyses dans le cadre des logiques intensionnelle et extensionnelle alors que les connecteurs asymetriques seront analyses uniquement par la logique non-classique (logique multivaluee)

25

Ameli, Samila. "Construction d'un langage de dictionnaire conceptuel en vue du traitement du langage naturel : application au langage médical." Compiègne, 1989. http://www.theses.fr/1989COMPD226.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail de recherche consiste en la réalisation d'un système documentaire dit de nouvelle génération, capable de prendre en compte le contenu de chaque document et d'exécuter la recherche documentaire par une comparaison du sens des textes (questions et documents). La compréhension des textes n'étant possible qu'à l'aide d'une base de connaissances, un dictionnaire conceptuel a été mis au point dans le but de représenter tous les concepts et leurs relations, écrits en langage clair et simplifié. Ce langage appelé « SUMIX » permet (1) de prendre en compte le contexte lors de la résolution des polysémies, (2) de résoudre nombre de difficultés imposées aux cogniticiens lors de la création de la base par un mécanisme d'héritage des propriétés et ainsi donner la possibilité de faire des inférences (3) de définir certaines relations inter-conceptuelles dépendantes du domaine d'application par une gestion de métaconnaissances. Ce dictionnaire conceptuel va servir à deux moments : (1) au moment de la création des fichiers inversés en indexant le concept et non la chaîne de caractères, on permet d'avoir, lors de l'extraction conceptuelle, un sous-ensemble le plus grand possible de dossiers pertinents (2) au moment de la comparaison structurelle qui est la comparaison finale, effectuée dossier par dossier, sur le sur-ensemble de dossiers déterminé à l'étape de l'extraction conceptuelle
This study deals with the realisation of a « new generation » information retrieval system, taking consideration of texts signification. This system compares texts (questions and documents) by their content. A knowledge base being indispensable for text “comprehension”, a dictionary of concepts has been designed in which are defined the concepts and their mutual relations thru a user friendly language called SUMIX. SUMIX enables us (1) to solve ambiguities due to polysemia by considering context dependencies, (2) to make use of property inheritance and so can largely help cogniticiens in the creation of the knowledge and inference base, (3) to define subject dependant relation between concepts which make possible metaknowledge handling. The dictionary of concepts is essentially used (1) to index concepts (and not characters string) which enables us to select a wide range of documents in the conceptual extraction phase, (2) to filter the previously selected documents by comparing the structure of each document with that of the query in the structural analysis phase

26

Le, Kien Van. "Generation automatique de l'accord du participe passe." Paris 7, 1987. http://www.theses.fr/1987PA077257.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le maximum de regles d'accord du participe passe des verbes conjugues avec avoir sont reunies. Il a ete constate que ces regles sont imprecises, insuffisantes et non formelles pour un traitement systematique de l'accord du participe passe. Sont alors introduites les notions de complement d'objet direct, de determinant, de syntagme attributif, de verbe a completive, de verbe sans completive, de verbe operateur. . . Une representation formelle des constructions relatives au probleme etudie est proposee. Finalement, il est montre comment, a partir d'un terminal, il est possible de communiquer et dialoguer avec l'ordinateur par l'intermediaire du programme "generation automatique de l'accord du participe passe

27

Hue, Jean-François. "L'analyse contextuelle des textes en langue naturelle : les systèmes de réécritures typées." Nantes, 1995. http://www.theses.fr/1995NANT2034.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous soutenons que le traitement automatique de la langue naturelle peut être réalisé, notamment dans une approche contextuelle, par une analyse syntaxico-sémantique en plusieurs passes, non linéaire, non ascendante, ni descendante, et non totale. Nous proposons dans ce but un modèle pour les grammaires, les systèmes de réécritures typées. Des logiciels d'application qui illustrent cette démarche et le concept de systèmes de réécritures typées sont exposés

28

Moreau, Fabienne Sébillot Pascale. "Revisiter le couplage traitement automatique des langues et recherche d'information." [S.l.] : [s.n.], 2006. ftp://ftp.irisa.fr/techreports/theses/2006/moreau.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

29

Kostov, Jovan. "Le verbe macédonien : pour un traitement informatique de nature linguistique et applications didactiques (réalisation d'un conjugueur)." Institut National des Langues et Civilisations Orientales, 2013. http://www.theses.fr/2013INAL0033.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Après la standardisation de la langue macédonienne en 1945, la description du standard actuel s’effectue sur plusieurs décennies, principalement au sein des institutions macédoniennes. L’existence de plusieurs grammaires témoigne du travail significatif qui a été accompli sur le verbe macédonien. Cependant, cette classe de mots reste à l’heure actuelle la moins exploitée : les règles de la flexion ne décrivent pas tous les cas de figures de la conjugaison macédonienne et leur approche s’effectue de manière trop synthétique pour être opérationnelle dans une optique didactique. Pour toutes ces raisons, le but de cette thèse est d’explorer un grand nombre de verbes fléchis afin de déceler des modèles stables de conjugaison ouvrant de nouvelles pistes pour l’apprentissage du système verbal du macédonien. Ces modèles de conjugaison sont employés dans le but de construire un outil de conjugaison automatique des verbes macédoniens à partir de leur forme lexicale – FlexiMac 1. 1
After the standardization of the Macedonian language in 1945, the description of its current standard variety has been carried out by several generations of experts working – most often – in Macedonian institutions. The fact that several manuals were published is an undeniable proof of significant efforts made to describe the Macedonian verbal system and yet, today verbs represent the least exploited word-category. Inflexion rules cannot envisage all possible models of the Macedonian conjugaison and their approach is too synthetic to be fully operational from a didactic point of view. For all these reasons, the purpose of this doctoral thesis is to study a large number of conjugated verbs in order to map stable patterns opening up new forays into the teaching of the Macedonian verbal system. Moreover, these patterns are used to produce computational models resulting in an automatized conjugation tool which derives paradigms from the lexical verbal forms : FlexiMac 1. 1

30

Cardey-Greenfield, Sylviane. "Traitement algorithmique de la grammaire normative du français pour une utilisation automatique et didactique." Besançon, 1987. http://www.theses.fr/1987BESA1013.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Fondée sur une conception normative de la grammaire, l'approche du système grammatical présentée propose, dans une perspective pédagogique, des modèles pour la résolution des problèmes d'orthographe lexicale et grammaticale. Une première délimitation du système grammatical représente a l'aide de graphes a permis d'isoler les composantes en vue de l'analyse de points particuliers. Pour faire face a la complexité des éléments à décrire et l'information à transmettre apparaissant comme un savoir-faire, la technique des "microsystèmes algorithmiques" a été utilisée. Quatorze "microsystèmes" synthétisant et structurant les connaissances actuelles, bases sur une trentaine de grammaires, des dictionnaires et les propres analyses de l'auteur, ont été conçus. L'exhaustivité et la rigueur du traitement ont mis en évidence la faiblesse de certaines règles trouvées dans les manuels et ont également fait ressortir les anomalies du système orthographique. Les algorithmes, d'abord visualises de façon concise et linéaire sous la forme définie par A. A. Liapounov et G. A. Shestopal et s'adressant a des lecteurs avertis et aux informaticiens, ont constitue le point de départ de stratégies d'enseignement. Des organigrammes "en étoile", des tables récapitulatives ainsi que des logiciels aisément utilisables et laissant apparaitre le cheminement entier du raisonnement à suivre pour une résolution rapide et rationnelle des problèmes ont été expérimentés dans des classes de grammaire. D'autres points de grammaire française ou étrangère pourront être traités selon ces modèles. Cette approche tendant à réconcilier exhaustivité et facilite d'emploi représente une source d'information pratique pour des spécialistes, auteurs de grammaire, enseignants.

31

Hathout, Nabil. "Théorie du gourvernement et du liage et programmation logique avec contraintes : une application à l'analyse automatique du français." Toulouse 3, 1992. http://www.theses.fr/1992TOU30200.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail presente dans cette these s'inscrit dans le cadre de l'analyse automatique, basee sur la theorie du gouvernement et du liage, des langues naturelles. La theorie du gouvernement et du liage (abrege gb) stipule que la grammaire est composee d'un petit nombre de contraintes syntaxiques ou principes auxquels sont associes un ensemble de quelques parametres. L'un des objectifs de cette these est de proposer une implementation de certains de ces principes sous la forme de contraintes analogues a celles utilisees en programmation logique avec contraintes. Une partie importante de ce memoire est consacree a la description en logique du premier ordre des notions, des relations et des principes utilises pour analyser, dans le cadre de la theorie gb, les phrases d'un fragment du francais. Une architecture modulaire d'un analyseur syntaxique est ensuite proposee. Cette architecture comprend un module de projection et un module d'integration qui tous deux utilisent un resolveur pour traiter les contraintes a l'aide desquelles sont formules les principes de gb; ces contraintes sont les relations de base de gb comme domine, c-commande, l-marque, categorie bloquante, etc. Le resolveur de contraintes traite les relations de base de gb a l'aide des techniques de consistance. Il est egalement base sur une notion de restriction des domaines de quantification des variables qui apparaissent dans les contraintes. La mise en uvre de ces restrictions des quantifications est effectuee par un module de calcul des domaines et des completudes qui remplit egalement, par rapport au resolveur de contraintes, une fonction de mecanisme de gel specialise. Une implementation des modules de projection et d'integration de meme que des composants essentiels du resolveur (resolveur auxiliaire, module de calcul des domaines et des completudes, module de filtrage) a ete realisee en sicstus prolog

32

Lepage, Yves. "Un système de grammaires correspondancielles d'identification." Grenoble 1, 1989. http://www.theses.fr/1989GRE10059.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Proposition d'un langage de programmation déclaratif ou les objets de base sont des planches. Une planche exprime la correspondance entre une chaine et un arbre. Le système propose expose sur l'identification, les variables y étant non pas des variables de termes, mais des variables de forêts

33

Hatmi, Mohamed. "Reconnaissance des entités nommées dans des documents multimodaux." Nantes, 2014. http://archive.bu.univ-nantes.fr/pollux/show.action?id=022d16d5-ad85-43fa-9127-9f1d9d89db14.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La reconnaissance des entités nommées est une sous-tâche de l’activité d’extraction d’information. Elle consiste à identifier certains objets textuels tels que les noms de personne, d’ organisation et de lieu. Le travail de cette thèse se concentre sur la tâche de reconnaissance des entités nommées pour la modalité orale. Cette tâche pose un certain nombre de difficultés qui sont inhérentes aux caractéristiques intrinsèques du traitement de l’oral (absence de capitalisation, manque de ponctuation, présence de disfluences et d’erreurs de reconnaissance. . . ). Dans un premier temps, nous étudions les spécificités de la reconnaissance des entités nommées en aval du système de reconnaissance automatique de la parole. Nous présentons une méthode pour la reconnaissance des entités nommées dans les transcription de la parole en adoptant une taxonomie hiérarchique et compositionnelle. Nous mesurons l’impact des différents phénomènes spécifiques à la parole sur la qualité de reconnaissance des entités nommées. Dans un second temps, nous proposons d’étudier le couplage étroit entre la tâche de transcription de la parole et la tâche de reconnaissance des entités nommées. Dans ce but, nous détournons les fonctionnalités de base d’un système de transcription de la parole pour le transformer en un système de reconnaissance des entités nommées. Ainsi, en mobilisant les connaissances propres au traitement de la parole dans le cadre de la tâche liée à la reconnaissance des entités nommées, nous assurons une plus grande synergie entre ces deux tâches. Nous menons différents types d’expérimentations afin d’optimiser et d’évaluer notre approche
Named entity recognition is a subtask of information extraction. It consists of identifying some textual objects such as person, location and organization names. The work of this thesis focuses on the named entity recognition task for the oral modality. Some difficulties may arise for this task due to the intrinsic characteristics of speech processing (lack of capitalisation marks, lack of punctuation marks, presence of disfluences and of recognition errors. . . ). In the first part, we study the characteristics of the named entity recognition downstream of the automatic speech recognition system. We present a methodology which allows named entity recognition following a hierarchical and compositional taxonomy. We measure the impact of the different phenomena specific to speech on the quality of named entity recognition. In the second part, we propose to study the tight pairing between the speech recognition task and the named entity recognition task. For that purpose, we take away the basic functionnalities of a speech recognition system to turn it into a named entity recognition system. Therefore, by mobilising the inherent knowledge of the speech processing to the named entity recognition task, we ensure a better synergy between the two tasks. We carry out different types of experiments to optimize and evaluate our approach

34

Striegnitz, Kristina. "Génération d'expressions anaphoriques : Raisonnement contextuel et planification de phrases." Nancy 1, 2004. http://www.theses.fr/2004NAN10186.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur le raisonnement contextuel impliqué par la production d'expressions anaphoriques dans un système de génération de langue naturelle. Plus précisément, nous proposons des stratégies pour générer deux types d'anaphore n'ayant encore jamais été considérés dans la génération : les anaphores associatives et les adverbes additifs. Dans ce but, nous formalisons tout d'abord les conditions contextuelles déterminant l'usage de ces expressions. Cette formalisation est basée sur des notions linguistiques, et étend les approches antérieures de génération d'anaphores co-référentielles. Ensuite, nous spécifions les tâches de raisonnement à effectuer pour vérifier ces conditions contextuelles. Nous décrivons comment ces tâches peuvent être implémentées en utilisant un système d'inférence pour les logiques de description, et nous comparons notre approche à des approches alternatives utilisant d'autres systèmes d'inférence. Pour finir, nous décrivons une implémentation expérimentale de notre approche
This thesis investigates the contextual reasoning involved in the production of anaphoric expressions in natural language generation systems. More specifically, I propose generation strategies for two types of discourse anaphora which have not been treated in generation before: bridging descriptions and additive particles. To this end the contextual conditions that govern the use of these expressions have to be formalized. The formalization that I propose is based on notions from linguistics and extends previous approaches to the generation of co-referential anaphora. I then specify the reasoning tasks that have to be carried out in order to check the contextual conditions. I describe how they can be implemented using a state-of-the-art reasoning system for description logics, and I compare my proposal to alternative approaches using other kinds of reasoning tools. Finally, I describe an experimental implementation of the proposed approach

35

Dupont, Michel. "Une approche cognitive du calcul de le référence." Caen, 2003. http://www.theses.fr/2003CAEN2084.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous proposons des modèles qui correspondent aux différentes acceptions de l'expression calcul de la référence. Ce que nous appelons la construction du sens correspond au calcul de la référence au sens le plus large. Ce calcul résulte d'une interaction entre modules spécialisés et tient compte des anticipations que fait le lecteur. Nous estimons avoir validé l'aspect modulaire de ce modèle dans le cadre d'un travail d'équipe sur l'Extraction d'Information. Nous proposons aussi un modèle de l'identification des entités qui correspond au calcul de la référence dans un sens plus étroit. Nous voulons identifier une entité quand le système lit une marque linguistique qui y fait référence. Le modèle des attentes donne alors à tout moment le degré de mobilisation de l'attention portée par le lecteur sur les entités. C'est ce que nous appelons la saillance des entités que nous représentons par une valeur numérique. Nous avons conçu le logiciel Calcoref qui édite les chaînes de coréférences du texte qui lui est donné en entrée. Notre système réalise un score de 88% en f-mesure sur un texte contenant 54 relations de coréférences. L'évaluation qualitative débouche sur la spécification d'une prochaine version qui devrait amener une validation encore plus probante. Le développement incrémental de Calcoref est un projet à long terme qui vise des objectifs de recherche fondamentale en validant les grandes lignes d'une théorie et en permettant de la développer plus en détail. Calcoref est conçu pour mener des expériences et nous espérons qu'il aidera à mieux comprendre des phénomènes référentiels.

36

Widlöcher, Antoine. "Analyse macro-sémantique des structures rhétoriques du discours : cadre théorique et modèle opératoire." Caen, 2008. http://www.theses.fr/2008CAEN2042.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le domaine du Traitement Automatique des Langues (TAL), notre étude porte sur l'analyse des structures rhétoriques du discours, c'est-à-dire des stéréotypes organisationnels qui participent au cheminement argumentatif des textes. Nous visons la constitution d'un cadre théorique et opérationnel général, permettant la modélisation et l'exploration computationnelle d'une variété significative de telles structures. Nous proposons notamment d'articuler leur analyse autour des trois catégories élémentaires que sont unités, relations et schémas, et envisageons différentes propriétés récurrentes des structures et des mécanismes indiciaires sous-jacents: variabilité du grain, flexibilité, non-linéarité et non-séquentialité potentielles, interactions local/global. . . Afin de procéder à la description formelle des phénomènes linguistiques étudiés et à l'opérationalisation de leur analyse sur corpus, nous proposons le formalisme CDML (Contraint-based Discourse Modeling Language), qui permet de modéliser des structures discursives par l'expression de contraintes sur des objets textuels de différentes natures (morphologique, syntaxique, sémantique. . . ), à différents niveaux de grain. Un analyseur permet de projeter ces contraintes sur corpus pour identifier les structures décrites. Deux études de cas ont par ailleurs été entreprises, sur deux types de structures significativement différentes, qui illustrent nos principes d'analyses, notre modèle formel et notre méthode d'opérationalisation. La première porte sur l'hypothèse de l'encadrement du discours de M. Charolles, et la seconde explore les relations de contraste à différentes échelles, entre des objets linguistiques variés
In the general field of Natural Language Processing (NLP), this work concerns the analysis of the rhetorical structure of discourse, which consists in the argumentative organization of texts through various stereotypes. Our main goal was to define a theoretical and computational framework allowing formal modeling and automatic exploration of various discursive structures involved in this textual organization. We notably propose to describe those structures using the three elementary categories of units, relations and schemas, and outline recurrent properties of discursive patterns and clues which signal their presence: variable granularity, fuzziness, possible non-linearity and non-sequentiality, local/global interactions. . . In order to give a formal description of the studied linguistic phenomena and to make their computational analysis possible, in a corpus-based approach, we propose the CDML formalism (Contraint-based Discourse Modeling Language). It allows to design formal models of discursive patterns by means of constraints expressed on textual objects whose nature (morphologic, syntactic, semantic. . . ) and whose granularity level may vary. A CDML parser has been implemented and may be used to apply such a formal description to a corpus and automatically detect textual structures satisfying the given constraints. In addition, we present two case studies dedicated to significantly different discursive patterns and illustrating our analysis principles, formal model and computational approach. The first one concerns Charolles' discourse framing theory. The second considers contrastive relations between various kind of textual objects, at different granularity levels

37

Choumane, Ali. "Traitement générique des références dans le cadre multimodal parole-image-tactile." Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/choumane.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous nous intéressons dans cette thèse aux systèmes de communication homme-machine multimodale qui utilisent les modes suivants : la parole, le geste et le visuel. L'usager communique avec le système par un énoncé oral en langue naturelle et/ou un geste. Dans sa requête, encodée sur les différentes modalités, l'usager exprime son but et désigne des objets (référents) nécessaires à la réalisation de ce but. Le système doit identifier de manière précise et non ambiguë ces objets désignés. Afin d'améliorer la compréhension automatique des requêtes multimodales dans ce contexte, nous proposons un ensemble générique de traitement des modalités, de fusion et de résolution des expressions référentielles. Les principaux aspects de la réalisation consistent en les modélisations du traitement de la langue naturelle dans le contexte de la parole, du traitement du geste et du contexte visuel (utilisation de la saillance visuelle) en prenant en compte les difficultés inhérentes en contexte de la communication multimodale : erreur de reconnaissance de la parole, ambiguïté de la langue naturelle, imprécision du geste due à la performance de l'usager, ambiguïté dans la désignation due à la perception des objets affichés ou à la topologie de l'affichage. Pour l'interprétation complète de la requête nous proposons une méthode de fusion/vérification des résultats des traitements de chaque modalité pour trouver les objets désignés par l'usager
We are interested in multimodal human-computer communication systems that use the following modes: speech, gesture and vision. The user communicates with the system by oral utterance in natural language and/or by gesture. The user's request contains his/her goal and the designation of objects (referents) required to the goal realisation. The system should identify in a precise and non ambiguous way the designated objects. In this context, we aim to improve the understanding process of multimodal requests. Hence, we propose a generic set of processing of modalities, for fusion and for reference resolution. The main aspects of the realisation consist in modeling the natural language processing in speech environment, the gesture processing and the visual context (visual salience use) while taking into account the difficulties in multimodal context: speech recognition errors, natural language ambiguity, gesture imprecision due to the user performance, designation ambiguity due to the perception of the displayed objects or to the display topology. To complete the interpretation of the user's request, we propose a method for fusion/verification of modalities processing results to find the designated objects by the user

38

rossignol, mathias. "Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle." Rennes 1, 2005. https://tel.archives-ouvertes.fr/tel-00524299.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Certaines applications de TAL requièrent des informations sémantiques spécifiques à un domaine ou à une tâche donnée. Nous présentons en réponse à ce besoin une méthodologie d'acquisition automatique sur corpus d'informations lexicales sémantiques en trois étapes, fondée sur la Sémantique interprétative de F. Rastier. Dans un premier temps, nous parvenons à caractériser et détecter de manière totalement automatique les thèmes abordés dans un corpus, ce qui permet un découpage du vocabulaire en domaines. Les mots de ces domaines sont ensuite classés selon la ressemblance de leurs contextes d'emploi afin de constituer des taxèmes, classes sémantiques de mots de sens très proches. Enfin, nous mettons au jour au sein de ces taxèmes des sèmes spécifiques, différences de sens fines entre mots. Nous combinons au cours de ce travail étude linguistique et mise au point de méthodes statistiques originales afin d'atteindre un degré de définition du sens encore inédit en acquisition automatique.

39

CHAO, HUI LAN. "Comprehension automatique de phrases interrogatives francaises et chinoises : application dans le cadre de l'interrogation de bases de donnees." Besançon, 1998. http://www.theses.fr/1998BESA1005.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Pour faciliter la communication homme-machine, et plus particulierement, l'extraction d'informations a partir des systemes de gestion de bases de donnees (sgbd), notre recherche a pour objectif d'elaborer une interface permettant l'interrogation de bases de donnees en langage naturel. Nous avons avance une methodologie unifiee: non seulement elle permet de traiter deux langues tres eloignees, en l'occurrence le francais et le chinois, mais encore elle reussit a fusionner les deux approches distinctes: l'approche semantique et l'approche syntaxique. Notre analyse automatique des phrases interrogatives mene a la transcription en syntaxe du langage sql en raison de leur rapprochement. Comme sql est un langage de requetes tres repandu dans les sgbd, cette strategie permettra la generalisation de notre interface. Malgre sa convivialite, sql demeure un langage de machine qui est rigide et qui n'admet pas les imprecisions inherentes au langage naturel. Dans les phrases interrogatives visant a extraire des informations a partir d'une base de donnees, les imprecisions proviennent surtout des adjectifs evaluatifs tels que 'bon', 'mauvais', etc. Et de leurs modificateurs comme 'tres', 'plutot', etc. Nous introduisons donc la technique de la logique floue qui consiste a traiter cet aspect problematique de maniere precise. Notre recherche debouche sur la mise en oeuvre du systeme sibdln qui sert d'interface a interroger les bases de donnees en langage naturel. Mais, avant sa mise en service au grand public, l'intervention d'un developpeur est necessaire afin d'etablir, en plus de notre dictionnaire de base, un dictionnaire adapte aux bases de donnees appliquees. Pour cette raison, notre systeme fournit egalement une interface facilitant le travail du developpeur. Ainsi, sibdln est extensible a toutes les bases de donnees
In view of facilitating the communication between human beings and machines, especially the information extraction from databases, our research aims at elaborating an interface permitting data retrieval in natural language. We propose an unified methodology: not only it enables the processing of two distinct languages, french and chinese, but also it achieves the fusion of two approches, semantic oriented and syntaxic oriented approches. Our automatic analysis of interrogarative phrases leads to the transcription in sql syntaxe with the consideration of their resemblances. Sql is a standard query language, supported by a great many databases management systems. This strategy will facilitate the generalization of our interface. Despite of its friendliness, sql remainds to be a machine language intolerant of imprecisions inherent in natural language. We introduce thus the technique of fuzzy logic to solve this problem. Our researche leads finally to the implementation of a software named sidbln permitting the natural language query of databases

40

Smits, Grégory. "Une approche par surclassement pour le contrôle d'un processus d'analyse linguistique." Caen, 2008. http://www.theses.fr/2008CAEN2014.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les systèmes de Traitement Automatique des Langues Naturelles (TALN) sont de manière récurrente confrontés au problème de la génération et de la propagation d’hypothèses concurrentes et erronées. Afin d’écarter ces erreurs d’interprétation du processus d’analyse, il apparaît indispensable d’avoir recours à des stratégies spécifiques de contrôle dont l’objectif est de différencier les hypothèses concurrentes selon leur degré de pertinence. Sur la plupart des cas d’indétermination observés, on constate que cette évaluation de la pertinence relative des hypothèses repose sur l’exploitation de plusieurs sources de connaissances hétérogènes, qui doivent être combinées pour garantir un contrôle robuste et fiable. À partir de ce constat, nous avons montré que le traitement des indéterminations répondait à une formalisation générique en tant que problème décisionnel basé sur de multiples critères de comparaison. Cette formalisation et la recherche d’une méthodologie adaptée nous ont conduit vers une approche par surclassement issue des travaux en Aide MultiCritère à la Décision (AMCD). Par rapport aux méthodes alternatives, cette approche se différentie notamment par l’importance qu’elle accorde aux connaissances et préférences qu’un expert est en mesure d’apporter sur le problème traité. À partir de cette intersection novatrice entre le TALN et l’AMCD, nos travaux se sont focalisés sur le développement d’un module décisionnel de contrôle multicritère. L’intégration de ce module au sein d’un système complet de TALN nous a permis d’attester d’une part la faisabilité de notre approche et d’autre part de l’expérimenter sur différents cas concrets d’indétermination
Natural Language Processing (NLP) systems are continuously faced with the problem of generating concurrent hypotheses, of which some can be erroneous. In order to avoid the propagation of erroneous hypotheses, it appears to be essential to apply specific control strategies, which aim to distinguishing concurrent hypotheses based on their relevance. On most of observed indetermination cases, we have noticed that multiple heterogeneous knowledge sources have to be combined to determine the hypotheses relative relevance. According to this observation, we show that the control of the indetermination cases can be formalised as a decisional process based on multiple criteria. This decisional formalisation and our research of an adapted methodology have conducted us toward an outranking approach issued from the MultiCriteria Decision Aid (MCDA) paradigm. This approach differs from alternative methods by the importance granted to knowledge and preferences that an expert can express about a given problem. From this innovative intersection between NLP and MCDA, our work has been focalised on the development of a decisional module dedicated to multicriteria control. The integration of this module into a complete NLP system has allowed us to attest the feasibility of our approach and to perform experimentation on concrete indetermination cases

41

Trybocki, Christine. "Elaboration d'un modèle conceptuel pour les bases de données lexicales." Aix-Marseille 3, 1995. http://www.theses.fr/1995AIX30088.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Depuis une dizaine d'annees, des equipes scientifiques et des editeurs se penchent sur la transformation des dictionnaires editoriaux en bases de donnees destinees aux applications en langage naturel ou a la diffusion publique sous forme de cd-rom. Notre objectif ici est de decrire un nouveau schema de base de donnees dictionnairiques qui comble les manques des precedents modeles. Avant l'elaboration de ce schema, nous avons pris soin d'observer en detail plusieurs dictionnaires. En raison de leur structuration arbitraire, nous avons mis de cote le concept d'entree et propose une nouvelle unite dictionnairique. Nous avons defini formellement notre modele grace a un outil de reference: sgml, et nous avons choisi une representation informatique basee sur la representation objet. Enfin, nous avons constate sa validite sur un dictionnaire monolingue francais

42

Lin, Huei-Chi. "Un module NooJ pour le traitement automatique du chinois : formalisation du vocabulaire et des têtes de groupes nominaux." Besançon, 2010. http://www.theses.fr/2010BESA1025.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette étude présente le développement du module d’analyse automatique du chinois qui permet de reconnaître dans les textes les unités lexicales en chinois moderne puis les groupes nominaux noyaux. Pour atteindre ces deux objectifs principaux, nous devions résoudre les problèmes suivants : 1) identifier les unités lexicales en chinois moderne ; 2) déterminer leurs catégories ; 3) décrire la structure de syntaxe locale et des groupes nominaux noyaux. C’est ainsi que nous avons été amenée à constituer d’abord un corpus regroupant des textes littéraires et journalistiques publiés au XXe siècle. Ces textes sont écrits en chinois moderne avec des caractères traditionnels. Grâce à ces données textuelles, nous avons pu recueillir des informations linguistiques telles qu’unités lexicales, structures syntagmatiques ou règles grammaticales. Ensuite, nous avons construit des dictionnaires électroniques dans lesquels chaque unité lexicale est représentée par une entrée, à laquelle sont associées des informations linguistiques telles que catégories lexicales, classes de distribution sémantique ou descriptions formelles de certaines formes lexicales. À ce stade, nous avons cherché à identifier les unités lexicales du lexique chinois et leurs catégories en les recensant. Grâce à cette liste, l’analyseur lexical peut traiter des unités lexicales de différents types, en bloc, sans les découper en composants. Ainsi, on traite les unités lexicales suivantes comme des unités atomiques : 理髮lǐfǎ ‘faire la coiffure’. 放假fàngjià ‘être en vacances’. 刀子口dāozikǒu ‘parole cruelle’. 研究員yánjiū / jiù yuán ‘chercheur’. 翻譯系統fānyì xìtǒng ‘système de traduction’. 浪漫主義làngmàn zhŭyì ‘romantisme’. Puis, nous avons décrit de manière formelle un certain nombre de syntagmes locaux, ainsi que cinq types de groupes nominaux noyaux. Enfin, nous avons utilisé le module chinois ainsi développé pour étudier l’évolution thématique dans les textes littéraires
This study presents the development of a module for the automatic parsing of Chinese that will allow to recognize automatically lexical units in modern Chinese, as well as central Noun Phrases in texts. In order to reach these two principle objectives, we solved the following problems: 1) identify lexical units in modern Chinese ; 2) determine their categories ; 3) describe certain local syntactic structures as well as the structure of central Noun Phrases. Firstly we constructed a corpus regrouping literary and journalistic texts published in the XXth century. These texts are written in modern Chinese with traditional characters. Thanks to textual data, we could collect linguistic information such as lexical units, syntagmatic structures or grammatical rules. Then, we constructed several electronic dictionaries in which each entry represents a lexeme, with which is associated linguistic information such as its lexical category, its semantic distributional class or certain formal properties. At this stage, we tried to identify the lexical units of Chinese lexicon and their categories in order to list them. Thanks to this list, an automatic lexical analyzer can process various types of lexical units in bloc, without deconstructing them in components. For instance, the lexical parser processes the following lexical units as atomic units : 理髮lǐfà / fǎ ‘have a haircut’. 放假fàngjià ‘have vacation’. 刀子口dāozikǒu ‘straight talk’. 研究員yánjiū / jiù yuán ‘researcher’. 翻譯系統fānyì xìtǒng ‘translation system’. 浪漫主義làngmàn zhŭyì ‘romanticism’. Then, we described formally certain local syntagms and five types of central Noun Phrases. Finally, we used this Chinese module to study thematic evolution in literary texts

43

Abdellatif, Emir. "Classification sémantico-syntaxique des adjectivaux prédicatifs." Paris 13, 2004. http://www.theses.fr/2004PA131005.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les études sur le figement ont été remises à l'honneur par le traitement automatique des langues naturelles. En effet, la fréquence des expressions figées dans les textes rend leur description indispensable. Pour cette raison, nous avons entrepris l'analyse des adjectivaux prédicatifs. Ainsi sur la base du modèle des classes d'objets, nous avons élaboré une typologie sémantico-syntaxique de ces suites. Notre recherche a pour objectif final la création d'un dictionnaire électronique des adjectivaux prédicatifs. Ce travail s'articule autour de trois points essentiels : le figement des adjectivaux, leurs propriétés définitionnelles et enfin leur classification fondée sur des propriétés distributionnelles communes
Computationnal linguistics have questioned former studies on fixation. Indeed, it has become essential to describe set expressions given their frequency in texts. This study sets about examining predicate adjectivals in this setting. Taking object classes as a model, a semantico-syntactic typology has been worked out for these sequences. The final objective of our analysis is to create an electronic dictionary of predicate adjectivals. This dissertation communicates three essential points: fixation of adjectivals, their definitions and their classification based on common distributional properties

44

Mesfar, Slim. "Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard." Besançon, 2008. http://www.theses.fr/2008BESA1022.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La langue arabe, bien que très importante par son nombre de locuteurs, elle présente des phénomènes morpho-syntaxiques très particuliers. Cette particularité est liée principalement à sa morphologie flexionnelle et agglutinante, à l’absence des voyelles dans les textes écrits courants, et à la multiplicité de ses formes, et cela induit une forte ambiguïté lexicale et syntaxique. Il s'ensuit des difficultés de traitement automatique qui sont considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduit à utiliser la plateforme linguistique NooJ. Nous commençons par une étude suivie d’une formalisation à large couverture du vocabulaire de l’arabe. Le lexique construit, nommé «El-DicAr», permet de rattacher l’ensemble des informations flexionnelles, morphologiques, syntactico-sémantiques à la liste des lemmes. Les routines de flexion et dérivation automatique à partir de cette liste produisent plus de 3 millions de formes fléchies. Nous proposons un nouveau compilateur de machines à états finis en vue de pouvoir stocker la liste générée de façon optimale par le biais d’un algorithme de minimisation séquentielle et d’une routine de compression dynamique des informations stockées. Ce dictionnaire joue le rôle de moteur linguistique pour l’analyseur morpho-syntaxique automatique que nous avons implanté. Cet analyseur inclut un ensemble d’outils: un analyseur morphologique pour le découpage des formes agglutinées en morphèmes à l’aide de grammaires morphologiques à large couverture, un nouvel algorithme de parcours des transducteurs à états finis afin de traiter les textes écrits en arabe indépendamment de leurs états de voyellation, un correcteur des erreurs typographiques les plus fréquentes, un outil de reconnaissance des entités nommées fondé sur une combinaison des résultats de l’analyse morphologique et de règles décrites dans des grammaires locales présentées sous forme de réseaux augmentés de transitions (ATNs), ainsi qu’un annotateur automatique et des outils pour la recherche linguistique et l’exploration contextuelle. Dans le but de mettre notre travail à la disposition de la communauté scientifique, nous avons développé un service de concordances en ligne «NooJ4Web: NooJ pour la Toile» permettant de fournir des résultats instantanés à différents types de requêtes et d’afficher des rapports statistiques ainsi que les histogrammes correspondants. Les services ci-dessus cités sont offerts afin de recueillir les réactions des divers usagers en vue d’une amélioration des performances. Ce système est utilisable aussi bien pour traiter l’arabe, que le français et l’anglais
The Arabic language, although very important by the number of its speakers, it presents special morpho-syntactic phenomena. This particularity is mainly related to the inflectional and agglutinative morphology, the lack of vowels in currents written texts, and the multiplicity of its forms; this induces a high level of lexical and syntactic ambiguity. It follows considerable difficulties for the automatic processing. The selection of a linguistic environment providing powerful tools and the ability to improve performance according to our needs has led us to use the platform language NooJ. We begin with a study followed by a large-coverage formalization of the Arabic lexicon. The built dictionary, baptised "El-DicAr" allows to link all the inflexional, morphological, syntactico-semantic information to the list of lemmas. Automatic inflexional and derivational routines applied to this list produce more than 3 million inflected forms. We propose a new finite state machine compiler that leads to an optimal storage through a combination of a sequential minimization algorithm and a dynamic compression routine for stored information. This dictionary acts as the linguistic engine for the automatic morpho-syntactic analyzer that we have developed. This analyzer includes a set of tools: a morphological analyzer that identifies the component morphemes of agglutinative forms using large coverage morphological grammars, a new algorithm for looking through finite-state transducers in order to deal with texts written in Arabic with regardless of their vocalisation statements, a corrector of the most frequent typographical errors, a named entities recognition tool based on a combination of the morphological analysis results and rules described into local grammar presented as Augmented Transition Networks ( ATNS), an automatic annotator and some tools for linguistic research and contextual exploration. In order to make our work available to the scientific community, we have developed an online concordance service “NooJ4Web: NooJ for the Web”. It provides instant results to different types of queries and displays statistical reports as well as the corresponding histograms. The listed services are offered in order to collect feedbacks and improve performance. This system is used to process Arabic, as well as French and English

45

Tannier, Xavier. "Extraction et recherche d'information en langage naturel dans les documents semi-structurés." Phd thesis, Ecole Nationale Supérieure des Mines de Saint-Etienne, 2006. http://tel.archives-ouvertes.fr/tel-00121721.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La recherche d'information (RI) dans des documents semi-structurés
(écrits en XML en pratique) combine des aspects de la RI
traditionnelle et ceux de l'interrogation de bases de données. La
structure a une importance primordiale, mais le besoin d'information
reste vague. L'unité de recherche est variable (un paragraphe, une
figure, un article complet\dots). Par ailleurs, la flexibilité du
langage XML autorise des manipulations du contenu qui provoquent
parfois des ruptures arbitraires dans le flot naturel du texte.

Les problèmes posés par ces caractéristiques sont nombreux, que ce
soit au niveau du pré-traitement des documents ou de leur
interrogation. Face à ces problèmes, nous avons étudié les solutions
spécifiques que pouvait apporter le traitement automatique de la
langue (TAL). Nous avons ainsi proposé un cadre théorique et une
approche pratique pour permettre l'utilisation des techniques
d'analyse textuelle en faisant abstraction de la structure. Nous avons
également conçu une interface d'interrogation en langage naturel pour
la RI dans les documents XML, et proposé des méthodes tirant profit de
la structure pour améliorer la recherche des éléments pertinents.

46

Dehouck, Mathieu. "Multi-lingual dependency parsing : word representation and joint training for syntactic analysis." Thesis, Lille 1, 2019. http://www.theses.fr/2019LIL1I019/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les parsers en dépendances modernes ont des résultats comparables à ceux d'experts humains. Cependant, ils sont encore gourmands en données annotées et ces données ne sont disponibles que pour quelques langues. Pour rendre l'analyse syntaxique accessible aussi aux langues peu dotées, de nombreuses méthodes sont apparues comme le transfert de modèle ou d'annotation. Dans cette thèse, nous proposons de nouvelles méthodes de partage de l'information entre plusieurs langues en utilisant leurs traits grammaticaux communs.Nous utilisons cette morphologie partagée pour apprendre des représentations de mots délexicalisés qui aideront l'apprentissage de modèles d'analyse syntaxique. Nous proposons aussi une nouvelle méthode d'apprentissage nommée apprentissage phylogénétique qui utilise l'arbre généalogique des langues pour guider l'apprentissage des modèles. Enfin, à l'aide de notre mesure de la complexité morphosyntaxique nous étudions le rôle de la morphologie pour l'analyse en dépendances
While modern dependency parsers have become as good as human experts, they still rely heavily on hand annotated training examples which are available for a handful of languages only. Several methods such as model and annotation transfer have been proposed to make high quality syntactic analysis available to low resourced languages as well. In this thesis, we propose new approaches for sharing information across languages relying on their shared morphological features. In a fist time, we propose to use shared morphological features to induce cross-lingual delexicalised word representations that help learning syntactic analysis models. Then, we propose a new multi-task learning framework called phylogenetic learning which learns models for related tasks/languages guided by the tasks/languages evolutionary tree. Eventually, with our new measure of morphosyntactic complexity we investigate the intrinsic role of morphological information for dependency parsing

47

Bedaride, Paul. "Implication Textuelle et Réécriture." Phd thesis, Université Henri Poincaré - Nancy I, 2010. http://tel.archives-ouvertes.fr/tel-00541581.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse propose plusieurs contributions sur le thème de la détection d'implications textuelles (DIT). La DIT est la capacité humaine, étant donné deux textes, à pouvoir dire si le sens du second texte peut être déduit à partir de celui du premier. Une des contributions apportée au domaine est un système de DIT hybride prenant les analyses d'un analyseur syntaxique stochastique existant afin de les étiqueter avec des rôles sémantiques, puis transformant les structures obtenues en formules logiques grâce à des règles de réécriture pour tester finalement l'implication à l'aide d'outils de preuve. L'autre contribution de cette thèse est la génération de suites de tests finement annotés avec une distribution uniforme des phénomènes couplée avec une nouvelle méthode d'évaluation des systèmes utilisant les techniques de fouille d'erreurs développées par la communauté de l'analyse syntaxique permettant une meilleure identification des limites des systèmes. Pour cela nous créons un ensemble de formules sémantiques puis nous générons les réalisations syntaxiques annotées correspondantes à l'aide d'un système de génération existant. Nous testons ensuite s'il y a implication ou non entre chaque couple de réalisations syntaxiques possible. Enfin nous sélectionnons un sous-ensemble de cet ensemble de problèmes d'une taille donnée et satisfaisant un certain nombre de contraintes à l'aide d'un algorithme que nous avons développé.

48

Stroppa, Nicolas. "Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles." Phd thesis, Télécom ParisTech, 2005. http://tel.archives-ouvertes.fr/tel-00145147.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le panorama du Traitement Automatique des Langues est dominé par deux familles d'approches~: dans la première, la connaissance linguistique s'exprime sous forme de règles (grammaticales pour le traitement syntaxique, d'inférence pour le traitement sémantique, etc.), et de représentations sur lesquelles ces règles opèrent. La deuxième repose sur l'hypothèse d'un modèle probabiliste sous-jacent aux données, modèle dont les paramètres s'infèrent à partir de corpus de données linguistiques annotées. Ces deux familles de méthodes, bien qu'efficaces pour nombre d'applications, présentent de sérieuses limitations. Pour la première, il s'agit de la difficulté et du coût de construction des bases de connaissances de haute qualité~: les experts sont rares et la connaissance accumulée sur un domaine $X$ ne se transporte pas toujours simplement sur un autre domaine $Y$. Les méthodes probabilistes, quant à elles, ne traitent pas naturellement les objets fortement structurés, ne prévoient pas d'inclusion de connaissances linguistiques explicites, et surtout, reposent lourdement sur le choix a priori d'un certain modèle, puisqu'utilisant principalement des techniques de statistiques paramétriques.

Dans le cadre d'un apprentissage automatique de données linguistiques, des modèles inférentiels alternatifs ont alors été proposés qui remettent en cause le principe d'abstraction opéré par les règles ou les modèles probabilistes. Selon cette conception, la connaissance linguistique reste implicitement représentée dans le corpus accumulé. Dans le domaine de l'Apprentissage Automatique, les méthodes suivant les même principes sont regroupées sous l'appellation d'apprentissage \og{}paresseux\fg{}. Ces méthodes reposent généralement sur le biais d'apprentissage suivant~: si un objet $Y$ est \og{}proche\fg{} d'un objet $X$, alors son analyse $f(Y)$ est un bon candidat pour $f(X)$. Alors que l'hypothèse invoquée se justifie pour les applications usuellement traitées en Apprentissage Automatique, la nature structurée et l'organisation paradigmatique des données linguistiques suggèrent une approche légèrement différente. Pour rendre compte de cette particularité, nous étudions un modèle reposant sur la notion de \og{}proportion analogique\fg{}. Dans ce modèle, l'analyse $f(T)$ d'un nouvel objet $T$ s'opère par identification d'une proportion analogique avec des objets $X$, $Y$ et $Z$ déjà connus. L'hypothèse analogique postule ainsi que si \lana{X}{Y}{Z}{T}, alors \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$f(T)$}. Pour inférer $f(T)$ à partir des $f(X)$, $f(Y)$, $f(Z)$ déjà connus, on résout l'\og{}équation analogique\fg{} d'inconnue $I$~: \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$I$}.

Nous présentons, dans la première partie de ce travail, une étude de ce modèle de proportion analogique au regard d'un cadre plus général que nous qualifierons d'\og{}apprentissage par analogie\fg{}. Ce cadre s'instancie dans un certain nombre de contextes~: dans le domaine des sciences cognitives, il s'agit de raisonnement par analogie, faculté essentielle au c\oe{}ur de nombreux processus cognitifs~; dans le cadre de la linguistique traditionnelle, il fournit un support à un certain nombre de mécanismes tels que la création analogique, l'opposition ou la commutation~; dans le contexte de l'apprentissage automatique, il correspond à l'ensemble des méthodes d'apprentissage paresseux. Cette mise en perspective offre un éclairage sur la nature du modèle et les mécanismes sous-jacents.

La deuxième partie de notre travail propose un cadre algébrique unifié, définissant la notion de proportion analogique. Partant d'un modèle de proportion analogique entre chaînes de symboles, éléments d'un monoïde libre, nous présentons une extension au cas plus général des semigroupes. Cette généralisation conduit directement à une définition valide pour tous les ensembles dérivant de la structure de semigroupe, permettant ainsi la modélisation des proportions analogiques entre représentations courantes d'entités linguistiques telles que chaînes de symboles, arbres, structures de traits et langages finis. Des algorithmes adaptés au traitement des proportions analogiques entre de tels objets structurés sont présentés. Nous proposons également quelques directions pour enrichir le modèle, et permettre ainsi son utilisation dans des cas plus complexes.

Le modèle inférentiel étudié, motivé par des besoins en Traitement Automatique des Langues, est ensuite explicitement interprété comme une méthode d'Apprentissage Automatique. Cette formalisation a permis de mettre en évidence plusieurs de ses éléments caractéristiques. Une particularité notable du modèle réside dans sa capacité à traiter des objets structurés, aussi bien en entrée qu'en sortie, alors que la tâche classique de classification suppose en général un espace de sortie constitué d'un ensemble fini de classes. Nous montrons ensuite comment exprimer le biais d'apprentissage de la méthode à l'aide de l'introduction de la notion d'extension analogique. Enfin, nous concluons par la présentation de résultats expérimentaux issus de l'application de notre modèle à plusieurs tâches de Traitement Automatique des Langues~: transcription orthographique/phonétique, analyse flexionnelle et analyse dérivationnelle.

49

Bouali, Monia. "L'actualisation aspectuelle des adjectivaux prédicatifs : le cas du changement d'état." Paris 13, 2007. http://www.theses.fr/2007PA131029.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Un prédicat peut prendre différentes formes morphologiques. Or, chaque forme a des emplois et une actualisation qui lui sont propres. Un adjectival prédicatif (à la mode) est une unité polylexicale qui répond aux critères définitionnels d’un adjectif simple (élégant). En revanche, son actualisation est beaucoup plus riche que celle d’un adjectif simple. Il s’agit d’un ensemble d’actualisateurs, composé de verbes supports, d’opérateurs causatifs et d’adverbes qui l’inscrivent dans la phrase. Ce travail est une contribution aux travaux menés au LDI sur l’élaboration des classes sémantiques des prédicats d’<états>. S’intéresser à l’actualisation des adjectivaux prédicatifs pour établir une typologie des marqueurs de changement d’état, a permis de réviser les classes sémantiques de prédicats déjà élaborés, d’intégrer de nouvelles unités et de mettre en relation des prédicats appartenant à différentes classes sémantiques grâce à des marqueurs aspectuels communs
A predicate can take several different morphological forms. However, each form has its own usage and actualization. A predicative adjective (à la mode) is a polylexical entity which conforms to the definitional criteria of a simple adjective (élégant). Nonetheless, its actualization is far richer than what is possible with a simple adjective. It consists in a set of actuators which include light verbs, predicative verbs and adverbs. This work is a contribution to the ongoing effort of the LDI to build semantical classes for the predicates of . The attention given to the actualization of the predicative adjectives in order to design a typology of the state modification markers has allowed to revise the semantical classes of predicates already defined, to incorporate new entities and to link together predicates belonging to different semantical classes through the use of common aspectual markers

50

Fouqueré, Christophe. "Systèmes d'analyse tolérante du langage naturel." Paris 13, 1988. http://www.theses.fr/1988PA132003.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Traitement automatique du langage naturel – Linguistique – Informatique'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles