Dissertations / Theses on the topic 'Ukrainien (langue) – Analyse automatique (linguistique)'

To see the other types of publications on this topic, follow the link: Ukrainien (langue) – Analyse automatique (linguistique).

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Ukrainien (langue) – Analyse automatique (linguistique).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Saint-Joanis, Olena. "Formalisation de la langue ukrainienne avec NooJ : préparation du module ukrainien." Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCC005.

Full text
Abstract:
L'intérêt de ce travail est porté sur la formalisation de la langue ukrainienne à travers la plateforme NooJ.La langue ukrainienne est très peu décrite dans le monde occidental, alors que c'est une langue officielle d'un pays européen qui compte plus de 45 millions d'habitants et qui est représentée dans plusieurs institutions mondiales. L'ukrainien est également étudié dans plusieurs universités d'Europe.De ce fait, la formalisation de l'ukrainien à travers un outil informatique pourra trouver plusieurs applications pratiques et notamment : cela permettra de faire l'analyse morphosyntaxique et sémantique approfondie des corpus, jouer un rôle dans le développement des applications TAL (par exemple, extracteurs d'entités nommées, terminologie, traduction automatique, correcteur d'orthographe, etc.), mais aussi dans le domaine de l'enseignement assisté par ordinateur (EAO). Nous avons construit un module ukrainien pour NooJ qui est composé d'un dictionnaire principal « Ukr_dictionary_V.1.3 » et de deux dictionnaires secondaires « Ukr_dictionary_Participle_V.1.3 » et « Ukr_dictionary_Proper_lowercase_V.1.3 ». Le dictionnaire principal contient 157 534 entrées et reconnaît 3 184 522 formes fléchies. Il décrit des ALU simples, composées d'une seule forme graphique, mais aussi des locutions composées de deux formes ou plus ; il reconnait et analyse les ALU avec orthographes alternatives, et explicite les abréviations.Les formes fléchies des entrées variables sont formalisées grâce à 303 paradigmes flexionnels. Nous avons formalisé également 114 paradigmes dérivationnels qui permettent de lier les verbes perfectifs aux verbes imperfectifs.Nous avons décrit de nombreuses formes dérivées ou les variantes orthographiques absentes du dictionnaire grâce aux 19 grammaires morphologiques.Enfin, nous avons recensé certaines formes dans les dictionnaires secondaires, notamment les participes et les noms propres en minuscule. Le dictionnaire « Ukr_dictionary_Participle_V.1.3 » contient 13 070 entrées et complète le dictionnaire principal, quand la grammaire morphologique qui décrit des participes ne permet pas de reconnaitre le participe dans le texte. Le dictionnaire « Ukr_dictionary_Proper_lowercase_V.1.3 » contient des noms propres écrits en minuscule, en combinaison avec la grammaire «Adjectives_Relatives_V.1.3.nom», il permet de reconnaitre les adjectifs relatifs créés à partir des noms propres.Grâce à ces ressources, 98,3% d'occurrences dans le corpus de tests ont été reconnues et annotées avec leurs informations morphologiques.Nous avons également construit dix grammaires syntaxiques qui permettent de lever un grand nombre d'ambiguïtés, puisque nous passons de 206 445 annotations à 131 415 pour un corpus de 108 137 occurrences
Lthough interest in the Ukrainian language has increased greatly in recent years, it remains poorly described and schematized. The few Natural Language Processing (NLP) software applications available do not necessarily meet the needs of students or researchers. These tools have been developed using stochastic approaches and, therefore, do not have a solid linguistic basis. Consequently, their usefulness is questionable, as they produce too many errors. After studying these available NLP applications, we chose to use the NooJ linguistic platform to process Ukrainian because it provides us with the tools we need to develop linguistic resources in the form of dictionaries and orthographic, morphological, syntactic, and semantic grammars. Note that NooJ also provides users with tools to manage corpora, perform various statistical analyses, and is well adapted to construct pedagogical applications. We have built a Ukrainian module for NooJ that consists of a main dictionary, "Ukr_dictionary_V.1.3," and two secondary dictionaries, "Ukr_dictionary_Participle_V.1.3" and "Ukr_dictionary_Proper_lowercase_V.1.3". The main dictionary contains 157,534 entries and recognizes 3,184,522 inflected forms. It describes simple ALUs made up of a single graphic form, but also locutions made up of two or more forms; it recognizes and analyzes ALUs with alternative spellings, and makes abbreviations explicit. The inflected forms of variable entries are formalized through 303 inflectional paradigms. We have also formalized 114 derivational paradigms that link perfective verbs to imperfective verbs. The 19 morphological grammars describe numerous derived forms and spelling variants not found in the dictionary. Finally, we have listed certain forms in secondary dictionaries, notably lower-case participles, and proper nouns. The "Ukr_dictionary_Participle_V.1.3" dictionary contains 13,070 entries and complements the main dictionary when the morphological grammar describing participles does not allow the participle to be recognized in the text. Thanks to these resources, 98.3% of occurrences in the test corpus were recognized and annotated with their morphological information. We also built ten syntactic grammars, which removed many ambiguities, as we went from 206,445 annotations to 131,415 for a corpus of 108,137 occurrences. We have also outlined several avenues for future work to improve our module, namely: the development of new additional morphological grammars and syntactic grammars that will remove the remaining ambiguities
APA, Harvard, Vancouver, ISO, and other styles
2

Ranaivo, Balisoamanandray. "Analyse automatique de l'affixation en malais." Paris, INALCO, 2001. http://www.theses.fr/2001INAL0016.

Full text
Abstract:
La finalité de cette thèse est la création d'un analyseur automatique capable d'identifier, de segmenter et d'interpréter les bases préfixées, suffixées et circonfixées présentes dans un texte malais écrit en caractères latins. L'évaluation de l'analyseur a été effectuée sur des textes malais et un texte indonésien. Cet analyseur utilise : un ensemble de règles, une liste d'exceptions, une liste restreinte de bases dépourvues de toute information linguistique et des techniques de reconnaissance des formes. L'algorithme d'analyse est non déterministe. Les bases analysées sont traitées hors contexte. L'évaluation des résultats de l'analyseur a donné environ 97% d'analyses correctes et un taux d'erreur inférieur à 2%. Très peu de bases affixées n'ont pas été analysées (taux inférieur à 0,5%)
The final aim of this thesis is the creation of an affixation analyser able of identifying , segmenting and interpreting affixed words containing prefix(es), suffix(es), and circumfix(es). The analyser has an input in Malaysian or Indonesian text. In this work, we study the standard Malay used in Malaysia, bahasa Melayu or bahasa Malaysia, which is written with Latin alphabet. To evaluate the accuracy of the analyser, we submitted Malaysian texts and one Indonesian text to the system. This analyser uses : a set of rules, a few list of exceptions, a restricted list of bases and formal identification criteria. The algorithm is non deterministic. Analysed words are treated without taking account of their contexts. The evaluation of the analyser gave around 97% of correct analysis and 2% of incorrect analysis. Very few affixed words were not analysed (rate less than 0,5%)
APA, Harvard, Vancouver, ISO, and other styles
3

Boizou, Loïc. "Analyse lexicale automatique du lituanien." Paris, INALCO, 2009. http://www.theses.fr/2009INAL0004.

Full text
Abstract:
La présente thèse a pour objet l'analyse automatique des formes lexicales dans les textes écrits en lituanien, sur la base d'une heuristique forme - valeur qui s'inscrit dans une approche symbolique du traitement automatique des langues. Cette étude accorde une attention spécifique à l'éxploitation optimale des indices formels et s'appuie principalement sur deux domaines de la linguistique, la graphématique et la morphologie. Le point d'entrée formaliste couplé à l'objectif d'automatisation a réclamé une révision de la perspective grammaticale traditionnelle, qui nous a conduit à esquisser un renouvellement de la description relative à plusieurs aspects du système linguistique, notamment les parties du discours, la structure lexicale et la suffixation. Le modèle linguistique, qui reste à développer, a servi de fondement à la réalisation d'un analyseur de formes lexicales nommé ALeksas. Ce logiciel possède une structure hybride principalement basée sur des automates à nombre fini d'états. ALeksas, qui est encore à l'état expérimental, assure l'analyse grammaticale des mots formes selon une approche indépendante d'une base de données lexicale permettant de formuler des hypothèses d'interprétation sur des critères formels. Le prototype a fait l'objet d'une mise à l'épreuve par confrontation à un corpus de textes authentiques variés, afin d'évaluer ses capacités, notamment par rapport aux outils comparables, et de mieux cerner les améliorations nécessaires
The aim of this thesis is to carry out lexical analysis of written texts in Lithuanian by automatic means, according to a heuristics from form to content based on symbolic methods. This study attempts to make an expanded use of marks given by linguistic forms, drawing on graphemic and morphological aspects. This formal starting point in conjunction with automation of linguistic tasks required a revision of the traditional grammatical point of view, concerning mainly parts of speech, lexical structure and suffixation. This linguistic model, which needs further expansion, served as a basis for ALeksas, an analyzer of lexical forms. This software implements a hybrid structure expanding a system of finite state automata. The prototype computes the analysis of word forms, giving grammatical interpretations according to a set of formal criteria, instead of making use of a lexical database. The results of the analysis of a corpus complied from various texts allowed us to delineate more precisely the advantages and shortcomings of Aleksas, as compared with other similar tools, and to also suggest possible enhancements
APA, Harvard, Vancouver, ISO, and other styles
4

Hagège, Caroline. "Analyse syntaxique automatique du portugais." Clermont-Ferrand 2, 2000. http://www.theses.fr/2000CLF20028.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Nakamura, Delloye Yayoi. "Alignement automatique de textes parallèles français - japonais." Paris 7, 2007. http://www.theses.fr/2007PA070054.

Full text
Abstract:
L'alignement automatique consiste à trouver une correspondance entre des unités de textes parallèles. Nous nous intéressons plus particulièrement à la réalisation d'un système qui procède à l'alignement au niveau des propositions, unités profitables dans beaucoup d'applications. La présente thèse est constituée de deux types de travaux : les travaux introducteurs et ceux constituant le noyau central. Ce dernier s'articule autour de la notion de proposition syntaxique. Les travaux introducteurs comprennent l'étude des généralités sur l'alignement ainsi que des travaux consacrés à l'alignement des phrases. Ces travaux ont conduit à la réalisation d'un système d'alignement des phrases adapté au traitement des textes français et japonais. Le noyau de la thèse est composé de deux types de travaux, études linguistiques et réalisations informatiques. Les études linguistiques se divisent elles-mêmes en deux sujets : la proposition en français et la proposition en japonais. Le but de nos études sur la proposition française est de définir une grammaire pour la détection des propositions. Pour cet effet, nous avons cherché à définir une typologie des propositions, basée sur des critères uniquement formels. Dans les études sur le japonais, nous définissons d'abord la phrase japonaise sur la base de l'opposition thème-rhème. Nous tentons ensuite d'élucider la notion de proposition. Les réalisations informatiques comportent trois tâches composant ensemble au final l'opération d'alignement des propositions, incarnées par trois systèmes informatiques distincts : deux détecteurs de propositions (un pour le français et un pour le japonais), ainsi qu'un système d'alignement des propositions
Automatic alignment aims to match elements of parallel texts. We are interested especially in the implementation of a System which carries out alignment at the clause level. Clause is a beneficial linguistic unit for many applications. This thesis consists of two types of works: the introductory works and those that constitute the thesis core. It is structured around the concept of syntactic clause. The introductory works include an overview of alignment and studies on sentence alignment. These works resulted in the creation of a sentence alignment System adapted to French and Japanese text processing. The thesis core consists of two types of works: linguistic studies and implementations. The linguistic studies are themselves divided into two topics: French clause and Japanese clause. The goal of our French clause studies is to define a grammar for clause identification. For this purpose, we attempted to define a typological classification of clauses, based on formal criteria only. In Japanese studies, we first define the Japanese sentence on the basis of the theme-rheme structure. We then try to elucidate the notion of clause. Implementation works consist of three tasks which finally constitute the clause alignment processing. These tasks are carried out by three separate tools: two clauses identification Systems (one for French texts and one for Japanese texts) and a clause alignment System
APA, Harvard, Vancouver, ISO, and other styles
6

Segal, Natalia. "Analyse, représentation et modélisation de la prosodie pour la reconnaissance automatique de la parole." Paris 7, 2011. http://www.theses.fr/2011PA070041.

Full text
Abstract:
Cette thèse présente une nouvelle approche de la détection automatique des frontières prosodiques et de la structure prosodique en français, basée sur une représentation théorique hiérarchique de cette structure. Nous avons utilisé une théorie descriptive du système prosodique du ! i français pour créer un modèle prosodique linguistique adapté au traitement automatique de la parole spontanée. Ce modèle permet de détecter de façon automatique les frontières des groupes prosodiques et de les regrouper dans une structure hiérarchique. La structure prosodique de chaque énoncé est ainsi représentée sous forme d'un arbre prosodique. Nous avons démontré que ce modèle représentation était adapté pour le traitement automatique de la parole spontanée en français. La segmentation prosodique ainsi obtenue a été comparée à la segmentation prosodique manuelle. La pertinence de la structure prosodique a été également vérifiée manuellement. Nous avons appliqué notre modèle à différents types de données de parole continue spontanée avec différents types de segmentations phonétiques et lexicales : segmentation manuelle ainsi que différentes segmentations automatiques, et notamment aux données segmentées par le système de reconnaissance automatique de la parole. L'utilisation de cette segmentation a fourni une performance satisfaisante. Nous avons également établi une corrélation entre le niveau du noeud dominant dans l'arbre prosodique et la fiabilité de la détection de la frontière correspondante. Ainsi, il est envisageable d'enrichir la détection de frontières prosodiques en attribuant une mesure de confiance à la frontière en fonction de son niveau dans l'arbre prosodique
This thesis presents a new approach to automatic prosodic boundary and prosodic structure detection based on a theoretical hierarchical representation of prosodic organization of speech in French. We used a descriptive theory of the French prosodic System to create a rule based linguistic prosodic model suitable for the automatic treatment of spontaneous speech. This model allows finding automatically prosodic group boundaries and structuring them hierarchically. The prosodic structure of every phrase is thus represented in the form of a prosodic tree. This representation proved to be efficient for automatic processing of continuous speech in French. The resulting prosodic segmentation was compared to manual prosodic segmentation. Prosodic structure accuracy was also verified manually by an expert. We applied our model to different kinds of continuous spontaneous speech data with different phonemic and lexical segmentations: manual segmentation and different kinds of automatic segmentations. In particular, the application of our prosodic model to the output of a speech recognition System showed a satisfactory performance. There also bas been established a correlation between the level of the prosodic tree node and the boundary detection accuracy. Thus, it is possible to improve the precision of boundary detection by attributing a degree of confidence to the boundary according to its level in prosodic tree
APA, Harvard, Vancouver, ISO, and other styles
7

Gaubert, Christian. "Stratégies et règles minimales pour un traitement automatique de l'arabe." Aix-Marseille 1, 2001. http://www.theses.fr/2001AIX10040.

Full text
Abstract:
La théorie de la minimalité dans le traitement automatique de l'arabe développée depuis 1985 par Audebert et Jaccarini est exposée dans ses grands principes, qui visent la construction d'un moniteur morpho-syntaxique : une analyse morphologique sans lexique effectuée par des automates augmentés et reflétant un compromis entre les phénomènes de concaténation et le croisement entre racines et schèmes, le rôle syntaxique central des invariants de la morphologie qui sont des tokens syntaxiques, et la description de ce rôle par des automates variables. Un logiciel écrit en C, Sarfiyya, a été créé pour poursuivre ce travail théorique et le confronter à la réalité de corpus de textes informatisés de presse et de littérature. Il repose sur un système original d'étiquettes floues privilégiant la détermination pour le nom, le mode/aspect pour le verbe, la famille syntaxique pour les tokens. Un éditeur graphique et interactif d'automates, un analyseur d'automates augmentés par des micro-lexiques et d'autres fonctions de Sarfiyya ont permis le développement de grammaires nominales et verbales avec peu de lexique et au comportement ambigu connu : cette ambigui͏̈té avoisine deux interprétations par mot. Un analyseur de mots-outils ou tokens complète ces outils qui utilise un contexte court pour leur désambigui͏̈sation. L'emploi de paires de tokens, lexicalisées ou catégorisées, permettent entre autres méthodes un taux de détection élevé. Une étude de faisabilité conclue ce travail par l'analyse la détectabilité d'un système de marques minimales, telles la présence de phrases nominales, des khabars et des mubtada's, de phrases verbales, subordonnées et relatives, points de passage de toute analyse de la phrase complexe. Des procédures linéaires sont proposées pour leur détection, dans le cadre de la construction du moniteur morpho-syntaxique. Cette étude démontre la fécondité de la méthode minimale et sa validité pour diverses applications, mais aussi ses faiblesses
APA, Harvard, Vancouver, ISO, and other styles
8

Rayon, Nadine. "Segmentation et analyse morphologique automatiques du japonais en univers ouvert." Paris, INALCO, 2003. http://www.theses.fr/2003INAL0002.

Full text
Abstract:
La présente thèse propose une analyse morphologique automatique des séquences de kanji dans des textes japonais, généraux ou spécialisés. Cette analyse s'appuie sur les particularités graphémiques, morphologiques et syntaxiques du japonais. Elle n'emploie aucun dictionnaire, est basée sur la reconnaissance des contextes immédiats des séquences de kanji et produit un étiquetage des unités linguistiques reconnues et une segmentation du texte. La première partie décrit le système d'écriture japonais et son codage informatique. La deuxième partie décrit les parties du discours japonais, en particulier les verbes, qualificatifs, particules et suffixes flexionnels, leurs caractéristiques morphosyntaxiques étant essentielles pour l'analyse morphologique. La troisième partie décrit le module d'analyse: identification et formalisation des données pour l'analyse, algorithme de l'analyse et des pré-traitements, formalisation de modèles d'objets pour la manipulation informatique du japonais
The present thesis proposes an automatic morphological analysis of the kanji sequences in Japanese texts. This analysis is based on the graphemic, morphological and syntactic characteristics of the Japanese language. It does not employ any dictionary and is based on the recognition of the immediate contexts of the kanji sequences. It leads to a tagging of the recognized linguistic units and to a segmentation of the text. The first part of the thesis describes the Japanese writing system and its encoding methods. The second part deals with the Japanese parts of speech, in particular verbs, adjectives, particles and flexional suffixes which morphosyntaxic characteristics are essential for the morphological analysis. The third part describes the module of analysis: identification and formalization of the data necessary to the analysis, algorithm of the analysis and the related treatments, formalization of models of objects necessary to the data-processing handling of Japanese
APA, Harvard, Vancouver, ISO, and other styles
9

Li, Yiping. "Étude des problèmes spécifiques de l'intégration du chinois dans un système de traitement automatique pour les langues européennes." Université de Marne-la-Vallée, 2006. http://www.theses.fr/2006MARN0282.

Full text
Abstract:
L’analyse linguistique est une étape fondamentale et essentielle pour le traitement automatique des langues. En effet, elle permet d’étiqueter les mots avec des catégories morphosyntaxiques et d’identifier des entités nommées pour pouvoir réaliser des applications du plus haut niveau, par exemple la recherche d’information, la traduction automatique, la question réponse, etc. L’analyse linguistique du chinois remplit les mêmes missions que celle des autres langues. Mais elle présente une difficulté supplémentaire liée au fait de ne pas avoir de délimiteurs entre les mots. Puisque le mot est l’unité essentielle d’une langue, une segmentation des phrases en mots est indispensable pour le traitement du chinois. Parmi des études existantes, la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées sont souvent enchaînés comme les étapes différentes. La segmentation se sert de la base pour les deux autres. Ce type d’approches subit malheureusement un blocage au niveau de la segmentation : c’est-à-dire que certaines erreurs de segmentation sont inévitables. C’est pourquoi des modèles statistiques qui réalisent la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées ou la segmentation et l’un des deux autres traitements simultanément, ont été créés. Cette combinaison permet d’utiliser des informations supplémentaires apportées par l’étiquettes morphosyntaxiques et l’identification des entités nommées afin d’aider la segmentation. Cependant un modèle unique n’est pas modulaire. Donc il est difficile d’adapter le même modèle aux autres langues, à cause des caractéristiques particulières de chaque langue. Par conséquent, cette approche n’est pas approprie pour créer des systèmes d’analyse automatique multilingue. L’objectif de mon étude consiste à intégrer l’analyse automatique du chinois dans un système d’analyse multilingue LIMA. Par rapport à un système de traitement d’information monolingue du chinois, certaines contraintes sont imposées. D’abord, des traitements pour le chinois doivent être compatibles avec ceux d’autres langues. Ensuite, pour garder la cohérence et l’unité du système, il est favorable d’employer au maximum des modules de traitement en commun pour toutes les langues traitées par le système. En conséquence, le choix s’est porté sur l’utilisation des modules séparés pour la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées. Le fait de concevoir des traitements modulaires rend des modules de traitements spécifiques au chinois réutilisables pour d’autres langues ayant des traits linguistiques similaire et il facilite également des réactions entre les traitements. Néanmoins, ce type de méthodes enchaînant des trois traitements ne prend pas en compte des dépendances entre eux. Pour surmonter ce défaut, nous utilisons les informations fournies par l’analyse morphosyntaxique, par l’identification des entités nommées et par des connaissances linguistiques afin d’améliorer la segmentation. Une analyse des origines d’erreurs produites par des traitements enchaînés nous a inspiré une étude de l’interdépendance entre les trois traitements. Etant donné ces interdépendances, trois traitements spécifiques sont rajoutés au système : un prétraitement avant la segmentation basée sur le modèle de cooccurrence, une tokenization de termes liés aux chiffres écrits en caractères chinois et un traitement complémentaire pour la segmentation en identifiant certaines entités nommées entre l’étape de la segmentation et celle de l’étiquetage morphosyntaxique. Ces traitements rajoutés apportent des améliorations importantes à notre système
Linguistic analysis is a fundamental and essential step for natural language processing. It often includes part-of-speech tagging and named entity identification in order to realize higher level applications, such as information retrieval, automatic translation, question answers, etc. Chinese linguistic analysis must perform the same tasks as that of other languages, but it must resolve a supplemental difficulty caused by the lack of delimiter between words. Since the word is the elementary unit for automated language processing, it is indispensable to segment sentences into words for Chinese language processing. In most existing system described in the literature, segmentation, part-of-speech tagging and named entity recognition are often presented as three sequential, independent steps. But since segmentation provides the basis for and impacts the other two steps, some statistical methods which collapse all three treatments or two of the three into one module have been proposed. With these combinations of steps, segmentation can be improved by complementary information supplied by part-of-speech tagging and named entity recognition, and global analysis of Chinese improved. However this unique treatment model is not modular and difficult to adapt to different languages other than Chinese. Consequently, this approach is not suitable for creating multilingual automatic analysis systems. This dissertation studies the integration Chinese automatic analysis into an existing multilingual analysis system LIMA. Originally built for European languages, LIMA’s modular approach imposes some constraints that a monolingual Chinese analysis system need not consider. Firstly, the treatment for Chinese should be compatible and follow the same flow as other languages. And secondly, in order to keep the system coherent, it is preferable to employ common modules for all the languages treated by the system, including a new language like Chinese. To respect these constraints, we chose to realize the phases of segmentation, part-of-speech tagging and named entity recognition separately. Our modular treatment includes a specific module for Chinese analysis that should be reusable for other languages with similar linguistic features. After error analysis of this purely modular approach, we were able to improve our segmentation with enriched information supplied by part-ofspeech tagging, named entity recognition and some linguistic knowledge. In our final results, three specific treatments have been added into the LIMA system: a pretreatment based on a co-occurrence model applied before segmentation, a term tokenization relative to numbers written in Chinese characters, and a complementary treatment after segmentation that identifies certain named entities before subsequent part-of-speech tagging. We evaluate and discuss the improvement that these additional treatments bring to our analysis, while retaining the modular and linear approach of the underlying LIMA natural language processing system
APA, Harvard, Vancouver, ISO, and other styles
10

Badia, Toni. "Aspectes del sintagma nominal en català des de la perspectiva de la traducció automàtica /." Montserrat : Abadia de Montserrat, 1994. http://catalogue.bnf.fr/ark:/12148/cb357951358.

Full text
APA, Harvard, Vancouver, ISO, and other styles
11

Tzoukermann, Evelyne. "Morphologie et génération automatique du verbe français : implémentation d'un module conversationnel." Paris, INALCO, 1986. http://www.theses.fr/1986INAL0004.

Full text
APA, Harvard, Vancouver, ISO, and other styles
12

Mesfar, Slim. "Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard." Besançon, 2008. http://www.theses.fr/2008BESA1022.

Full text
Abstract:
La langue arabe, bien que très importante par son nombre de locuteurs, elle présente des phénomènes morpho-syntaxiques très particuliers. Cette particularité est liée principalement à sa morphologie flexionnelle et agglutinante, à l’absence des voyelles dans les textes écrits courants, et à la multiplicité de ses formes, et cela induit une forte ambiguïté lexicale et syntaxique. Il s'ensuit des difficultés de traitement automatique qui sont considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduit à utiliser la plateforme linguistique NooJ. Nous commençons par une étude suivie d’une formalisation à large couverture du vocabulaire de l’arabe. Le lexique construit, nommé «El-DicAr», permet de rattacher l’ensemble des informations flexionnelles, morphologiques, syntactico-sémantiques à la liste des lemmes. Les routines de flexion et dérivation automatique à partir de cette liste produisent plus de 3 millions de formes fléchies. Nous proposons un nouveau compilateur de machines à états finis en vue de pouvoir stocker la liste générée de façon optimale par le biais d’un algorithme de minimisation séquentielle et d’une routine de compression dynamique des informations stockées. Ce dictionnaire joue le rôle de moteur linguistique pour l’analyseur morpho-syntaxique automatique que nous avons implanté. Cet analyseur inclut un ensemble d’outils: un analyseur morphologique pour le découpage des formes agglutinées en morphèmes à l’aide de grammaires morphologiques à large couverture, un nouvel algorithme de parcours des transducteurs à états finis afin de traiter les textes écrits en arabe indépendamment de leurs états de voyellation, un correcteur des erreurs typographiques les plus fréquentes, un outil de reconnaissance des entités nommées fondé sur une combinaison des résultats de l’analyse morphologique et de règles décrites dans des grammaires locales présentées sous forme de réseaux augmentés de transitions (ATNs), ainsi qu’un annotateur automatique et des outils pour la recherche linguistique et l’exploration contextuelle. Dans le but de mettre notre travail à la disposition de la communauté scientifique, nous avons développé un service de concordances en ligne «NooJ4Web: NooJ pour la Toile» permettant de fournir des résultats instantanés à différents types de requêtes et d’afficher des rapports statistiques ainsi que les histogrammes correspondants. Les services ci-dessus cités sont offerts afin de recueillir les réactions des divers usagers en vue d’une amélioration des performances. Ce système est utilisable aussi bien pour traiter l’arabe, que le français et l’anglais
The Arabic language, although very important by the number of its speakers, it presents special morpho-syntactic phenomena. This particularity is mainly related to the inflectional and agglutinative morphology, the lack of vowels in currents written texts, and the multiplicity of its forms; this induces a high level of lexical and syntactic ambiguity. It follows considerable difficulties for the automatic processing. The selection of a linguistic environment providing powerful tools and the ability to improve performance according to our needs has led us to use the platform language NooJ. We begin with a study followed by a large-coverage formalization of the Arabic lexicon. The built dictionary, baptised "El-DicAr" allows to link all the inflexional, morphological, syntactico-semantic information to the list of lemmas. Automatic inflexional and derivational routines applied to this list produce more than 3 million inflected forms. We propose a new finite state machine compiler that leads to an optimal storage through a combination of a sequential minimization algorithm and a dynamic compression routine for stored information. This dictionary acts as the linguistic engine for the automatic morpho-syntactic analyzer that we have developed. This analyzer includes a set of tools: a morphological analyzer that identifies the component morphemes of agglutinative forms using large coverage morphological grammars, a new algorithm for looking through finite-state transducers in order to deal with texts written in Arabic with regardless of their vocalisation statements, a corrector of the most frequent typographical errors, a named entities recognition tool based on a combination of the morphological analysis results and rules described into local grammar presented as Augmented Transition Networks ( ATNS), an automatic annotator and some tools for linguistic research and contextual exploration. In order to make our work available to the scientific community, we have developed an online concordance service “NooJ4Web: NooJ for the Web”. It provides instant results to different types of queries and displays statistical reports as well as the corresponding histograms. The listed services are offered in order to collect feedbacks and improve performance. This system is used to process Arabic, as well as French and English
APA, Harvard, Vancouver, ISO, and other styles
13

Park, Jungyeul. "Extraction automatique d'une grammaire d'arbres adjoints à partir d'un corpus arboré pour le coréen." Paris 7, 2006. http://www.theses.fr/2006PA070007.

Full text
Abstract:
La grammaire électronique est une des ressources les plus importantes pour le traitement automatique des langues naturelles. Parce que le développement manuel d'une grammaire est une tâche coûteuse, beaucoup d'efforts pour le développement automatique de grammaires ont été fournis pendant la décennie dernière. Le développement automatique d'une grammaire signifie qu'un système extrait une grammaire à partir d'un corpus arboré. A partir du corpus arboré Sejong Korean Treebank, nous réalisons un système qui extrait une grammaire d'arbres adjoints lexicalisée et avec traits. Les étiquettes syntaxiques et morphologiques du corpus nous permettent d'extraire les traits syntaxiques automatiquement. Pendant les expériences d'extraction, nous modifions le corpus pour améliorer les grammaires extraites et extrayons cinq types de grammaires, donc quatre grammaires lexicalisées et une grammaire lexicalisée avec traits. Les grammaires extraites sont évaluées par la taille, la couverture et l'ambiguïté moyenne. La croissance du nombre de schémas d'arbres n'est pas stabilisée à l'issue de l'extraction, ce qui semble indiquer que la taille du corpus n'es pas suffisante pour atteindre la convergence des grammaires. Cependant le nombre de schémas apparaissant au moins deux fois dans le corpus est quasiment stabilisé à l'issue de l'extraction et le nombre de schémas des grammaires supérieures (celles qui sont extraites après la modification du corpus) est aussi plus stabilisé que les grammaires inférieurs. Nous évaluons notre programme d'extraction en l'appliquant à un autre corpus arboré. Enfin, nous comparons nos grammaires avec celle de Han et al. (2001) écrite à la main
An electronic grammar is one of the most important elements in the natural language processing. Since traditional manual grammar development is a time-consuming and labor-intensive task, many efforts for automatic grammar development have been taken during last décades. Automatic grammar development means that a System extracts a grammar from a Treebank. Since we might extract the grammar automatically without many efforts if a reliable Treebank is provided, we implement a System which extracts not only a LTAG but also a FB-LTAG from Sejong Korean Treebank. Full-scale syntactic tags and morphological analysis in Sejong Korean Treebank allow us to extract syntactic features automatically and to develop FB-LTAG. During extraction experiments, we modify thé Treebank to improve extracted grammars and extract five différent types of grammars; four lexicalized grammars and one feature-based lexicalized grammar. Extracted grammars are evaluated by ils size, ils coverage and ils average ambiguity. The number of tree schemata is not stabilized at thé end of the extraction process, which seems to indicate that thé size of a Treebank is not enough to reach thé convergence of extracted grammars. However, the number of tree schemata appeared at least twice in the Treebank is nearly stabilized at the end of the extraction process, and the number of superior grammars (the ones which are extracted after thé modification of Treebank) is also much stabilized than inferior grammars. We also evaluate extracted grammars using LLP2 and our extracting System using other Treebank. Finally, we compare extracted grammars with the one of Han et al. (2001) whicis manual ly constructed
APA, Harvard, Vancouver, ISO, and other styles
14

Morsi, Youcef Ihab. "Analyse linguistique et extraction automatique de relations sémantiques des textes en arabe." Thesis, Bourgogne Franche-Comté, 2020. http://www.theses.fr/2020UBFCC019.

Full text
Abstract:
Cette recherche porte sur le développement d’un outil de traitement automatique de la langue arabe standard moderne, au niveau morphologique et sémantique, avec comme objectif final l’extraction d’information dans le domaine de l’innovation technologique en entreprise. En ce qui concerne l’analyse morphologique, notre outil comprend plusieurs traitements successifs qui permettent d’étiqueter et de désambiguïser les occurrences dans les textes : une couche morphologique (Gibran 1.0), qui s’appuie sur les schèmes arabes comme traits distinctifs ; une couche contextuelle (Gibran 2.0), qui fait appel à des règles contextuelles ; et une troisième couche (Gibran 3.0) qui fait appel à un modèle d’apprentissage automatique. Notre méthodologie est évaluée sur le corpus annoté Arabic-PADT UD treebank. Les évaluations obtiennent une F-mesure de 0,92 et 0,90 pour les analyses morphologiques. Ces expérimentations montrent, entre autres, la possibilité d’améliorer une telle ressource par les analyses linguistiques. Cette approche nous a permis de développer un prototype d’extraction d’information autour de l’innovation technologique pour la langue arabe. Il s’appuie sur l’analyse morphologique et des patrons syntaxico-sémantiques. Cette thèse s’inscrit dans un parcours docteur-entrepreneur
This thesis focuses on the development of a tool for the automatic processing of Modern Standard Arabic, at the morphological and semantic levels, with the final objective of Information Extraction on technological innovations. As far as the morphological analysis is concerned, our tool includes several successive processing stages that allow to label and disambiguate occurrences in texts: a morphological layer (Gibran 1.0), which relies on Arabic pattern as distinctive features; a contextual layer (Gibran 2.0), which uses contextual rules; and a third layer (Gibran 3.0), which uses a machine learning model. Our methodology is evaluated using the annotated corpus Arabic-PADT UD treebank. The evaluations obtain an F-measure of 0.92 and 0.90 for the morphological analyses. These experiments demontrate the possibility of improving such a corpus through linguistic analyses. This approach allowed us to develop a prototype of information extraction on technological innovations for the Arabic language. It is based on the morphological analysis and syntaxico-semantic patterns. This thesis is part of a PhD-entrepreneur course
APA, Harvard, Vancouver, ISO, and other styles
15

Battistelli, Delphine. "Passer du texte a une sequence d'images : analyse spatio-temporelle de textes, modelisation et realisation informatique (systeme spat)." Paris 4, 2000. http://www.theses.fr/1999PA040279.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

Hue, Jean-François. "L'analyse contextuelle des textes en langue naturelle : les systèmes de réécritures typées." Nantes, 1995. http://www.theses.fr/1995NANT2034.

Full text
Abstract:
Nous soutenons que le traitement automatique de la langue naturelle peut être réalisé, notamment dans une approche contextuelle, par une analyse syntaxico-sémantique en plusieurs passes, non linéaire, non ascendante, ni descendante, et non totale. Nous proposons dans ce but un modèle pour les grammaires, les systèmes de réécritures typées. Des logiciels d'application qui illustrent cette démarche et le concept de systèmes de réécritures typées sont exposés
APA, Harvard, Vancouver, ISO, and other styles
17

MAHMOUDI, SEYED MOHAMM. "Contribution au traitement automatique de la langue persane : analyse et reconnaissance des syntagmes nominaux." Lyon 2, 1994. http://www.theses.fr/1994LYO20070.

Full text
Abstract:
L'objectif de cette étude consiste dans la conception et la mise au point d'un analyseur morpho-syntaxique du persan en vue des applications à l'indexation automatique et à l'enseignement des langues assisté par ordinateur (EAO). Parmi les prolongements qu'on peut attendre de cette recherche, il y a d'abord le traitement automatique de la langue naturelle dans des systèmes d'intelligence artificielle. L'apport principal de cette étude réside essentiellement dans la reconnaissance automatique des syntagmes nominaux (sn) en persan ; elle permettra par ailleurs l'analyse et la génération automatique d'une grande partie des particules de liaison d'ézafé. Chacune des phases de l'analyse est écrite par un programme en langage Prolog (Turbo-Prolog). L'ensemble des données "lexicales" nécessaires à la catégorisation des formes morpho-syntaxiques y est présenté comme une base de données
The aim of this thesis is the conception and realisation of a morpho-syntaxic parser of Persian designed for applications to automatic indexing and computer-assisted instruction (or learning) of the language (cai or cal). One of the chief extensions to this research is the automatic processing of natural language by means of artificial intelligence systems. The main interest of this contribution is to study the automatic recognition of noun phrases in Persian. Each stage of the parsing is described in a program in Prolog language (Turbo-Prolog). The whole of the lexical datas necessary for the categorisation of morpho-syntaxic forms is presented as a database
APA, Harvard, Vancouver, ISO, and other styles
18

Delagneau, Jean-Marc. "Etude quantitative assistée par ordinateur d'une langue allemande de spécialité." Caen, 2004. http://www.theses.fr/2004CAEN1409.

Full text
Abstract:
Les progrès technologiques entraînèrent dans les années quatre-vingt-dix la fusion des deux éditions « Fertigung » (fabrication) et « Konstruktion » (conception) de la revue « Maschine+Werkzeug » consacrée au secteur de la mécanique. La fusion des deux activités posa une double interrogation, au niveau théorique, par rapport au concept traditionnel de « langue de spécialité », comme au niveau pratique, par rapport à la didactique de la langue allemande correspondante. Le volume des deux sous-corpus, constitués par les deux collections séparées de 1991, a orienté le choix vers une analyse quantitative assistée par ordinateur pour tenter de répondre à cette double interrogation. La détermination d’aspects lexicaux et syntaxiques prééminents à l’aide de logiciels doit faciliter ultérieurement l’élaboration d’une stratégie didactique des langues allemandes spécialisées. Celles-ci constituent aujourd’hui un véritable enjeu pour la place de la langue allemande dans l’enseignement supérieur.
APA, Harvard, Vancouver, ISO, and other styles
19

Bove, Rémi. "Analyse syntaxique automatique de l'oral : étude des disfluences." Phd thesis, Université de Provence - Aix-Marseille I, 2008. http://tel.archives-ouvertes.fr/tel-00647900.

Full text
Abstract:
Le but de cette thèse est d'étudier de façon détaillée l'impact des disfluences en français parlé (répétitions, auto-corrections, amorces, etc.) sur l'analyse syntaxique automatique de l'oral et de propose un modèle théorique permettant de les intégrer dans cette analyse. Notre axe de recherche se fonde sur l'hypothèse selon laquelle une analyse détaillée des énoncés oraux (principalement en termes morphosyntaxiques) peut permettre un traitement efficace pour ce type de données, et s'avère incontournable dans une optique de développement d'applications génériques dans le domaine des technologies de la parole. Dans le cadre de ce travail, nous proposons à la fois une étude linguistique détaillée et une stratégie d'analyse syntaxique automatique partielle des disfluences (en syntagmes minimaux non récursifs ou "chunks"). Le corpus final obtenu est ainsi segmenté en chunks non-disfluents d'une part, à côté des chunks disfluents d'autre part après prise en compte des régularités observées dans notre corpus. Les résultats de l'analyse automatique sont finalement évalués de façon quantitative sur le corpus permettant ainsi de valider le modèle théorique de façon empirique.
APA, Harvard, Vancouver, ISO, and other styles
20

Nasser, Eldin Safa. "Synthèse de la parole arabe : traitement automatique de l'intonation." Bordeaux 1, 2003. http://www.theses.fr/2003BOR12745.

Full text
Abstract:
Le travail décrit dans ce mémoire porte sur la modélisation de l'intonation. Le but de cette modélisation est d'améliorer le naturel de la parole produite par un système de synthèse de la parole arabe à partir du texte. Le naturel de la parole est fortement influencé par les paramètres prosodiques que sont l'intonation, l'intensité et le rythme. Dans cette étude nous nous intéressons essentiellement à l'analyse de l'intonation en vue d'obtenir des modèles intonatifs concernant l'intonation des phrases affirmatives et interrogatives, verbales et nominales. Nous procédons par une analyse descriptive de l'intonation, suivie d'une modélisation de variations de fréquence fondamentale. Nous avons utilisé la méthode de stylisation issue de l'école hollandaise et la méthode d'analyse par synthèse pour modéliser l'intonation. Nous aboutissons à une formalisation des règles pour le calcul des contours intonatifs qui dépend du nombre et le type de syllabes qui constituent la phrase et sa modalité. Le modèle intonatif est implémenté au niveau de deux systèmes de synthèse de la parole arabe à partir du texte : système de synthèse par règle utilisant le synthétiseur par formants (KLATT) et système de synthèse concaténation utilisant les diphones. Les phrases synthétisées avec les modèles sont évaluées par un groupe d'étudiants palestiniens de l'université Alquds. Les résultats obtenus montrent que le modèle d'intonation développé est capable de produire une parole de synthèse proche du naturel sans l'utilisation d'un analyseur syntaxique.
APA, Harvard, Vancouver, ISO, and other styles
21

Šmilauer, Ivan. "Acquisition du tchèque par les francophones : analyse automatique des erreurs de déclinaison." Paris, INALCO, 2008. http://www.theses.fr/2008INAL0019.

Full text
Abstract:
L'objet de cette thèse est l'analyse automatique des erreurs commises par des apprenants francophones dans des exercices de déclinaison du tchèque. Notre travail présente la conception et la réalisation d'une plateforme d'enseignement assisté par ordinateur CETLEF, mettant en ligne des exercices à trous et permettant un retour sur les erreurs commises. Ce dispositif peut servir également à la collecte du productions d'apprenants pour une recherche en acquisition par analyse des erreurs, CETLEF, composée d'une base de données relationnelle et d'interfaces auteur et apprenant, a nécessité la définition d'un modèle de la déclinaison du tchèque. Ce modèle contient un classement détaillé des types paradigmatiques et des règles pour la réalisation des alternances vocaliques et consonantiques. Il est employé pour l'annotation morphologique des formes requises, pour la présentation du système morphologique du tchèque sur la plateforme apprenant, ainsi que la réalisation de la procédure de diagnostic automatique des erreurs. Le diagnostic est effectué par comparaison d'une production erronée avec des formes hypothétiques générées à partir du radical de la forme requise et des différentes désinences casuelles. Si une correspondance est trouvée, l'erreur est interprétée d'après les différences dans les traits morphologiques de la forme requise et de la forme hypothétique. L'évaluation du diagnostic des productions recueillies sur CETLEF montre que la grande majorité des erreurs peut être interprétée par cette technique
The object of this thesis is the automatic analysis of errors made by French-speaking learners in declension exercices in Czech. Our work presents the conception and realization of a platform of computer-assisted language learing CETLEF, featuring on-line fill-in-the-blank exercices with feedback on errors. This device can also be useful in the collection of learner production samples in the context of research into second langauge acquisition via error analysis. CETLEF, consisting of a relational data base and author and learner interfaces, rendered necessary the definition of a model for declension in Czech. This model contains a detailed classification of the paradigms and rules for the realization of vocalic and consonantal alternations. It enables the morphological annotation of required forms, the didactic presentation of the morphological system of Czech on the learning platform, as well as the realization of a procedure of automatic error diagnosis. Diagnosis is carried out by the comparison of an erroneous production with hypothetical forms generated from the radical of the required form and various haphazard endings. If a correspondence is found, the error is interpreted according to the differences in the morphological features of the required form and the hypothetical form. An appraisal of the diagnosis of the productions collected on CETLEF shows that the vast majority of errors can be interpreted with the aid of this technique
APA, Harvard, Vancouver, ISO, and other styles
22

Houle, Annie. "Délit de langue et paternité textuelle : une approche informatisée." Thesis, Université Laval, 2013. http://www.theses.ulaval.ca/2013/29405/29405.pdf.

Full text
Abstract:
Cette étude vise à évaluer l’utilité d’une assistance informatique lors de l’identification de l’auteur d’un texte en français dans un cadre judiciaire. L’objectif est de proposer un environnement informatique au linguiste oeuvrant en contexte judiciaire et plus spécifiquement en analyse de paternité textuelle et de valider la légitimité de cette assistance automatisée à travers une étude de cas impliquant des textes courts et très courts rédigés en français. L’analyse se scinde en deux parties : une partie quantitative presqu’essentiellement automatisée et une partie qualitative semi-automatisée. Les résultats provenant de cette étude suggèrent qu’un environnement automatisé est un gain pour le linguiste, non seulement quant au temps et à la neutralité d’exécution de l’analyse, mais également quant aux résultats encourageants obtenus grâce aux outils créés.
APA, Harvard, Vancouver, ISO, and other styles
23

Jaccarini, André. "Grammaires modulaires de l'arabe : modélisations, mise en oeuvre informatique et stratégies." Paris 4, 1997. http://www.theses.fr/1997PA040025.

Full text
Abstract:
Dans cette thèse nous exposons dans un cadre théorique unifie les principaux modèles linguistiques et les analyseurs associes que nous avons développés au DATAT (département d'analyse et de traitement automatique des textes, IREMAN-CNRS). Ces analyseurs ont la particularité de pouvoir fonctionner sans lexique, ce qui ne signifie pas que l'on s'interdise par la suite toute interaction avec un lexique donné. On proposera donc des analyseurs modulables dont l'intérêt sera de mettre en évidence la régularité du système morphologique de base de l'arabe. Ces analyseurs seront couplés à un moniteur syntaxique dont le rôle sera d'optimiser l'analyse morphologique et de réduire la part d'ambiguïté propre au système d'écriture de l'arabe. Afin d'affiner les descriptions linguistiques on a conçu des programmes modulaires que l'on peut modifier au fur et à mesure que se "complexifient" les données linguistiques. Une technique d'expérimentation et une méthode d'évaluation des grammaires sont proposées. Les applications les plus importantes sont le controle orthographique, la vocalisation automatique et la hiérarchisation des ambiguïtés. Ce logiciel doit surtout être compris comme un outil d'ingénierie linguistique permettant de mettre en œuvre la méthode de variation de grammaire en vue de la détermination de l'algorithme optimum. La reconnaissance optique des caractères ou la reconnaissance vocale supposent par exemple la mise au point de modules de vérification linguistiques compacts dont notre méthode permettra de calculer la grammaire sous-jacente
In this work we expound, in a unified theoretical frame, the main linguistic models and the associated parsers we have developed in the D. A. T. A. T (département d'analyse et de traitement automatique des textes, IREMAN-CNRS). The most salient feature of these parsers is that they can work without a lexicon but can be enhanced by the introduction of selective lexicons. Our aim is then to design a syntactic monitor for the morphological program in order to reduce different ambiguities which are inherent to Arabic writing systems. In order to achieve accurate descriptions we have designed modular programs that we can modify according to the "complexification" of linguistic data and an evaluation method for grammar. The already existing morphological parser without a lexicon can be applied to non-vocalized as well as vocalized Arabic texts in order to extract roots, to vocalize partially automatically and hierarchize ambiguities. In this sense this parser constitutes a powerful tool for research in linguistic engineering itself: the method of grammar variations will allow the design of compact modular grammars applicable to various needs and research areas. Our aim is to create a generator for linguistic applications rather than the mere applications themselves. For example optical character recognition (OCR) and speech processing require compact linguistic modules of verification. The use of enormous lexicons may be a handicap in some computational configurations. Our method allows the calculation of the optimum grammar
APA, Harvard, Vancouver, ISO, and other styles
24

Chen, Chao-Jan. "Modélisation de la sémantique des verbes composés chinois de type V-V." Paris 7, 2005. http://www.theses.fr/2005PA070015.

Full text
Abstract:
Dans cette thèse, nous présentons un modèle de la détermination automatique du sens pour les verbes composés de type V-V en chinois. Nous explorons d'abord deux problèmes principaux pour le traitement sémantique automatique des verbes composés en V-V : 1- le recensement incomplet des sens des caractères dans les dictionnaires et l'effet Gestaltiste dans la composition du sens, 2- les sens des composants influencent celui de la construction et vice-versa. Pour régler ces problèmes nous proposons une approche qui utilise deux notions sémantiques nouvelles : les "sens latents" des caractères et le "patron sémantique de composition" associé à un composé en V-V. Nous calculons des mesures d'association entre caractères et sens pour récupérer les sens des caractères non explicitement enregistrés dans le dictionnaire source (sens latents). En se basant sur ces mesures d'association, on peut également calculer la similarité des patrons sémantiques de deux composés en V-V pour retrouver des synonymes potentiels à un composé donné. Nous avons ainsi réalisé un premier système de recherche automatique de synonymes et un deuxième système de classification sémantique automatique, basé sur le premier. Des évaluations quantitatives montrent que la performance de ces systèmes est très satisfaisante
This thesis presents a model of automatic sense determination for the V-V compound verbs in Chinese. First, we explore two major problems in the automatic semantic processing of the V-V compounds: the incomplete collection of character senses in the source dictionaries and the Gestalt effects in the semantic composition of a V-V compound, which means that the senses of the components V influence the sense of the construction, and vice versa. To solve the problems, we propose an approach with the use of two new concepts: the "latent senses" of characters and the "compounding semantic template" associated to a V-V compound. We calculate the measures of association between characters and senses, which allows us to retrieve the character senses that are not explicitly listed in the source dictionary (the latent senses). Based on the association measures, we can also calculate the similarity between the semantic templates of two V-V compounds, which allows us to retrieve potential synonyms of a given V-V compound. We have thus irnplemented a system of automatic synonym retrieval and a system of automatic semantic classification based on the former one. The evaluation experiments show that the performance of our systems is very encouraging
APA, Harvard, Vancouver, ISO, and other styles
25

Rinzler, Simone. "Passif et passivoi͏̈des en anglais contemporain : étude d'un corpus informatisé sous MS-Excel." Poitiers, 2000. http://www.theses.fr/2000POIT5024.

Full text
Abstract:
Cette thèse de linguistique étudie le passif et les passivoi͏̈des en anglais contemporain dans une approche onomasiologique et sémasiologique. Il s'agissait de dresser une véritable carte de la notion de passif. Les domaines de la morphologie, de la syntaxe, de la sémantique, de la pragmatique et de la stylistique ont été envisagés. Une formalisation adaptée à cette étude a été mise en place. L'informatisation des données sous MS-Excel permet d'utiliser les possiblités de tri et d'extraction de ce logiciel. Le corpus, volumineux, est constitué de nombreuses variétés d'anglais et permet d'élaborer des corrélations entre divers critères : opérateur, tense, aspect, modalité, modalité de phrase, nature du participe passé, nature et genre du sujet grammatical, nature et nombre du déterminant du sujet, présence ou absence d'un complément (d'agent, d'instrument ou autre), introduit par quel terme, agent contraint, nature et genre du complément, nature et nombre du déterminant du complément, gloses à l'actif, passivoi͏̈des morphologiquement actifs et sémantisme passif, suffixes nominaux passivoi͏̈des, etc. Seul critère commun à une majorité de passifs, le marqueur -EN est nécessaire mais non suffisant pour définir la notion de passif. Présent dans les passifs canoniques et dans un certain nombre de passivoi͏̈des, il n'apparaît cependant pas dans les passifs dits "notionnels" et dans de nombreux passivoi͏̈des. Outre ce marqueur, nous nous sommes intéressée aux opérateurs BE et GET, aux différents modulateurs d'assertion faisant fonction d'opérateur de passivation ou permettant de modifier la teneur de l'énoncé, aux typologies de procès, à la notion d'agentivité et d'instrumentalité, aux agents contraints, etc. Plutôt que de parler de contextes propices au passif, nous avons défini qu'il existait des prédicats dont le sémantisme leur confère une propension passive en raison de la maxime pragmatique de la compassion humaine. Nous nous sommes particulièrement attachée à déterminer les raisons de recourir au passif et aux passivoi͏̈des en insistant plus particulièrement sur ce qu'ils permettent de mettre en relief ou de passer sous silence.
APA, Harvard, Vancouver, ISO, and other styles
26

Jamborova-Lemay, Diana. "Analyse morphologique automatique du slovaque : étude approfondie du système linguistique slovaque et sa reconnaissance d'après la forme dans les textes scientifiques et techniques, application au machinisme agricole." Paris, INALCO, 2003. http://www.theses.fr/2003INAL0013.

Full text
Abstract:
L'analyse morphologique automatique du slovaque constitue la première étape d'un système d'analyse automatique du contenu des textes scientifiques et techniques slovaques. Un tel système pourrait être utilisé par des applications, telles que l'indexation automatique des textes, la recherche automatique de la terminologie ou par un système de traduction. Une description des régularités de la langue par un ensemble de règles ainsi que l'utilisation de tous les éléments au niveau de la forme du mot qui rendent possible son interprétation permettent de réduire d'une manière considérable le volume des dictionnaires. Notamment s'il s'agit d'une langue à très riche flexion, comme le slovaque. Les résultats que nous obtenons lors de l'analyse morphologique confirment la faisabilité et la grande fiabilité d'une analyse morphologique basée sur la reconnaissance des formes et ceci pour toutes les catégories lexicales concernées par la flexion
Automatic morphological analysis of Slovak language is the first level of an automatical analyser for Slovak's scientifical and technical texts. Such a system could be used for different applications : automatic text indexation, automatic research of terminology or translation systems. A rule-based description of language's regularities as well as the use of all the formal level elements of words allow to reduce considerably the volume of dictionaries. Notably in case of inflectionally rich languages such as Slovak. The results obtained by our morphological analyser justify such an approach and confirm the high reliability of morphological analysis based on form-recognition for all lexical categories
APA, Harvard, Vancouver, ISO, and other styles
27

Émorine, Martine. "Formalisation syntaxique et sémantique des constructions à verbes supports en français et en espagnol dans une grammaire catégorielle d'unification." Clermont-Ferrand 2, 1992. http://www.theses.fr/1992CLF2A001.

Full text
APA, Harvard, Vancouver, ISO, and other styles
28

Walther, Markus. "Deklarative prosodische Morphologie : Constraint-basierte Analysen und Computermodelle zum Finnischen und Tigrinya /." Tübingen : Niemeyer, 1999. http://catalogue.bnf.fr/ark:/12148/cb38814312v.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

Lallich-Boidin, Geneviève. "Analyse syntaxique automatique du français écrit : applications à l'indexation automatique." Phd thesis, Ecole Nationale Supérieure des Mines de Saint-Etienne, 1986. http://tel.archives-ouvertes.fr/tel-00849913.

Full text
Abstract:
L'analyse syntaxique d'une langue naturelle consiste à définir une grammaire de cette langue, grammaire nécessairement ambiguë, à choisir un algorithme d'analyse non déterministe et à élaborer une stratégie d'analyse afin d'éviter la construction de structures syntaxiques parasites. Dans le cadre de ce travail, nous définissons une grammaire du syntagme nominal du français écrit. Nous étudions les analyseurs hors contexte et non déterministes de Cocke-Younger-Kosomi et d'Earley, et retenons ce dernier. Puis, au dessus de cet analyseur, nous élaborons une stratégie d'analyse qui, à partir des données linguistiques portées par le texte à analyser, permet de prédire localement la structure juste et qui limite de ce fait le nombre de solutions parasites. L'indexation automatique de documents à partir des syntagmes nominaux contenus dans leur résumé est une application de l'analyseur construit
APA, Harvard, Vancouver, ISO, and other styles
30

Khruathong, Sombat. "Vers une analyse micro-systémique en vue d'une traduction automatique thaï-français : application aux verbes sériels." Besançon, 2007. http://www.theses.fr/2007BESA1004.

Full text
Abstract:
La thèse intitulée « vers une analyse micro-systémique en vue d’une traduction automatique thaï-français : application aux verbes sériels », s’articule en 6 chapitres : Le premier présente les approches linguistiques et informatiques utilisées dansle domaine du traitement automatique du langage. Le deuxième aborde les caractéristiques de la langue thaïe par rapport aufrançais, les problèmes généraux de traduction thaï-français, ainsi que les modèles d’analyse du syntagme nominal du thaï. Le troisième concerne un essai d’analyse des syntagmes adjectivaux et adverbiaux du thaï. Le quatrième est consacré à notre analyse en vue d’élaborer notre modèle pour le traitement automatique des verbes sériels. L’hypothèse est née de nos réflexionssuccessives sur les problèmes généraux de notre langue maternelle, le thaï, notamment en ce qui concerne le traitement automatique des langues. Nous avons constaté que les verbes sériels jouent un rôle particulier non seulement dans la formation lexicale, mais aussi dans l’ordre syntaxique de la phrase. Nul n’est besoin de dire combien ilspourraient faire obstacle à l’interprétation du sens, s’ils étaient mal analysés. Sur le plan quantitatif, les verbes sériels en thaï ne sont pas nombreux. Pourtant, en emploi pré ou post verbal et nominal, voire au niveau de la phrase, nous trouvons qu’ils occupent une place particulière qui mérite d’être étudiée. Le cinquième chapitre applique les résultats des chapitres 3 et 4 pour la réalisation d’un système de traduction thaï-français en « mode interactif » : nous démontrons que de telles analyses pour une traduction automatique peuvent être mieux développées en mode interactif car ainsi sont mis en évidence les problèmes qui relèvent de la différence de deux langues éloignées tant dans la formation lexicale que syntaxique. Dans notre conclusion, nous soulignons qu’un système de traduction automatique thaï-français pourrait avoir de nombreuses applications notamment dans le cadre de l’enseignement du français pour le public thaï ou l’enseignement du thaï pour le public francophone
This thesis, "Towards a Micro-Systemic Parsing for a Thai-French Machine Translation: Application to the Serial Verbs", is divided into 6 chapters : Chapter one presents the linguistic and data-processing approaches used in the field of computational linguistics. Chapter two explains the characteristics of the Thai language compared to the French language, the general problems of Thai-French translation, as well as the parsing models of noun phrases in Thai. Chapter three is concerned with trying to parse adjectival and adverbial syntagms of Thai. Chapter four is devoted to the parsing models for Thai serial verbs. The hypothesis there presented is the result of successive observations on the general problems of our mother tongue, the Thai language, in particular with regard to natural language processing. This has enabled us to observe that Thai serial verbs play a particular role not only in lexical formation, but also in the syntactic order of the sentence. It is not necessary to say how much the interpretation of the meaning would be obstructed if these verbs were badly analyzed. Quantitatively, Thai serial verbs are not numerous. However, in their pre or post verbal and nominal employment, even at the level of the sentence, the research outcome shows that they play a particular role which deserves to be studied. Chapter five applies the results of chapters 3 and 4 to the implementation of a Thai-French machine translation system in "interactive mode"; we believe that such analysis models for machine translation can be better developed in interactive mode because the problems, which concern the difference of the two distant languages as well as in the lexical formation in syntax, are thereby highlighted. In conclusion, we wish to underline that a Thai-French machine translation system could have many applications in particular in the area of Teaching of French as a Foreign Language for the Thai public or Teaching of Thai as a Foreign Language for French speaking countries
APA, Harvard, Vancouver, ISO, and other styles
31

Lutrand-Pezant, Brigitte. "Les propositions complétives en that en anglais contemporain." Paris 4, 2003. http://www.theses.fr/2003PA040212.

Full text
Abstract:
Ce travail, basé sur un corpus informatisé de plus de 7 000 énoncés, s'articule en trois parties : d'abord, une présentation de l'état des connaissances des linguistes sur les complétives en that, puis une description des formes rencontrées dans le corpus ainsi que des statistiques et enfin une analyse de leurs contextes d'occurrences. Le choix de that ou Ø, notamment, fait l'objet d'une étude détaillée. Le comportement de ces propositions est examiné dans les œuvres littéraires du XIXe et du XXe siècle et dans les articles de presse et articles scientifiques. Des comparaisons entre l'anglais oral et l'anglais écrit ont été proposées lorsque cela s'est révélé nécessaire. Cette recherche a également essayé de montrer les spécificités de l'anglais d'Afrique du Sud, d'Irlande, de Grande-Bretagne et des Etats-Unis en ce qui concerne ces propositions
This study, based on a computer-based corpus of over 7 000 examples, falls into three parts : first a presentation of the linguistic knowledge so far on the subject of that clauses, then a description of the forms present in the corpus together with statistics and third an analysis of their lexical and syntactic environments. The issue of the choice between that and Ø has been carefully examined. The behaviour of these clauses has been studied through literary texts of the 19th and 20th centuries as well as in journalistic and scientific writings. Oral English has been compared to written English when necessary. This research did also try to show the characteristics of South African, Irish, British and American English regarding these clauses
APA, Harvard, Vancouver, ISO, and other styles
32

Culioli-Atwood, Marie-Hélène. "Operations referentielles. Analyse de la determination en francais en vue d'un traitement informatise." Paris 7, 1992. http://www.theses.fr/1992PA070014.

Full text
Abstract:
L'objectif de la these est (1) de rassembler un maximum d'observations systematiques et detaillees concernant l'apparition des determinants en francais (dans le schema determinant + n): (2) de construire un systeme de representation metalinguistique permettant la modelisation des faits; (3) de construire des procedures de raisonnement, en vue d'un traitement algorithmique, soit en generation soit en analyse. L'ouvrage fournit les bases conceptuelles de la modelisation, a la fois sur le plan formel et sur le plan semantique. La these comporte trois parties: analyse des problemes lies aux manipulations paraphrastique en cause; etude de groupes de predicats nominalises, a partir de classements semantiques; etude des determinants dans les groupes prepositionnels. Cette recherche construit les etapes preliminaires a tout traitement automatique de la determination, telle qu'elle fonctionne dans un texte francais quelconque
The purpose of the thesis is (1) to gather a maximun of systematic and detailed observations concerning the occurence of determiners in french ( in the pattern det. + n ); (2) to build a system of metalinguistic representation enabling the modelling of facts; (3) to build procedures of reasoning having in mind an algorithmic treatment whether in generation or in analysis. The work gives the conceptual basis for modelling both on a formal and a semantic level. The thesis is made up of three parts: analysis of the problems in relation to the paraphrastic manipulations; study of groups of nominalised predicates based on semantic classifications; study of determiners in prepositional phrases. This work of research builds the preliminary steps of any computerized treatment of determination as used in a french text
APA, Harvard, Vancouver, ISO, and other styles
33

Sedogbo, Célestin. "De la grammaire en chaîne du français à un système question-réponse." Aix-Marseille 2, 1987. http://www.theses.fr/1987AIX22092.

Full text
APA, Harvard, Vancouver, ISO, and other styles
34

Bioud, Mounira. "Une normalisation de l'emploi de la majuscule et sa représentation formelle pour un système de vérification automatique des majuscules dans un texte." Besançon, 2006. http://www.theses.fr/2006BESA1002.

Full text
Abstract:
Cette recherche repose sur l'étude des problèmes relatifs à l'emploi de la majuscule dans une perspective de traitement automatique des langues en vue d'une correction automatique. L'usage des majuscules en français souffre d'une absence de norme fixe et universelle qui entraîne inévitablement leur placement aléatoire et souvent injustifié. Cette absence fait apparaître d'une part des phénomènes appelés majusculite (abus des majuscules) et minusculite (abus des minuscules) et d'autre part la présence de variantes orthographiques (la Montagne noire, la montagne Noire, la Montagne Noire, la montagne noire). Les correcticiels actuels semblent incapables de dire quelle est la bonne orthographe. Le véritable sens des majuscules tend à disparaître et leur pertinence à devenir moins évidente. Tant d'incertitudes, d'hésitations et de flottements dans les règles d'usage, tant de différences de traitement d'un ouvrage à un autre rendent toute tentative d'automatisation très difficile. Cette normalité bancale touche plus particulièrement les noms propres dits complexes ou dénominations. La solution la plus logique pour que cesse la dérive, est de normaliser l'emploi des majuscules. En nous basant sur un certain nombre d'ouvrages de référence, nous avons élaboré des règles claires et logiques régissant l'emploi de la majuscule afin de créer un modèle théorique à la base d'un système de vérification automatique des majuscules. Cette solution voit ainsi la disparition des variantes orthographiques dont l'existence constitue également un problème majeur dans la recherche en extraction de formes figées
This research deals with the study of the problems relating to the use of the upper case letter from the point of view of Natural Language Processing for an automatic spelling correction. The use of the French capital letters suffers from a lack of fixed standardization which inevitably involves that they are used without methodology. This absence reveals on the one hand phenomenon called “majusculite” (abuse of the capital letters) and “minusculite” (abuse of small letters) and on the other hand the presence of spelling variants (la Montagne noire, la montagne Noire, la Montagne Noire, la montagne noire). The current spelling checkers seem unable to say which the good form is. The true direction of upper case letters tends to disappear and their relevance becoming less obvious. Such an amount of doubts, hesitations and fluctuations in the rules of employment, so many differences between the different authors return any attempt of automatic processing very difficult. This wobbly normality more particularly touches the proper nouns known as complex or “dénominations”. The most logical solution so that cease the drift, is to standardize the use of the capital letters. Basing us on various reference works, we worked out clear and logical rules governing the use of the capital letter in order to create a theoretical model of an automatic system checking capital letters. Thus, this solution sees the disappearance of the spelling variants whose existence also constitutes a major problem in research in extraction of fixed forms
APA, Harvard, Vancouver, ISO, and other styles
35

Hassoun, Mohamed. "Conception d'un dictionnaire pour le traitement automatique de l'arabe dans différents contextes d'application." Lyon 1, 1987. http://www.theses.fr/1987LYO10035.

Full text
Abstract:
Le dictionnaire est concu pour le traitement automatique de l'arabe dans le cadre du programme de recherche samia (synthese et analyse morphologiques informatisees de l'arabe). Partant du modele linguistique concu par le programme samia (traits morphologiques, regles de contextualisation), on a cherche a definir une structuration des donnees permettant la constitution d'un dictionnaire utilisable dans les deux contextes de l'analyse et de la synthese morphologiques. On examine les conditions de consultation et d'exploitation du dictionnaire ainsi que son implementation sur le sgbd relationnel informix
APA, Harvard, Vancouver, ISO, and other styles
36

Braud, Chloé. "Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes." Sorbonne Paris Cité, 2015. https://hal.inria.fr/tel-01256884.

Full text
Abstract:
Le développement de systèmes d'analyse discursive automatique des documents est un enjeu actuel majeur en Traitement Automatique des Langues. La difficulté principale correspond à l'étape d'identification des relations (comme Explication, Contraste. . . ) liant les segments constituant le document. En particulier, l'identification des relations dites implicites, c'est-à-dire non marquées par un connecteur discursif (comme mais, parce que. . . ), est réputée difficile car elle nécessite la prise en compte d'indices variés et correspond à des difficultés particulières dans le cadre d'un système de classification automatique. Dans cette thèse, nous utilisons des données brutes pour améliorer des systèmes d'identification automatique des relations implicites. Nous proposons d'abord d'utiliser les connecteurs pour annoter automatiquement de nouvelles données. Nous mettons en place des stratégies issues de l'adaptation de domaine qui nous permettent de gérer les différences en termes distributionnels entre données annotées automatiquement et manuellement : nous rapportons des améliorations pour des systèmes construits sur le corpus français ANNODIS et sur le corpus anglais du Penn Discourse Treebank Ensuite, nous proposons d'utiliser des représentations de mots acquises à partir de données brutes, éventuellement annotées automatiquement en connecteurs, pour enrichir la représentation des données fondées sur les mots présents dans les segments à lier. Nous rapportons des améliorations sur le corpus anglais du Penn Discourse Treebank et montrons notamment que cette méthode permet de limiter le recours à des ressources riches, disponibles seulement pour peu de langues
Building discourse parsers is currently a major challenge in Natural Language Processing. The identification of the relations (such as Explanation, Contrast. . . ) linking spans of text in the document is the main difficulty. Especially, identifying the so-called implicit relations, that is the relations that lack a discourse connective (such as but, because. . . ), is known as an hard tank sine it requires to take into account varions factors, and because it leads to specific difficulties in a classification system. In this thesis, we use raw data to improve automatic identification of implicit relations. First, we propose to use discourse markers in order to automatically annotate new data. We use domain adaptation methods to deal with the distributional differences between automatically and manually annotated data : we report improvements for systems built on the French corpus ANNODIS and on the English corpus Penn Discourse Treebank. Then, we propose to use word representations built from raw data, which may be automatically annotated with discourse markers, in order to feed a representation of the data based on the words found in the spans of text to be linked. We report improvements on the English corpus Penn Discourse Treebank, and especially we show that this method alleviates the need for rich resources, available but for a few languages
APA, Harvard, Vancouver, ISO, and other styles
37

Brault, Frédérick. "Forces et faiblesses de l'utilisation de trigrams dans l'étiquetage automatique du français : exploration à partir des homographes de type verbe-substantif." Thesis, Université Laval, 2004. http://www.theses.ulaval.ca/2004/22111/22111.pdf.

Full text
Abstract:
Ce mémoire porte sur l’étiquetage automatique de texte français, c’est-à-dire l’attribution, par un programme informatique appelé étiqueteur, de la nature grammaticale des mots d’un texte français. En particulier, ce mémoire explore les forces et les faiblesses de l’utilisation du modèle mathématique des trigrams pour cette tâche. L’efficacité du modèle des trigrams est évaluée à l’aide d’observations sur la désambiguïsation des homographes de type verbe/substantif en français, c’est-à-dire, des mots dont la graphie est la même selon qu’ils soient verbe ou substantif (ex. : ferme). Ce mémoire tente de répondre à trois questions : 1. Pourquoi les étiqueteurs à modèle mathématique comme les trigrams réussissent-ils à 95%? 2. Qu’est-ce qui empêche d’améliorer ces performances? 3. Comment des connaissances linguistiques peuvent-elles permettre d’améliorer ces performances? En rapport à ces questions, les résultats obtenus lors de ces travaux montrent que : 1. les structures syntaxiques sont suffisamment récurrentes pour permettre aux trigrams de saisir en grande partie les règles syntaxiques nécessaires à la désambiguïsation; 2. le calcul d’un taux de succès général dissimule, d’un point de vue linguistique, des décisions incohérentes du modèle des trigrams qu’ils seraient difficile de rectifier simplement en modifiant les trigrams; 3. la connaissance de contraintes syntaxiques permet d’analyser plus en détail le comportement du modèle des trigrams et de suggérer, en conséquence, des solutions pour améliorer le taux de succès d’un étiqueteur.
APA, Harvard, Vancouver, ISO, and other styles
38

Zouari, Lotfi. "Construction automatique d'un dictionnaire orienté vers l'analyse morpho-syntaxique de l'arabe, écrit voyellé ou non voyellé." Paris 11, 1989. http://www.theses.fr/1989PA112073.

Full text
Abstract:
Le présent travail pose le problème du traitement automatique d'une langue naturelle : l'arabe. Le but est d'appréhender la langue arabe écrite, telle qu'elle se présente, sans aucun prétraitement manuel. En premier lieu, il s'agit donc de construire automatiquement un dictionnaire, qui doit permettre l'analyse aussi bien des textes voyellés que non voyellés. En second lieu, l'analyse morphologique doit permettre la reconnaissance des unités lexicales qui composent le texte, lesquelles ne correspondent pas toujours aux entrées du dictionnaire à cause des problèmes de l'agglutination. Côté analyse syntaxique, on s'est intéressé à la levée des ambiguïtés grammaticales simplement. Elle doit en plus prendre en compte les problèmes dûs à l'agglutination
This thesis adresses the problem of the automatic treatment of a natural langage : arabic. Its purpose is to treat written arabic, as it is printed, without any pre-editing. First play, we describe the automatic construction of a dictionary, which allows the recognition of the lexical units that makeup the text, units which do not always appear in the dictionary because of agglutination in Arabic. As for syntactic analyses, we resolve grammatic ambiguities, taking into account the problems caused by agglutination
APA, Harvard, Vancouver, ISO, and other styles
39

Svášek, Martin. "Définitions, élaboration et exploitation d'un corpus parallèle bidirectionnel français-tchèque tchèque français." Paris, INALCO, 2007. http://www.theses.fr/2007INAL0020.

Full text
Abstract:
D’abord, nous introduisons le concept de corpus parallèle. Fratchèque est un corpus parallèle de ressources écrites dont les textes en français et en tchèque proviennent de la littérature écrite après 1945. Il ne contient pas de balises XML, le logiciel ParaConc utilisé pour le traitement du corpus n’en a pas besoin. L’élaboration du corpus est décrite d’une façon détaillée en suivant toutes les démarches et tout le paramétrage des logiciels utilisés. Elle commence avec le logiciel de reconnaissance optique de caractères FineReader et après le contrôle de la qualité des textes numérisés sous MS Word 2002 on procède à la constitution d’un corpus parallèle géré par ParaConc. La partie linguistique de la thèse s’appuie sur le corpus parallèle réalisé. Elle aborde un phénomène connu en tchèque sous le terme částice qui n’a d’équivalent univoque en français. Les termes le plus souvent liés en français à la question sont mots du discours et particules énonciatives. Selon les descriptions existantes, il y a une relation étroite entre ces mots et le discours. Cette constatation est démontrée pour deux částice – vždyt̕, přece et leurs variantes – sur les grands corpus tchèques (Analyse A) et Fratchèque (Analyse B). L’étude continue avec l’analyse systématique des types variés d’usage de vždyt̕, přece dans le but de proposer une description lexicographique pour un dictionnaire bilingue tchèque-français. Quelques exercices basés sur les résultats de l’étude montrent comment utiliser le corpus bilingue dans la didactique des langues. Enfin, on discute quelques questions qui concernent la possibilité d’évaluer automatiquement la qualité de traductions liées à la présence de částice
At the beginning the concept of a parallel corpus is defined. French and Czech texts forming the parallel Fratchèque corpus come from literature; only texts after the year 1945 have been selected. Fratchèque is not marked up explicitly by XML tags because the tagging is not necessary for the proper functioning of the corpus manager ParaConc. The building-up of the corpus is thoroughly described following all steps and settings of the software used. The process starts with the optical character recognition program FineReader and, after checking the accuracy of numerical texts by using MS Word 2002, it goes on building up a corpus managed by ParaConc. The linguistic investigations of the thesis rely primarily on the realization of a parallel corpus. The main purpose is to tackle a phenomenon that is known in Czech as částice but has no direct equivalent in French. The most frequent terms used in the French approach are mots du discours and particules énonciatives. The existing descriptions suggest a close relationship between these words and the discourse. It is demonstrated on two Czech částice - přece, vždyt̕ and their variants - using huge Czech corpora (Analysis A) and Fratchèque (Analysis B). The study continues analysing systematically all kind of usage of vždyt̕, přece in order to present lexicographical description for a bilingual Czech-French dictionary. Through some exercices based on the results of the linguistic analysis it is shown how to use the bilingual corpus in teaching foreign languages. Finally, some issues concerning automatic evaluation of translation quality are discussed taking into account the work with částice
APA, Harvard, Vancouver, ISO, and other styles
40

Yoon, SinWon. "Une grammaire électronique en TAG pour le coréen." Paris 7, 2010. http://www.theses.fr/2010PA070100.

Full text
Abstract:
Cette thèse présente le développement d'une grammaire électronique pour le coréen dans le cadre des grammaires d'arbres adjoints (Tree Adjoining Grammars : TAG), un formalisme disposant de la combinaison des arbres. Nous définissons la topologie d'arbres élémentaires des unités lexicales (noms, verbes, adverbes, déterminants, conjonctions). Nous précisons notamment la définition des familles des verbes. Il s'agit de présenter la formalisation des structures variantes à tête verbale par rapport à un même cadre de sous-catégorisation. Nous exposons d'abord les représentations des constructions syntaxiques qui sont spécifiées par les suffixes verbaux pour le coréen : les déclaratives/interrogatives/propositives/impératives. Ensuite nous justifions et présentons la formalisation des différents phénomènes syntaxiques qui peuvent être distingués pour une sous-catégorisation par la redistribution des arguments (les phénomènes de diathèse), el par la réalisation des arguments (les phénomènes d'extraction). Outre la définition d'une grammaire TAG poui le coréen, nous montrons l'intérêt de résoudre les problèmes formels des TAG, lesquels proviennent d'une capacité générative insuffisante pour les phénomènes d'ordre libre. Cela nous amène à proposer une variante Pro-VTAG au sein du formalisme V-TAG, en nous reposant sur l'idée qui consiste à découper une structure standard du verbe en plusieurs arbres pouvant s'adjoindre librement sur la projection étendue du verbe. Nous montrons d'une part que les Pro-VTAG ont la potentialité de permettre l'analyse des phénomènes d'ordre libre des mots du coréen, et d'autre part que l'analyse en Pro-VTAG comporte les avantages, par rapport à celle er V-TAG, de localiser des dépendances et d'éviter l'ajout d'un mécanisme artificiel pour bloquer l'extraction
This dissertation presents the development of an electronic grammar for Korean in Tree Adjoining Grammars (TAG), a formalism using the combination of trees. We define the topology of elementary trees associated with lexical items (nouns, verbs, adverbs, determiners, conjunctions). We specify in particular the definition of verb families. It presents the formalization of structural variants selected by verbs for a same subcategorization frame. We first present the representations of syntactic constructions which are specified b; the verbal suffixes for Korean : the declarative/interrogative/propositive/imperative. We then justify and present the formalization of the various syntactic phenomena that can be distinguished for a subcategorization frame by the redistribution of arguments (the passive and the causative), and the realization of arguments (the extraction). Besides the definition of a TAG grammar for Korean, we are interested to solve the formal problems of TAG, which are derived from a generative capacity insufficient for the free word order. This leads us to propose an extension Pro-VTAG of the V-TAG formalism, based on the idea of dividing a standard structure of the verb into several trees that may adjoin freely within the extended projection of the verb. We show that the Pro-VTAG has the potential capacity to allow the analysis of the free word order in Korean, and that the analysis in Pro-VTAG has the advantages, compared to that in V-TAG, to localize dependencies and to avoid adding an artificial mechanism for blocking extraction
APA, Harvard, Vancouver, ISO, and other styles
41

Clément, Lionel. "Construction et exploitation d'un corpus syntaxiquement annoté pour le français." Paris 7, 2001. http://www.theses.fr/2001PA070029.

Full text
Abstract:
Dans ce mémoire, nous avons présenté un corpus annoté syntaxiquement pour le français, pleinement désambigui͏̈sé et validé manuellement. Ce travail est particulièrement centré sur la méthodologie mise en oeuvre lors de l'annotation semi-automatique de corpus et sur la description linguistique. L'annotation comprend l'assignation de traits ou catégories à des unités textuelles, les "mots" dans une première étape, et la représentation des constituances et dépendances articulant des unités syntagmatiques dans une seconde étape. Cette seconde phase de l'annotation de corpus est en cours et soulève encore un certain nombre de problèmes théoriques (comment annoter les dépendances ambigue͏̈s par exemple). L'annotation syntaxique comprend un ensemble de procédures qui ne sont pas sans influence sur la mise en lumière de certains phénomènes linguistiques lors de l'exploitation du corpus. .
Very few gold standard annotated corpora are currently available for French. We present a project to build a reference tree bank for French. We annotate a newspaper corpus of 1 Million words (Abeillé et al 1998, 1999, 2000), following EAGLES recommendations (von Rekowski 1996, Ide et al. 1996, Sanfilippo et al. 1996, Kahrel et al. 1997) and developing specific annotation guidelines for French. Similarly to the Penn Tree Bank (Marcus et al. 1993), we distinguish a tagging and a parsing phase, and reach a process of automatic annotation followed by a systematic manual validation and correction. Similarly to the Suzanne Corpus (Sampson 1994, this volume), on the Prague tree bank (Hajicova et al 1998, this volume), we rely on several types of morphosyntactic and syntactic annotations for which we define extensive guidelines. Our goal is to provide a theory neutral, surface oriented, error-free tree bank for French. Similarly to the Negra project (Brants et al. 1999, this volume), we annotate both constituents and functional relations. Due to the lack of robust reusable annotation tools at the beginning of the project, we chose to develop our own
APA, Harvard, Vancouver, ISO, and other styles
42

Ben, Mlouka Monia. "Le référencement en langue des signes : analyse et reconnaissance du pointé." Toulouse 3, 2014. http://thesesups.ups-tlse.fr/2676/.

Full text
Abstract:
Cette thèse porte sur le rôle et l'analyse du regard en langue des signes où celui-ci joue un rôle important. Dans toute langue, le regard permet de maintenir la relation de communication. En langue des signes, il permet, en plus, de structurer le discours ou l'interaction entre locuteurs, en s'investissant dans des fonctions linguistiques complexes. Nous nous intéressons au rôle de référencement qui consiste à mettre le focus sur un élément du discours. En langue des signes, les éléments du discours sont spatialisés dans l'espace de signation ; ainsi, mettre le focus sur un élément du discours revient à identifier et activer son emplacement spatial (locus), ce qui va mobiliser un ou plusieurs composants corporels, les mains, les épaules, la tête et le regard. Nous avons donc analysé le concept de référencement sous ses formes manuelles et / ou non manuelles et avons mis en place un système de reconnaissance de structures de référencement qui prend en entrée une vidéo en langue des signes. Le système de reconnaissance consiste en trois étapes: 1) la modélisation 3D du concept de référencement, 2) la transformation du modèle 3D en un modèle d'aspect exploitable par un programme de traitement 2D et 3) la détection, qui utilise ce modèle d'aspect. La modélisation consiste en l'extraction de caractéristiques gestuelles du concept de référencement à partir de corpus composés de capture 3D de mouvement et du regard et annotés manuellement à partir de vidéos. La modélisation concerne la description des composantes corporelles qui jouent un rôle dans le référencement et la quantification de quelques propriétés gestuelles des composantes corporelles en question. Les modèles obtenus décrivent : 1) La dynamique du mouvement de la main dominante et 2) la proximité spatiale entre des composantes corporelles et l'élément discursif spatialisé. La mise en œuvre de la méthode de reconnaissance intègre ces modèles 3D de profil dynamique de la main et de variation de distance entre composantes corporelles et l'élément discursif ainsi que le modèle temporel de décalages entre mouvements. Etant donné que les modèles obtenus sont tridimensionnels et que l'entrée du système de reconnaissance de structures de référencement est une vidéo 2D, nous proposons une transformation des modèles 3D en 2D afin de permettre leur exploitation dans l'analyse de la vidéo 2D et la reconnaissance des structures de référencement. Nous pouvons alors appliquer un algorithme de reconnaissance à ces corpus vidéo 2D. Les résultats de reconnaissance sont sous la forme d'intervalles temporels. On constate la présence de deux variantes principales de référencement. Ce travail pionnier sur la caractérisation et la détection des référencements nécessiterait d'être approfondi sur des corpus beaucoup plus importants, cohérents et riches et avec des méthodes plus élaborées de classification. Cependant il a permis d'élaborer une méthodologie d'analyse réutilisable
This thesis focuses on the role and analysis of gaze in sign language where it plays an important role. In any language, the gaze keeps the communication relationship. In addition to that, it allows structuring a sign language discourse or interaction between signers, by investing in complex linguistic features. We focus on the role of reference, which is to put the focus on an element of the discourse. In sign language, the components of the discourse are localized in the signing space; thus putting the focus on an element of discourse which is to identify and activate its spatial location (locus), which will mobilize one or more body parts, hands, shoulders, head and eyes. We therefore analyzed the concept of reference in its manual and / or non- manual gestures and set up a reference-based recognition system that takes as input a video in sign language. The recognition system consists of three steps: - 3D modeling of the concept of reference. - The transformation of the 3D model into a 2D model useable by a 2D recognition system. - The detection system, which uses this 2D model. Modeling involves the extraction of gestural characteristics of the concept of reference from corpus consisted of 3D motion capture and gaze and manually annotated videos and the temporal pattern of time lags between motions. Modeling concerns the description of body parts that play a role in reference and the quantification of their gestural. The resulting models describe: 1) The dynamic movement of the dominant hand and 2) the distances between body parts and locus and 3) the time lags between the beginning of motions. The implementation of the recognition method integrates these 3D models. Since the resulting models are three-dimensional and the recognition system has, as input, a 2D video, we propose a transformation of 3D models to 2D to allow their use in the analysis of 2D video and in pattern recognition of reference structures. We can then apply a recognition algorithm to the 2D video corpus. The recognition results are a set of time slots with two main variants of reference. This pioneering work on the characterization and detection of references structures would need to be applied on much larger corpus, consistent and rich and more sophisticated classification methods. However, it allowed to make a reusable methodology of analysis
APA, Harvard, Vancouver, ISO, and other styles
43

Jackiewicz, Agata. "L'expression de la causalité dans les textes : contribution au filtrage sémantique par une méthode informatique d'exploration contextuelle." Paris 4, 1998. http://www.theses.fr/1998PA040003.

Full text
Abstract:
La thèse a pour objectif d'étudier la causalité à partir de son expression discursive dans des textes français. Cette étude linguistique est effectuée dans la perspective du traitement automatique des langues. Ce travail s'intègre dans un projet de filtrage sémantique des textes orienté vers la production de synthèses et de résumes (projet SAFIR : système automatique de filtrage d'informations pour le résumé). Mais sa portée s'étend à l'acquisition des connaissances à partir de textes. Notre premier objectif consiste à répertorier les différents procédés linguistiques employés par les auteurs pour communiquer des relations causales. Nous utilisons une méthode informatique originale d'exploration contextuelle qui ne se base pas sur une "représentation profonde" du texte, mais sur une identification automatique de marqueurs considérés comme étant pertinents. Nous proposons une carte de 1500 marqueurs (verbes, locutions, adverbes. . . ) qui sont des indices automatiquement identifiables des relations causales prises en charge par l'énonciateur ou par des tiers
The object of this thesis is to study causality through its discursive expression in French texts. This linguistic study has been made in the perspective of automatic language processing. This work takes place within a project of semantic filtering of texts (named SAFIR : automatic information filtering for summarizing texts) which is dedicated to the production of syntheses and summaries. But the present work ranges over knowledge acquisition through texts. Our first objective is to index the various linguistic processes that are used by authors to convey causal relations. We use an original contextual exploration method that is not based upon a "deep representation" of the text under consideration, rather upon an automatic identification of markers that are considered as relevant. We propose a map made of 1500 markers (verbs, phrases, adverbs,. . . ) which are automatically identifiable indices of the causal relations conveyed by a speaker or a third party
APA, Harvard, Vancouver, ISO, and other styles
44

Hathout, Nabil. "Théorie du gourvernement et du liage et programmation logique avec contraintes : une application à l'analyse automatique du français." Toulouse 3, 1992. http://www.theses.fr/1992TOU30200.

Full text
Abstract:
Le travail presente dans cette these s'inscrit dans le cadre de l'analyse automatique, basee sur la theorie du gouvernement et du liage, des langues naturelles. La theorie du gouvernement et du liage (abrege gb) stipule que la grammaire est composee d'un petit nombre de contraintes syntaxiques ou principes auxquels sont associes un ensemble de quelques parametres. L'un des objectifs de cette these est de proposer une implementation de certains de ces principes sous la forme de contraintes analogues a celles utilisees en programmation logique avec contraintes. Une partie importante de ce memoire est consacree a la description en logique du premier ordre des notions, des relations et des principes utilises pour analyser, dans le cadre de la theorie gb, les phrases d'un fragment du francais. Une architecture modulaire d'un analyseur syntaxique est ensuite proposee. Cette architecture comprend un module de projection et un module d'integration qui tous deux utilisent un resolveur pour traiter les contraintes a l'aide desquelles sont formules les principes de gb; ces contraintes sont les relations de base de gb comme domine, c-commande, l-marque, categorie bloquante, etc. Le resolveur de contraintes traite les relations de base de gb a l'aide des techniques de consistance. Il est egalement base sur une notion de restriction des domaines de quantification des variables qui apparaissent dans les contraintes. La mise en uvre de ces restrictions des quantifications est effectuee par un module de calcul des domaines et des completudes qui remplit egalement, par rapport au resolveur de contraintes, une fonction de mecanisme de gel specialise. Une implementation des modules de projection et d'integration de meme que des composants essentiels du resolveur (resolveur auxiliaire, module de calcul des domaines et des completudes, module de filtrage) a ete realisee en sicstus prolog
APA, Harvard, Vancouver, ISO, and other styles
45

Goulet, Marie-Josée. "Analyse d'évaluations en résumé automatique : proposition d'une terminologie française, description des paramètres expérimentaux et recommandations." Thesis, Université Laval, 2008. http://www.theses.ulaval.ca/2008/25346/25346.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
46

Wang, Zhen. "Extraction en langue chinoise d'actions spatiotemporalisées réalisées par des personnes ou des organismes." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016INAL0006.

Full text
Abstract:
La thèse a deux objectifs : le premier est de développer un analyseur qui permet d'analyser automatiquement des sources textuelles en chinois simplifié afin de segmenter les textes en mots et de les étiqueter par catégories grammaticales, ainsi que de construire les relations syntaxiques entre les mots. Le deuxième est d'extraire des informations autour des entités et des actions qui nous intéressent à partir des textes analysés. Afin d'atteindre ces deux objectifs, nous avons traité principalement les problématiques suivantes : les ambiguïtés de segmentation, la catégorisation ; le traitement des mots inconnus dans les textes chinois ; l'ambiguïté de l'analyse syntaxique ; la reconnaissance et le typage des entités nommées. Le texte d'entrée est traité phrase par phrase. L'analyseur commence par un traitement typographique au sein des phrases afin d'identifier les écritures latines et les chiffres. Ensuite, nous segmentons la phrase en mots à l'aide de dictionnaires. Grâce aux règles linguistiques, nous créons des hypothèses de noms propres, changeons les poids des catégories ou des mots selon leur contextes gauches ou/et droits. Un modèle de langue n-gramme élaboré à partir d'un corpus d'apprentissage permet de sélectionner le meilleur résultat de segmentation et de catégorisation. Une analyse en dépendance est utilisée pour marquer les relations entre les mots. Nous effectuons une première identification d'entités nommées à la fin de l'analyse syntaxique. Ceci permet d'identifier les entités nommées en unité ou en groupe nominal et également de leur attribuer un type. Ces entités nommées sont ensuite utilisées dans l'extraction. Les règles d'extraction permettent de valider ou de changer les types des entités nommées. L'extraction des connaissances est composée des deux étapes : extraire et annoter automatiquement des contenus à partir des textes analysés ; vérifier les contenus extraits et résoudre la cohérence à travers une ontologie
We have developed an automatic analyser and an extraction module for Chinese langage processing. The analyser performs automatic Chinese word segmentation based on linguistic rules and dictionaries, part-of-speech tagging based on n-gram statistics and dependency grammar parsing. The module allows to extract information around named entities and activities. In order to achieve these goals, we have tackled the following main issues: segmentation and part-of-speech ambiguity; unknown word identification in Chinese text; attachment ambiguity in parsing. Chinese texts are analysed sentence by sentence. Given a sentence, the analyzer begins with typographic processing to identify sequences of Latin characters and numbers. Then, dictionaries are used for preliminary segmentation into words. Linguistic-based rules are used to create proper noun hypotheses and change the weight of some word categories. These rules take into account word context. An n-gram language model is created from a training corpus and selects the best word segmentation and parts-of-speech. Dependency grammar parsing is used to annotate relations between words. A first step of named entity recognition is performed after parsing. Its goal is to identify single-word named entities and noun-phrase-based named entities and to determine their semantic type. These named entities are then used in knowledge extraction. Knowledge extraction rules are used to validate named entities or to change their types. Knowledge extraction consists of two steps: automatic content extraction and tagging from analysed text; extracted contents control and ontology-based co-reference resolution
APA, Harvard, Vancouver, ISO, and other styles
47

Lin, Huei-Chi. "Un module NooJ pour le traitement automatique du chinois : formalisation du vocabulaire et des têtes de groupes nominaux." Besançon, 2010. http://www.theses.fr/2010BESA1025.

Full text
Abstract:
Cette étude présente le développement du module d’analyse automatique du chinois qui permet de reconnaître dans les textes les unités lexicales en chinois moderne puis les groupes nominaux noyaux. Pour atteindre ces deux objectifs principaux, nous devions résoudre les problèmes suivants : 1) identifier les unités lexicales en chinois moderne ; 2) déterminer leurs catégories ; 3) décrire la structure de syntaxe locale et des groupes nominaux noyaux. C’est ainsi que nous avons été amenée à constituer d’abord un corpus regroupant des textes littéraires et journalistiques publiés au XXe siècle. Ces textes sont écrits en chinois moderne avec des caractères traditionnels. Grâce à ces données textuelles, nous avons pu recueillir des informations linguistiques telles qu’unités lexicales, structures syntagmatiques ou règles grammaticales. Ensuite, nous avons construit des dictionnaires électroniques dans lesquels chaque unité lexicale est représentée par une entrée, à laquelle sont associées des informations linguistiques telles que catégories lexicales, classes de distribution sémantique ou descriptions formelles de certaines formes lexicales. À ce stade, nous avons cherché à identifier les unités lexicales du lexique chinois et leurs catégories en les recensant. Grâce à cette liste, l’analyseur lexical peut traiter des unités lexicales de différents types, en bloc, sans les découper en composants. Ainsi, on traite les unités lexicales suivantes comme des unités atomiques : 理髮lǐfǎ ‘faire la coiffure’. 放假fàngjià ‘être en vacances’. 刀子口dāozikǒu ‘parole cruelle’. 研究員yánjiū / jiù yuán ‘chercheur’. 翻譯系統fānyì xìtǒng ‘système de traduction’. 浪漫主義làngmàn zhŭyì ‘romantisme’. Puis, nous avons décrit de manière formelle un certain nombre de syntagmes locaux, ainsi que cinq types de groupes nominaux noyaux. Enfin, nous avons utilisé le module chinois ainsi développé pour étudier l’évolution thématique dans les textes littéraires
This study presents the development of a module for the automatic parsing of Chinese that will allow to recognize automatically lexical units in modern Chinese, as well as central Noun Phrases in texts. In order to reach these two principle objectives, we solved the following problems: 1) identify lexical units in modern Chinese ; 2) determine their categories ; 3) describe certain local syntactic structures as well as the structure of central Noun Phrases. Firstly we constructed a corpus regrouping literary and journalistic texts published in the XXth century. These texts are written in modern Chinese with traditional characters. Thanks to textual data, we could collect linguistic information such as lexical units, syntagmatic structures or grammatical rules. Then, we constructed several electronic dictionaries in which each entry represents a lexeme, with which is associated linguistic information such as its lexical category, its semantic distributional class or certain formal properties. At this stage, we tried to identify the lexical units of Chinese lexicon and their categories in order to list them. Thanks to this list, an automatic lexical analyzer can process various types of lexical units in bloc, without deconstructing them in components. For instance, the lexical parser processes the following lexical units as atomic units : 理髮lǐfà / fǎ ‘have a haircut’. 放假fàngjià ‘have vacation’. 刀子口dāozikǒu ‘straight talk’. 研究員yánjiū / jiù yuán ‘researcher’. 翻譯系統fānyì xìtǒng ‘translation system’. 浪漫主義làngmàn zhŭyì ‘romanticism’. Then, we described formally certain local syntagms and five types of central Noun Phrases. Finally, we used this Chinese module to study thematic evolution in literary texts
APA, Harvard, Vancouver, ISO, and other styles
48

Kosawat, Krit. "Méthodes de segmentation et d'analyse automatique de textes thaï." Phd thesis, Université Paris-Est, 2003. http://tel.archives-ouvertes.fr/tel-00626256.

Full text
Abstract:
Ce travail de thèse a pour objectif de concevoir et réaliser un module informaticolinguistique apte à effectuer des analyses automatiques de textes thaï sous le système INTEX © . Basé fondamentalement sur les langues indo-européennes écrites avec l'alphabet latin, INTEX © rencontre quelques difficultés pour travailler sur une langue très différente comme le thaï. Le problème crucial est la segmentation en mots et en phrases, étant donné que le thaï n'a pas de séparateur de mot : une phrase est écrite en une séquence de lettres continues, et les séparateurs de phrase sont fréquemment ambigus. Aussi avons-nous développé et évalué deux méthodes de segmentation en mots, par expressions rationnelles et par transducteurs à nombre fini d'états, qui découpent respectivement des textes thaï en lettres et en syllabes. Nous avons également créé les dictionnaires électroniques du thaï qui servent à la fois à reconnaître les mots à partir des lettres ou des syllabes et à les étiqueter avec les codes syntaxiques et sémantiques. Deux méthodes de segmentation en phrases thaï, par la ponctuation et par mots-clés, sont également proposées et évaluées. Nous montrons enfin que, grâce à notre travail, INTEX © est capable d'analyser des documents thaï, malgré toutes les difficultés.
APA, Harvard, Vancouver, ISO, and other styles
49

Apidianaki, Marianna. "Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traduction." Phd thesis, Université Paris-Diderot - Paris VII, 2008. http://tel.archives-ouvertes.fr/tel-00322285.

Full text
Abstract:
Le travail présenté dans cette thèse explore la question de l'acquisition automatique de sens pour la désambiguïsation lexicale dans un cadre de traduction. Partant de l'hypothèse du besoin de conformité des inventaires sémantiques utilisés pour la désambiguïsation dans le cadre d'applications précises, la problématique du repérage des sens se situe dans un cadre bilingue et le traitement s'oriente vers la traduction.
Nous proposons une méthode d'acquisition de sens permettant d'établir des correspondances sémantiques de granularité variable entre les mots de deux langues en relation de traduction. L'induction de sens est effectuée par une combinaison d'informations distributionnelles et traductionnelles extraites d'un corpus bilingue parallèle. La méthode proposée étant à la fois non supervisée et entièrement fondée sur des données, elle est, par conséquent, indépendante de la langue et permet l'élaboration d'inventaires sémantiques relatifs aux domaines représentés dans les corpus traités.
Les résultats de cette méthode sont exploités par une méthode de désambiguïsation lexicale, qui attribue un sens à de nouvelles instances de mots ambigus en contexte, et par une méthode de sélection lexicale, qui propose leur traduction la plus adéquate. On propose finalement une évaluation pondérée des résultats de désambiguïsation et de sélection lexicale, en nous fondant sur l'inventaire construit par la méthode d'acquisition de sens.
APA, Harvard, Vancouver, ISO, and other styles
50

Kanoun, Slim. "Identification et analyse de textes arabes par approche affixale." Rouen, 2002. http://www.theses.fr/2002ROUES040.

Full text
Abstract:
Les travaux présentés dans ce mémoire abordent les problèmes liés à la différenciation et la reconnaissance de textes en mode hors-ligne dans des documents multilingues arabe et latin. La première partie de ces travaux concerne une méthode de différenciation entre les textes arabes et les textes latins dans les deux natures imprimée et manuscrite. La deuxième partie propose une nouvelle approche, appelée approche affixale, pour la reconnaissance de mots et l'analyse de textes arabes. Cette approche se distingue par la modélisation d'entités morphosyntaxiques (morphèmes de base du mot) en intégrant les aspects morpho-phonologiques du vocabulaire arabe dans le processus de reconnaissance par rapport aux approches classiques qui procèdent par la modélisation d'entités graphiques (mot, lettre, pseudo mot). Les tests réalisés montrent bien l'apport de l'approche au niveau de la simplification de la reconnaissance et la caractérisation morphosyntaxique des mots dans un texte arabe
The presented work in this memory tackles the problems involved in differentiation and text recognition in off-line mode in Arabic and Latin multilingual documents. The first part of this work relates to a method of differentiation between Arabic texts and Latin texts in two natures printed and handwritten. The second part proposes a new approach, called affixal approach, for Arabic word recognition and text analysis. This approach is characterized by modelling from morph-syntactic entities (word basic morphemes) by integrating the morpho-phonological aspects of Arabic vocabulary in the recognition process compared to the traditional approaches which proceed by the modelling of grahic entities (word, letter, pseudo word). The tests carried out show well the contribution of the approach on the recognition simplification and the morph-syntactic categorization of the words in an Arabic text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography