Se connecter

Bibliographies thématiques / Ukrainien (langue) – Analyse automatique (linguistique)

Littérature scientifique sur le sujet « Ukrainien (langue) – Analyse automatique (linguistique) »

Auteur : Grafiati

Publié le 7 septembre 2024

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres

Choisissez une source :

Sommaire

Articles de revues
Thèses
Livres

Consultez les listes thématiques d’articles de revues, de livres, de thèses, de rapports de conférences et d’autres sources académiques sur le sujet « Ukrainien (langue) – Analyse automatique (linguistique) ».

À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.

Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.

Articles de revues sur le sujet "Ukrainien (langue) – Analyse automatique (linguistique)"

1

Loock, Rudy. « Traduction automatique et usage linguistique : une analyse de traductions anglais-français réunies en corpus ». Meta 63, n^o 3 (6 juin 2019) : 786–806. http://dx.doi.org/10.7202/1060173ar.

Texte intégral

Résumé :

Cet article propose une analyse linguistique d’un corpus de français traduit de façon automatique depuis l’anglais, en comparaison d’un corpus de français original. Deux outils de traduction automatique ont été retenus pour cette étude, l’un générique, grand public et neuronal tandis que l’autre est un outil spécifique, utilisé par une grande organisation internationale et à base de statistiques. Selon la méthodologie de la traductologie de corpus, à travers une analyse quantitative de phénomènes linguistiques (lexicaux et grammaticaux) connus pour poser problème aux traducteurs anglais-français, nous montrons que l’usage linguistique, au-delà des règles et dont le respect permet d’atteindre la fluidité et l’idiomaticité de la langue cible attendues sur le marché, n’est pas pris en compte par les outils de traduction automatique actuels. L’objectif est de mettre au jour la valeur ajoutée de la traduction humaine, tout particulièrement auprès des traducteurs en formation.

Styles APA, Harvard, Vancouver, ISO, etc.

2

Cauli, Marie, Etienne Lemarié et Yves Tremblay. « Vers une science ouverte francophone en santé. Le champ de l’éducation médicale est aussi concerné ». Pédagogie Médicale, 2023. http://dx.doi.org/10.1051/pmed/2022041.

Texte intégral

Résumé :

Contexte et problématique : La société des savoirs constitue un changement de paradigme sur la forme et sur le fond. La science ouverte (SO) est un mouvement mondial qui vise à rendre accessible les produits de la recherche et qui s’accélère avec les potentialités technologiques. Elle s’appuie sur un certain nombre de principes : accès et diffusion large et sans entrave, partage et retombée des produits de la recherche avec la société civile. Contenu et analyse : La SO comporte un accès libre et gratuit aux articles, un accès aux données sources, une analyse des données, la mise à disposition de pré-prints, l’évaluation ouverte. Dans ce contexte, la francophonie, par l’hétérogénéité de ses situations et son homogénéité linguistique, apparaît comme un terrain privilégié d’observation et d’expérimentation. Le Groupe de réflexion et d’information en science ouverte francophone (GRISOF), qui œuvre à l’amélioration de la recherche francophone dans la science médicale et en santé, propose, à partir de ses acquis, quelques clés pratiques pour le chercheur clinicien, le chercheur en biomédical et en santé publique, oriente sa réflexion vers l’évaluation et intensifie sa feuille de route sur la formation. Si l’anglais est la langue prédominante, le traitement automatique du langage (TAL) constitue une opportunité technologique. L’accès libre aux articles donne une opportunité aux travaux en français de mieux se faire connaître, de même que la traduction numérisée permet d’accéder aux articles d’autres langues. Conclusion : L’accès libre aux articles permet d’améliorer la profondeur et l’étendue des connaissances des étudiants. Il constitue une composante essentielle des apprentissages de recherche. Faire participer les étudiants à la publication ouverte de leurs propres travaux est un moyen de les sensibiliser aux pratiques scientifiques ouvertes.

Styles APA, Harvard, Vancouver, ISO, etc.

Thèses sur le sujet "Ukrainien (langue) – Analyse automatique (linguistique)"

1

Saint-Joanis, Olena. « Formalisation de la langue ukrainienne avec NooJ : préparation du module ukrainien ». Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCC005.

Texte intégral

Résumé :

L'intérêt de ce travail est porté sur la formalisation de la langue ukrainienne à travers la plateforme NooJ.La langue ukrainienne est très peu décrite dans le monde occidental, alors que c'est une langue officielle d'un pays européen qui compte plus de 45 millions d'habitants et qui est représentée dans plusieurs institutions mondiales. L'ukrainien est également étudié dans plusieurs universités d'Europe.De ce fait, la formalisation de l'ukrainien à travers un outil informatique pourra trouver plusieurs applications pratiques et notamment : cela permettra de faire l'analyse morphosyntaxique et sémantique approfondie des corpus, jouer un rôle dans le développement des applications TAL (par exemple, extracteurs d'entités nommées, terminologie, traduction automatique, correcteur d'orthographe, etc.), mais aussi dans le domaine de l'enseignement assisté par ordinateur (EAO). Nous avons construit un module ukrainien pour NooJ qui est composé d'un dictionnaire principal « Ukr_dictionary_V.1.3 » et de deux dictionnaires secondaires « Ukr_dictionary_Participle_V.1.3 » et « Ukr_dictionary_Proper_lowercase_V.1.3 ». Le dictionnaire principal contient 157 534 entrées et reconnaît 3 184 522 formes fléchies. Il décrit des ALU simples, composées d'une seule forme graphique, mais aussi des locutions composées de deux formes ou plus ; il reconnait et analyse les ALU avec orthographes alternatives, et explicite les abréviations.Les formes fléchies des entrées variables sont formalisées grâce à 303 paradigmes flexionnels. Nous avons formalisé également 114 paradigmes dérivationnels qui permettent de lier les verbes perfectifs aux verbes imperfectifs.Nous avons décrit de nombreuses formes dérivées ou les variantes orthographiques absentes du dictionnaire grâce aux 19 grammaires morphologiques.Enfin, nous avons recensé certaines formes dans les dictionnaires secondaires, notamment les participes et les noms propres en minuscule. Le dictionnaire « Ukr_dictionary_Participle_V.1.3 » contient 13 070 entrées et complète le dictionnaire principal, quand la grammaire morphologique qui décrit des participes ne permet pas de reconnaitre le participe dans le texte. Le dictionnaire « Ukr_dictionary_Proper_lowercase_V.1.3 » contient des noms propres écrits en minuscule, en combinaison avec la grammaire «Adjectives_Relatives_V.1.3.nom», il permet de reconnaitre les adjectifs relatifs créés à partir des noms propres.Grâce à ces ressources, 98,3% d'occurrences dans le corpus de tests ont été reconnues et annotées avec leurs informations morphologiques.Nous avons également construit dix grammaires syntaxiques qui permettent de lever un grand nombre d'ambiguïtés, puisque nous passons de 206 445 annotations à 131 415 pour un corpus de 108 137 occurrences
Lthough interest in the Ukrainian language has increased greatly in recent years, it remains poorly described and schematized. The few Natural Language Processing (NLP) software applications available do not necessarily meet the needs of students or researchers. These tools have been developed using stochastic approaches and, therefore, do not have a solid linguistic basis. Consequently, their usefulness is questionable, as they produce too many errors. After studying these available NLP applications, we chose to use the NooJ linguistic platform to process Ukrainian because it provides us with the tools we need to develop linguistic resources in the form of dictionaries and orthographic, morphological, syntactic, and semantic grammars. Note that NooJ also provides users with tools to manage corpora, perform various statistical analyses, and is well adapted to construct pedagogical applications. We have built a Ukrainian module for NooJ that consists of a main dictionary, "Ukr_dictionary_V.1.3," and two secondary dictionaries, "Ukr_dictionary_Participle_V.1.3" and "Ukr_dictionary_Proper_lowercase_V.1.3". The main dictionary contains 157,534 entries and recognizes 3,184,522 inflected forms. It describes simple ALUs made up of a single graphic form, but also locutions made up of two or more forms; it recognizes and analyzes ALUs with alternative spellings, and makes abbreviations explicit. The inflected forms of variable entries are formalized through 303 inflectional paradigms. We have also formalized 114 derivational paradigms that link perfective verbs to imperfective verbs. The 19 morphological grammars describe numerous derived forms and spelling variants not found in the dictionary. Finally, we have listed certain forms in secondary dictionaries, notably lower-case participles, and proper nouns. The "Ukr_dictionary_Participle_V.1.3" dictionary contains 13,070 entries and complements the main dictionary when the morphological grammar describing participles does not allow the participle to be recognized in the text. Thanks to these resources, 98.3% of occurrences in the test corpus were recognized and annotated with their morphological information. We also built ten syntactic grammars, which removed many ambiguities, as we went from 206,445 annotations to 131,415 for a corpus of 108,137 occurrences. We have also outlined several avenues for future work to improve our module, namely: the development of new additional morphological grammars and syntactic grammars that will remove the remaining ambiguities

Styles APA, Harvard, Vancouver, ISO, etc.

2

Ranaivo, Balisoamanandray. « Analyse automatique de l'affixation en malais ». Paris, INALCO, 2001. http://www.theses.fr/2001INAL0016.

Texte intégral

Résumé :

La finalité de cette thèse est la création d'un analyseur automatique capable d'identifier, de segmenter et d'interpréter les bases préfixées, suffixées et circonfixées présentes dans un texte malais écrit en caractères latins. L'évaluation de l'analyseur a été effectuée sur des textes malais et un texte indonésien. Cet analyseur utilise : un ensemble de règles, une liste d'exceptions, une liste restreinte de bases dépourvues de toute information linguistique et des techniques de reconnaissance des formes. L'algorithme d'analyse est non déterministe. Les bases analysées sont traitées hors contexte. L'évaluation des résultats de l'analyseur a donné environ 97% d'analyses correctes et un taux d'erreur inférieur à 2%. Très peu de bases affixées n'ont pas été analysées (taux inférieur à 0,5%)
The final aim of this thesis is the creation of an affixation analyser able of identifying , segmenting and interpreting affixed words containing prefix(es), suffix(es), and circumfix(es). The analyser has an input in Malaysian or Indonesian text. In this work, we study the standard Malay used in Malaysia, bahasa Melayu or bahasa Malaysia, which is written with Latin alphabet. To evaluate the accuracy of the analyser, we submitted Malaysian texts and one Indonesian text to the system. This analyser uses : a set of rules, a few list of exceptions, a restricted list of bases and formal identification criteria. The algorithm is non deterministic. Analysed words are treated without taking account of their contexts. The evaluation of the analyser gave around 97% of correct analysis and 2% of incorrect analysis. Very few affixed words were not analysed (rate less than 0,5%)

Styles APA, Harvard, Vancouver, ISO, etc.

3

Boizou, Loïc. « Analyse lexicale automatique du lituanien ». Paris, INALCO, 2009. http://www.theses.fr/2009INAL0004.

Texte intégral

Résumé :

La présente thèse a pour objet l'analyse automatique des formes lexicales dans les textes écrits en lituanien, sur la base d'une heuristique forme - valeur qui s'inscrit dans une approche symbolique du traitement automatique des langues. Cette étude accorde une attention spécifique à l'éxploitation optimale des indices formels et s'appuie principalement sur deux domaines de la linguistique, la graphématique et la morphologie. Le point d'entrée formaliste couplé à l'objectif d'automatisation a réclamé une révision de la perspective grammaticale traditionnelle, qui nous a conduit à esquisser un renouvellement de la description relative à plusieurs aspects du système linguistique, notamment les parties du discours, la structure lexicale et la suffixation. Le modèle linguistique, qui reste à développer, a servi de fondement à la réalisation d'un analyseur de formes lexicales nommé ALeksas. Ce logiciel possède une structure hybride principalement basée sur des automates à nombre fini d'états. ALeksas, qui est encore à l'état expérimental, assure l'analyse grammaticale des mots formes selon une approche indépendante d'une base de données lexicale permettant de formuler des hypothèses d'interprétation sur des critères formels. Le prototype a fait l'objet d'une mise à l'épreuve par confrontation à un corpus de textes authentiques variés, afin d'évaluer ses capacités, notamment par rapport aux outils comparables, et de mieux cerner les améliorations nécessaires
The aim of this thesis is to carry out lexical analysis of written texts in Lithuanian by automatic means, according to a heuristics from form to content based on symbolic methods. This study attempts to make an expanded use of marks given by linguistic forms, drawing on graphemic and morphological aspects. This formal starting point in conjunction with automation of linguistic tasks required a revision of the traditional grammatical point of view, concerning mainly parts of speech, lexical structure and suffixation. This linguistic model, which needs further expansion, served as a basis for ALeksas, an analyzer of lexical forms. This software implements a hybrid structure expanding a system of finite state automata. The prototype computes the analysis of word forms, giving grammatical interpretations according to a set of formal criteria, instead of making use of a lexical database. The results of the analysis of a corpus complied from various texts allowed us to delineate more precisely the advantages and shortcomings of Aleksas, as compared with other similar tools, and to also suggest possible enhancements

Styles APA, Harvard, Vancouver, ISO, etc.

4

Hagège, Caroline. « Analyse syntaxique automatique du portugais ». Clermont-Ferrand 2, 2000. http://www.theses.fr/2000CLF20028.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

5

Nakamura, Delloye Yayoi. « Alignement automatique de textes parallèles français - japonais ». Paris 7, 2007. http://www.theses.fr/2007PA070054.

Texte intégral

Résumé :

L'alignement automatique consiste à trouver une correspondance entre des unités de textes parallèles. Nous nous intéressons plus particulièrement à la réalisation d'un système qui procède à l'alignement au niveau des propositions, unités profitables dans beaucoup d'applications. La présente thèse est constituée de deux types de travaux : les travaux introducteurs et ceux constituant le noyau central. Ce dernier s'articule autour de la notion de proposition syntaxique. Les travaux introducteurs comprennent l'étude des généralités sur l'alignement ainsi que des travaux consacrés à l'alignement des phrases. Ces travaux ont conduit à la réalisation d'un système d'alignement des phrases adapté au traitement des textes français et japonais. Le noyau de la thèse est composé de deux types de travaux, études linguistiques et réalisations informatiques. Les études linguistiques se divisent elles-mêmes en deux sujets : la proposition en français et la proposition en japonais. Le but de nos études sur la proposition française est de définir une grammaire pour la détection des propositions. Pour cet effet, nous avons cherché à définir une typologie des propositions, basée sur des critères uniquement formels. Dans les études sur le japonais, nous définissons d'abord la phrase japonaise sur la base de l'opposition thème-rhème. Nous tentons ensuite d'élucider la notion de proposition. Les réalisations informatiques comportent trois tâches composant ensemble au final l'opération d'alignement des propositions, incarnées par trois systèmes informatiques distincts : deux détecteurs de propositions (un pour le français et un pour le japonais), ainsi qu'un système d'alignement des propositions
Automatic alignment aims to match elements of parallel texts. We are interested especially in the implementation of a System which carries out alignment at the clause level. Clause is a beneficial linguistic unit for many applications. This thesis consists of two types of works: the introductory works and those that constitute the thesis core. It is structured around the concept of syntactic clause. The introductory works include an overview of alignment and studies on sentence alignment. These works resulted in the creation of a sentence alignment System adapted to French and Japanese text processing. The thesis core consists of two types of works: linguistic studies and implementations. The linguistic studies are themselves divided into two topics: French clause and Japanese clause. The goal of our French clause studies is to define a grammar for clause identification. For this purpose, we attempted to define a typological classification of clauses, based on formal criteria only. In Japanese studies, we first define the Japanese sentence on the basis of the theme-rheme structure. We then try to elucidate the notion of clause. Implementation works consist of three tasks which finally constitute the clause alignment processing. These tasks are carried out by three separate tools: two clauses identification Systems (one for French texts and one for Japanese texts) and a clause alignment System

Styles APA, Harvard, Vancouver, ISO, etc.

6

Segal, Natalia. « Analyse, représentation et modélisation de la prosodie pour la reconnaissance automatique de la parole ». Paris 7, 2011. http://www.theses.fr/2011PA070041.

Texte intégral

Résumé :

Cette thèse présente une nouvelle approche de la détection automatique des frontières prosodiques et de la structure prosodique en français, basée sur une représentation théorique hiérarchique de cette structure. Nous avons utilisé une théorie descriptive du système prosodique du ! i français pour créer un modèle prosodique linguistique adapté au traitement automatique de la parole spontanée. Ce modèle permet de détecter de façon automatique les frontières des groupes prosodiques et de les regrouper dans une structure hiérarchique. La structure prosodique de chaque énoncé est ainsi représentée sous forme d'un arbre prosodique. Nous avons démontré que ce modèle représentation était adapté pour le traitement automatique de la parole spontanée en français. La segmentation prosodique ainsi obtenue a été comparée à la segmentation prosodique manuelle. La pertinence de la structure prosodique a été également vérifiée manuellement. Nous avons appliqué notre modèle à différents types de données de parole continue spontanée avec différents types de segmentations phonétiques et lexicales : segmentation manuelle ainsi que différentes segmentations automatiques, et notamment aux données segmentées par le système de reconnaissance automatique de la parole. L'utilisation de cette segmentation a fourni une performance satisfaisante. Nous avons également établi une corrélation entre le niveau du noeud dominant dans l'arbre prosodique et la fiabilité de la détection de la frontière correspondante. Ainsi, il est envisageable d'enrichir la détection de frontières prosodiques en attribuant une mesure de confiance à la frontière en fonction de son niveau dans l'arbre prosodique
This thesis presents a new approach to automatic prosodic boundary and prosodic structure detection based on a theoretical hierarchical representation of prosodic organization of speech in French. We used a descriptive theory of the French prosodic System to create a rule based linguistic prosodic model suitable for the automatic treatment of spontaneous speech. This model allows finding automatically prosodic group boundaries and structuring them hierarchically. The prosodic structure of every phrase is thus represented in the form of a prosodic tree. This representation proved to be efficient for automatic processing of continuous speech in French. The resulting prosodic segmentation was compared to manual prosodic segmentation. Prosodic structure accuracy was also verified manually by an expert. We applied our model to different kinds of continuous spontaneous speech data with different phonemic and lexical segmentations: manual segmentation and different kinds of automatic segmentations. In particular, the application of our prosodic model to the output of a speech recognition System showed a satisfactory performance. There also bas been established a correlation between the level of the prosodic tree node and the boundary detection accuracy. Thus, it is possible to improve the precision of boundary detection by attributing a degree of confidence to the boundary according to its level in prosodic tree

Styles APA, Harvard, Vancouver, ISO, etc.

7

Gaubert, Christian. « Stratégies et règles minimales pour un traitement automatique de l'arabe ». Aix-Marseille 1, 2001. http://www.theses.fr/2001AIX10040.

Texte intégral

Résumé :

La théorie de la minimalité dans le traitement automatique de l'arabe développée depuis 1985 par Audebert et Jaccarini est exposée dans ses grands principes, qui visent la construction d'un moniteur morpho-syntaxique : une analyse morphologique sans lexique effectuée par des automates augmentés et reflétant un compromis entre les phénomènes de concaténation et le croisement entre racines et schèmes, le rôle syntaxique central des invariants de la morphologie qui sont des tokens syntaxiques, et la description de ce rôle par des automates variables. Un logiciel écrit en C, Sarfiyya, a été créé pour poursuivre ce travail théorique et le confronter à la réalité de corpus de textes informatisés de presse et de littérature. Il repose sur un système original d'étiquettes floues privilégiant la détermination pour le nom, le mode/aspect pour le verbe, la famille syntaxique pour les tokens. Un éditeur graphique et interactif d'automates, un analyseur d'automates augmentés par des micro-lexiques et d'autres fonctions de Sarfiyya ont permis le développement de grammaires nominales et verbales avec peu de lexique et au comportement ambigu connu : cette ambigui͏̈té avoisine deux interprétations par mot. Un analyseur de mots-outils ou tokens complète ces outils qui utilise un contexte court pour leur désambigui͏̈sation. L'emploi de paires de tokens, lexicalisées ou catégorisées, permettent entre autres méthodes un taux de détection élevé. Une étude de faisabilité conclue ce travail par l'analyse la détectabilité d'un système de marques minimales, telles la présence de phrases nominales, des khabars et des mubtada's, de phrases verbales, subordonnées et relatives, points de passage de toute analyse de la phrase complexe. Des procédures linéaires sont proposées pour leur détection, dans le cadre de la construction du moniteur morpho-syntaxique. Cette étude démontre la fécondité de la méthode minimale et sa validité pour diverses applications, mais aussi ses faiblesses

Styles APA, Harvard, Vancouver, ISO, etc.

8

Rayon, Nadine. « Segmentation et analyse morphologique automatiques du japonais en univers ouvert ». Paris, INALCO, 2003. http://www.theses.fr/2003INAL0002.

Texte intégral

Résumé :

La présente thèse propose une analyse morphologique automatique des séquences de kanji dans des textes japonais, généraux ou spécialisés. Cette analyse s'appuie sur les particularités graphémiques, morphologiques et syntaxiques du japonais. Elle n'emploie aucun dictionnaire, est basée sur la reconnaissance des contextes immédiats des séquences de kanji et produit un étiquetage des unités linguistiques reconnues et une segmentation du texte. La première partie décrit le système d'écriture japonais et son codage informatique. La deuxième partie décrit les parties du discours japonais, en particulier les verbes, qualificatifs, particules et suffixes flexionnels, leurs caractéristiques morphosyntaxiques étant essentielles pour l'analyse morphologique. La troisième partie décrit le module d'analyse: identification et formalisation des données pour l'analyse, algorithme de l'analyse et des pré-traitements, formalisation de modèles d'objets pour la manipulation informatique du japonais
The present thesis proposes an automatic morphological analysis of the kanji sequences in Japanese texts. This analysis is based on the graphemic, morphological and syntactic characteristics of the Japanese language. It does not employ any dictionary and is based on the recognition of the immediate contexts of the kanji sequences. It leads to a tagging of the recognized linguistic units and to a segmentation of the text. The first part of the thesis describes the Japanese writing system and its encoding methods. The second part deals with the Japanese parts of speech, in particular verbs, adjectives, particles and flexional suffixes which morphosyntaxic characteristics are essential for the morphological analysis. The third part describes the module of analysis: identification and formalization of the data necessary to the analysis, algorithm of the analysis and the related treatments, formalization of models of objects necessary to the data-processing handling of Japanese

Styles APA, Harvard, Vancouver, ISO, etc.

9

Li, Yiping. « Étude des problèmes spécifiques de l'intégration du chinois dans un système de traitement automatique pour les langues européennes ». Université de Marne-la-Vallée, 2006. http://www.theses.fr/2006MARN0282.

Texte intégral

Résumé :

L’analyse linguistique est une étape fondamentale et essentielle pour le traitement automatique des langues. En effet, elle permet d’étiqueter les mots avec des catégories morphosyntaxiques et d’identifier des entités nommées pour pouvoir réaliser des applications du plus haut niveau, par exemple la recherche d’information, la traduction automatique, la question réponse, etc. L’analyse linguistique du chinois remplit les mêmes missions que celle des autres langues. Mais elle présente une difficulté supplémentaire liée au fait de ne pas avoir de délimiteurs entre les mots. Puisque le mot est l’unité essentielle d’une langue, une segmentation des phrases en mots est indispensable pour le traitement du chinois. Parmi des études existantes, la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées sont souvent enchaînés comme les étapes différentes. La segmentation se sert de la base pour les deux autres. Ce type d’approches subit malheureusement un blocage au niveau de la segmentation : c’est-à-dire que certaines erreurs de segmentation sont inévitables. C’est pourquoi des modèles statistiques qui réalisent la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées ou la segmentation et l’un des deux autres traitements simultanément, ont été créés. Cette combinaison permet d’utiliser des informations supplémentaires apportées par l’étiquettes morphosyntaxiques et l’identification des entités nommées afin d’aider la segmentation. Cependant un modèle unique n’est pas modulaire. Donc il est difficile d’adapter le même modèle aux autres langues, à cause des caractéristiques particulières de chaque langue. Par conséquent, cette approche n’est pas approprie pour créer des systèmes d’analyse automatique multilingue. L’objectif de mon étude consiste à intégrer l’analyse automatique du chinois dans un système d’analyse multilingue LIMA. Par rapport à un système de traitement d’information monolingue du chinois, certaines contraintes sont imposées. D’abord, des traitements pour le chinois doivent être compatibles avec ceux d’autres langues. Ensuite, pour garder la cohérence et l’unité du système, il est favorable d’employer au maximum des modules de traitement en commun pour toutes les langues traitées par le système. En conséquence, le choix s’est porté sur l’utilisation des modules séparés pour la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées. Le fait de concevoir des traitements modulaires rend des modules de traitements spécifiques au chinois réutilisables pour d’autres langues ayant des traits linguistiques similaire et il facilite également des réactions entre les traitements. Néanmoins, ce type de méthodes enchaînant des trois traitements ne prend pas en compte des dépendances entre eux. Pour surmonter ce défaut, nous utilisons les informations fournies par l’analyse morphosyntaxique, par l’identification des entités nommées et par des connaissances linguistiques afin d’améliorer la segmentation. Une analyse des origines d’erreurs produites par des traitements enchaînés nous a inspiré une étude de l’interdépendance entre les trois traitements. Etant donné ces interdépendances, trois traitements spécifiques sont rajoutés au système : un prétraitement avant la segmentation basée sur le modèle de cooccurrence, une tokenization de termes liés aux chiffres écrits en caractères chinois et un traitement complémentaire pour la segmentation en identifiant certaines entités nommées entre l’étape de la segmentation et celle de l’étiquetage morphosyntaxique. Ces traitements rajoutés apportent des améliorations importantes à notre système
Linguistic analysis is a fundamental and essential step for natural language processing. It often includes part-of-speech tagging and named entity identification in order to realize higher level applications, such as information retrieval, automatic translation, question answers, etc. Chinese linguistic analysis must perform the same tasks as that of other languages, but it must resolve a supplemental difficulty caused by the lack of delimiter between words. Since the word is the elementary unit for automated language processing, it is indispensable to segment sentences into words for Chinese language processing. In most existing system described in the literature, segmentation, part-of-speech tagging and named entity recognition are often presented as three sequential, independent steps. But since segmentation provides the basis for and impacts the other two steps, some statistical methods which collapse all three treatments or two of the three into one module have been proposed. With these combinations of steps, segmentation can be improved by complementary information supplied by part-of-speech tagging and named entity recognition, and global analysis of Chinese improved. However this unique treatment model is not modular and difficult to adapt to different languages other than Chinese. Consequently, this approach is not suitable for creating multilingual automatic analysis systems. This dissertation studies the integration Chinese automatic analysis into an existing multilingual analysis system LIMA. Originally built for European languages, LIMA’s modular approach imposes some constraints that a monolingual Chinese analysis system need not consider. Firstly, the treatment for Chinese should be compatible and follow the same flow as other languages. And secondly, in order to keep the system coherent, it is preferable to employ common modules for all the languages treated by the system, including a new language like Chinese. To respect these constraints, we chose to realize the phases of segmentation, part-of-speech tagging and named entity recognition separately. Our modular treatment includes a specific module for Chinese analysis that should be reusable for other languages with similar linguistic features. After error analysis of this purely modular approach, we were able to improve our segmentation with enriched information supplied by part-ofspeech tagging, named entity recognition and some linguistic knowledge. In our final results, three specific treatments have been added into the LIMA system: a pretreatment based on a co-occurrence model applied before segmentation, a term tokenization relative to numbers written in Chinese characters, and a complementary treatment after segmentation that identifies certain named entities before subsequent part-of-speech tagging. We evaluate and discuss the improvement that these additional treatments bring to our analysis, while retaining the modular and linear approach of the underlying LIMA natural language processing system

Styles APA, Harvard, Vancouver, ISO, etc.

10

Badia, Toni. « Aspectes del sintagma nominal en català des de la perspectiva de la traducció automàtica / ». Montserrat : Abadia de Montserrat, 1994. http://catalogue.bnf.fr/ark:/12148/cb357951358.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

Plus de sources

Livres sur le sujet "Ukrainien (langue) – Analyse automatique (linguistique)"

1

Hausser, Roland R. Newcat : Parsing Natural Language Using Left-Associative Grammar (Lecture Notes in Computer Science). Springer, 1986.

Trouver le texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

2

Traitement automatique du français écrit : Développements théoriques et applications. Montréal : Acfas, 1996.

Trouver le texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

3

NEWCAT : Parsing natural language using left-associative grammar. Berlin : Springer-Verlag, 1986.

Trouver le texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

Nous offrons des réductions sur tous les plans premium pour les auteurs dont les œuvres sont incluses dans des sélections littéraires thématiques. Contactez-nous pour obtenir un code promo unique!