Dissertationen: „Documentation automatique des langues“

1

Okabe, Shu. „Modèles faiblement supervisés pour la documentation automatique des langues“. Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG091.

Der volle Inhalt der Quelle

Annotation:

Face à la menace d'extinction de la moitié des langues parlées aujourd'hui d'ici la fin du siècle, la documentation des langues est un domaine de la linguistique notamment consacré à la collecte, annotation et archivage de données. Dans ce contexte, la documentation automatique des langues vise à outiller les linguistes pour faciliter différentes étapes de la documentation, à travers des approches de traitement automatique du langage.Dans le cadre du projet de documentation automatique CLD2025, cette thèse s'intéresse principalement à deux tâches : la segmentation en mots, identifiant les frontières des mots dans une transcription non segmentée d'une phrase enregistrée, ainsi que la génération de gloses interlinéaires, prédisant des annotations linguistiques pour chaque unité de la phrase. Pour la première, nous améliorons les performances des modèles bayésiens non paramétriques utilisés jusque là à travers une supervision faible, en nous appuyant sur des ressources disponibles de manière réaliste lors de la documentation, comme des phrases déjà segmentées ou des lexiques. Comme nous observons toujours une tendance de sur-segmentation dans nos modèles, nous introduisons un second niveau de segmentation : les morphèmes. Nos expériences avec divers types de modèles de segmentation à deux niveaux indiquent une qualité de segmentation sensiblement meilleure ; nous constatons, par ailleurs, les limites des approches uniquement statistiques pour différencier les mots des morphèmes.La seconde tâche concerne la génération de gloses, soit grammaticales, soit lexicales. Comme ces dernières ne peuvent pas être prédites en se basant seulement sur les données d'entraînement, notre modèle statistique d'étiquetage de séquences fait moduler, pour chaque phrase, les étiquettes possibles et propose une approche compétitive avec les modèles neuronaux les plus récents
In the wake of the threat of extinction of half of the languages spoken today by the end of the century, language documentation is a field of linguistics notably dedicated to the recording, annotation, and archiving of data. In this context, computational language documentation aims to devise tools for linguists to ease several documentation steps through natural language processing approaches.As part of the CLD2025 computational language documentation project, this thesis focuses mainly on two tasks: word segmentation to identify word boundaries in an unsegmented transcription of a recorded sentence and automatic interlinear glossing to predict linguistic annotations for each sentence unit.For the first task, we improve the performance of the Bayesian non-parametric models used until now through weak supervision. For this purpose, we leverage realistically available resources during documentation, such as already-segmented sentences or dictionaries. Since we still observe an over-segmenting tendency in our models, we introduce a second segmentation level: the morphemes. Our experiments with various types of two-level segmentation models indicate a slight improvement in the segmentation quality. However, we also face limitations in differentiating words from morphemes, using statistical cues only. The second task concerns the generation of either grammatical or lexical glosses. As the latter cannot be predicted using training data solely, our statistical sequence-labelling model adapts the set of possible labels for each sentence and provides a competitive alternative to the most recent neural models

APA, Harvard, Vancouver, ISO und andere Zitierweisen

2

Godard, Pierre. „Unsupervised word discovery for computational language documentation“. Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS062/document.

Der volle Inhalt der Quelle

Annotation:

La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante
Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method

APA, Harvard, Vancouver, ISO und andere Zitierweisen

3

Guinaudeau, Camille. „Structuration automatique de flux télévisuels“. Phd thesis, INSA de Rennes, 2011. http://tel.archives-ouvertes.fr/tel-00646522.

Der volle Inhalt der Quelle

Annotation:

L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

4

Pitzalis, Denis. „3D et sémantique : nouveaux outils pour la documentation et l'exploration du patrimoine culturel“. Paris 6, 2013. http://www.theses.fr/2013PA066642.

Der volle Inhalt der Quelle

Annotation:

Le rôle des musées et des bibliothèques a évolué passant principalement d'un lieu de collecte et de stockage à un rôle plus interactif, où les visiteurs peuvent découvrir le patrimoine et la connaissance culturelle de manière plus attrayante. En raison de ce changement, les TIC ont un rôle important à jouer, non seulement pour aider à documenter et à conserver les informations, telles que les images et les modèles 3D d'objets historiques et d'œuvres d'art, mais aussi afin de sensibiliser le grand public à l'importance de ces objets pour l'humanité. Le processus de construction d'une collection 3D touche à de nombreuses technologies et à des sources numériques différentes. Technologies telles que la photogrammétrie, la numérisation, la modélisation, la visualisation et des techniques d'interaction doivent être combinés. En outre, les formats d'échange de données deviennent essentiels pour s'assurer que les sources numériques soient parfaitement intégrables. Cette thèse vise à répondre à problématique de la documentation des œuvres d'art en proposant une méthodologie pour l'acquisition, le traitement et la documentation des objets du patrimoine et des sites archéologiques grâce à la 3D. Le principal défi est de faire comprendre aux parties prenantes que le modèle 3D doit être "adapté à l'usage" pour un très large éventail de situations : en très haute définition pour l'évaluation des conditions de conservation et les études préliminaires avant restauration; en résolution moyenne pour les catalogues web en ligne. Par conséquent, cette thèse étudie l'intégration des technologies de capture 3D, le traitement, l'intégration entre différentes sources, l'organisation sémantique de méta-données, et la provenance des données
The role of museums and libraries is shifting from that of an institution which mainly collects and stores artefacts and works of art towards a more accessible place where visitors can experience heritage and find cultural knowledge in more engaging and interactive ways. Due to this shift, ICT have an important role to play both in assisting in the documentation and preservation of information, by providing images and 3D models about historical artefacts and works of art, and in creating interactive ways to inform the general public of the significance that these objects have for humanity. The process of building a 3D collection draws on many different technologies and digital sources. From the perspective of the ICT professional, technologies such as photogrammetry, scanning, modelling, visualisation, and interaction techniques must be used jointly. Furthermore, data exchange formats become essential to ensure that the digital sources are seamlessly integrated. This PhD thesis aims to address the documentation of works of art by proposing a methodology for the acquisition, processing, and documentation of heritage objects and archaeological sites using 3D information. The main challenge is to convey the importance of 3D model that is "fit for purpose" and that is created with a specific function in mind (i. E. Very high definition and accurate models for : academic studies, monitoring conservation conditions over time and preliminary studies for restoration; medium resolution for on-line web catalogues). Hence, this PhD thesis investigate the integration of technologies for 3D capture, processing, integration between different sources, semantic organization of meta-data, and preservation of data provenance

APA, Harvard, Vancouver, ISO und andere Zitierweisen

5

Lima, Ronaldo. „Contribution au traitement automatique de textes médicaux en portugais : étude du syntagme verbal“. Nice, 1995. http://www.theses.fr/1995NICE2012.

Der volle Inhalt der Quelle

Annotation:

Cette recherche consiste en une contribution au traitement automatique de textes (pneumologie allergologie) en portugais à partir de l'analyse du syntagme verbal. Il s'agit d'une étude linguistique à trois niveaux : morpho-syntaxique, syntactico-sémantique et conceptuel, ce dernier conduisant à la représentation des thèmes de compréhension (idées-clés) du domaine en question
The research work in question undertakes to analyse the verb phrase in portuguese and thus contributes to the automatic processing of medical texts. It is a linguistic study with firstly a morpho-syntactic perspective, followed by a syntactico-semantic a then a conceptual one. The later study culminates in the representation of key concepts or themes caracterizing the disciplines of allergology and pneumology

APA, Harvard, Vancouver, ISO und andere Zitierweisen

6

Borges, de Faveri Claudia. „Contribution au traitement automatique de textes médicaux en portugais : étude du syntagme nominal“. Nice, 1995. http://www.theses.fr/1995NICE2013.

Der volle Inhalt der Quelle

Annotation:

Le cadre général de cette étude consiste en une description du syntagme nominal en portugais à partir d'un corpus de textes scientifiques et techniques (documents médicaux en portugais). Il s'agit d'un travail qui, tout en étant une étude linguistique au sens classique du terme, vise à dégager un ensemble de ressources linguistiques qui puissent être utilisées par la suite dans le traitement automatique des langues (TAL) notamment le traitement documentaire et la traduction par ordinateur
This study is mainly concerned with the description of the portuguese noun phrase, in a scientific and technical context provided by medical texts. Whilst being traditionally linguistic in nature, the analysis also means to bring to light a certain number of linguistic resources which may ultimately serve in langage processing activities, and in particular those of document processing a machine-aided translation

APA, Harvard, Vancouver, ISO und andere Zitierweisen

7

Gauthier, Elodie. „Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain“. Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM011/document.

Der volle Inhalt der Quelle

Annotation:

Depuis quelques décennies, de nombreux scientifiques alertent au sujet de la disparition des langues qui ne cesse de s'accélérer.Face au déclin alarmant du patrimoine linguistique mondial, il est urgent d'agir afin de permettre aux linguistes de terrain, a minima, de documenter les langues en leur fournissant des outils de collecte innovants et, si possible, de leur permettre de décrire ces langues grâce au traitement des données assisté par ordinateur.C'est ce que propose ce travail, en se concentrant sur trois axes majeurs du métier de linguiste de terrain : la collecte, la transcription et l'analyse.Les enregistrements audio sont primordiaux, puisqu'ils constituent le matériau source, le point de départ du travail de description. De plus, tel un instantané, ils représentent un objet précieux pour la documentation de la langue. Cependant, les outils actuels d'enregistrement n'offrent pas au linguiste la possibilité d'être efficace dans son travail et l'ensemble des appareils qu'il doit utiliser (enregistreur, ordinateur, microphone, etc.) peut devenir encombrant.Ainsi, nous avons développé LIG-AIKUMA, une application mobile de collecte de parole innovante, qui permet d'effectuer des enregistrements directement exploitables par les moteurs de reconnaissance automatique de la parole (RAP). Les fonctionnalités implémentées permettent d'enregistrer différents types de discours (parole spontanée, parole élicitée, parole lue) et de partager les enregistrements avec les locuteurs. L'application permet, en outre, la construction de corpus alignés << parole source (peu dotée)-parole cible (bien dotée) >>, << parole-image >>, << parole-vidéo >> qui présentent un intérêt fort pour les technologies de la parole, notamment pour l'apprentissage non supervisé.Bien que la collecte ait été menée de façon efficace, l'exploitation (de la transcription jusqu'à la glose, en passant par la traduction) de la totalité de ces enregistrements est impossible, tant la tâche est fastidieuse et chronophage.Afin de compléter l'aide apportée aux linguistes, nous proposons d'utiliser des techniques de traitement automatique de la langue pour lui permettre de tirer partie de la totalité de ses données collectées. Parmi celles-ci, la RAP peut être utilisée pour produire des transcriptions, d'une qualité satisfaisante, de ses enregistrements.Une fois les transcriptions obtenues, le linguiste peut s'adonner à l'analyse de ses données. Afin qu'il puisse procéder à l'étude de l'ensemble de ses corpus, nous considérons l'usage des méthodes d'alignement forcé. Nous démontrons que de telles techniques peuvent conduire à des analyses linguistiques fines. En retour, nous montrons que la modélisation de ces observations peut mener à des améliorations des systèmes de RAP
In the last few decades, many scientists were concerned with the fast extinction of languages. Faced with this alarming decline of the world's linguistic heritage, action is urgently needed to enable fieldwork linguists, at least, to document languages by providing them innovative collection tools and to enable them to describe these languages. Machine assistance might be interesting to help them in such a task.This is what we propose in this work, focusing on three pillars of the linguistic fieldwork: collection, transcription and analysis.Recordings are essential, since they are the source material, the starting point of the descriptive work. Speech recording is also a valuable object for the documentation of the language.The growing proliferation of smartphones and other interactive voice mobile devices offer new opportunities for fieldwork linguists and researchers in language documentation. Field recordings should also include ethnolinguistic material which is particularly valuable to document traditions and way of living. However, large data collections require well organized repositories to access the content, with efficient file naming and metadata conventions.Thus, we have developed LIG-AIKUMA, a free Android app running on various mobile phones and tablets. The app aims to record speech for language documentation, over an innovative way.It includes a smart generation and handling of speaker metadata as well as respeaking and parallel audio data mapping.LIG-AIKUMA proposes a range of different speech collection modes (recording, respeaking, translation and elicitation) and offers the possibility to share recordings between users. Through these modes, parallel corpora are built such as "under-resourced speech - well-resourced speech", "speech - image", "speech - video", which are also of a great interest for speech technologies, especially for unsupervised learning.After the data collection step, the fieldwork linguist transcribes these data. Nonetheless, it can not be done -currently- on the whole collection, since the task is tedious and time-consuming.We propose to use automatic techniques to help the fieldwork linguist to take advantage of all his speech collection. Along these lines, automatic speech recognition (ASR) is a way to produce transcripts of the recordings, with a decent quality.Once the transcripts are obtained (and corrected), the linguist can analyze his data. In order to analyze the whole collection collected, we consider the use of forced alignment methods. We demonstrate that such techniques can lead to fine evaluation of linguistic features. In return, we show that modeling specific features may lead to improvements of the ASR systems

APA, Harvard, Vancouver, ISO und andere Zitierweisen

8

Francony, Jean Marc. „Modélisation du dialogue et représentation du contexte d'interaction dans une interface de dialogue multi-modes dont l'un des modes est dédié à la langue naturelle écrite“. Grenoble 2, 1993. http://www.theses.fr/1993GRE21038.

Der volle Inhalt der Quelle

Annotation:

Les problemes poses par la representation du contexte d'interaction dans le systeme de dialogue d'une interface homme-machine a plusieurs modes, sont a l'origines de l'etude d'un mecanisme de focalisation faisant l'objet de cette these. L'accent est mis sur l'ancrage du modele de focalisation dans la surface de l'intervention. L'ancrage du modele propose est exprime au niveau de chacun des modes, dans un modele thematique, a l'image du modele defini dans cette these pour le mode langue naturelle. Ce dernier est derive des travaux de l'ecole de linguistique formelle de prague dont sont reprioses les hypotheses concernant la fonction communicative. Le modele thematique traduit la dynamique de l'enonciation sur la representation des connaissances associee a un segment modal, en termes de degre d'activation. Ce modele est etendu a la representation du discours a partir de considerations sur la cohesion textuelle qui s'exprime dans les relations inter-enonces de type anaphorique ou elliptique. Dans cette perspective, la synergie des modes est exprimee dans un module de fusion des representations des segments. Pour le modele de focalisation, les relations de cohesion sont considerees comme des canaux le long desquels se propage l'activaton. Ce travail est a l'origine de la realisation du systeme de gestion du contexte dans le projet mmi2 (projet esprit 2474)
The problems posed by the representation of the interaction context in the dialogue systeme of a multi-modal man-machine interface are art the origin of the aim of this thesis which is a study of a focusing mechanism which. The emphasis is on the anchoring of the focusing mechanism in the intervention surface. In the model we propose, anchorage is expressed at each mode level in terms of a thematic model similar to the one we proposed for natural language in this thesis. This thematic model is based on work by the prague school of formal linguistics whose hypotheses concerning the communicative function have been adopted. The thematic model allows for an utterance to translate its enunciated dynamism into a degree of activation on its knowledge representation. This model has been extended to discourse representation on the basis of a hypothesis concerning textual cohesion (which can be found for instance in anaphorical or elliptical inter-utterance relation). From this point of view, synergy of modes can be expressed as the fusion of representations of modal segments. In the focusing model, cohesion relations are considered as pipes propagating activation. This work is at the origin of the context management system implemented in the project mmi2 (esprit project 2474)

APA, Harvard, Vancouver, ISO und andere Zitierweisen

9

Moneimne, Walid. „TAO vers l'arabe : spécification d'une génération standard de l'arabe ; réalisation d'un prototype anglais-arabe à partir d'un analyseur existant“. Grenoble 1, 1989. http://www.theses.fr/1989GRE10061.

Der volle Inhalt der Quelle

Annotation:

La these se situe dans un ensemble d'etudes linguistiques et informatiques visant a voir dans quelle mesure la methode linguistique et les outils informatiques du geta s'appliquent a la langue arabe. Apres une breve synthese des etudes anterieures en traitement automatique des langues naturelles applique a l'arabe, sont rappeles les fondements de la traduction assistee par ordinateur ainsi que les aspects theoriques et methodologiques les plus marquants de l'approche suivie au geta. Cette approche consiste essentiellement a travailler simultanement a differents niveaux d'interpretation de description linguistique en programmant dans des langages specialises pour la programmation linguistique (lspls). Ensuite est montre en detail comment a ete specifie et implemente un logiciel de traduction de l'anglais vers l'arabe. Est specifiee une grammaire statique d'un sous-ensemble de la langue arabe a l'aide du formalisme des grammaires statiques (correspondances arbre-chaine). Pour specifier la grammaire du transfert est proposee une generalisation de ce formalisme aux correspondances arbre-arbre. Tout au long de la these, sont proposes des exemples et des traces d'execution permettant de suivre les principes de la methode utilisee

APA, Harvard, Vancouver, ISO und andere Zitierweisen

10

Pellegrini, Thomas. „Transcription automatique de langues peu dotées“. Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00619657.

Der volle Inhalt der Quelle

Annotation:

Les technologies liées à la parole, et en particulier la reconnaissance de la parole, suscitent un grand intérêt pour un nombre croissant de langues. La très grande majorité des langues du monde ne possèdent pas de grands corpus de données nécessaires à l'élaboration des systèmes de reconnaissance à l'état de l'art, fondés sur des paradigmes probabilistes pour la plupart. Les travaux menés au cours de cette thèse ont consisté, dans un premier temps, à identifier les difficultés rencontrées lors de l'élaboration d'un système pour une langue peu dotée. Nous avons travaillé principalement sur le problème des forts taux de mots hors-vocabulaire dus au manque de textes, qui est à nos yeux le problème le plus important pour ces langues. Nous défendons l'idée que l'utilisation de sous-unités lexicales correctement sélectionnées qui peuvent être plus petites que les mots, peut amener des gains significatifs de performances. Nous avons utilisé et modifié un algorithme probabiliste qui propose des frontières de morphe, en introduisant des propriétés qui caractérisent la confusion acoustico-phonétique éventuelle entre les unités lexicales de reconnaissance. Les expériences de reconnaissance ont été menées sur deux langues différentes : l'amharique et le turc, et des gains modestes mais significatifs ont été obtenus, autour de 5% relatifs, avec des réductions relatives de taux d'OOV comprises entre 30% et 50%.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

11

Colin, Émilie. „Traitement automatique des langues et génération automatique d'exercices de grammaire“. Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0059.

Der volle Inhalt der Quelle

Annotation:

Le thème support de cette thèse la génération de paraphrases sur support neuronal. Nos perspectives sont éducatives : créer des exercices de grammaire pour le français. La paraphrase est une opération de reformulation. Nos travaux tendent à attester que les modèles séquence vers séquence ne sont pas de simples répétiteurs mais peuvent apprendre la syntaxe. Nous avons montré, en combinant divers modèles, que la représentation de l'information sous de multiples formes (en utilisant de la donnée formelle (RDF), couplée à du texte pour l'étendre ou le réduire, ou encore seulement du texte) permet d'exploiter un corpus sous différents angles, augmentant la diversité des sorties, exploitant les leviers syntaxiques mis en place. Nous nous sommes penchée sur un problème récurrent, celui de la qualité des données, et avons obtenu des paraphrases avec une haute adéquation syntaxique (jusqu'à 98% de couverture de la demande) et un très bon niveau linguistique. Nous obtenons jusqu'à 83.97 points de BLEU*, 78.41 de plus que la moyenne de nos lignes de base, sans levier syntaxique. Ce taux indique un meilleur contrôle des sorties, pourtant variées et de bonne qualité en l'absence de levier. Nous avons ensuite travaillé depuis du texte brut en passant, pour la génération de phrases, par la production d'une représentation du sens de ce texte qui puisse servir d'entrée à la génération de paraphrases. Le passage à du texte en français était aussi pour nous un impératif. Travailler depuis du texte brut, en automatisant les procédures, nous a permis de créer un corpus de plus de 450 000 couples représentations/phrases, grâce auquel nous avons appris à générer des textes massivement corrects (92% sur la validation qualitative). Anonymiser ce qui n'est pas fonctionnel a participé notablement à la qualité des résultats (68.31 de BLEU, soit +3.96 par rapport à la ligne de base, qui était la génération depuis des données non anonymisées). La représentation formelle de l'information dans un cadre linguistique particulier à une langue est une tâche ardue. Cette thèse offre des pistes de méthodes pour automatiser cette opération. Par ailleurs, nous n'avons pu traiter que des phrases relativement courtes. L'utilisation de modèles neuronaux plus récents permettrait sans doute d'améliorer les résultats. Enfin, l'usage de traits adéquats en sortie permettrait des vérifications poussées. *BLEU (Papineni et al., 2002) : qualité d'un texte sur une échelle de 0 (pire) à 100 (meilleur)
Our perspectives are educational, to create grammar exercises for French. Paraphrasing is an operation of reformulation. Our work tends to attest that sequence-to-sequence models are not simple repeaters but can learn syntax. First, by combining various models, we have shown that the representation of information in multiple forms (using formal data (RDF), coupled with text to extend or reduce it, or only text) allows us to exploit a corpus from different angles, increasing the diversity of outputs, exploiting the syntactic levers put in place. We also addressed a recurrent problem, that of data quality, and obtained paraphrases with a high syntactic adequacy (up to 98% coverage of the demand) and a very good linguistic level. We obtain up to 83.97 points of BLEU-4*, 78.41 more than our baseline average, without syntax leverage. This rate indicates a better control of the outputs, which are varied and of good quality in the absence of syntax leverage. Our idea was to be able to work from raw text : to produce a representation of its meaning. The transition to French text was also an imperative for us. Working from plain text, by automating the procedures, allowed us to create a corpus of more than 450,000 sentence/representation pairs, thanks to which we learned to generate massively correct texts (92% on qualitative validation). Anonymizing everything that is not functional contributed significantly to the quality of the results (68.31 of BLEU, i.e. +3.96 compared to the baseline, which was the generation of text from non-anonymized data). This second work can be applied the integration of a syntax lever guiding the outputs. What was our baseline at time 1 (generate without constraint) would then be combined with a constrained model. By applying an error search, this would allow the constitution of a silver base associating representations to texts. This base could then be multiplied by a reapplication of a generation under constraint, and thus achieve the applied objective of the thesis. The formal representation of information in a language-specific framework is a challenging task. This thesis offers some ideas on how to automate this operation. Moreover, we were only able to process relatively short sentences. The use of more recent neural modelswould likely improve the results. The use of appropriate output strokes would allow for extensive checks. *BLEU : quality of a text (scale from 0 (worst) to 100 (best), Papineni et al. (2002))

APA, Harvard, Vancouver, ISO und andere Zitierweisen

12

Vasilescu, Ioana Gabriela. „Contribution à l'identification automatique des langues romanes“. Lyon 2, 2001. http://theses.univ-lyon2.fr/documents/lyon2/2001/vasilescu_ig.

Der volle Inhalt der Quelle

Annotation:

Ce travail de thèse s'inscrit dans la thématique de l'identification automatique des langues. Son objectif est de mettre en évidence des indices linguistiques susceptibles de permettre la distinction des idiomes issus du latin. Les langues romanes ont bénéficié d'une longue tradition descriptive et représentent des langues officielles dans plusieurs pays du monde. La présente démarche prend en compte cinq langues néo-latines (espagnol, français, italien, portugais et roumain). L'étude des approches taxinomistes consacrées aux idiomes néo-latins révèle une pertinence particulière de la classification typologique. Les indices vocaliques fournissent des critères appropriés pour une division des langues en deux zones linguistiques, selon leurs complexités respectives. Ces indices séparent l'espagnol et l'italien, langues à vocalisme prototypique du roumain, du français et du portugais, dont les systèmes vocaliques sont riches en oppositions supplémentaires. Cette hiérarchie est de plus étayée par des particularismes consonantiques, voire supra-segmentaux. Afin de tester une pertinence perceptive des critères typologiques, deux paradigmes expérimentaux ont été développés. Une première série d'expériences, de type discrimination, a permis de délimiter le rôle des facteurs " langue maternelle " et " familiarité " des quatre populations participantes, dont deux de langue maternelle romane (français et Roumains) et deux de contrôle (Japonais, Américains). Les résultats ont partiellement convergé vers un regroupement linguistique basé sur la proximité sonore des langues et analogue à la classification typologique fondée sur les spécificités vocaliques. La seconde série d'expériences de type jugement de similarités effectuées par des sujets français et américains a confirmé ce regroupement. Ainsi, les proximités sonores établies de manières perceptive entre les langues romanes permettent leur macro-discrimination en deux groupes principaux : italien, espagnol vs, roumain, français, portugais
This work deals with the automatic identification of Romance Languages. The aim of our study is to provide linguistic patterns potentially robust for the discrimination of 5 languages from the latin family (i. E. , Spanish, French, Italian, Portuguese and Romanian). The Romance Languages have the advantage of a secular linguistic tradition and represents official languages in several countries of the world, the study of the taxonomist approaches devoted to this linguistic family shows a spécial relevance of the typological classification. More precisely, the vocalic patterns provide relevant criteria for a division of the five idioms in two groups, according to the complexity of each Romance vocalic system : italian, Spanish vs. Romanian, French, Portuguese. The first group includes languages with prototypical vocalic systems, whereas the second group, languages with complex vocalic systems in terms of number of oppositions. In addition to the vocalic criteria, these hierarchy is supported by consonantal and prosodic particularities. We conducted two experimental paradigms to test the correspondence between the perceptual patterns used by nai͏̈f listeners to differentiate the Romance languages and the linguistic patterns employed by the typological classification. A first series of discrimination experiments on four groups of subjects, selected according to the criterion [+/- Romance native language] (i. E. , French, Romanian vs. Japanese, Americans), showed different perceptual strategies related both to the native language and to the familiarity with the Romance languages. The linguistic strategies lead to a macro-discrimination of the languages in two groups similar to those obtained via the typological taxonomy based on vocalic particularities (i. E. , Spanish, Italian vs. Romanian, French, Portuguese). The second series of perceptual experiments on two groups of subjects (French and American) consisted in the evaluation of the acoustic similarity of the have languages. The results confirmed the division of Romance Languages in the same two groups as those via the discrimination experiments. We concluded that the vocalic patterns may be a robust clue for the discrimination of the Latin idioms into two major linguistic groups : Italian, Spanish vs. Romanian, French, Portuguese

APA, Harvard, Vancouver, ISO und andere Zitierweisen

13

Gutiérrez, Celaya Jorge Arturo. „Fusion d'informations en identification automatique des langues“. Toulouse 3, 2005. http://www.theses.fr/2005TOU30098.

Der volle Inhalt der Quelle

Annotation:

En identification automatique des langues nous nous intéressons au problème de fusion des informations de décision issues de différents experts. Pour explorer et comparer des stratégies de fusion, nous les modélisons au moyen de méthodes formelles de classification provenant soit de la théorie statistique, comme les mélanges de lois gaussiennes, les réseaux de neurones et le classificateur discriminant, soit des travaux de recherche récents pour les théories des possibilités et des fonctions de croyance. Nous proposons une méthodologie formelle de fusion dans le paradigme bayésien : l'évaluation de la performance des experts par l'analyse factorielle discriminante fournit des indices de confiance, l'agrégation des décisions privilégie les méthodes donnant, directement ou par transformation, des valeurs de probabilité ou de vraisemblance pour les langues et la pondération de nouvelles fonctions de coût avec les indices de confiance conduit à la prise de décision par minimum de risque
Fusing decision information coming out of different experts is an important issue in Automatic Language Identification. In order to explore and compare different fusion strategies, the information behaviour is modelled by means of formal classification methods provided either by the Statistics Theory, such as the Gaussian Mixture Model, the Neural Networks and the Discriminant Classifier, or by recent research advances in Possibility and Evidential Theories. As an alternative to empirical procedures, a formal fusion methodology within the Bayesian paradigm is proposed: evaluating expert performance by means of the Discriminant Factor Analysis provides us with confidence indices, aggregating expert decisions takes us to choose those fusion methods that provide us directly, or after transformation, with probability or likelihood values of languages, and building and weighting new loss functions with confidence indices lead us to make unique decisions by minimum risk

APA, Harvard, Vancouver, ISO und andere Zitierweisen

14

Vasilescu, Ioana Gabriela Hombert Jean-Marie. „Contribution à l'identification automatique des langues romanes“. [S.l.] : [s.n.], 2001. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2001/vasilescu_ig.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

15

Tirilly, Pierre. „Traitement automatique des langues pour l'indexation d'images“. Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00516422.

Der volle Inhalt der Quelle

Annotation:

Bien que s'inscrivant dans un cadre global de recherche d'information (RI) classique, l'indexation d'image ne tire que peu parti des nombreux travaux existants en RI textuelle et en traitement automatique des langues (TAL). Nous identifions deux niveaux auxquels de tels travaux peuvent s'intégrer aux systèmes d'indexation d'images. Le premier niveau est celui de la description du contenu visuel des images. Pour y intégrer des techniques de TAL, nous adoptons la description des images par mots visuels proposée par Sivic et Zisserman. Cette représentation soulève deux problématiques similaires aux problématiques classiques de la RI textuelle~: le choix des termes d'indexation les plus pertinents pour décrire les documents et la prise en compte des relations entre ces termes. Pour répondre à la première de ces problématiques nous proposons une étude des stop-lists et des pondérations dans le cadre de l'indexation d'images. Cette étude montre que, contrairement au cas des textes, il n'existe pas de pondération optimale pour tous types de requêtes, et que la pondération doit être choisie en fonction de la requête. Pour la seconde, nous utilisons des modèles de langues, outil classique du TAL que nous adaptons au cas des images, pour dépasser l'hypothèse d'indépendance des termes dans un cadre de classification d'images. Nos expérimentations montrent que prendre en compte des relations géométriques entre mots visuels permet d'améliorer les performances des systèmes. Le second niveau étudié est l'indexation sémantique des images : il est possible d'utiliser des méthodes de TAL sur des textes accompagnant les images pour obtenir des descriptions textuelles de celles-ci. Dans un premier temps, nous montrons que les descripteurs classiques d'images ne permettent pas d'obtenir des systèmes d'annotation d'images efficaces. Puis nous proposons une méthode d'annotation qui contourne cet écueil en se basant sur des descripteurs textuels et visuels de haut-niveau~: nous extrayons des textes des entités nommées, que nous mettons en relation avec des concepts visuels détectés dans les images afin d'annoter celles-ci. Nous validons notre approche sur un corpus réel et de grande taille composé d'articles de presse.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

16

Tirilly, Pierre. „Traitement automatique des langues pour l'indexation d'images“. Phd thesis, Rennes 1, 2010. http://www.theses.fr/2010REN1S045.

Der volle Inhalt der Quelle

Annotation:

Nous nous intéressons, dans cette thèse, à l'usage du traitement automatique des langues (TAL) dans les systèmes d'indexation d'images. Au niveau de la description du contenu visuel des images, nous nous appuyons sur la description des images sous forme de mots visuels, qui pose des problématiques similaires à celles de l'indexation textuelle. Nous utilisons des méthodes de TAL (pondérations et stop-lists) afin de déterminer les mots visuels pertinents, puis nous utilisons les modèles de langues pour prendre en compte certaines relations géométriques entre mots visuels. Au niveau de la description du contenu sémantique des images, nous proposons une méthode d'annotation d'images basée sur l'extraction d'entités nommées pertinentes dans des textes accompagnant les images à annoter
In this thesis, we propose to integrate natural language processing (NLP) techniques in image indexing systems. We first address the issue of describing the visual content of images. We rely on the visual word-based image description, which raises problems that are well known in the text indexing field. First, we study various NLP methods (weighting schemes and stop-lists) to automatically determine which visual words are relevant to describe the images. Then we use language models to take account of some geometrical relations between the visual words. We also address the issue of describing the semantic content of images: we propose an image annotation scheme that relies on extracting relevant named entities from texts coming with the images to annotate

APA, Harvard, Vancouver, ISO und andere Zitierweisen

17

Pellegrino, François. „Une approche phonétique en identification automatique des langues“. Toulouse 3, 1998. http://www.theses.fr/1998TOU30294.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

18

Perez, Laura Haide. „Génération automatique de phrases pour l'apprentissage des langues“. Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0062/document.

Der volle Inhalt der Quelle

Annotation:

Dans ces travaux, nous explorons comment les techniques de Générations Automatiques de Langue Naturelle (GLN) peuvent être utilisées pour aborder la tâche de génération (semi-)automatique de matériel et d'activités dans le contexte de l'apprentissage de langues assisté par ordinateur. En particulier, nous montrons comment un Réalisateur de Surface (RS) basé sur une grammaire peut être exploité pour la création automatique d'exercices de grammaire. Notre réalisateur de surface utilise une grammaire réversible étendue, à savoir SemTAG, qui est une Grammaire d'Arbre Adjoints à Structure de Traits (FB-TAG) couplée avec une sémantique compositionnelle basée sur l'unification. Plus précisément, la grammaire FB-TAG intègre une représentation plate et sous-spécifiée des formules de Logique de Premier Ordre (FOL). Dans la première partie de la thèse, nous étudions la tâche de réalisation de surface à partir de formules sémantiques plates et nous proposons un algorithme de réalisation de surface basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases longues étant donné une grammaire et un lexique à large couverture. L'approche suivie pour l'optimisation de la réalisation de surface basée sur FB-TAG à partir de sémantiques plates repose sur le fait qu'une grammaire FB-TAG peut être traduite en une Grammaire d'Arbres Réguliers à Structure de Traits (FB-RTG) décrivant ses arbres de dérivation. Le langage d'arbres de dérivation de la grammaire TAG constitue un langage plus simple que le langage d'arbres dérivés, c'est pourquoi des approches de génération basées sur les arbres de dérivation ont déjà été proposées. Notre approche se distingue des précédentes par le fait que notre encodage FB-RTG prend en compte les structures de traits présentes dans la grammaire FB-TAG originelle, ayant de ce fait des conséquences importantes par rapport à la sur-génération et la préservation de l'interface syntaxe-sémantique. L'algorithme de génération d'arbres de dérivation que nous proposons est un algorithme de type Earley intégrant un ensemble de techniques d'optimisation bien connues: tabulation, partage-compression (sharing-packing) et indexation basée sur la sémantique. Dans la seconde partie de la thèse, nous explorons comment notre réalisateur de surface basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exercices de grammaire. Habituellement, les enseignants éditent manuellement les exercices et leurs solutions et les classent au regard de leur degré de difficulté ou du niveau attendu de l'apprenant. Un courant de recherche dans le Traitement Automatique des Langues (TAL) pour l'apprentissage des langues assisté par ordinateur traite de la génération (semi-)automatique d'exercices. Principalement, ces travaux s'appuient sur des textes extraits du Web, utilisent des techniques d'apprentissage automatique et des techniques d'analyse de textes (par exemple, analyse de phrases, POS tagging, etc.). Ces approches confrontent l'apprenant à des phrases qui ont des syntaxes potentiellement complexes et du vocabulaire varié. En revanche, l'approche que nous proposons dans cette thèse aborde la génération (semi-)automatique d'exercices du type rencontré dans les manuels pour l'apprentissage des langues. Il s'agit, en d'autres termes, d'exercices dont la syntaxe et le vocabulaire sont faits sur mesure pour des objectifs pédagogiques et des sujets donnés. Les approches de génération basées sur des grammaires associent les phrases du langage naturel avec une représentation linguistique fine de leur propriété morpho-syntaxiques et de leur sémantique grâce à quoi il est possible de définir un langage de contraintes syntaxiques et morpho-syntaxiques permettant la sélection de phrases souches en accord avec un objectif pédagogique donné. Cette représentation permet en outre d'opérer un post-traitement des phrases sélectionées pour construire des exercices de grammaire
In this work, we explore how Natural Language Generation (NLG) techniques can be used to address the task of (semi-)automatically generating language learning material and activities in Camputer-Assisted Language Learning (CALL). In particular, we show how a grammar-based Surface Realiser (SR) can be usefully exploited for the automatic creation of grammar exercises. Our surface realiser uses a wide-coverage reversible grammar namely SemTAG, which is a Feature-Based Tree Adjoining Grammar (FB-TAG) equipped with a unification-based compositional semantics. More precisely, the FB-TAG grammar integrates a flat and underspecified representation of First Order Logic (FOL) formulae. In the first part of the thesis, we study the task of surface realisation from flat semantic formulae and we propose an optimised FB-TAG-based realisation algorithm that supports the generation of longer sentences given a large scale grammar and lexicon. The approach followed to optimise TAG-based surface realisation from flat semantics draws on the fact that an FB-TAG can be translated into a Feature-Based Regular Tree Grammar (FB-RTG) describing its derivation trees. The derivation tree language of TAG constitutes a simpler language than the derived tree language, and thus, generation approaches based on derivation trees have been already proposed. Our approach departs from previous ones in that our FB-RTG encoding accounts for feature structures present in the original FB-TAG having thus important consequences regarding over-generation and preservation of the syntax-semantics interface. The concrete derivation tree generation algorithm that we propose is an Earley-style algorithm integrating a set of well-known optimisation techniques: tabulation, sharing-packing, and semantic-based indexing. In the second part of the thesis, we explore how our SemTAG-based surface realiser can be put to work for the (semi-)automatic generation of grammar exercises. Usually, teachers manually edit exercises and their solutions, and classify them according to the degree of dificulty or expected learner level. A strand of research in (Natural Language Processing (NLP) for CALL addresses the (semi-)automatic generation of exercises. Mostly, this work draws on texts extracted from the Web, use machine learning and text analysis techniques (e.g. parsing, POS tagging, etc.). These approaches expose the learner to sentences that have a potentially complex syntax and diverse vocabulary. In contrast, the approach we propose in this thesis addresses the (semi-)automatic generation of grammar exercises of the type found in grammar textbooks. In other words, it deals with the generation of exercises whose syntax and vocabulary are tailored to specific pedagogical goals and topics. Because the grammar-based generation approach associates natural language sentences with a rich linguistic description, it permits defining a syntactic and morpho-syntactic constraints specification language for the selection of stem sentences in compliance with a given pedagogical goal. Further, it allows for the post processing of the generated stem sentences to build grammar exercise items. We show how Fill-in-the-blank, Shuffle and Reformulation grammar exercises can be automatically produced. The approach has been integrated in the Interactive French Learning Game (I-FLEG) serious game for learning French and has been evaluated both based in the interactions with online players and in collaboration with a language teacher

APA, Harvard, Vancouver, ISO und andere Zitierweisen

19

Dary, Franck. „Modèles incrémentaux pour le traitement automatique des langues“. Electronic Thesis or Diss., Aix-Marseille, 2022. http://www.theses.fr/2022AIXM0248.

Der volle Inhalt der Quelle

Annotation:

Cette thèse s'inscrit dans le domaine du traitement automatique de la langue, elle concerne plus particulièrement la prédiction de la structure syntaxico morphologique des phrases.Il s'agit donc, à partir d'un texte, de découper ce dernier en phrases puis en mots et d'associer aux mots une partie de discours et des traits morphologiques puis de relier les mots pour expliciter la structure syntaxique.La thèse propose un modèle de prédiction qui permet de réaliser ces tâches simultanément et de manière incrémentale : le texte est lu caractère par caractère et l'intégralité des prédictions linguistiques sont mises à jour par l'information apportée par chaque nouveau caractère.La raison pour laquelle nous avons exploré cette architecture est la volonté de s'inspirer de la lecture humaine qui impose ces deux contraintes.D'un point de vue expérimental, nous calculons la corrélation entre des variables oculométriques mesurées sur des sujets humains et des mesures de complexité propre à notre modèle.De plus, nous proposons un mécanisme de retour arrière, inspiré des saccades régressives observées chez l'humain. Pour cela, nous utilisons l'apprentissage par renforcement, qui permet au modèle d'effectuer des retours arrières lorsqu'il se trouve dans une impasse
This thesis is about natural language processing, and more specifically concerns the prediction of the syntactic-morphological structure of sentences.This is the matter of segmenting a text into sentences and then into words and associating to each word a part of speech and morphological features and then linking the words to make the syntactic structure explicit.The thesis proposes a predictive model that performs these tasks simultaneously and in an incremental fashion: the text is read character by character and the entire linguistic predictions are updated by the information brought by each new character.The reason why we have explored this architecture is the will to be inspired by human reading which imposes these two constraints.From an experimental point of view, we compute the correlation between eye-tracking variables measured on human subjects and complexity metrics specific to our model.Moreover, we propose a backtracking mechanism, inspired by the regressive saccades observed in humans. To this end, we use reinforcement learning, which allows the model to perform backtracking when it reaches a dead end

APA, Harvard, Vancouver, ISO und andere Zitierweisen

20

Donzo, Bunza Yugia Jean-Pierre. „Langues bantoues de l'entre Congo-Ubangi, RD Congo: documentation, reconstruction, classification et contacts avec les langues oubanguiennes“. Doctoral thesis, Universite Libre de Bruxelles, 2015. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/209145.

Der volle Inhalt der Quelle

Annotation:

Cette étude comparative des langues de l’entre Congo-Ubangi entreprend la documentation, la classification et la reconstruction de dix langues bantoues (bolondó, bonyange, ebudzá, ebwela, libóbi, lingɔmbɛ, mondóngó, monyɔ́ngɔ, mosángé, págáɓéte) parlées dans l’aire géographique comprise entre les fleuves Congo et Ubangi dans le nord-ouest de la RD Congo et présente leur interaction avec les langues oubanguiennes voisines (gbánzírí, gɔ́bú, máɓó, mbānzā, monzɔmbɔ, ngbandi, ngbaka).

Une étude lexicostatistique quantitative détermine le degré de similarité entre les langues bantoues à l’étude avant d’établir classification phylogénétique intégrant ces langues dans un groupe plus large totalisant 401 langues bantoues illustrée par des arbres Neighbor-Net et des Neighbor-Joining.

La description phonologique signale la présence de certains phonèmes étrangers au système proto-bantou (implosives et labiovélaires) fonctionnant non comme des allophones mais des phonèmes distincts de leurs correspondants explosifs et vélaires dans plusieurs langues. Ainsi l’examen de ces éléments ou des traits linguistiques particuliers indique qu’ils seraient des emprunts aux langues oubanguiennes voisines.

Somme toute, Il apparaît que les particularités linguistiques actuelles au niveau segmental, suprasegmental (que nous n’avons pas abordé) et structural des langues bantoues de l’entre Congo-Ubangi seraient liées, en partie, au contact autant dans le passé qu’au présent avec les locuteurs des langues non bantoues, notamment oubanguiennes.

Les emprunts lexicaux, par exemple, révèlent à la fois des emprunts de bantu vers les langues oubanguiennes et des langues oubanguiennes vers le bantu.

Néanmoins, les preuves historiques et archéologiques sur la date et la nature de ces relations de contact est assez faible et nécessite des études interdisciplinaires dans le futur.

Doctorat en Langues et lettres
info:eu-repo/semantics/nonPublished

APA, Harvard, Vancouver, ISO und andere Zitierweisen

21

McCabe, Gragnic Julie. „Documentation et description du maya tenek“. Thesis, Paris 3, 2014. http://www.theses.fr/2014PA030166.

Der volle Inhalt der Quelle

Annotation:

L’objectif premier de cette thèse est de contribuer à la documentation et à la description d’une langue indigène en danger de disparition au Mexique et parallèlement, à sa revitalisation, en apportant aux locuteurs de cette langue des outils pour l’enseignement et la transmission de la langue.La langue étudiée dans cette thèse est le tének (parfois écrit teenek ; connu également comme le huastèque/wastek) – une langue maya parlée dans l’Etat de San Luis Potosí au Mexique. Bien qu’elle ne soit pas officiellement reconnue comme étant en danger d’extinction à court terme, le destin du ténekdemeure toutefois incertain dans le moyen terme. Ce fait est dûment démontré dans la première partie de lathèse, où l’on remet en question la classification des langues dites en voie de disparition, en révélant l’étendue du risque encouru par beaucoup d’autres langues indigènes.Les locuteurs de maya tének sont séparés des autres locuteurs de langues mayas par plus de 700km,tout en étant en contact avec des locuteurs de langues indigènes d’autres familles de langues mésoaméricaines(notamment uto-aztèque et otomangue). Cette situation ambivalente d’isolement endogène etde contact exogène fait de la documentation du tének contemporain un sujet d’étude particulièrement intéressant du point de vue typologique. Son isolement par rapport aux autres langues mayas contribue àfaire du tének une langue conservatrice maintenant certains liens privilégiés avec le proto-maya, mais par ailleurs, ce même isolement, associé au contact avec d’autres langues méso-américaines non maya, a conduit le tének à innover et à évoluer de manière originale, par rapport aux tendances typologiques de son groupe phylogénétique. Un exemple d’une innovation marquante de ce genre est, sur le plan morphosyntaxique, le système de l’inverse, fondé sur une hiérarchie de marqueurs personnels – un paramètre typologique original, qui a été développé par le tének comme une innovation périphérique, et qui s’avère unique à l’intérieur de la famille maya. Un autre exemple est la classification des substantifs, qui diffère de celle des autres langues mayas. La complexité de la structure verbale tének nous fournit également de nombreux traits intéressants : elle se manifeste par des marqueurs d’aspects primaires(accompli, inaccompli, etc.) et également d’aspects secondaires (exhaustif, intensif, résultatif, etc.), plusieurs marqueurs antipassifs (dont un est utilisé pour exprimer la réciprocité, ce qui est un phénomène plutôt inhabituel pour une langue maya), et plus d’un moyen pour exprimer le passif et la voix moyenne.Toutes ces caractéristiques sont examinées en détail dans la deuxième partie de cette thèse, en fondant l’argumentation sur des données de première main, collectées sur le terrain dans le cadre de ce projet, à la fois sous forme d’élicitation, de collecte et de transcription de mythes et textes oraux.La troisième et dernière partie de la thèse est dédiée à la présentation de certains outils et méthodes de documentation originaux et participatifs, qui ont servi non seulement pour le travail de terrain, mais également dans des ateliers organisés afin de collecter des données pour ce projet aussi bien que pour fournir aux locuteurs et/ou aux enseignants du tének des moyens de lutter contre la disparition de la langue et la détresse pédagogique due au manque de moyens pour se former sur leurs langues autochtones.Certains des résultats obtenus grâce à ces méthodes sont également présentés ici. Cette partie de la thèse examine aussi la façon dont l’éducation bilingue et interculturelle au Mexique travaille à la protection des langues natives mexicaines
The principal objective of this thesis is to document and describe an endangered indigenous language of Mexico and, in parallel, to provide tools to its speakers for the teaching and transmission of said language, thereby contributing to efforts for its revitalisation.As documented within the thesis, Tének (sometimes written Teenek; also known by thename Huastec/Wastek) is a Mayan language spoken in the state of San Luis Potosí, Mexico, and although it is not officially recognised as being in any particular danger of extinction, its destiny is quite uncertain in the mid-term. This is duly demonstrated within the first part of the thesis, thereby questioning the classification of endangered languages, and revealing the extent to which manymore languages are at risk than apparent.The Maya Tének are separated from the other Mayan language speakers by more than 700km, but are in close contact with indigenous language speakers of other origins (namely Uto-Aztec and Otomanguean). This configuration of isolation/contact creates, typologically speaking, aparticularly interesting object of study. Its isolation from the other Mayan languages means thatTének is and has remained a conservative language displaying close links with the proto-language,yet this same situation of isolation, coupled with its contact with languages of other origins, hasforced Tének to innovate and to evolve in other ways. One such example is the classification of nouns which differs from other Mayan languages. Another Tének development is its morphological inverse system based on a hierarchy of person markers which is unique within the Mayan family.The complex verb structure of Tének also presents some interesting features : it has both primary aspect markers (completive, incompletive, etc.) and secondary aspect markers (exhaustive,intensive, résultative, etc.), several antipassive markers (one of which is used to express reciprocity,which is in itself unusual for a Mayan language), more than one way to express the passive as well as the middle voice. All of these features are examined in detail within the second part of this thesis based on original materials collected in the field within the framework of this project both via elicitation and the collection and transcription of stories.The third and final part of the thesis is dedicated to the presentation of some of the original and creative documentation methods and tools used both for fieldwork and in organised workshop sessions in order to collect data for this project as well as to provide means by which the speakersand/or teachers of Tének can fight against the loss of the language. Some of the results of the work accomplished via these methods are presented here too. This part of the thesis also takes a look at how bilingual and intercultural education in Mexico is shaped and the actions taken toward protecting Mexican native languages.This thesis was developed as an experimental project in documentary linguistics; this particular paradigm of linguistics is revealing itself to be more and more important as languages continually disappear but remains as yet a little explored domain within the field of linguistics inFrance

APA, Harvard, Vancouver, ISO und andere Zitierweisen

22

Kuramoto, Hélio. „Proposition d'un système de recherche d'information assistée par ordinateur : avec application à la langue portugaise“. Lyon 2, 1999. http://theses.univ-lyon2.fr/documents/lyon2/1999/hkuramoto.

Der volle Inhalt der Quelle

Annotation:

Nous proposons un système d'indexation et de recherche d'information afin de faire face aux difficultés rencontrées par les usagers lors de l'utilisation de tels systèmes. Nous en distinguons deux types de problèmes : la faible précision des résultats d'une recherche d'information et le manque de convivialité des interfaces de recherche d'information. Nous limitons notre champ d'étude aux systèmes de recherche d'information (SRI) qui portent sur des bases de données texte plein (full text). Suite à l'étude de ces difficultés, nous sommes parvenus à une conclusion identique à celle proposée par le groupe SYDO : l'utilisation des syntagmes nominaux (SN) comme descripteur, en opposition à l'utilisation des mots couramment adoptés par les SRI classiques. Il s'agissait alors d'examiner la faisabilité de cette proposition. .
In this research paper, we propose a model to address problems typically faced by users in information indexing and retrieval systems (IRS) applied to full text databases. Through discussion of these problems we arrive at a solution that had been formerly proposed by the SYDO group : the use of nominal phrases (or Nominal Group) as descriptors instead of words which are generally used by the traditional IRS. In order to verify the feasibility of this proposition, we have developed a prototype of a n IRS with a full text database. .

APA, Harvard, Vancouver, ISO und andere Zitierweisen

23

Lavecchia, Caroline. „Les Triggers Inter-langues pour la Traduction Automatique Statistique“. Phd thesis, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00545463.

Der volle Inhalt der Quelle

Annotation:

Les recherches menées dans le cadre de mon doctorat concernent le domaine de la Traduction Automatique (TA), ou comment traduire d'une langue source vers une langue cible sans aucune intervention humaine. Mes travaux se sont plus particulièrement concentrés sur l'approche statistique de la TA qui consiste à utiliser différents modèles probabilistes appris sur des quantités importantes de corpus parallèles alignés afin de trouver la traduction la plus vraisemblable d'une phrase source. Deux problèmes étroitement liés à l'approche statistique de la TA sont abordés dans ce manuscrit : la collecte de corpus parallèles et l'estimation de modèles de traduction à partir de ces corpus. Un système de TA statistique extrait la connaissance dont il a besoin pour produire des traductions à partir de corpus parallèles dans lesquels chaque phrase source est associée à sa traduction dans la langue cible. De nombreux travaux utilisent comme corpus parallèle les actes du Parlement Européen disponibles gratuitement en différentes langues. De tels corpus ne sont pas adéquats pour la traduction de parole spontanée, c'est pourquoi j'ai décidé de construire des corpus parallèles à partir de sous-titres de films afin de construire un système de traduction plus réaliste. Les sous-titres sont des données complexes, ils ne peuvent constituer un corpus parallèle aligné dans leur état brut. Ils nécessitent une phase de pré-traitement et d'alignement. J'ai pour cela proposé une méthode originale basée sur la Programmation Dynamique qui aligne automatiquement les sous-titres. J'ai ainsi constitué une ressource importante et riche pour l'apprentissage des systèmes de TA statistique. La TA statistique repose sur l'utilisation de plusieurs modèles statistiques comme le modèle d'alignement, la table de traduction ou encore le modèle de distortion. La table de traduction est le modèle le plus indispensable à un système de TA statisque pour calculer la traduction la plus vraisemblable d'une phrase source. En effet, celle-ci donne les probabilités de traduction entre les couples de mots sources et cibles. Il existe différentes méthodes permettant l'estimation de ces tables de traduction. Elles ont habituellement recours à un alignement des mots obtenu automatiquement sur les corpus parallèles. Cette tâche d'alignement est une étape longue et fastidieuse qui fait appel à des algorithmes complexes. Le coeur de mon travail a été de repenser le problème et d'explorer de nouvelles pistes pour estimer les tables de traduction de mots et de séquences de mots, totalement différentes des méthodes état-de-l'art. J'ai proposé une approche originale basée sur le concept de triggers inter-langues qui ne nécessite aucun alignement des mots au sein des corpus parallèles. Les triggers inter-langues permettent de mettre en évidence des unités fortement corrélés en se basant sur l'Information Mutuelle. Dans notre cas les unités sont des séquences de mots sources et cibles. L'idée derrière ce concept est que si une séquence de mots sources est fortement corrélée à une séquence de mots cibles en termes d'IM, alors nous pouvons supposer que la présence de la première dans une phrase source déclenchera la présence de la seconde dans sa traduction et vice versa. J'ai proposé d'utiliser les triggers inter-langues sur les corpus parallèles dans le but de trouver les traductions possibles de séquences de mots et ainsi constituer une table de traduction. L'Information Mutuelle est une mesure de co-occurence qui se calcule simplement en un seul passage sur le corpus parallèle. Pour sélectionner les triggers interlangues, nous supposons que deux séquences sources et cibles co-occurent si elles apparaissent dans une même paire de phrases du corpus parallèle. De ce fait, ma méthode ne requiert qu'un alignement au niveau des phrases et non au niveau des mots au sein du corpus parallèle. L'utilisation des triggers inter-langues pour estimer une table de traduction rend mon approche moins complexe mais tout aussi efficace que les approches existantes. Dans un contexte de traduction mot-à-mot, la table de traduction obtenue grâce aux triggers inter-langues conduit à des traductions automatiques de meilleur qualité, en termes de score BLEU, que celles produites avec une table de traduction de mots estimée selon le modèle 3 d'IBM. Dans un contexte de traduction par groupe de mots, la table de traduction basée sur les triggers inter-langues amènent à des traductions automatiques dont le score BLEU est supérieur à 34 et proche de celui des traductions automatiques produites par une table de traduction de séquences estimées à partir de l'alignement des mots suivant les approches état-de-l'art. Mots-clés: Traduction Automatique Statistique, Triggers Inter-langues, Traduction Automatique à base de séquences

APA, Harvard, Vancouver, ISO und andere Zitierweisen

24

Denoual, Etienne. „Méthodes en caractères pour le traitement automatique des langues“. Phd thesis, Université Joseph Fourier (Grenoble), 2006. http://tel.archives-ouvertes.fr/tel-00107056.

Der volle Inhalt der Quelle

Annotation:

Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues.
Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais.

Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU.
Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots.
Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique.
Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

25

Moreau, Fabienne. „Revisiter le couplage traitement automatique des langues et recherche d'information“. Phd thesis, Université Rennes 1, 2006. http://tel.archives-ouvertes.fr/tel-00524514.

Der volle Inhalt der Quelle

Annotation:

La principale difficulté des systèmes de recherche d'information (SRI) est d'établir une correspondance entre l'information recherchée par un utilisateur et celle contenue dans leur base documentaire. Pour y parvenir, ils tentent généralement un appariement des mots de la requête posée avec ceux représentant le contenu des documents. Un tel mécanisme, fondé sur une simple comparaison de chaînes de caractères, ne permet cependant pas de prendre en compte le fait qu'un même mot peut posséder plusieurs sens et qu'une même idée peut être formulée de différentes manières. Pour pallier ces difficultés, une solution assez naturelle est de se tourner vers le traitement automatique des langues (TAL) qui, en considérant les mots non comme des chaînes de caractères mais comme des entités linguistiques à part entière, doit offrir un appariement requête-document plus pertinent. Les résultats des nombreux travaux proposant d'enrichir la RI par des informations linguistiques sont toutefois souvent décevants, peu tranchés et contradictoires. Pour comprendre ces faibles résultats et savoir comment les améliorer, nous abordons le couplage TAL-RI sous des angles nouveaux. Contrairement aux autres études, nous choisissons d'exploiter pleinement la richesse de la langue en combinant plusieurs informations linguistiques appartenant aux niveaux morphologique, syntaxique et sémantique. Afin de tester l'intérêt de coupler ces informations, nous proposons une plate-forme intégrant en parallèle ces multiples indices ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces connaissances, et, via une analyse originale des corrélations qu'elles présentent, des cas de complémentarité intéressants. Grâce à une méthode d'apprentissage supervisé qui fusionne les listes de résultats fournis par chaque index linguistique et s'adapte automatiquement aux caractéristiques des requêtes, nous prouvons, par des résultats plus stables qu'habituellement, le gain effectif du couplage d'informations linguistiques multi-niveaux. Enfin, nous proposons une méthode novatrice d'acquisition par apprentissage non supervisé d'informations morphologiques qui permet d'accroître encore l'impact de ces connaissances efficaces sur les performances de notre SRI. Nous montrons ainsi qu'en construisant des outils plus souples et plus adaptés aux contraintes de la RI, l'apport du TAL dans ce domaine est réel.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

26

Bardet, Adrien. „Architectures neuronales multilingues pour le traitement automatique des langues naturelles“. Thesis, Le Mans, 2021. http://www.theses.fr/2021LEMA1002.

Der volle Inhalt der Quelle

Annotation:

La traduction des langues est devenue un besoin essentiel pour la communication entre humains dans un monde où les possibilités de communication s'élargissent. La traduction automatique est une réponse à l'évolution de ce besoin.Plus récemment, la traduction automatique neuronale s'est imposée avec les grandes performances des systèmes neuronaux qui ouvrent une nouvelle aire de l'apprentissage automatique. Les systèmes neuronaux exploitent de grandes quantités de données pour apprendre à réaliser une tâche automatiquement. Dans le cadre de la traduction automatique, les quantités de données parfois importantes et nécessaires pour apprendre des systèmes performants ne sont pas toujours disponibles pour toutes les langues. L'utilisation de systèmes multilingues est une solution pour répondre à ce problème. Les systèmes de traduction automatique multilingues permettent de traduire plusieurs langues au sein d'un même système. Ils permettent aux langues disposant de peu de données d'être apprises aux côtés de langues disposant de plus de données, améliorant ainsi les performances du système de traduction. Cette thèse se concentre sur des approches de traduction automatique multilingues en vue d'améliorer les performances pour les langues disposant de peu de données. J'ai travaillé sur plusieurs approches de traduction multilingues reposant sur différentes techniques de transfert entre les langues. Les différentes approches proposées ainsi que des analyses complémentaires ont révélé l'impact des critères pertinents pour le transfert. Elles montrent aussi l'importance, parfois négligée, de l'équilibre des langues au sein d'approches multilingues
The translation of languages has become an essential need for communication between humans in a world where the possibilities of communication are expanding. Machine translation is a response to this evolving need. More recently, neural machine translation has come to the fore with the great performance of neural systems, opening up a new area of machine learning. Neural systems use large amounts of data to learn how to perform a task automatically. In the context of machine translation, the sometimes large amounts of data needed to learn efficient systems are not always available for all languages.The use of multilingual systems is one solution to this problem. Multilingual machine translation systems make it possible to translate several languages within the same system. They allow languages with little data to be learned alongside languages with more data, thus improving the performance of the translation system. This thesis focuses on multilingual machine translation approaches to improve performance for languages with limited data. I have worked on several multilingual translation approaches based on different transfer techniques between languages. The different approaches proposed, as well as additional analyses, have revealed the impact of the relevant criteria for transfer. They also show the importance, sometimes neglected, of the balance of languages within multilingual approaches

APA, Harvard, Vancouver, ISO und andere Zitierweisen

27

Lê, Viêt Bac. „Reconnaissance automatique de la parole pour des langues peu dotées“. Université Joseph Fourier (Grenoble), 2006. http://www.theses.fr/2006GRE10061.

Der volle Inhalt der Quelle

Annotation:

Dans la plupart des langues peu dotées, les services liés aux technologies du traitement de l'oral sont inexistants. L'originalité de mon travail de thèse vient de la volonté d'aborder ces langues pour lesquelles peu ou pas de ressources nécessaires pour la reconnaissance automatique de la parole sont disponibles. Ce manuscrit présente notre méthodologie qui vise à développer et adapter rapidement un système de reconnaissance automatique de la parole continue pour une nouvelle langue peu dotée. La nature statistique des approches nécessite de disposer d'une grande quantité de ressources (vocabulaires, grands corpus de texte, grands corpus de parole, dictionnaires de prononciation) pour le développement d'un système de reconnaissance automatique de la parole continue à grand vocabulaire. Ces ressources ne sont cependant pas disponibles directement pour des langues peu dotées. Par conséquent, une première façon d'accélérer la portabilité des systèmes de reconnaissance vocale vers une nouvelle langue est de développer une méthodologie permettant une collecte rapide et facilitée de ressources écrites et orales. Dans ce travail, nous proposons tout d'abord des solutions pour résoudre les difficultés principales de récupération et de traitement des ressources textuelles spécifiques aux langues peu dotées : recueil d'un vocabulaire, collecte de documents à partir de l'Internet, normalisation de textes, segmentation de textes, filtrage. Une boîte à outils générique " open source " nommée CLIPS-Text-Tk a notamment été développée pour faciliter le portage des outils de traitement de corpus textuels vers une nouvelle langue. Ensuite, la plus grande partie de notre travail de thèse concerne la construction rapide de modèles acoustiques pour une langue peu dotée. Nous proposons des concepts et des méthodes d'estimation de similarités entre unités phonémiques (phonème, polyphone, groupe de polyphones,. . . ). Ces mesures de similarité sont ensuite utilisées pour la portabilité et l'adaptation rapide des modèles acoustiques multilingues indépendant et dépendant du contexte vers une nouvelle langue peu dotée. Pour les langues peu dotées qui ne disposent pas encore de dictionnaire phonétique, une modélisation acoustique à base de graphèmes est aussi proposée et évaluée. Enfin, les ressources écrites et orales collectées pour le vietnamien et le khmer ainsi que les résultats expérimentaux obtenus par nos systèmes de reconnaissance automatique de la parole en vietnamien et en khmer sont présentés et valident le potentiel des méthodes que nous avons proposées
Nowadays, computers are heavily used to communicate via text and speech. Text processing tools, electronic dictionaries, and even more advanced systems like text-to-speech or dictation are readily available for several languages. There are however more than 6900 languages in the world and only a small number possess the resources required for implementation of Human Language Technologies (HLT). Thus, HLT are mostly concerned by languages for which large resources are available or which have suddenly become of interest because of the economic or political scene. On the contrary, languages from developing countries or minorities have been less worked on in the past years. One way of improving this "language divide" is do more research on portability of HLT for multilingual applications. Among HLT, we are particularly interested in Automatic Speech Recognition (ASR). Therefore, we are interested in new techniques and tools for rapid development of ASR systems for under-resourced languages or π-languages when only limited resources are available. These languages are typically spoken in developing countries, but can nevertheless have many speakers. In this work, we investigate Vietnamese and Khmer, which are respectively spoken by 67 million and 13 million people, but for which speech processing services do not exist at all. Firstly, given the statistical nature of the methods used in ASR, a large amount of resources (vocabularies, text corpora, transcribed speech corpora, phonetic dictionaries) is crucial for building an ASR system for a new language. Concerning text resources, a new methodology for fast text corpora acquisition for π-languages is proposed and applied to Vietnamese and Khmer. Some specific problems in text acquisition and text processing for π-languages such as text normalization, text segmentation, text filtering are resolved. For fast developing of text processing tools for a new π-language, an open source generic toolkit named CLIPS-Text-Tk was developed during this thesis. Secondly, for acoustic modeling, we address particularly the use of acoustic-phonetic unit similarities for multilingual acoustic models portability to new languages. Notably, an estimation method of the similarity between two phonemes is first proposed. Based on these phoneme similarities, some estimation methods for polyphone similarity and clustered polyphonic model similarity are investigated. For a new language, a source/target acoustic-phonetic unit mapping table can be constructed with these similarity measures. Then, clustered models in the target language are duplicated from the nearest clustered models in the source language and adapted with limited data to the target language. Results obtained for Vietnamese demonstrate the feasibility and efficiency of these methods. The proposal of grapheme-based acoustic modeling, which avoids building a pronunciation dictionary, is also investigated in our work. Finally, our whole methodology is applied to design a Khmer ASR system which leads to 70% word accuracy and which was developed in only five months

APA, Harvard, Vancouver, ISO und andere Zitierweisen

28

Moreau, Fabienne Sébillot Pascale. „Revisiter le couplage traitement automatique des langues et recherche d'information“. [S.l.] : [s.n.], 2006. ftp://ftp.irisa.fr/techreports/theses/2006/moreau.pdf.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

29

Manad, Otman. „Nettoyage de corpus web pour le traitement automatique des langues“. Thesis, Paris 8, 2018. http://www.theses.fr/2018PA080011.

Der volle Inhalt der Quelle

Annotation:

Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent
Corpora are the main material of computer linguistics and natural language processing. Not many languages have corpora made from web resources (forums, blogs, etc.), even those that do not have other resources. Web resources contain lots of noise (menus, ads, etc.). Filtering boilerplate and repetitive data requires a large-scale manual cleaning by the researcher.This thesis presents an automatic system that construct web corpus with a low level of noise.It consists of three modules : (a) one for building corpora in any language and any type of data, intended to be collaborative and preserving corpus history; (b) one for crawling web forums and blogs; (c) one for extracting relevant data using clustering techniques with different distances, from the structure of web page.The system is evaluated in terms of the efficacy of noise filtering and of computing time. Our experiments, made on four languages, are evaluated using our own gold standard corpus. To measure quality, we use recall, precision and F-measure. Feature-distance and Jaro distance give the best results, but not in the same contexts, feature-distance having the best average quality.We compare our method with three methods dealing with the same problem, Nutch, BootCat and JusText. The performance of our system is better as regards the extraction quality, even if for computing time, Nutch and BootCat dominate

APA, Harvard, Vancouver, ISO und andere Zitierweisen

30

Mammadova, Nayiba. „Eléments de description et documentation du tat de l'Apshéron, langue iranienne d'Azerbaïdjan“. Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCF016/document.

Der volle Inhalt der Quelle

Annotation:

Cette thèse est une grammaire descriptive du tat de l’Apshéron, une langue iranienne de la branche sud-ouest parlée en Azerbaïdjan. Il s’agit de la première description d’un dialecte tat musulman dans une langue occidentale. Après une introduction détaillée présentant le contexte sociolinguistique et la phonologie, le présent travail aborde les différentes parties du discours, le marquage des fonctions grammaticales, la morphologie verbale (dérivation, classes morphologiques du verbe, locutions verbales, emplois et valeurs des formes conjuguées). Les principaux faits de syntaxe de la phrase complexe sont ensuite décrits : subordonnées relatives, complétives, et adverbiales, coordination de prédicats.La description, effectuée dans une perspective typologique, s’appuie sur l’analyse de textes spontanés récoltés sur le terrain, de traductions de l’azéri vers le tat, et sur les connaissances personnelles de l’auteur, locutrice native. Elle est suivie en annexe de textes extraits du corpus, partiellement traduits, ainsi que d’un lexique recensant les lexèmes utilisés dans l’étude et dans les textes
This thesis is a descriptive grammar of Tat (an Iranian language of the South-Western branch) as spoken on the Absheron Peninsula, east of Baku in the Republic of Azerbaijan. It is the first description of a Muslim variety of Tat in a Western European language.After a detailed introduction outlining the sociolinguistic context and the phonology, the present study discusses the parts of speech, the marking of grammatical relations and verbal morphology of Absheron Tat (verbal derivation, verb classes, complex predicates, formation and use of inflected verb forms). This is followed by a survey of complex sentences, viz. relative clauses, complement clauses, adverbial subordinates as well as coordination.The present work adopts a typological point of view and is based on the analysis of texts originating from the author’s fieldwork and tales translated from Azeri into Tat, in addition to the author’s competence as a native speaker. The appendix presents samples of the text corpus (some of them also translated) and a glossary listing items that feature in the grammatical description and the texts

APA, Harvard, Vancouver, ISO und andere Zitierweisen

31

Bouamor, Houda. „Etude de la paraphrase sous-phrastique en traitement automatique des langues“. Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00717702.

Der volle Inhalt der Quelle

Annotation:

La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu'une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même signification dans leur contexte respectif. Capturer automatiquement des équivalences sémantiques entre des unités de texte est une tâche complexe mais qui s'avère indispensable dans de nombreux contextes. L'acquisition a priori de listes d'équivalences met à disposition des ressources utiles pour, par exemple, améliorer le repérage d'une réponse à une question, autoriser des formulations différentes en évaluation de la traduction automatique, ou encore aider des auteurs à trouver des formulations plus adaptées. Dans cette thèse, nous proposons une étude détaillée de la tâche d'acquisition de paraphrases sous-phrastiques à partir de paires d'énoncés sémantiquement liés. Nous démontrons empiriquement que les corpus parallèles monolingues, bien qu'extrêmement rares, constituent le type de ressource le plus adapté pour ce genre d'étude. Nos expériences mettent en jeu cinq techniques d'acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d'améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique à maximum d'entropie bi-classe. Un résultat important de notre étude est l'identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français. Nous examinons également dans cette thèse l'impact de la langue, du type du corpus et la comparabilité des paires des énoncés utilisés sur la tâche d'acquisition de paraphrases sous- phrastiques. Nous présentons le résultat d'une analyse de la performance des différentes méthodes testées en fonction des difficultés d'alignement des paires de paraphrases d'énoncés. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractéristiques des paraphrases trouvées dans les différents types de corpus étudiés ainsi que celles qui défient les approches actuelles d'identification automatique.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

32

Bentes, Pinto Virginia. „La représentation des connaissances dans le contexte de la documentation technique : proposition d'un modèle d'indexation“. Grenoble 3, 1999. http://www.theses.fr/1999GRE39018.

Der volle Inhalt der Quelle

Annotation:

Cette etude a eu pour but de developper une proposition de representation des connaissances vehiculees dans les documents techniques. Il s'agit donc d'une etude orientee vers une indexation a partir des syntagmes simples et complexes et qui vise une recherche d'information plus efficace. Le but principal de la recherche est de creer un modele d'indexation pour les manuels d'entretien et de maintenance utilisateur externe (memue). Pour cela nous avons construit un schema de taches (st) qui est defini comme etant des macro-structures textuelles constituees par des blocs d'information concernant la representation d'un ensemble de situations vehiculees dans des documents techniques. Il s'agit d'une construction circonstancielle qui prend en compte, d'une part, les situations de defaillance des appareils complexes et la description des actions et/ou operations a realiser ainsi que les pre-requis pour arriver a l'aboutissement d'un but specifique attendu implicitement dans ce document. Il est donc, constitue par des taches simples et complexes. Les bases theoriques du st sont les schemas d'actions proposes par gallo & rouault [1992] et qui prennent en compte les typologies de proces: les etats et les processus. Pour la validation du modele nous avons mene une experimentation sur les memue concernant les appareils hospitaliers complexes du centre hospitalier universitaire de grenoble (chu) et aussi aupres des techniciens de maintenance de cet hopital. Au cours de cette experimentation nous avons constate qu'une indexation visant des recherches d'informations plus efficaces doit etre faite en prenant en compte des syntagmes et que ces syntagmes amenent a un proces: soit a un etat soit a un processus. A la suite de cela, nous pouvons affirmer que les resultats ont confirme nos hypotheses a savoir que l'indexation des documents techniques ne peut etre faite de la meme facon que celle des documents traditionnels du type litteraire, historique. . .

APA, Harvard, Vancouver, ISO und andere Zitierweisen

33

Dimon, Pierre. „Un système multilingual d'interprétation automatique : étape du sous-logiciel "analyse" pour les langues germaniques“. Metz, 1994. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/1994/Dimon.Pierre.LMZ945_1.pdf.

Der volle Inhalt der Quelle

Annotation:

La première partie de la thèse rappelle les modèles sous-jacents aux grammaires dont s'inspirent les systèmes de traitement automatique de la langue ainsi que les outils informatiques disponibles pour les appliquer. Un panorama des systèmes de traduction automatique et de traduction assistée par ordinateur illustre les développements liés à la traduction, effectués depuis le début jusqu'en 1991. En réponse aux limites de ces systèmes, la seconde partie propose une autre voie qui repose sur l'hypothèse suivante : peux-t-on réduire à un minimum la qualité d'un texte cible pour qu'un lecteur, spécialiste du domaine mais ne maîtrisant pas la langue source, puisse en recréer le contenu par compréhension implicite ? L'hyperanalyse s'applique à l'ensemble du texte. Le module hypersyntaxique local repère tout ce qui introduit un objet, le définit, le nommé (système dérivationnel). Le module hypersyntaxique global analyse les structures de paragraphe et reconnaît l'architecture de grandes parties de texte. Le module hypersémantique localise les objets spécifiques et les objets standards en s'appuyant sur la typographie et la présentation du texte source. La construction du texte cible repose sur l'hypothèse d'une similarité entre les systèmes dérivationnels d'un groupe de langues (roman, germanique. . . ). En utilisant des dictionnaires réduits, il est possible de produire un texte à partir de la traduction hors-contexte de correspondances de bases (racine+préfixe préverbe), d'éléments de dérivation et de mots simples. La troisième partie est une description de toutes les étapes de l'analyse qui consiste a décomposer le texte source (composes, dérivés) en constituants qui seront ensuite réétiquetés dans la langue cible
In part one of the thesis, the reader is reminded first of all the language models underlying grammars from which the systems of automatic processing of languages borrow, and second of the computing aids that make applications possible. A vast survey of the machine translation and computer-assisted translation systems incepted since the early beginnings up to 1991 illustrates the developments in connection with translating. In counterpart to the limits offered by the present systems, in part 2 of this thesis, another path is laid down, whose basis is the following hypothesis : is it possible to a minimum the quality of the target-text for a reader - a specialist of the area who, however, is not familiar with the language of the source-text-, to recreate its meaning through implicit comprehension? Hyperanalysis applies to the whole of the text. The local hypersyntactic module explores everything that introduces an object, defines it, names it (

APA, Harvard, Vancouver, ISO und andere Zitierweisen

34

Filhol, Michael. „Modèle descriptif des signes pour un traitement automatique des langues des signes“. Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00300591.

Der volle Inhalt der Quelle

Annotation:

Les approches formelles de représentation des signes des langues des signes sont majoritairement paramétriques et nous montrons en quoi celles-ci ne sont pas suffisantes dans l'optique d'une utilisation informatique. Les plus fortes raisons sont le caractère ni nécessaire ni suffisant de l'ensemble de paramètres traditionnellement utilisé, leur nature fixe alors qu'un signe est dynamique et évolue au cours du temps, et le fait que les descriptions ne rendent pas compte de l'adaptabilité des signes décrits à différents contextes, pourtant à l'origine de leur réutilisabilité et de la force de concision des langues des signes. Nous proposons Zebedee, un modèle de description en séquence d'unités temporelles décrivant chacune un ensemble de contraintes nécessaires et suffisantes, appliquées à un squelette. L'espace de signation est vu comme un espace euclidien dans lequel toute construction géométrique annexe est possible. Les dépendances entre éléments des descriptions ou sur des valeurs contextuelles sont non seulement possibles mais pertinentes, et reposent sur des considérations à la fois articulatoires, cognitives et sémantiques. Nous donnons ensuite deux processus complémentaires d'évaluation : en informatique où nous discutons l'implantation de Zebedee dans une plateforme d'animation de signeur virtuel et son utilisation pour la diffusion d'informations en gare, et en linguistique où nous décrivons l'avantage d'une base de données et les nouvelles possibilités de requêtes offertes au linguiste. En perspectives, nous citons plusieurs domaines informatiques où Zebedee sera utile et plusieurs questionnements linguistiques actuels auxquels il offre des pistes de réponse.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

35

Dégremont, Jean-François. „Ethnométhodologie et innovation technologique : le cas du traitement automatique des langues naturelles“. Paris 7, 1989. http://www.theses.fr/1989PA070043.

Der volle Inhalt der Quelle

Annotation:

La thèse débute par un rappel des étapes historiques principales du développement de l'ethnométhodologie en tant que discipline, depuis les précurseurs européens des années 30 jusqu'à l'explosion aux Etats Unis puis en Europe à partir de 1967. Une première partie reprend ensuite les concepts principaux de l'ethnométhodologie et les développe en se plaçant dans le cadre théorique de l'école pariseptiste qui tente d'associer le refus maximal des inductions et le principe d'indifférence dans les activités ethnographiques et, en particulier, dans l'utilisation ou la description des langues naturelles considérées à la fois comme objets d'études et moyens de communication scientifique. La seconde partie de la thèse est consacrée à l'application des principes développés antérieurement au domaine des stratégies d'innovations technologiques mises en oeuvre en France en vue d'accroître le potentiel de recherche et développement dans le secteur du traitement automatique des langues naturelles. Trois études décrivent successivement les ethnométhodes et les propriétés rationnelles des actions pratiques mises en oeuvre par un groupe de chargés de mission de l'administration, les processus d'élaboration d'une politique d'innovation technologique, les descriptions indexicales du domaine des industries de la langue et de programmes de r et d dans ce secteur. La conclusion s'efforce de montrer comment la puissance des concepts de l'ethnométhodologie et des outils qui en découlent permettent d'accroître la pertinence des analyses stratégiques et l'efficacité des actions de recherche développement
The thesis begins with a short historical reminder of ethnomethodology, considered as a scientific field, since the whole beginners during the 30's until the 1967 explosion in US and Europe. The first part is an explication of the main concepts of ethnomethodology. They are developped from the pariseptist school theoretical point of view, which tries to associate the strongest refuse of inductions and the indifference principle, mainly when natural languages, considered as well as studies objects and communication tools, are used. The second part of the thesis is devoted to the concrete application of these theoretical concepts in the field of technological strategies which have been elaborated in France in the area of natural language processing. Three studies successively describe the ethnomethods and rational properties of practical activities which are used in an administrative team, the elaboration of a technology policy and indexical descriptions of the language industry field. The conclusion tries to show how the concepts and methods developped by ethnomethodology can increase, in this field, the efficacy of strategical analysis and the quality of research and development programs

APA, Harvard, Vancouver, ISO und andere Zitierweisen

36

Kim, Haksoo. „Structure syntaxique et structure informative (pour une analyse automatique des langues naturelles)“. Aix-Marseille 1, 1995. http://www.theses.fr/1996AIX10070.

Der volle Inhalt der Quelle

Annotation:

Le sujet de cette these vise a faire faire automatiquement par ordinateur une analyse syntaxique et informative des phrases francaises. Cette analyse doit identifier les fonctions syntaxiques et la structure informative du message. Pour ce faire, nous devons preciser les elements suivants des theories linguistiques : l'analyse en constituants immediats, les deux types de structures (exocentrique et endocentrique), le systeme de regles de reecriture, les traits pertinents ainsi que la formalisation des fonctions syntaxiques et informatives. Ces elements de theorie vont nous permettre d'elaborer un systeme en "turbo prolog" appele "asia" qui pourra servir de base de depart en vue d'un traitement automatique global de la langue naturelle
This thesis aims to be able to do automatically by computer a syntactic and informative analysis of french phrases. This analysis must identify the syntactic functions and the informative structure of the message. To do this one must specify the following elements of linguistic theories ; the immediate constituent analysis, the two types of structures (exocentric and endocentric), the rules for rewriting system, the pertinent outlines as well as the formalisation or the informative and syntactic functions. These theory elements are going to permit us to evolve a system in "turbo prolog", called "asia" which could serve as a base in view of a global automatic treatment of the natural language

APA, Harvard, Vancouver, ISO und andere Zitierweisen

37

Millour, Alice. „Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées“. Thesis, Sorbonne université, 2020. http://www.theses.fr/2020SORUL126.

Der volle Inhalt der Quelle

Annotation:

Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles
Citizen science, in particular voluntary crowdsourcing, represents a little experimented solution to produce language resources for some languages which are still little resourced despite the presence of sufficient speakers online. We present in this work the experiments we have led to enable the crowdsourcing of linguistic resources for the development of automatic part-of-speech annotation tools. We have applied the methodology to three non-standardised languages, namely Alsatian, Guadeloupean Creole and Mauritian Creole. For different historical reasons, multiple (ortho)-graphic practices coexist for these three languages. The difficulties encountered by the presence of this variation phenomenon led us to propose various crowdsourcing tasks that allow the collection of raw corpora, part-of-speech annotations, and graphic variants. The intrinsic and extrinsic analysis of these resources, used for the development of automatic annotation tools, show the interest of using crowdsourcing in a non-standardized linguistic framework: the participants are not seen in this context a uniform set of contributors whose cumulative efforts allow the completion of a particular task, but rather as a set of holders of complementary knowledge. The resources they collectively produce make possible the development of tools that embrace the variation.The platforms developed, the language resources, as well as the models of trained taggers are freely available

APA, Harvard, Vancouver, ISO und andere Zitierweisen

38

Hamon, Olivier. „Vers une architecture générique et pérenne pour l'évaluation en traitement automatique des langues : spécifications, méthodologies et mesures“. Paris 13, 2010. http://www.theses.fr/2010PA132022.

Der volle Inhalt der Quelle

Annotation:

Le développement de systèmes en traitement automatique des langues (TAL) nécessite de déterminer la qualité de ce qui est produit. Que ce soit pour comparer plusieurs systèmes entre eux ou identifier les points forts et faibles d’un système isolé, l’évaluation suppose de définir avec précision et pour chaque contexte particulier une méthodologie, un protocole, des ressources linguistiques (les données nécessaires à l’apprentissage et au test des systèmes) ou encore des mesures et métriques d’évaluation. C’est à cette condition que l’amélioration des systèmes est possible afin d’obtenir des résultats plus ﬁables et plus exploitables à l’usage. L’apport de l’évaluation en TAL est important avec la création de nouvelles ressources linguistiques, l’homogénéisation des formats des données utilisées ou la promotion d’une technologie ou d’un système. Toutefois, l’évaluation nécessite un important travail manuel, que ce soit pour l’expression des jugements humains ou pour la gestion du déroulement même de l’évaluation, ce qui compromet l'efficacité des évaluations, augmente leur coût et les rend difficilement reproductibles. Nous avons cherché à réduire et à encadrer ces interventions manuelles. Pour ce faire, nous appuyons nos travaux sur la conduite ou la participation à des campagnes d’évaluation comparant des systèmes entre eux, ou l’évaluation de systèmes isolés. Nous avons formalisé la gestion du déroulement de l’évaluation et listé ses différentes phases pour définir un cadre d’évaluation commun, compréhensible par tous. Le point phare de ces phases d’évaluation concerne la mesure de la qualité via l’utilisation de métriques. Cela a imposé trois études successives sur les mesures humaines, les mesures automatiques et les moyens d’automatiser le calcul de la qualité et enfin la méta-évaluation des mesures qui permet d’en évaluer la fiabilité. En parallèle, les mesures d’évaluation utilisent des ressources linguistiques dont les aspects pratiques et administratifs à travers les opérations de création, standardisation, validation, impact sur les résultats, coût de production et d’utilisation, identification et négociation des droits doivent être prises en compte. Dans ce contexte, l’étude des similarités entre les technologies et entre leurs évaluations nous a permis d’observer les points communs et de les hiérarchiser. Nous avons montré qu’un petit ensemble de mesures permet de couvrir une large palette d’applications à des technologies distinctes. Notre objectif final était de déﬁnir une architecture d’évaluation générique, c’est-à-dire adaptable à tout type de technologie du TAL, et pérenne, c’est-à-dire permettant la réutilisation de ressources linguistiques, mesures ou méthodes au cours du temps. Notre proposition se fait à partir des conclusions des étapes précédentes afin d’intégrer les phases d’évaluation à notre architecture et d’y incorporer les mesures d’évaluation, sans oublier la place relative à l’utilisation de ressources linguistiques. La définition de cette architecture s’est effectuée en vue d’automatiser entièrement la gestion des évaluations, que ce soit pour une campagne d’évaluation ou l’évaluation d’un système isolé. À partir de premières expérimentations, nous avons modélisé une architecture d’évaluation prenant en compte l’ensemble de ces contraintes et utilisant les services Web afin d’interconnecter les composants de l’architecture entre eux et d’y accéder via le réseau Internet
The development of Natural Language Processing (NLP) systems needs to determine the quality of their results. Whether aiming to compare several systems to each other or to identify both the strong and weak points of an isolated system, evaluation implies deﬁning precisely and for each particular context a methodology, a protocol, language ressources (data needed for both system training and testing) and even evaluation measures and metrics. It is following these conditions that system improvement is possible so as to obtain more reliable and easy-to-exploit results. The contribution of evaluation to NLP is important due to the creation of new language resources, the homogenisation of formats for those data used or the promotion of a technology or a system. However, evaluation requires considerable manual work, whether to formulate human judgments or to manage the evaluation procedure. This compromises the evaluation’s reliability, increases costs and makes it harder to reproduce. We have tried to reduce and delimit those manual interventions. To do so, we have supported our work by either conducting or participating in evaluation campaigns where systems are compared to each other or where isolated systems are evaluated. The management of the evaluation procedure has been formalised in this work and its diﬀerent phases have been listed so as to deﬁne a common evaluation framework, understandable by all. The main point of those evaluation phases regards quality measurement through the usage of metrics. Three consecutive studies have been carried out on human measures, automatic measures and the automation of quality computation, and the meta-evaluation of the mesures so as to evaluate their reliability. Moreover, evaluation measures use language resources whose practical and administrative aspects must be taken into account. Among these, we have their creation, standarisation, validation, impact on the results, costs of production and usage, identiﬁcation and legal issues. In that context, the study of the similarities between the technologies and between their evaluations has allowed us to highlight their common features and class them. This has helped us to show that a small set of measures allows to cover a wide range of applications for diﬀerent technologies. Our ﬁnal goal has been to deﬁne a generic evaluation architecture, which is adaptable to diﬀerent NLP technologies, and sustainable, namely allowing to reuse language resources, measures or methods over time. Our proposal has been built on the conclusions drawn fromprevious steps, with the objective of integrating the evaluation phases to our architecture and incorporating the evaluation measures, all of which bearing in mind the place of language resource usage. The deﬁnition of this architecture has been done with the aim of fully automating the evaluation management work, regardless of whether this concerns an evaluation campaign or the evaluation of an isolated system. Following initial experiments, we have designed an evaluation architecture taking into account all the constraints found as well as using Web services. These latter provide the means to interconnect architecture components and grant them accessible through the Internet

APA, Harvard, Vancouver, ISO und andere Zitierweisen

39

Moreau, Erwan. „Acquisition de grammaires lexicalisées pour les langues naturelles“. Phd thesis, Université de Nantes, 2006. http://tel.archives-ouvertes.fr/tel-00487042.

Der volle Inhalt der Quelle

Annotation:

L'inférence grammaticale désigne le problème qui consiste à découvrir les règles de formation des phrases d'un langage, c'est-à-dire une grammaire de celui-ci. Dans le modèle d'apprentissage de Gold, les exemples fournis sont constitués uniquement des phrases appartenant au langage. L'algorithme doit fournir une grammaire qui représente le langage énuméré. Les grammaires catégorielles sont l'un des nombreux formalismes existants pour représenter des langages. Kanazawa a montré que certaines sous-classes de ces grammaires sont apprenables, mais ses résultats ne sont pas applicables directement aux langues naturelles. Sur le plan théorique, nous proposons de généraliser les résultats de Kanazawa à différents types de grammaires. Les grammaires combinatoires générales sont un modèle ﬂexible permettant de déﬁnir des systèmes grammaticaux à base de règles de réécriture. Nous démontrons dans ce cadre que certaines classes de langages sont apprenables. Dans un souci de généralité maximale, nos résultats sont exprimés sous forme de critères sur les règles des systèmes grammaticaux considérés. Ces résultats sont appliqués à plusieurs formalismes relativement adaptés à la représentation des langues naturelles. Nous abordons également le problème de la mise en œuvre de l'apprentissage sur des données réelles. En effet, les algorithmes existants capables d'apprendre des classes de langages intéressantes sont NP-complets. Aﬁn de contourner cet obstacle, nous proposons un cadre d'apprentissage plus souple, l'apprentissage partiel : le contexte d'utilisation est modiﬁé dans le but d'obtenir une complexité algorithmique plus réaliste. Nous testons cette approche sur des données de taille moyenne, et obtenons des résultats relativement encourageants.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

40

Namer, Fiammetta. „Pronominalisation et effacement du sujet en génération automatique de textes en langues romanes“. Paris 7, 1990. http://www.theses.fr/1990PA077249.

Der volle Inhalt der Quelle

Annotation:

Ce travail est centre sur la generation de textes a partir de representations semantiques, en francais et en italien. Les points abordes concernent essentiellement les aspects syntaxiques de la pronominalisation: nous montrons que les pronoms personnels et, pour l'italien, le sujet vide, tiennent une place capitale dans le mecanisme de synthese d'un texte. Apres avoir presente le modele de l. Danlos, dont nous nous sommes inspires, nous detaillons les aspects linguistiques de la pronominalisation et leurs consequences en generation: les dependances non locales et croisees mises en jeu par les contraintes de co-occurrence entre pronoms. Apres avoir montre la nature similaire, mais aussi les differences qui existent entre l'effacement du sujet et la formation d'un pronom, nous decrivons les conditions morphologiques, semantiques et syntaxiques necessaires a la realisation de ces deux operations. Nous etudions alors deux approches de la synthese d'une phrase: une approche sequentielle et une approche globale, qui realise toutes les phrases potentielles, avec ou sans pronoms, en parallele, et effectue un choix final. Le chapitre 5 est consacre a l'etude des conditions stylistiques de pronominalisation, basees sur le parallelisme de structure. Ces contraintes apportent des arguments en faveur de l'approche globale, dont nous detaillons les avantages. Dans le chapitre 6, nous utilisons l'application recursive de cette approche pour resoudre des problemes de pronominalisation dans les phrases a completive, et ce apres avoir mis en evidence la complexite de ce phenomene. Enfin, le dernier chapitre decrit le programme qui a ete realise. Ce programme engendre des resumes d'operas de verdi en italien, qui sont presentes et commentes

APA, Harvard, Vancouver, ISO und andere Zitierweisen

41

Bourgeade, Tom. „Interprétabilité a priori et explicabilité a posteriori dans le traitement automatique des langues“. Thesis, Toulouse 3, 2022. http://www.theses.fr/2022TOU30063.

Der volle Inhalt der Quelle

Annotation:

Avec l'avènement des architectures Transformer en Traitement Automatique des Langues il y a quelques années, nous avons observé des progrès sans précédents dans diverses tâches de classification ou de génération de textes. Cependant, l'explosion du nombre de paramètres et de la complexité de ces modèles "boîte noire" de l'état de l'art, rendent de plus en plus évident le besoin désormais urgent de transparence dans les approches d'apprentissage automatique. La capacité d'expliquer, d'interpréter et de comprendre les décisions algorithmiques deviendra primordiale à mesure que les modèles informatiques deviennent de plus en plus présents dans notre vie quotidienne. En utilisant les méthodes de l'IA eXplicable (XAI), nous pouvons par exemple diagnostiquer les biais dans des ensembles de données, des corrélations erronées qui peuvent au final entacher le processus d'apprentissage des modèles, les conduisant à apprendre des raccourcis indésirables, ce qui pourrait conduire à des décisions algorithmiques injustes, incompréhensibles, voire risquées. Ces modes d'échec de l'IA peuvent finalement éroder la confiance que les humains auraient pu placer dans des applications bénéfiques. Dans ce travail, nous explorons plus spécifiquement deux aspects majeurs de l'XAI, dans le contexte des tâches et des modèles de Traitement Automatique des Langues : dans la première partie, nous abordons le sujet de l'interprétabilité intrinsèque, qui englobe toutes les méthodes qui sont naturellement faciles à expliquer. En particulier, nous nous concentrons sur les représentations de plongement de mots, qui sont une composante essentielle de pratiquement toutes les architectures de TAL, permettant à ces modèles mathématiques de manipuler le langage humain d'une manière plus riche sur le plan sémantique. Malheureusement, la plupart des modèles qui génèrent ces représentations les produisent d'une manière qui n'est pas interprétable par les humains. Pour résoudre ce problème, nous expérimentons la construction et l'utilisation de modèles de plongement de mots interprétables, qui tentent de corriger ce problème, en utilisant des contraintes qui imposent l'interprétabilité de ces représentations. Nous utilisons ensuite ces modèles, dans une configuration nouvelle, simple mais efficace, pour tenter de détecter des corrélations lexicales, erronées ou non, dans certains ensembles de données populaires en TAL. Dans la deuxième partie, nous explorons les méthodes d'explicabilité post-hoc, qui peuvent cibler des modèles déjà entraînés, et tenter d'extraire diverses formes d'explications de leurs décisions. Ces méthodes peuvent aller du diagnostic des parties d'une entrée qui étaient les plus pertinentes pour une décision particulière, à la génération d'exemples adversariaux, qui sont soigneusement conçus pour aider à révéler les faiblesses d'un modèle. Nous explorons un nouveau type d'approche, en partie permis par les architectures Transformer récentes, très performantes mais opaques : au lieu d'utiliser une méthode distincte pour produire des explications des décisions d'un modèle, nous concevons et mettons au point une configuration qui apprend de manière jointe à exécuter sa tâche, tout en produisant des explications en langage naturel en forme libre de ses propres résultats. Nous évaluons notre approche sur un ensemble de données de grande taille annoté avec des explications humaines, et nous jugeons qualitativement certaines des explications générées par notre approche
With the advent of Transformer architectures in Natural Language Processing a few years ago, we have observed unprecedented progress in various text classification or generation tasks. However, the explosion in the number of parameters, and the complexity of these state-of-the-art blackbox models, is making ever more apparent the now urgent need for transparency in machine learning approaches. The ability to explain, interpret, and understand algorithmic decisions will become paramount as computer models start becoming more and more present in our everyday lives. Using eXplainable AI (XAI) methods, we can for example diagnose dataset biases, spurious correlations which can ultimately taint the training process of models, leading them to learn undesirable shortcuts, which could lead to unfair, incomprehensible, or even risky algorithmic decisions. These failure modes of AI, may ultimately erode the trust humans may have otherwise placed in beneficial applications. In this work, we more specifically explore two major aspects of XAI, in the context of Natural Language Processing tasks and models: in the first part, we approach the subject of intrinsic interpretability, which encompasses all methods which are inherently easy to produce explanations for. In particular, we focus on word embedding representations, which are an essential component of practically all NLP architectures, allowing these mathematical models to process human language in a more semantically-rich way. Unfortunately, many of the models which generate these representations, produce them in a way which is not interpretable by humans. To address this problem, we experiment with the construction and usage of Interpretable Word Embedding models, which attempt to correct this issue, by using constraints which enforce interpretability on these representations. We then make use of these, in a simple but effective novel setup, to attempt to detect lexical correlations, spurious or otherwise, in some popular NLP datasets. In the second part, we explore post-hoc explainability methods, which can target already trained models, and attempt to extract various forms of explanations of their decisions. These can range from diagnosing which parts of an input were the most relevant to a particular decision, to generating adversarial examples, which are carefully crafted to help reveal weaknesses in a model. We explore a novel type of approach, in parts allowed by the highly-performant but opaque recent Transformer architectures: instead of using a separate method to produce explanations of a model's decisions, we design and fine-tune an architecture which jointly learns to both perform its task, while also producing free-form Natural Language Explanations of its own outputs. We evaluate our approach on a large-scale dataset annotated with human explanations, and qualitatively judge some of our approach's machine-generated explanations

APA, Harvard, Vancouver, ISO und andere Zitierweisen

42

Mauger, Serge. „L'interpretation des messages enigmatiques. Essai de semantique et de traitement automatique des langues“. Caen, 1999. http://www.theses.fr/1999CAEN1255.

Der volle Inhalt der Quelle

Annotation:

Oedipe, le personnage de la tragedie de sophocle, resout l'enigme du sphinx "par sa seule intelligence". Il est ici le point de depart d'une reflexion generale sur le statut linguistique des jeux de langage, dont la pratique est repandue a toutes les epoques et dans toutes les cultures. L'intelligence d'oedipe se fonde sur une capacite a "calculer" l'interpretation de l'enigme en abandonnant un raisonnement inductif (par recurrence) pour adopter un raisonnement analogique. Dans une seconde partie, on montre que le calcul du sens des messages plurivoques permet de proposer un modele d'analyse combinatoire qui est un outil de traitement automatique des langues (tal), capable d'aider au calcul des jeux de charades et a l'interpretation des definitions cryptees des mots croises. Ce modele sert de pierre de touche a une analyse des structures semantiques sous-jacentes aux interpretations et montre quels sont les items lexicaux qui sont concernes par l'isotopie. L'isotopie n'est en l'occurrence pas consideree comme une donnee du message mais comme un construit de l'interpretation. L'ensemble de la demarche adopte donc le point de vue d'une semantique interpretative. La troisieme partie prolonge la reflexion en inscrivant le traitement des messages enigmatiques dans la problematique du dialogue homme-machine (dhm) qui permet de traiter les ambiguites de certains enonces et est capable de comprendre des "messages etranges" a partir des propositions d'interpretation extrapolees du modele. De proche en proche on analyse ainsi le calcul du recepteur des messages comme une activite qui consiste a analyser les traces graphematiques ou acoustiques. La prise en compte des traces est une confrontation avec les attendus du systeme linguistique qui permet de proceder a une serie de decisions aboutissant a l'identification d'un point de vue coherent. La decouverte de cette coherence et de ce point de vue sont compares a la demarche que l'on adopte dans la "lecture" d'une anamorphose (en peinture) ou quand on dechiffre les regles d'organisation des suites de cartes dans le jeu d'eleusis. On retrouve une demarche analogue quand il s'agit d'interpreter la"scriptio continua" des inscriptions paleographiques, dont la technique sert de base a la fois a certaines experiences de production litteraire sous contrainte et au jeux des mots caches
Oedipus, the character in sophocle's tragedy, solves the sphinx's enigma by + his own intelligence ;. This is the starting point of a general reflection on the linguistic status of language games, the practice of which could be seen throughout all periods and in all cultures. Oedipus's intelligence is based on a capacity for + calculating ; the interpretation of the enigma by giving up inductive reasoning (by recurrence) so as to adopt analogical reasoning instead. In the second part, it is shown that the calculation of the meaning of the polysemous messages enables us to propose a pattern of a combinatory analysis which is a tool for the automatic treatment of language (atl), able to help calculate riddles and to interpret coded definitions of crosswords. This pattern is used as a touchstone for an analysis of the semantic structures underlying interpretations and shows which lexical items are concerned by isotopy. Isotopy is not in that case considered to be an element of the message but a process of the interpretation. The whole approach is then based on interpretative semantics. The third part is the developement of the reflection including the treatment of enigmatic messages in the issues of the man-machine dialogue (mmd) which enables us to deal with the ambiguities of some utterances and is able to understand + strange messages ; on the basis of propositions of interpretation extrapolated from the pattern. Then little by little we analyse the calculation of the one who gets messages like an activity which consists in analysing graphematic and acoustic signs. Taking the signs into account is a confrontation with what is expected in the linguistic system and it enables us to carry out a series of decisions leading to the identification of a coherent analysis. This coherence and the analysis are compared to the approach adopted when + reading ; an anamorphosis (in art painting) or when decoding the organisation rules in suites of cards in eleusis' game. We find a similar approach when we have to interpret the + scriptio continua ; on paleographic inscriptions, the technique of which serves as a basis for some literary experiences under duress and for hidden puns

APA, Harvard, Vancouver, ISO und andere Zitierweisen

43

Dubé, Martine. „Étude terminologique et analyse des modes de formation de 50 notions sur le traitement automatique des langues naturelles /“. Thèse, Québec : Université Laval, École des gradués, 1990. http://theses.uqac.ca.

Der volle Inhalt der Quelle

Annotation:

Mémoire (M.A.)-- Universitée du Québec à Chicoutimi, 1990.
"Mémoire présenté pour l'obtention du grade maître es arts (M.A.) dans le cadre d'une entente entre l'Université Laval et l'Université du Québec à Chicoutimi" CaQCU Bibliogr.: f. 137-141. Document électronique également accessible en format PDF. CaQCU

APA, Harvard, Vancouver, ISO und andere Zitierweisen

44

Knyazeva, Elena. „Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues“. Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS134/document.

Der volle Inhalt der Quelle

Annotation:

L’apprentissage structuré est devenu omniprésent dans le traitement automatique des langues naturelles. De nombreuses applications qui font maintenant partie de notre vie telles que des assistants personnels, la traduction automatique, ou encore la reconnaissance vocale, reposent sur ces techniques. Les problèmes d'apprentissage structuré qu’il est nécessaire de résoudre sont de plus en plus complexes et demandent de prendre en compte de plus en plus d’informations à des niveaux linguistiques variés (morphologique, syntaxique, etc.) et reposent la question du meilleurs compromis entre la finesse de la modélisation et l’exactitude des algorithmes d’apprentissage et d’inférence. L’apprentissage par imitation propose de réaliser les procédures d’apprentissage et d’inférence de manière approchée afin de pouvoir exploiter pleinement des structures de dépendance plus riches. Cette thèse explore ce cadre d’apprentissage, en particulier l’algorithme SEARN, à la fois sur le plan théorique ainsi que ses possibilités d’application aux tâches de traitement automatique des langues, notamment aux plus complexes telles que la traduction. Concernant les aspects théoriques, nous présentons un cadre unifié pour les différentes familles d’apprentissage par imitation, qui permet de redériver de manière simple les propriétés de convergence de ces algorithmes; concernant les aspects plus appliqués, nous utilisons l’apprentissage par imitation d’une part pour explorer l’étiquetage de séquences en ordre libre; d’autre part pour étudier des stratégies de décodage en deux étapes pour la traduction automatique
Structured learning has become ubiquitousin Natural Language Processing; a multitude ofapplications, such as personal assistants, machinetranslation and speech recognition, to name just afew, rely on such techniques. The structured learningproblems that must now be solved are becomingincreasingly more complex and require an increasingamount of information at different linguisticlevels (morphological, syntactic, etc.). It is thereforecrucial to find the best trade-off between the degreeof modelling detail and the exactitude of the inferencealgorithm. Imitation learning aims to perform approximatelearning and inference in order to better exploitricher dependency structures. In this thesis, we explorethe use of this specific learning setting, in particularusing the SEARN algorithm, both from a theoreticalperspective and in terms of the practical applicationsto Natural Language Processing tasks, especiallyto complex tasks such as machine translation.Concerning the theoretical aspects, we introduce aunified framework for different imitation learning algorithmfamilies, allowing us to review and simplifythe convergence properties of the algorithms. With regardsto the more practical application of our work, weuse imitation learning first to experiment with free ordersequence labelling and secondly to explore twostepdecoding strategies for machine translation

APA, Harvard, Vancouver, ISO und andere Zitierweisen

45

Papy, Fabrice. „Hypertextualisation automatique de documents techniques“. Paris 8, 1995. http://www.theses.fr/1995PA081014.

Der volle Inhalt der Quelle

Annotation:

L'hypertextualisation automatique, processus empirique débouchant de l'hypertexte, repose sur la réutilisation de documents linéaires de nature technique, saisis à partir de logiciels de traitement de textes, afin de créer dynamiquement les noeuds et les liens réseaux hypertextes. La phase d'extraction des noeuds utilise la structure physique pour mettre en évidence les différentes entités logiques composants les documents. Les liens références (particulièrement les références croisées), dont la syntaxe est préalablement définie par l'auteur, sont extraits au moyen d'un programme d'analyse utilisant une description générique de la grammaire des références croisées. L'hypertextualisation automatique conduit à la création d'un méta-réseau hypertexte ou la mise à jour locale de documents peut remettre en cause la cohérence des noeuds et des liens. Comme les systèmes de gestion de bases de données relationnelles ont montré leur efficacité pour préserver l'intégrité des données, nous proposons une normalisation relationnelle des hyperdocuments automatiquement générés afin de gérer la mise a jour des liens références. L'accroissement du volume d'information est une autre conséquence de la création automatique de réseaux hypertextes puisqu'elle accentue davantage les problèmes de désorientation et de surcharge cognitive. Une solution consiste à coupler le processus d'hypertextualisation à un programme d'indexation automatique, ce qui permettrait d'associer à chaque noeud du méta-réseau un ensemble de termes pertinents représentatifs du contenu du noeud. Ainsi, le lecteur disposerait non seulement de mécanismes de navigation structurelle mais aussi de possibilités de recherche sémantique
Automatic hypertextualization, an empirical process leading to hypertext, uses sequential technical documents typed from word processing software, to create dynamically the nodes and links of hypertext networks. The phase of nodes extraction uses the physical structure to delect the logical entities within documents. Referential links (especially cross-references), whose the syntax is defined by author, are extracted by means of a parser which uses a generic definition of cross-references grammar. Automatic hypertextualization produces a hypertext meta-network, where documents updating may corrupt nodes and links coherence. As relational database management systems have proved their efficiency to preserve data integrity, we propose a relational normalization of hypertextualized documents in order to manage referential links updating. Increasing of the mass of information is another outcome of the automatic creation of hypertext networks because it accentuates more disorientation problems and cognitive overhead. A solution consists of joining the hypertextualization process with an automatic indexing system, which would allow to associate each node with a set of relevant terms representing node content. So, readers will have not only structural navigation mecanisms but semantic browsing capabilities

APA, Harvard, Vancouver, ISO und andere Zitierweisen

46

Djematene, Ahmed. „Un système de lecture automatique de l'écriture Berbère“. Le Havre, 1998. http://www.theses.fr/1998LEHA0008.

Der volle Inhalt der Quelle

Annotation:

Ce mémoire constitue la première étude complète d'un système de lecture automatique de l'écriture berbère manuscrite hors ligne. Les trois modules de la méthode de segmentation des mots en caractères présentent de nombreux aspects originaux. Citons la séparatrice à angle variable. Le taux de segmentation correct est de 96%. La reconnaissance des caractères est effectuee par deux methodes complémentaires : une méthode mixte (structurelle et statistique) et une méthode connexionniste. La méthode mixte requiert un prétraitement complexe (filtrage de bruit, changement de représentation) pour arriver à une représentation par points caractéristiques. La classification est réalisée par le calcul de la distance de Mahalanobis. Dans la méthode connexionniste, le vecteur d'entrée est construit directement à partir de la perception rétinienne de l'image normalisée ; la structure du réseau est celle d'un (PMC). Les deux méthodes peuvent coopérer séquentiellement. La méthode des n-grammes de position permet de corriger les erreurs de substitution.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

47

Stroppa, Nicolas. „Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles“. Phd thesis, Télécom ParisTech, 2005. http://tel.archives-ouvertes.fr/tel-00145147.

Der volle Inhalt der Quelle

Annotation:

Le panorama du Traitement Automatique des Langues est dominé par deux familles d'approches~: dans la première, la connaissance linguistique s'exprime sous forme de règles (grammaticales pour le traitement syntaxique, d'inférence pour le traitement sémantique, etc.), et de représentations sur lesquelles ces règles opèrent. La deuxième repose sur l'hypothèse d'un modèle probabiliste sous-jacent aux données, modèle dont les paramètres s'infèrent à partir de corpus de données linguistiques annotées. Ces deux familles de méthodes, bien qu'efficaces pour nombre d'applications, présentent de sérieuses limitations. Pour la première, il s'agit de la difficulté et du coût de construction des bases de connaissances de haute qualité~: les experts sont rares et la connaissance accumulée sur un domaine $X$ ne se transporte pas toujours simplement sur un autre domaine $Y$. Les méthodes probabilistes, quant à elles, ne traitent pas naturellement les objets fortement structurés, ne prévoient pas d'inclusion de connaissances linguistiques explicites, et surtout, reposent lourdement sur le choix a priori d'un certain modèle, puisqu'utilisant principalement des techniques de statistiques paramétriques.

Dans le cadre d'un apprentissage automatique de données linguistiques, des modèles inférentiels alternatifs ont alors été proposés qui remettent en cause le principe d'abstraction opéré par les règles ou les modèles probabilistes. Selon cette conception, la connaissance linguistique reste implicitement représentée dans le corpus accumulé. Dans le domaine de l'Apprentissage Automatique, les méthodes suivant les même principes sont regroupées sous l'appellation d'apprentissage \og{}paresseux\fg{}. Ces méthodes reposent généralement sur le biais d'apprentissage suivant~: si un objet $Y$ est \og{}proche\fg{} d'un objet $X$, alors son analyse $f(Y)$ est un bon candidat pour $f(X)$. Alors que l'hypothèse invoquée se justifie pour les applications usuellement traitées en Apprentissage Automatique, la nature structurée et l'organisation paradigmatique des données linguistiques suggèrent une approche légèrement différente. Pour rendre compte de cette particularité, nous étudions un modèle reposant sur la notion de \og{}proportion analogique\fg{}. Dans ce modèle, l'analyse $f(T)$ d'un nouvel objet $T$ s'opère par identification d'une proportion analogique avec des objets $X$, $Y$ et $Z$ déjà connus. L'hypothèse analogique postule ainsi que si \lana{X}{Y}{Z}{T}, alors \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$f(T)$}. Pour inférer $f(T)$ à partir des $f(X)$, $f(Y)$, $f(Z)$ déjà connus, on résout l'\og{}équation analogique\fg{} d'inconnue $I$~: \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$I$}.

Nous présentons, dans la première partie de ce travail, une étude de ce modèle de proportion analogique au regard d'un cadre plus général que nous qualifierons d'\og{}apprentissage par analogie\fg{}. Ce cadre s'instancie dans un certain nombre de contextes~: dans le domaine des sciences cognitives, il s'agit de raisonnement par analogie, faculté essentielle au c\oe{}ur de nombreux processus cognitifs~; dans le cadre de la linguistique traditionnelle, il fournit un support à un certain nombre de mécanismes tels que la création analogique, l'opposition ou la commutation~; dans le contexte de l'apprentissage automatique, il correspond à l'ensemble des méthodes d'apprentissage paresseux. Cette mise en perspective offre un éclairage sur la nature du modèle et les mécanismes sous-jacents.

La deuxième partie de notre travail propose un cadre algébrique unifié, définissant la notion de proportion analogique. Partant d'un modèle de proportion analogique entre chaînes de symboles, éléments d'un monoïde libre, nous présentons une extension au cas plus général des semigroupes. Cette généralisation conduit directement à une définition valide pour tous les ensembles dérivant de la structure de semigroupe, permettant ainsi la modélisation des proportions analogiques entre représentations courantes d'entités linguistiques telles que chaînes de symboles, arbres, structures de traits et langages finis. Des algorithmes adaptés au traitement des proportions analogiques entre de tels objets structurés sont présentés. Nous proposons également quelques directions pour enrichir le modèle, et permettre ainsi son utilisation dans des cas plus complexes.

Le modèle inférentiel étudié, motivé par des besoins en Traitement Automatique des Langues, est ensuite explicitement interprété comme une méthode d'Apprentissage Automatique. Cette formalisation a permis de mettre en évidence plusieurs de ses éléments caractéristiques. Une particularité notable du modèle réside dans sa capacité à traiter des objets structurés, aussi bien en entrée qu'en sortie, alors que la tâche classique de classification suppose en général un espace de sortie constitué d'un ensemble fini de classes. Nous montrons ensuite comment exprimer le biais d'apprentissage de la méthode à l'aide de l'introduction de la notion d'extension analogique. Enfin, nous concluons par la présentation de résultats expérimentaux issus de l'application de notre modèle à plusieurs tâches de Traitement Automatique des Langues~: transcription orthographique/phonétique, analyse flexionnelle et analyse dérivationnelle.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

48

Charnois, Thierry. „Accès à l'information : vers une hybridation fouille de données et traitement automatique des langues“. Habilitation à diriger des recherches, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00657919.

Der volle Inhalt der Quelle

Annotation:

Ce mémoire porte sur mes travaux de recherche en traitement automatique des langues (TAL) et en fouille de données textuelles. Il présente comment ces travaux s'organisent autour de la problématique de l'accès à l'information dans les textes. Notre démarche s'appuie sur la prise en compte de l'aspect sémantique de la langue sous forme de modélisation linguistique et de ressources linguistiques pour le développement d'applications. La méthodologie de l'accès à l'information est donc ici vue comme un accès au sens à partir d'une modélisation linguistique relative à l'application visée plutôt qu'un accès aux formes de surface comme l'utilisent par exemple actuellement les méthodes prédominantes des moteurs de recherche. En retour, la formalisation du modèle linguistique et son expérimentation sur corpus visent à améliorer notre connaissance des phénomènes traités et permettre un retour qualitatif, c'est-à-dire explicatif, sur le modèle. L'intérêt pour les méthodes de fouille fondées sur les motifs et la volonté de les intégrer au TAL -- par exemple, pour acquérir automatiquement des ressources linguistiques et alimenter à moindre coût les systèmes de TAL -- procède de la même démarche. Une telle combinaison vise d'une part à repenser la manière dont les processus de TAL peuvent tirer bénéfice de méthodes de fouille spécifiquement adaptées au texte, et d'autre part à renforcer les processus de fouille, en fonction des spécificités de la donnée textuelle, par une prise en compte d'informations de nature linguistique visant notamment à sélectionner l'information la plus pertinente.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

49

Stroppa, Nicolas. „Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles /“. Paris : École nationale supérieure des télécommunications, 2006. http://catalogue.bnf.fr/ark:/12148/cb40129220d.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

50

DIMON, PIERRE David Jean. „UN SYSTEME MULTILINGUAL D'INTERPRETATION AUTOMATIQUE. ETAPE DU SOUS-LOGICIEL "ANALYSE" POUR LES LANGUES GERMANIQUES /“. [S.l.] : [s.n.], 1994. ftp://ftp.scd.univ-metz.fr/pub/Theses/1994/Dimon.Pierre.LMZ945_1.pdf.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Dissertationen zum Thema „Documentation automatique des langues“

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an