Log in

Relevant bibliographies by topics / Traitement Automatique des Langues cliniques / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Traitement Automatique des Langues cliniques.

Dissertations / Theses on the topic 'Traitement Automatique des Langues cliniques'

Author: Grafiati

Published: 25 May 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Traitement Automatique des Langues cliniques.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Grouin, Cyril. "Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00848672.

Full text

Abstract:

Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques.

APA, Harvard, Vancouver, ISO, and other styles

2

Bannour, Nesrine. "Information Extraction from Electronic Health Records : Studies on temporal ordering, privacy and environmental impact." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG082.

Full text

Abstract:

L'extraction automatique des informations contenues dans les Dossiers Patients Informatisés (DPIs) est cruciale pour améliorer la recherche clinique. Or, la plupart des informations sont sous forme de texte non structuré. La complexité et le caractère confidentiel du texte clinique présente des défis supplémentaires. Par conséquent, le partage de données est difficile dans la pratique et est strictement encadré par des réglementations. Les modèles neuronaux offrent de bons résultats pour l'extraction d'informations. Mais ils nécessitent de grandes quantités de données annotées, qui sont souvent limitées, en particulier pour les langues autres que l'anglais. Ainsi, la performance n'est pas encore adaptée à des applications pratiques. Outre les enjeux de confidentialité, les modèles d'apprentissage profond ont un important impact environnemental. Dans cette thèse, nous proposons des méthodes et des ressources pour la Reconnaissance d'entités nommées (REN) et l'extraction de relations temporelles dans des textes cliniques en français.Plus précisément, nous proposons une architecture de modèles préservant la confidentialité des données par mimétisme permettant un transfert de connaissances d'un modèle enseignant entraîné sur un corpus privé à un modèle élève. Ce modèle élève pourrait être partagé sans révéler les données sensibles ou le modèle privé construit avec ces données. Notre stratégie offre un bon compromis entre la performance et la préservation de la confidentialité. Ensuite, nous introduisons une nouvelle représentation des relations temporelles, indépendante des événements et de la tâche d'extraction, qui permet d'identifier des portions de textes homogènes du point de vue temporel et de caractériser la relation entre chaque portion du texte et la date de création du document. Cela rend l'annotation et l'extraction des relations temporelles plus facile et reproductible à travers différents types d'événements, vu qu'aucune définition et extraction préalable des événements n'est requise.Enfin, nous effectuons une analyse comparative des outils existants de mesure d'empreinte carbone des modèles de TAL. Nous adoptons un des outils étudiés pour calculer l'empreinte carbone de nos modèles, en considérant que c'est une première étape vers une prise de conscience et un contrôle de leur impact environnemental. En résumé, nous générons des modèles de REN partageables préservant la confidentialité que les cliniciens peuvent utiliser efficacement. Nous démontrons également que l'extraction de relations temporelles peut être abordée indépendamment du domaine d'application et que de bons résultats peuvent être obtenus en utilisant des données d'oncologie du monde réel
Automatically extracting rich information contained in Electronic Health Records (EHRs) is crucial to improve clinical research. However, most of this information is in the form of unstructured text.The complexity and the sensitive nature of clinical text involve further challenges. As a result, sharing data is difficult in practice and is governed by regulations. Neural-based models showed impressive results for Information Extraction, but they need significant amounts of manually annotated data, which is often limited, particularly for non-English languages. Thus, the performance is still not ideal for practical use. In addition to privacy issues, using deep learning models has a significant environmental impact.In this thesis, we develop methods and resources for clinical Named Entity Recognition (NER) and Temporal Relation Extraction (TRE) in French clinical narratives.Specifically, we propose a privacy-preserving mimic models architecture by exploring the mimic learning approach to enable knowledge transfer through a teacher model trained on a private corpus to a student model. This student model could be publicly shared without disclosing the original sensitive data or the private teacher model on which it was trained. Our strategy offers a good compromise between performance and data privacy preservation.Then, we introduce a novel event- and task-independent representation of temporal relations. Our representation enables identifying homogeneous text portions from a temporal standpoint and classifying the relation between each text portion and the document creation time. This makes the annotation and extraction of temporal relations easier and reproducible through different event types, as no prior definition and extraction of events is required.Finally, we conduct a comparative analysis of existing tools for measuring the carbon emissions of NLP models. We adopt one of the studied tools to calculate the carbon footprint of all our created models during the thesis, as we consider it a first step toward increasing awareness and control of their environmental impact.To summarize, we generate shareable privacy-preserving NER models that clinicians can efficiently use. We also demonstrate that the TRE task may be tackled independently of the application domain and that good results can be obtained using real-world oncology clinical notes

APA, Harvard, Vancouver, ISO, and other styles

3

Tirilly, Pierre. "Traitement automatique des langues pour l'indexation d'images." Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00516422.

Full text

Abstract:

Bien que s'inscrivant dans un cadre global de recherche d'information (RI) classique, l'indexation d'image ne tire que peu parti des nombreux travaux existants en RI textuelle et en traitement automatique des langues (TAL). Nous identifions deux niveaux auxquels de tels travaux peuvent s'intégrer aux systèmes d'indexation d'images. Le premier niveau est celui de la description du contenu visuel des images. Pour y intégrer des techniques de TAL, nous adoptons la description des images par mots visuels proposée par Sivic et Zisserman. Cette représentation soulève deux problématiques similaires aux problématiques classiques de la RI textuelle~: le choix des termes d'indexation les plus pertinents pour décrire les documents et la prise en compte des relations entre ces termes. Pour répondre à la première de ces problématiques nous proposons une étude des stop-lists et des pondérations dans le cadre de l'indexation d'images. Cette étude montre que, contrairement au cas des textes, il n'existe pas de pondération optimale pour tous types de requêtes, et que la pondération doit être choisie en fonction de la requête. Pour la seconde, nous utilisons des modèles de langues, outil classique du TAL que nous adaptons au cas des images, pour dépasser l'hypothèse d'indépendance des termes dans un cadre de classification d'images. Nos expérimentations montrent que prendre en compte des relations géométriques entre mots visuels permet d'améliorer les performances des systèmes. Le second niveau étudié est l'indexation sémantique des images : il est possible d'utiliser des méthodes de TAL sur des textes accompagnant les images pour obtenir des descriptions textuelles de celles-ci. Dans un premier temps, nous montrons que les descripteurs classiques d'images ne permettent pas d'obtenir des systèmes d'annotation d'images efficaces. Puis nous proposons une méthode d'annotation qui contourne cet écueil en se basant sur des descripteurs textuels et visuels de haut-niveau~: nous extrayons des textes des entités nommées, que nous mettons en relation avec des concepts visuels détectés dans les images afin d'annoter celles-ci. Nous validons notre approche sur un corpus réel et de grande taille composé d'articles de presse.

APA, Harvard, Vancouver, ISO, and other styles

4

Tirilly, Pierre. "Traitement automatique des langues pour l'indexation d'images." Phd thesis, Rennes 1, 2010. http://www.theses.fr/2010REN1S045.

Full text

Abstract:

Nous nous intéressons, dans cette thèse, à l'usage du traitement automatique des langues (TAL) dans les systèmes d'indexation d'images. Au niveau de la description du contenu visuel des images, nous nous appuyons sur la description des images sous forme de mots visuels, qui pose des problématiques similaires à celles de l'indexation textuelle. Nous utilisons des méthodes de TAL (pondérations et stop-lists) afin de déterminer les mots visuels pertinents, puis nous utilisons les modèles de langues pour prendre en compte certaines relations géométriques entre mots visuels. Au niveau de la description du contenu sémantique des images, nous proposons une méthode d'annotation d'images basée sur l'extraction d'entités nommées pertinentes dans des textes accompagnant les images à annoter
In this thesis, we propose to integrate natural language processing (NLP) techniques in image indexing systems. We first address the issue of describing the visual content of images. We rely on the visual word-based image description, which raises problems that are well known in the text indexing field. First, we study various NLP methods (weighting schemes and stop-lists) to automatically determine which visual words are relevant to describe the images. Then we use language models to take account of some geometrical relations between the visual words. We also address the issue of describing the semantic content of images: we propose an image annotation scheme that relies on extracting relevant named entities from texts coming with the images to annotate

APA, Harvard, Vancouver, ISO, and other styles

5

Colin, Émilie. "Traitement automatique des langues et génération automatique d'exercices de grammaire." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0059.

Full text

Abstract:

Le thème support de cette thèse la génération de paraphrases sur support neuronal. Nos perspectives sont éducatives : créer des exercices de grammaire pour le français. La paraphrase est une opération de reformulation. Nos travaux tendent à attester que les modèles séquence vers séquence ne sont pas de simples répétiteurs mais peuvent apprendre la syntaxe. Nous avons montré, en combinant divers modèles, que la représentation de l'information sous de multiples formes (en utilisant de la donnée formelle (RDF), couplée à du texte pour l'étendre ou le réduire, ou encore seulement du texte) permet d'exploiter un corpus sous différents angles, augmentant la diversité des sorties, exploitant les leviers syntaxiques mis en place. Nous nous sommes penchée sur un problème récurrent, celui de la qualité des données, et avons obtenu des paraphrases avec une haute adéquation syntaxique (jusqu'à 98% de couverture de la demande) et un très bon niveau linguistique. Nous obtenons jusqu'à 83.97 points de BLEU*, 78.41 de plus que la moyenne de nos lignes de base, sans levier syntaxique. Ce taux indique un meilleur contrôle des sorties, pourtant variées et de bonne qualité en l'absence de levier. Nous avons ensuite travaillé depuis du texte brut en passant, pour la génération de phrases, par la production d'une représentation du sens de ce texte qui puisse servir d'entrée à la génération de paraphrases. Le passage à du texte en français était aussi pour nous un impératif. Travailler depuis du texte brut, en automatisant les procédures, nous a permis de créer un corpus de plus de 450 000 couples représentations/phrases, grâce auquel nous avons appris à générer des textes massivement corrects (92% sur la validation qualitative). Anonymiser ce qui n'est pas fonctionnel a participé notablement à la qualité des résultats (68.31 de BLEU, soit +3.96 par rapport à la ligne de base, qui était la génération depuis des données non anonymisées). La représentation formelle de l'information dans un cadre linguistique particulier à une langue est une tâche ardue. Cette thèse offre des pistes de méthodes pour automatiser cette opération. Par ailleurs, nous n'avons pu traiter que des phrases relativement courtes. L'utilisation de modèles neuronaux plus récents permettrait sans doute d'améliorer les résultats. Enfin, l'usage de traits adéquats en sortie permettrait des vérifications poussées. *BLEU (Papineni et al., 2002) : qualité d'un texte sur une échelle de 0 (pire) à 100 (meilleur)
Our perspectives are educational, to create grammar exercises for French. Paraphrasing is an operation of reformulation. Our work tends to attest that sequence-to-sequence models are not simple repeaters but can learn syntax. First, by combining various models, we have shown that the representation of information in multiple forms (using formal data (RDF), coupled with text to extend or reduce it, or only text) allows us to exploit a corpus from different angles, increasing the diversity of outputs, exploiting the syntactic levers put in place. We also addressed a recurrent problem, that of data quality, and obtained paraphrases with a high syntactic adequacy (up to 98% coverage of the demand) and a very good linguistic level. We obtain up to 83.97 points of BLEU-4*, 78.41 more than our baseline average, without syntax leverage. This rate indicates a better control of the outputs, which are varied and of good quality in the absence of syntax leverage. Our idea was to be able to work from raw text : to produce a representation of its meaning. The transition to French text was also an imperative for us. Working from plain text, by automating the procedures, allowed us to create a corpus of more than 450,000 sentence/representation pairs, thanks to which we learned to generate massively correct texts (92% on qualitative validation). Anonymizing everything that is not functional contributed significantly to the quality of the results (68.31 of BLEU, i.e. +3.96 compared to the baseline, which was the generation of text from non-anonymized data). This second work can be applied the integration of a syntax lever guiding the outputs. What was our baseline at time 1 (generate without constraint) would then be combined with a constrained model. By applying an error search, this would allow the constitution of a silver base associating representations to texts. This base could then be multiplied by a reapplication of a generation under constraint, and thus achieve the applied objective of the thesis. The formal representation of information in a language-specific framework is a challenging task. This thesis offers some ideas on how to automate this operation. Moreover, we were only able to process relatively short sentences. The use of more recent neural modelswould likely improve the results. The use of appropriate output strokes would allow for extensive checks. *BLEU : quality of a text (scale from 0 (worst) to 100 (best), Papineni et al. (2002))

APA, Harvard, Vancouver, ISO, and other styles

6

Dary, Franck. "Modèles incrémentaux pour le traitement automatique des langues." Electronic Thesis or Diss., Aix-Marseille, 2022. http://www.theses.fr/2022AIXM0248.

Full text

Abstract:

Cette thèse s'inscrit dans le domaine du traitement automatique de la langue, elle concerne plus particulièrement la prédiction de la structure syntaxico morphologique des phrases.Il s'agit donc, à partir d'un texte, de découper ce dernier en phrases puis en mots et d'associer aux mots une partie de discours et des traits morphologiques puis de relier les mots pour expliciter la structure syntaxique.La thèse propose un modèle de prédiction qui permet de réaliser ces tâches simultanément et de manière incrémentale : le texte est lu caractère par caractère et l'intégralité des prédictions linguistiques sont mises à jour par l'information apportée par chaque nouveau caractère.La raison pour laquelle nous avons exploré cette architecture est la volonté de s'inspirer de la lecture humaine qui impose ces deux contraintes.D'un point de vue expérimental, nous calculons la corrélation entre des variables oculométriques mesurées sur des sujets humains et des mesures de complexité propre à notre modèle.De plus, nous proposons un mécanisme de retour arrière, inspiré des saccades régressives observées chez l'humain. Pour cela, nous utilisons l'apprentissage par renforcement, qui permet au modèle d'effectuer des retours arrières lorsqu'il se trouve dans une impasse
This thesis is about natural language processing, and more specifically concerns the prediction of the syntactic-morphological structure of sentences.This is the matter of segmenting a text into sentences and then into words and associating to each word a part of speech and morphological features and then linking the words to make the syntactic structure explicit.The thesis proposes a predictive model that performs these tasks simultaneously and in an incremental fashion: the text is read character by character and the entire linguistic predictions are updated by the information brought by each new character.The reason why we have explored this architecture is the will to be inspired by human reading which imposes these two constraints.From an experimental point of view, we compute the correlation between eye-tracking variables measured on human subjects and complexity metrics specific to our model.Moreover, we propose a backtracking mechanism, inspired by the regressive saccades observed in humans. To this end, we use reinforcement learning, which allows the model to perform backtracking when it reaches a dead end

APA, Harvard, Vancouver, ISO, and other styles

7

Denoual, Etienne. "Méthodes en caractères pour le traitement automatique des langues." Phd thesis, Université Joseph Fourier (Grenoble), 2006. http://tel.archives-ouvertes.fr/tel-00107056.

Full text

Abstract:

Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues.
Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais.

Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU.
Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots.
Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique.
Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.

APA, Harvard, Vancouver, ISO, and other styles

8

Pellegrino, François. "Une approche phonétique en identification automatique des langues." Toulouse 3, 1998. http://www.theses.fr/1998TOU30294.

Full text

APA, Harvard, Vancouver, ISO, and other styles

9

Moreau, Fabienne. "Revisiter le couplage traitement automatique des langues et recherche d'information." Phd thesis, Université Rennes 1, 2006. http://tel.archives-ouvertes.fr/tel-00524514.

Full text

Abstract:

La principale difficulté des systèmes de recherche d'information (SRI) est d'établir une correspondance entre l'information recherchée par un utilisateur et celle contenue dans leur base documentaire. Pour y parvenir, ils tentent généralement un appariement des mots de la requête posée avec ceux représentant le contenu des documents. Un tel mécanisme, fondé sur une simple comparaison de chaînes de caractères, ne permet cependant pas de prendre en compte le fait qu'un même mot peut posséder plusieurs sens et qu'une même idée peut être formulée de différentes manières. Pour pallier ces difficultés, une solution assez naturelle est de se tourner vers le traitement automatique des langues (TAL) qui, en considérant les mots non comme des chaînes de caractères mais comme des entités linguistiques à part entière, doit offrir un appariement requête-document plus pertinent. Les résultats des nombreux travaux proposant d'enrichir la RI par des informations linguistiques sont toutefois souvent décevants, peu tranchés et contradictoires. Pour comprendre ces faibles résultats et savoir comment les améliorer, nous abordons le couplage TAL-RI sous des angles nouveaux. Contrairement aux autres études, nous choisissons d'exploiter pleinement la richesse de la langue en combinant plusieurs informations linguistiques appartenant aux niveaux morphologique, syntaxique et sémantique. Afin de tester l'intérêt de coupler ces informations, nous proposons une plate-forme intégrant en parallèle ces multiples indices ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces connaissances, et, via une analyse originale des corrélations qu'elles présentent, des cas de complémentarité intéressants. Grâce à une méthode d'apprentissage supervisé qui fusionne les listes de résultats fournis par chaque index linguistique et s'adapte automatiquement aux caractéristiques des requêtes, nous prouvons, par des résultats plus stables qu'habituellement, le gain effectif du couplage d'informations linguistiques multi-niveaux. Enfin, nous proposons une méthode novatrice d'acquisition par apprentissage non supervisé d'informations morphologiques qui permet d'accroître encore l'impact de ces connaissances efficaces sur les performances de notre SRI. Nous montrons ainsi qu'en construisant des outils plus souples et plus adaptés aux contraintes de la RI, l'apport du TAL dans ce domaine est réel.

APA, Harvard, Vancouver, ISO, and other styles

10

Bardet, Adrien. "Architectures neuronales multilingues pour le traitement automatique des langues naturelles." Thesis, Le Mans, 2021. http://www.theses.fr/2021LEMA1002.

Full text

Abstract:

La traduction des langues est devenue un besoin essentiel pour la communication entre humains dans un monde où les possibilités de communication s'élargissent. La traduction automatique est une réponse à l'évolution de ce besoin.Plus récemment, la traduction automatique neuronale s'est imposée avec les grandes performances des systèmes neuronaux qui ouvrent une nouvelle aire de l'apprentissage automatique. Les systèmes neuronaux exploitent de grandes quantités de données pour apprendre à réaliser une tâche automatiquement. Dans le cadre de la traduction automatique, les quantités de données parfois importantes et nécessaires pour apprendre des systèmes performants ne sont pas toujours disponibles pour toutes les langues. L'utilisation de systèmes multilingues est une solution pour répondre à ce problème. Les systèmes de traduction automatique multilingues permettent de traduire plusieurs langues au sein d'un même système. Ils permettent aux langues disposant de peu de données d'être apprises aux côtés de langues disposant de plus de données, améliorant ainsi les performances du système de traduction. Cette thèse se concentre sur des approches de traduction automatique multilingues en vue d'améliorer les performances pour les langues disposant de peu de données. J'ai travaillé sur plusieurs approches de traduction multilingues reposant sur différentes techniques de transfert entre les langues. Les différentes approches proposées ainsi que des analyses complémentaires ont révélé l'impact des critères pertinents pour le transfert. Elles montrent aussi l'importance, parfois négligée, de l'équilibre des langues au sein d'approches multilingues
The translation of languages has become an essential need for communication between humans in a world where the possibilities of communication are expanding. Machine translation is a response to this evolving need. More recently, neural machine translation has come to the fore with the great performance of neural systems, opening up a new area of machine learning. Neural systems use large amounts of data to learn how to perform a task automatically. In the context of machine translation, the sometimes large amounts of data needed to learn efficient systems are not always available for all languages.The use of multilingual systems is one solution to this problem. Multilingual machine translation systems make it possible to translate several languages within the same system. They allow languages with little data to be learned alongside languages with more data, thus improving the performance of the translation system. This thesis focuses on multilingual machine translation approaches to improve performance for languages with limited data. I have worked on several multilingual translation approaches based on different transfer techniques between languages. The different approaches proposed, as well as additional analyses, have revealed the impact of the relevant criteria for transfer. They also show the importance, sometimes neglected, of the balance of languages within multilingual approaches

APA, Harvard, Vancouver, ISO, and other styles

11

Moreau, Fabienne Sébillot Pascale. "Revisiter le couplage traitement automatique des langues et recherche d'information." [S.l.] : [s.n.], 2006. ftp://ftp.irisa.fr/techreports/theses/2006/moreau.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

12

Manad, Otman. "Nettoyage de corpus web pour le traitement automatique des langues." Thesis, Paris 8, 2018. http://www.theses.fr/2018PA080011.

Full text

Abstract:

Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent
Corpora are the main material of computer linguistics and natural language processing. Not many languages have corpora made from web resources (forums, blogs, etc.), even those that do not have other resources. Web resources contain lots of noise (menus, ads, etc.). Filtering boilerplate and repetitive data requires a large-scale manual cleaning by the researcher.This thesis presents an automatic system that construct web corpus with a low level of noise.It consists of three modules : (a) one for building corpora in any language and any type of data, intended to be collaborative and preserving corpus history; (b) one for crawling web forums and blogs; (c) one for extracting relevant data using clustering techniques with different distances, from the structure of web page.The system is evaluated in terms of the efficacy of noise filtering and of computing time. Our experiments, made on four languages, are evaluated using our own gold standard corpus. To measure quality, we use recall, precision and F-measure. Feature-distance and Jaro distance give the best results, but not in the same contexts, feature-distance having the best average quality.We compare our method with three methods dealing with the same problem, Nutch, BootCat and JusText. The performance of our system is better as regards the extraction quality, even if for computing time, Nutch and BootCat dominate

APA, Harvard, Vancouver, ISO, and other styles

13

Vasilescu, Ioana Gabriela. "Contribution à l'identification automatique des langues romanes." Lyon 2, 2001. http://theses.univ-lyon2.fr/documents/lyon2/2001/vasilescu_ig.

Full text

Abstract:

Ce travail de thèse s'inscrit dans la thématique de l'identification automatique des langues. Son objectif est de mettre en évidence des indices linguistiques susceptibles de permettre la distinction des idiomes issus du latin. Les langues romanes ont bénéficié d'une longue tradition descriptive et représentent des langues officielles dans plusieurs pays du monde. La présente démarche prend en compte cinq langues néo-latines (espagnol, français, italien, portugais et roumain). L'étude des approches taxinomistes consacrées aux idiomes néo-latins révèle une pertinence particulière de la classification typologique. Les indices vocaliques fournissent des critères appropriés pour une division des langues en deux zones linguistiques, selon leurs complexités respectives. Ces indices séparent l'espagnol et l'italien, langues à vocalisme prototypique du roumain, du français et du portugais, dont les systèmes vocaliques sont riches en oppositions supplémentaires. Cette hiérarchie est de plus étayée par des particularismes consonantiques, voire supra-segmentaux. Afin de tester une pertinence perceptive des critères typologiques, deux paradigmes expérimentaux ont été développés. Une première série d'expériences, de type discrimination, a permis de délimiter le rôle des facteurs " langue maternelle " et " familiarité " des quatre populations participantes, dont deux de langue maternelle romane (français et Roumains) et deux de contrôle (Japonais, Américains). Les résultats ont partiellement convergé vers un regroupement linguistique basé sur la proximité sonore des langues et analogue à la classification typologique fondée sur les spécificités vocaliques. La seconde série d'expériences de type jugement de similarités effectuées par des sujets français et américains a confirmé ce regroupement. Ainsi, les proximités sonores établies de manières perceptive entre les langues romanes permettent leur macro-discrimination en deux groupes principaux : italien, espagnol vs, roumain, français, portugais
This work deals with the automatic identification of Romance Languages. The aim of our study is to provide linguistic patterns potentially robust for the discrimination of 5 languages from the latin family (i. E. , Spanish, French, Italian, Portuguese and Romanian). The Romance Languages have the advantage of a secular linguistic tradition and represents official languages in several countries of the world, the study of the taxonomist approaches devoted to this linguistic family shows a spécial relevance of the typological classification. More precisely, the vocalic patterns provide relevant criteria for a division of the five idioms in two groups, according to the complexity of each Romance vocalic system : italian, Spanish vs. Romanian, French, Portuguese. The first group includes languages with prototypical vocalic systems, whereas the second group, languages with complex vocalic systems in terms of number of oppositions. In addition to the vocalic criteria, these hierarchy is supported by consonantal and prosodic particularities. We conducted two experimental paradigms to test the correspondence between the perceptual patterns used by nai͏̈f listeners to differentiate the Romance languages and the linguistic patterns employed by the typological classification. A first series of discrimination experiments on four groups of subjects, selected according to the criterion [+/- Romance native language] (i. E. , French, Romanian vs. Japanese, Americans), showed different perceptual strategies related both to the native language and to the familiarity with the Romance languages. The linguistic strategies lead to a macro-discrimination of the languages in two groups similar to those obtained via the typological taxonomy based on vocalic particularities (i. E. , Spanish, Italian vs. Romanian, French, Portuguese). The second series of perceptual experiments on two groups of subjects (French and American) consisted in the evaluation of the acoustic similarity of the have languages. The results confirmed the division of Romance Languages in the same two groups as those via the discrimination experiments. We concluded that the vocalic patterns may be a robust clue for the discrimination of the Latin idioms into two major linguistic groups : Italian, Spanish vs. Romanian, French, Portuguese

APA, Harvard, Vancouver, ISO, and other styles

14

Vasilescu, Ioana Gabriela Hombert Jean-Marie. "Contribution à l'identification automatique des langues romanes." [S.l.] : [s.n.], 2001. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2001/vasilescu_ig.

Full text

APA, Harvard, Vancouver, ISO, and other styles

15

Bouamor, Houda. "Etude de la paraphrase sous-phrastique en traitement automatique des langues." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00717702.

Full text

Abstract:

La variabilité en langue est une source majeure de difficultés dans la plupart des applications du traitement automatique des langues. Elle se manifeste dans le fait qu'une même idée ou un même événement peut être exprimé avec des mots ou des groupes de mots différents ayant la même signification dans leur contexte respectif. Capturer automatiquement des équivalences sémantiques entre des unités de texte est une tâche complexe mais qui s'avère indispensable dans de nombreux contextes. L'acquisition a priori de listes d'équivalences met à disposition des ressources utiles pour, par exemple, améliorer le repérage d'une réponse à une question, autoriser des formulations différentes en évaluation de la traduction automatique, ou encore aider des auteurs à trouver des formulations plus adaptées. Dans cette thèse, nous proposons une étude détaillée de la tâche d'acquisition de paraphrases sous-phrastiques à partir de paires d'énoncés sémantiquement liés. Nous démontrons empiriquement que les corpus parallèles monolingues, bien qu'extrêmement rares, constituent le type de ressource le plus adapté pour ce genre d'étude. Nos expériences mettent en jeu cinq techniques d'acquisition, représentatives de différentes approches et connaissances, en anglais et en français. Afin d'améliorer la performance en acquisition, nous réalisons la combinaison des paraphrases produites par ces techniques par une validation reposant sur un classifieur automatique à maximum d'entropie bi-classe. Un résultat important de notre étude est l'identification de paraphrases qui défient actuellement les techniques étudiées, lesquelles sont classées et quantifiées en anglais et français. Nous examinons également dans cette thèse l'impact de la langue, du type du corpus et la comparabilité des paires des énoncés utilisés sur la tâche d'acquisition de paraphrases sous- phrastiques. Nous présentons le résultat d'une analyse de la performance des différentes méthodes testées en fonction des difficultés d'alignement des paires de paraphrases d'énoncés. Nous donnons, ensuite, un compte rendu descriptif et quantitatif des caractéristiques des paraphrases trouvées dans les différents types de corpus étudiés ainsi que celles qui défient les approches actuelles d'identification automatique.

APA, Harvard, Vancouver, ISO, and other styles

16

Filhol, Michael. "Modèle descriptif des signes pour un traitement automatique des langues des signes." Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00300591.

Full text

Abstract:

Les approches formelles de représentation des signes des langues des signes sont majoritairement paramétriques et nous montrons en quoi celles-ci ne sont pas suffisantes dans l'optique d'une utilisation informatique. Les plus fortes raisons sont le caractère ni nécessaire ni suffisant de l'ensemble de paramètres traditionnellement utilisé, leur nature fixe alors qu'un signe est dynamique et évolue au cours du temps, et le fait que les descriptions ne rendent pas compte de l'adaptabilité des signes décrits à différents contextes, pourtant à l'origine de leur réutilisabilité et de la force de concision des langues des signes. Nous proposons Zebedee, un modèle de description en séquence d'unités temporelles décrivant chacune un ensemble de contraintes nécessaires et suffisantes, appliquées à un squelette. L'espace de signation est vu comme un espace euclidien dans lequel toute construction géométrique annexe est possible. Les dépendances entre éléments des descriptions ou sur des valeurs contextuelles sont non seulement possibles mais pertinentes, et reposent sur des considérations à la fois articulatoires, cognitives et sémantiques. Nous donnons ensuite deux processus complémentaires d'évaluation : en informatique où nous discutons l'implantation de Zebedee dans une plateforme d'animation de signeur virtuel et son utilisation pour la diffusion d'informations en gare, et en linguistique où nous décrivons l'avantage d'une base de données et les nouvelles possibilités de requêtes offertes au linguiste. En perspectives, nous citons plusieurs domaines informatiques où Zebedee sera utile et plusieurs questionnements linguistiques actuels auxquels il offre des pistes de réponse.

APA, Harvard, Vancouver, ISO, and other styles

17

Dégremont, Jean-François. "Ethnométhodologie et innovation technologique : le cas du traitement automatique des langues naturelles." Paris 7, 1989. http://www.theses.fr/1989PA070043.

Full text

Abstract:

La thèse débute par un rappel des étapes historiques principales du développement de l'ethnométhodologie en tant que discipline, depuis les précurseurs européens des années 30 jusqu'à l'explosion aux Etats Unis puis en Europe à partir de 1967. Une première partie reprend ensuite les concepts principaux de l'ethnométhodologie et les développe en se plaçant dans le cadre théorique de l'école pariseptiste qui tente d'associer le refus maximal des inductions et le principe d'indifférence dans les activités ethnographiques et, en particulier, dans l'utilisation ou la description des langues naturelles considérées à la fois comme objets d'études et moyens de communication scientifique. La seconde partie de la thèse est consacrée à l'application des principes développés antérieurement au domaine des stratégies d'innovations technologiques mises en oeuvre en France en vue d'accroître le potentiel de recherche et développement dans le secteur du traitement automatique des langues naturelles. Trois études décrivent successivement les ethnométhodes et les propriétés rationnelles des actions pratiques mises en oeuvre par un groupe de chargés de mission de l'administration, les processus d'élaboration d'une politique d'innovation technologique, les descriptions indexicales du domaine des industries de la langue et de programmes de r et d dans ce secteur. La conclusion s'efforce de montrer comment la puissance des concepts de l'ethnométhodologie et des outils qui en découlent permettent d'accroître la pertinence des analyses stratégiques et l'efficacité des actions de recherche développement
The thesis begins with a short historical reminder of ethnomethodology, considered as a scientific field, since the whole beginners during the 30's until the 1967 explosion in US and Europe. The first part is an explication of the main concepts of ethnomethodology. They are developped from the pariseptist school theoretical point of view, which tries to associate the strongest refuse of inductions and the indifference principle, mainly when natural languages, considered as well as studies objects and communication tools, are used. The second part of the thesis is devoted to the concrete application of these theoretical concepts in the field of technological strategies which have been elaborated in France in the area of natural language processing. Three studies successively describe the ethnomethods and rational properties of practical activities which are used in an administrative team, the elaboration of a technology policy and indexical descriptions of the language industry field. The conclusion tries to show how the concepts and methods developped by ethnomethodology can increase, in this field, the efficacy of strategical analysis and the quality of research and development programs

APA, Harvard, Vancouver, ISO, and other styles

18

Millour, Alice. "Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées." Thesis, Sorbonne université, 2020. http://www.theses.fr/2020SORUL126.

Full text

Abstract:

Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles
Citizen science, in particular voluntary crowdsourcing, represents a little experimented solution to produce language resources for some languages which are still little resourced despite the presence of sufficient speakers online. We present in this work the experiments we have led to enable the crowdsourcing of linguistic resources for the development of automatic part-of-speech annotation tools. We have applied the methodology to three non-standardised languages, namely Alsatian, Guadeloupean Creole and Mauritian Creole. For different historical reasons, multiple (ortho)-graphic practices coexist for these three languages. The difficulties encountered by the presence of this variation phenomenon led us to propose various crowdsourcing tasks that allow the collection of raw corpora, part-of-speech annotations, and graphic variants. The intrinsic and extrinsic analysis of these resources, used for the development of automatic annotation tools, show the interest of using crowdsourcing in a non-standardized linguistic framework: the participants are not seen in this context a uniform set of contributors whose cumulative efforts allow the completion of a particular task, but rather as a set of holders of complementary knowledge. The resources they collectively produce make possible the development of tools that embrace the variation.The platforms developed, the language resources, as well as the models of trained taggers are freely available

APA, Harvard, Vancouver, ISO, and other styles

19

Shen, Ying. "Élaboration d'ontologies médicales pour une approche multi-agents d'aide à la décision clinique." Thesis, Paris 10, 2015. http://www.theses.fr/2015PA100040/document.

Full text

Abstract:

La combinaison du traitement sémantique des connaissances (Semantic Processing of Knowledge) et de la modélisation des étapes de raisonnement (Modeling Steps of Reasoning), utilisés dans le domaine clinique, offrent des possibilités intéressantes, nécessaires aussi, pour l’élaboration des ontologies médicales, utiles à l'exercice de cette profession. Dans ce cadre, l'interrogation de banques de données médicales multiples, comme MEDLINE, PubMed… constitue un outil précieux mais insuffisant car elle ne permet pas d'acquérir des connaissances facilement utilisables lors d’une démarche clinique. En effet, l'abondance de citations inappropriées constitue du bruit et requiert un tri fastidieux, incompatible avec une pratique efficace de la médecine.Dans un processus itératif, l'objectif est de construire, de façon aussi automatisée possible, des bases de connaissances médicales réutilisables, fondées sur des ontologies et, dans cette thèse, nous développons une série d'outils d'acquisition de connaissances qui combinent des opérateurs d'analyse linguistique et de modélisation de la clinique, fondés sur une typologie des connaissances mises en œuvre, et sur une implémentation des différents modes de raisonnement employés. La connaissance ne se résume pas à des informations issues de bases de données ; elle s’organise grâce à des opérateurs cognitifs de raisonnement qui permettent de la rendre opérationnelle dans le contexte intéressant le praticien.Un système multi-agents d’aide à la décision clinique (SMAAD) permettra la coopération et l'intégration des différents modules entrant dans l'élaboration d'une ontologie médicale et les sources de données sont les banques médicales, comme MEDLINE, et des citations extraites par PubMed ; les concepts et le vocabulaire proviennent de l'Unified Medical Language System (UMLS).Concernant le champ des bases de connaissances produites, la recherche concerne l'ensemble de la démarche clinique : le diagnostic, le pronostic, le traitement, le suivi thérapeutique de différentes pathologies, dans un domaine médical donné.Différentes approches et travaux sont recensés, dans l’état de question, et divers paradigmes sont explorés : 1) l'Evidence Base Medicine (une médecine fondée sur des indices). Un indice peut se définir comme un signe lié à son mode de mise en œuvre ; 2) Le raisonnement à partir de cas (RàPC) se fonde sur l'analogie de situations cliniques déjà rencontrées ; 3) Différentes approches sémantiques permettent d'implémenter les ontologies.Sur l’ensemble, nous avons travaillé les aspects logiques liés aux opérateurs cognitifs de raisonnement utilisés et nous avons organisé la coopération et l'intégration des connaissances exploitées durant les différentes étapes du processus clinique (diagnostic, pronostic, traitement, suivi thérapeutique). Cette intégration s’appuie sur un SMAAD : système multi-agent d'aide à la décision
The combination of semantic processing of knowledge and modelling steps of reasoning employed in the clinical field offers exciting and necessary opportunities to develop ontologies relevant to the practice of medicine. In this context, multiple medical databases such as MEDLINE, PubMed are valuable tools but not sufficient because they cannot acquire the usable knowledge easily in a clinical approach. Indeed, abundance of inappropriate quotations constitutes the noise and requires a tedious sort incompatible with the practice of medicine.In an iterative process, the objective is to build an approach as automated as possible, the reusable medical knowledge bases is founded on an ontology of the concerned fields. In this thesis, the author will develop a series of tools for knowledge acquisition combining the linguistic analysis operators and clinical modelling based on the implemented knowledge typology and an implementation of different forms of employed reasoning. Knowledge is not limited to the information from data, but also and especially on the cognitive operators of reasoning for making them operational in the context relevant to the practitioner.A multi-agent system enables the integration and cooperation of the various modules used in the development of a medical ontology.The data sources are from medical databases such as MEDLINE, the citations retrieved by PubMed, and the concepts and vocabulary from the Unified Medical Language System (UMLS).Regarding the scope of produced knowledge bases, the research concerns the entire clinical process: diagnosis, prognosis, treatment, and therapeutic monitoring of various diseases in a given medical field.It is essential to identify the different approaches and the works already done.Different paradigms will be explored: 1) Evidence Based Medicine. An index can be defined as a sign related to its mode of implementation; 2) Case-based reasoning, which based on the analogy of clinical situations already encountered; 3) The different semantic approaches which are used to implement ontologies.On the whole, we worked on logical aspects related to cognitive operators of used reasoning, and we organized the cooperation and integration of exploited knowledge during the various stages of the clinical process (diagnosis, prognosis, treatment, therapeutic monitoring). This integration is based on a SMAAD: multi-agent system for decision support

APA, Harvard, Vancouver, ISO, and other styles

20

Bourgeade, Tom. "Interprétabilité a priori et explicabilité a posteriori dans le traitement automatique des langues." Thesis, Toulouse 3, 2022. http://www.theses.fr/2022TOU30063.

Full text

Abstract:

Avec l'avènement des architectures Transformer en Traitement Automatique des Langues il y a quelques années, nous avons observé des progrès sans précédents dans diverses tâches de classification ou de génération de textes. Cependant, l'explosion du nombre de paramètres et de la complexité de ces modèles "boîte noire" de l'état de l'art, rendent de plus en plus évident le besoin désormais urgent de transparence dans les approches d'apprentissage automatique. La capacité d'expliquer, d'interpréter et de comprendre les décisions algorithmiques deviendra primordiale à mesure que les modèles informatiques deviennent de plus en plus présents dans notre vie quotidienne. En utilisant les méthodes de l'IA eXplicable (XAI), nous pouvons par exemple diagnostiquer les biais dans des ensembles de données, des corrélations erronées qui peuvent au final entacher le processus d'apprentissage des modèles, les conduisant à apprendre des raccourcis indésirables, ce qui pourrait conduire à des décisions algorithmiques injustes, incompréhensibles, voire risquées. Ces modes d'échec de l'IA peuvent finalement éroder la confiance que les humains auraient pu placer dans des applications bénéfiques. Dans ce travail, nous explorons plus spécifiquement deux aspects majeurs de l'XAI, dans le contexte des tâches et des modèles de Traitement Automatique des Langues : dans la première partie, nous abordons le sujet de l'interprétabilité intrinsèque, qui englobe toutes les méthodes qui sont naturellement faciles à expliquer. En particulier, nous nous concentrons sur les représentations de plongement de mots, qui sont une composante essentielle de pratiquement toutes les architectures de TAL, permettant à ces modèles mathématiques de manipuler le langage humain d'une manière plus riche sur le plan sémantique. Malheureusement, la plupart des modèles qui génèrent ces représentations les produisent d'une manière qui n'est pas interprétable par les humains. Pour résoudre ce problème, nous expérimentons la construction et l'utilisation de modèles de plongement de mots interprétables, qui tentent de corriger ce problème, en utilisant des contraintes qui imposent l'interprétabilité de ces représentations. Nous utilisons ensuite ces modèles, dans une configuration nouvelle, simple mais efficace, pour tenter de détecter des corrélations lexicales, erronées ou non, dans certains ensembles de données populaires en TAL. Dans la deuxième partie, nous explorons les méthodes d'explicabilité post-hoc, qui peuvent cibler des modèles déjà entraînés, et tenter d'extraire diverses formes d'explications de leurs décisions. Ces méthodes peuvent aller du diagnostic des parties d'une entrée qui étaient les plus pertinentes pour une décision particulière, à la génération d'exemples adversariaux, qui sont soigneusement conçus pour aider à révéler les faiblesses d'un modèle. Nous explorons un nouveau type d'approche, en partie permis par les architectures Transformer récentes, très performantes mais opaques : au lieu d'utiliser une méthode distincte pour produire des explications des décisions d'un modèle, nous concevons et mettons au point une configuration qui apprend de manière jointe à exécuter sa tâche, tout en produisant des explications en langage naturel en forme libre de ses propres résultats. Nous évaluons notre approche sur un ensemble de données de grande taille annoté avec des explications humaines, et nous jugeons qualitativement certaines des explications générées par notre approche
With the advent of Transformer architectures in Natural Language Processing a few years ago, we have observed unprecedented progress in various text classification or generation tasks. However, the explosion in the number of parameters, and the complexity of these state-of-the-art blackbox models, is making ever more apparent the now urgent need for transparency in machine learning approaches. The ability to explain, interpret, and understand algorithmic decisions will become paramount as computer models start becoming more and more present in our everyday lives. Using eXplainable AI (XAI) methods, we can for example diagnose dataset biases, spurious correlations which can ultimately taint the training process of models, leading them to learn undesirable shortcuts, which could lead to unfair, incomprehensible, or even risky algorithmic decisions. These failure modes of AI, may ultimately erode the trust humans may have otherwise placed in beneficial applications. In this work, we more specifically explore two major aspects of XAI, in the context of Natural Language Processing tasks and models: in the first part, we approach the subject of intrinsic interpretability, which encompasses all methods which are inherently easy to produce explanations for. In particular, we focus on word embedding representations, which are an essential component of practically all NLP architectures, allowing these mathematical models to process human language in a more semantically-rich way. Unfortunately, many of the models which generate these representations, produce them in a way which is not interpretable by humans. To address this problem, we experiment with the construction and usage of Interpretable Word Embedding models, which attempt to correct this issue, by using constraints which enforce interpretability on these representations. We then make use of these, in a simple but effective novel setup, to attempt to detect lexical correlations, spurious or otherwise, in some popular NLP datasets. In the second part, we explore post-hoc explainability methods, which can target already trained models, and attempt to extract various forms of explanations of their decisions. These can range from diagnosing which parts of an input were the most relevant to a particular decision, to generating adversarial examples, which are carefully crafted to help reveal weaknesses in a model. We explore a novel type of approach, in parts allowed by the highly-performant but opaque recent Transformer architectures: instead of using a separate method to produce explanations of a model's decisions, we design and fine-tune an architecture which jointly learns to both perform its task, while also producing free-form Natural Language Explanations of its own outputs. We evaluate our approach on a large-scale dataset annotated with human explanations, and qualitatively judge some of our approach's machine-generated explanations

APA, Harvard, Vancouver, ISO, and other styles

21

Mauger, Serge. "L'interpretation des messages enigmatiques. Essai de semantique et de traitement automatique des langues." Caen, 1999. http://www.theses.fr/1999CAEN1255.

Full text

Abstract:

Oedipe, le personnage de la tragedie de sophocle, resout l'enigme du sphinx "par sa seule intelligence". Il est ici le point de depart d'une reflexion generale sur le statut linguistique des jeux de langage, dont la pratique est repandue a toutes les epoques et dans toutes les cultures. L'intelligence d'oedipe se fonde sur une capacite a "calculer" l'interpretation de l'enigme en abandonnant un raisonnement inductif (par recurrence) pour adopter un raisonnement analogique. Dans une seconde partie, on montre que le calcul du sens des messages plurivoques permet de proposer un modele d'analyse combinatoire qui est un outil de traitement automatique des langues (tal), capable d'aider au calcul des jeux de charades et a l'interpretation des definitions cryptees des mots croises. Ce modele sert de pierre de touche a une analyse des structures semantiques sous-jacentes aux interpretations et montre quels sont les items lexicaux qui sont concernes par l'isotopie. L'isotopie n'est en l'occurrence pas consideree comme une donnee du message mais comme un construit de l'interpretation. L'ensemble de la demarche adopte donc le point de vue d'une semantique interpretative. La troisieme partie prolonge la reflexion en inscrivant le traitement des messages enigmatiques dans la problematique du dialogue homme-machine (dhm) qui permet de traiter les ambiguites de certains enonces et est capable de comprendre des "messages etranges" a partir des propositions d'interpretation extrapolees du modele. De proche en proche on analyse ainsi le calcul du recepteur des messages comme une activite qui consiste a analyser les traces graphematiques ou acoustiques. La prise en compte des traces est une confrontation avec les attendus du systeme linguistique qui permet de proceder a une serie de decisions aboutissant a l'identification d'un point de vue coherent. La decouverte de cette coherence et de ce point de vue sont compares a la demarche que l'on adopte dans la "lecture" d'une anamorphose (en peinture) ou quand on dechiffre les regles d'organisation des suites de cartes dans le jeu d'eleusis. On retrouve une demarche analogue quand il s'agit d'interpreter la"scriptio continua" des inscriptions paleographiques, dont la technique sert de base a la fois a certaines experiences de production litteraire sous contrainte et au jeux des mots caches
Oedipus, the character in sophocle's tragedy, solves the sphinx's enigma by + his own intelligence ;. This is the starting point of a general reflection on the linguistic status of language games, the practice of which could be seen throughout all periods and in all cultures. Oedipus's intelligence is based on a capacity for + calculating ; the interpretation of the enigma by giving up inductive reasoning (by recurrence) so as to adopt analogical reasoning instead. In the second part, it is shown that the calculation of the meaning of the polysemous messages enables us to propose a pattern of a combinatory analysis which is a tool for the automatic treatment of language (atl), able to help calculate riddles and to interpret coded definitions of crosswords. This pattern is used as a touchstone for an analysis of the semantic structures underlying interpretations and shows which lexical items are concerned by isotopy. Isotopy is not in that case considered to be an element of the message but a process of the interpretation. The whole approach is then based on interpretative semantics. The third part is the developement of the reflection including the treatment of enigmatic messages in the issues of the man-machine dialogue (mmd) which enables us to deal with the ambiguities of some utterances and is able to understand + strange messages ; on the basis of propositions of interpretation extrapolated from the pattern. Then little by little we analyse the calculation of the one who gets messages like an activity which consists in analysing graphematic and acoustic signs. Taking the signs into account is a confrontation with what is expected in the linguistic system and it enables us to carry out a series of decisions leading to the identification of a coherent analysis. This coherence and the analysis are compared to the approach adopted when + reading ; an anamorphosis (in art painting) or when decoding the organisation rules in suites of cards in eleusis' game. We find a similar approach when we have to interpret the + scriptio continua ; on paleographic inscriptions, the technique of which serves as a basis for some literary experiences under duress and for hidden puns

APA, Harvard, Vancouver, ISO, and other styles

22

Dubé, Martine. "Étude terminologique et analyse des modes de formation de 50 notions sur le traitement automatique des langues naturelles /." Thèse, Québec : Université Laval, École des gradués, 1990. http://theses.uqac.ca.

Full text

Abstract:

Mémoire (M.A.)-- Universitée du Québec à Chicoutimi, 1990.
"Mémoire présenté pour l'obtention du grade maître es arts (M.A.) dans le cadre d'une entente entre l'Université Laval et l'Université du Québec à Chicoutimi" CaQCU Bibliogr.: f. 137-141. Document électronique également accessible en format PDF. CaQCU

APA, Harvard, Vancouver, ISO, and other styles

23

Knyazeva, Elena. "Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS134/document.

Full text

Abstract:

L’apprentissage structuré est devenu omniprésent dans le traitement automatique des langues naturelles. De nombreuses applications qui font maintenant partie de notre vie telles que des assistants personnels, la traduction automatique, ou encore la reconnaissance vocale, reposent sur ces techniques. Les problèmes d'apprentissage structuré qu’il est nécessaire de résoudre sont de plus en plus complexes et demandent de prendre en compte de plus en plus d’informations à des niveaux linguistiques variés (morphologique, syntaxique, etc.) et reposent la question du meilleurs compromis entre la finesse de la modélisation et l’exactitude des algorithmes d’apprentissage et d’inférence. L’apprentissage par imitation propose de réaliser les procédures d’apprentissage et d’inférence de manière approchée afin de pouvoir exploiter pleinement des structures de dépendance plus riches. Cette thèse explore ce cadre d’apprentissage, en particulier l’algorithme SEARN, à la fois sur le plan théorique ainsi que ses possibilités d’application aux tâches de traitement automatique des langues, notamment aux plus complexes telles que la traduction. Concernant les aspects théoriques, nous présentons un cadre unifié pour les différentes familles d’apprentissage par imitation, qui permet de redériver de manière simple les propriétés de convergence de ces algorithmes; concernant les aspects plus appliqués, nous utilisons l’apprentissage par imitation d’une part pour explorer l’étiquetage de séquences en ordre libre; d’autre part pour étudier des stratégies de décodage en deux étapes pour la traduction automatique
Structured learning has become ubiquitousin Natural Language Processing; a multitude ofapplications, such as personal assistants, machinetranslation and speech recognition, to name just afew, rely on such techniques. The structured learningproblems that must now be solved are becomingincreasingly more complex and require an increasingamount of information at different linguisticlevels (morphological, syntactic, etc.). It is thereforecrucial to find the best trade-off between the degreeof modelling detail and the exactitude of the inferencealgorithm. Imitation learning aims to perform approximatelearning and inference in order to better exploitricher dependency structures. In this thesis, we explorethe use of this specific learning setting, in particularusing the SEARN algorithm, both from a theoreticalperspective and in terms of the practical applicationsto Natural Language Processing tasks, especiallyto complex tasks such as machine translation.Concerning the theoretical aspects, we introduce aunified framework for different imitation learning algorithmfamilies, allowing us to review and simplifythe convergence properties of the algorithms. With regardsto the more practical application of our work, weuse imitation learning first to experiment with free ordersequence labelling and secondly to explore twostepdecoding strategies for machine translation

APA, Harvard, Vancouver, ISO, and other styles

24

Hamon, Olivier. "Vers une architecture générique et pérenne pour l'évaluation en traitement automatique des langues : spécifications, méthodologies et mesures." Paris 13, 2010. http://www.theses.fr/2010PA132022.

Full text

Abstract:

Le développement de systèmes en traitement automatique des langues (TAL) nécessite de déterminer la qualité de ce qui est produit. Que ce soit pour comparer plusieurs systèmes entre eux ou identifier les points forts et faibles d’un système isolé, l’évaluation suppose de définir avec précision et pour chaque contexte particulier une méthodologie, un protocole, des ressources linguistiques (les données nécessaires à l’apprentissage et au test des systèmes) ou encore des mesures et métriques d’évaluation. C’est à cette condition que l’amélioration des systèmes est possible afin d’obtenir des résultats plus ﬁables et plus exploitables à l’usage. L’apport de l’évaluation en TAL est important avec la création de nouvelles ressources linguistiques, l’homogénéisation des formats des données utilisées ou la promotion d’une technologie ou d’un système. Toutefois, l’évaluation nécessite un important travail manuel, que ce soit pour l’expression des jugements humains ou pour la gestion du déroulement même de l’évaluation, ce qui compromet l'efficacité des évaluations, augmente leur coût et les rend difficilement reproductibles. Nous avons cherché à réduire et à encadrer ces interventions manuelles. Pour ce faire, nous appuyons nos travaux sur la conduite ou la participation à des campagnes d’évaluation comparant des systèmes entre eux, ou l’évaluation de systèmes isolés. Nous avons formalisé la gestion du déroulement de l’évaluation et listé ses différentes phases pour définir un cadre d’évaluation commun, compréhensible par tous. Le point phare de ces phases d’évaluation concerne la mesure de la qualité via l’utilisation de métriques. Cela a imposé trois études successives sur les mesures humaines, les mesures automatiques et les moyens d’automatiser le calcul de la qualité et enfin la méta-évaluation des mesures qui permet d’en évaluer la fiabilité. En parallèle, les mesures d’évaluation utilisent des ressources linguistiques dont les aspects pratiques et administratifs à travers les opérations de création, standardisation, validation, impact sur les résultats, coût de production et d’utilisation, identification et négociation des droits doivent être prises en compte. Dans ce contexte, l’étude des similarités entre les technologies et entre leurs évaluations nous a permis d’observer les points communs et de les hiérarchiser. Nous avons montré qu’un petit ensemble de mesures permet de couvrir une large palette d’applications à des technologies distinctes. Notre objectif final était de déﬁnir une architecture d’évaluation générique, c’est-à-dire adaptable à tout type de technologie du TAL, et pérenne, c’est-à-dire permettant la réutilisation de ressources linguistiques, mesures ou méthodes au cours du temps. Notre proposition se fait à partir des conclusions des étapes précédentes afin d’intégrer les phases d’évaluation à notre architecture et d’y incorporer les mesures d’évaluation, sans oublier la place relative à l’utilisation de ressources linguistiques. La définition de cette architecture s’est effectuée en vue d’automatiser entièrement la gestion des évaluations, que ce soit pour une campagne d’évaluation ou l’évaluation d’un système isolé. À partir de premières expérimentations, nous avons modélisé une architecture d’évaluation prenant en compte l’ensemble de ces contraintes et utilisant les services Web afin d’interconnecter les composants de l’architecture entre eux et d’y accéder via le réseau Internet
The development of Natural Language Processing (NLP) systems needs to determine the quality of their results. Whether aiming to compare several systems to each other or to identify both the strong and weak points of an isolated system, evaluation implies deﬁning precisely and for each particular context a methodology, a protocol, language ressources (data needed for both system training and testing) and even evaluation measures and metrics. It is following these conditions that system improvement is possible so as to obtain more reliable and easy-to-exploit results. The contribution of evaluation to NLP is important due to the creation of new language resources, the homogenisation of formats for those data used or the promotion of a technology or a system. However, evaluation requires considerable manual work, whether to formulate human judgments or to manage the evaluation procedure. This compromises the evaluation’s reliability, increases costs and makes it harder to reproduce. We have tried to reduce and delimit those manual interventions. To do so, we have supported our work by either conducting or participating in evaluation campaigns where systems are compared to each other or where isolated systems are evaluated. The management of the evaluation procedure has been formalised in this work and its diﬀerent phases have been listed so as to deﬁne a common evaluation framework, understandable by all. The main point of those evaluation phases regards quality measurement through the usage of metrics. Three consecutive studies have been carried out on human measures, automatic measures and the automation of quality computation, and the meta-evaluation of the mesures so as to evaluate their reliability. Moreover, evaluation measures use language resources whose practical and administrative aspects must be taken into account. Among these, we have their creation, standarisation, validation, impact on the results, costs of production and usage, identiﬁcation and legal issues. In that context, the study of the similarities between the technologies and between their evaluations has allowed us to highlight their common features and class them. This has helped us to show that a small set of measures allows to cover a wide range of applications for diﬀerent technologies. Our ﬁnal goal has been to deﬁne a generic evaluation architecture, which is adaptable to diﬀerent NLP technologies, and sustainable, namely allowing to reuse language resources, measures or methods over time. Our proposal has been built on the conclusions drawn fromprevious steps, with the objective of integrating the evaluation phases to our architecture and incorporating the evaluation measures, all of which bearing in mind the place of language resource usage. The deﬁnition of this architecture has been done with the aim of fully automating the evaluation management work, regardless of whether this concerns an evaluation campaign or the evaluation of an isolated system. Following initial experiments, we have designed an evaluation architecture taking into account all the constraints found as well as using Web services. These latter provide the means to interconnect architecture components and grant them accessible through the Internet

APA, Harvard, Vancouver, ISO, and other styles

25

Dimon, Pierre. "Un système multilingual d'interprétation automatique : étape du sous-logiciel "analyse" pour les langues germaniques." Metz, 1994. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/1994/Dimon.Pierre.LMZ945_1.pdf.

Full text

Abstract:

La première partie de la thèse rappelle les modèles sous-jacents aux grammaires dont s'inspirent les systèmes de traitement automatique de la langue ainsi que les outils informatiques disponibles pour les appliquer. Un panorama des systèmes de traduction automatique et de traduction assistée par ordinateur illustre les développements liés à la traduction, effectués depuis le début jusqu'en 1991. En réponse aux limites de ces systèmes, la seconde partie propose une autre voie qui repose sur l'hypothèse suivante : peux-t-on réduire à un minimum la qualité d'un texte cible pour qu'un lecteur, spécialiste du domaine mais ne maîtrisant pas la langue source, puisse en recréer le contenu par compréhension implicite ? L'hyperanalyse s'applique à l'ensemble du texte. Le module hypersyntaxique local repère tout ce qui introduit un objet, le définit, le nommé (système dérivationnel). Le module hypersyntaxique global analyse les structures de paragraphe et reconnaît l'architecture de grandes parties de texte. Le module hypersémantique localise les objets spécifiques et les objets standards en s'appuyant sur la typographie et la présentation du texte source. La construction du texte cible repose sur l'hypothèse d'une similarité entre les systèmes dérivationnels d'un groupe de langues (roman, germanique. . . ). En utilisant des dictionnaires réduits, il est possible de produire un texte à partir de la traduction hors-contexte de correspondances de bases (racine+préfixe préverbe), d'éléments de dérivation et de mots simples. La troisième partie est une description de toutes les étapes de l'analyse qui consiste a décomposer le texte source (composes, dérivés) en constituants qui seront ensuite réétiquetés dans la langue cible
In part one of the thesis, the reader is reminded first of all the language models underlying grammars from which the systems of automatic processing of languages borrow, and second of the computing aids that make applications possible. A vast survey of the machine translation and computer-assisted translation systems incepted since the early beginnings up to 1991 illustrates the developments in connection with translating. In counterpart to the limits offered by the present systems, in part 2 of this thesis, another path is laid down, whose basis is the following hypothesis : is it possible to a minimum the quality of the target-text for a reader - a specialist of the area who, however, is not familiar with the language of the source-text-, to recreate its meaning through implicit comprehension? Hyperanalysis applies to the whole of the text. The local hypersyntactic module explores everything that introduces an object, defines it, names it (

APA, Harvard, Vancouver, ISO, and other styles

26

Charnois, Thierry. "Accès à l'information : vers une hybridation fouille de données et traitement automatique des langues." Habilitation à diriger des recherches, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00657919.

Full text

Abstract:

Ce mémoire porte sur mes travaux de recherche en traitement automatique des langues (TAL) et en fouille de données textuelles. Il présente comment ces travaux s'organisent autour de la problématique de l'accès à l'information dans les textes. Notre démarche s'appuie sur la prise en compte de l'aspect sémantique de la langue sous forme de modélisation linguistique et de ressources linguistiques pour le développement d'applications. La méthodologie de l'accès à l'information est donc ici vue comme un accès au sens à partir d'une modélisation linguistique relative à l'application visée plutôt qu'un accès aux formes de surface comme l'utilisent par exemple actuellement les méthodes prédominantes des moteurs de recherche. En retour, la formalisation du modèle linguistique et son expérimentation sur corpus visent à améliorer notre connaissance des phénomènes traités et permettre un retour qualitatif, c'est-à-dire explicatif, sur le modèle. L'intérêt pour les méthodes de fouille fondées sur les motifs et la volonté de les intégrer au TAL -- par exemple, pour acquérir automatiquement des ressources linguistiques et alimenter à moindre coût les systèmes de TAL -- procède de la même démarche. Une telle combinaison vise d'une part à repenser la manière dont les processus de TAL peuvent tirer bénéfice de méthodes de fouille spécifiquement adaptées au texte, et d'autre part à renforcer les processus de fouille, en fonction des spécificités de la donnée textuelle, par une prise en compte d'informations de nature linguistique visant notamment à sélectionner l'information la plus pertinente.

APA, Harvard, Vancouver, ISO, and other styles

27

Poibeau, Thierry. "Extraction d'information à base de connaissances hybrides." Paris 13, 2002. http://www.theses.fr/2002PA132001.

Full text

Abstract:

Notre travail se situe dans le domaine de l'extraction d'information. Ce terme désigne l'activité qui consiste à remplir automatiquement une banque de données à partir de textes écrits en langue naturelle. La mise au point des ressources d'un système d'extraction est une tâche longue et fastidieuse, qui demande le plus souvent une expertise de domaine abordé et des connaissances en linguistique informatique. Ce point est bien connu et les concepteurs de systèmes mentionnent tous destemps prohibitifs passés à développer des ressources. . . .

APA, Harvard, Vancouver, ISO, and other styles

28

Stroppa, Nicolas. "Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles /." Paris : École nationale supérieure des télécommunications, 2006. http://catalogue.bnf.fr/ark:/12148/cb40129220d.

Full text

APA, Harvard, Vancouver, ISO, and other styles

29

Beust, Pierre. "Pour une démarche centrée sur l'utilisateur dans les ENT. Apport au Traitement Automatique des Langues." Habilitation à diriger des recherches, Université de Caen, 2013. http://tel.archives-ouvertes.fr/tel-01070522.

Full text

Abstract:

Notre problématique de recherche est ancrée en Traitement Automatique des Langues (TAL). Au sein du TAL, nous nous intéressons à la conception centrée-utilisateur d'environnements où les ressources et les processus mobilisés sont avant tout construits autour et en fonction des attentes et capacités interprétatives de l'utilisateur. La conception centrée-utilisateur n'est pas une posture théorique mais c'est déjà une réalité dans des applications utilisées quotidiennement. C'est le cas des architectures Web 2.0 comme c'est également le cas des Environnements Numériques de Travail (ENT). Notre recherche vise à analyser, concevoir et expérimenter des applications centrées-utilisateur dans les ENT où les capacités interprétatives s'enrichissent des éléments d'interaction dans l'environnement. Ce faisant nous cherchons à faire enrichir le TAL d'interconnexions avec les Interactions Homme-Machine et les EIAH (Environnements Informatiques pour l'Apprentissage Humain). La problématique de l'interprétation est ici omniprésente et elle nous incite à tirer des ponts entre disciplines : entre l'informatique et la linguistique, plus précisément le courant de la sémantique interprétative et entre l'informatique et les sciences cognitives, plus précisément le courant de l'énaction. L'interprétation dans un environnement numérique n'est pas dissociable d'un couplage personne-système et de l'action de l'utilisateur dans cet environnement. Il en découle que nos objets d'étude sont principalement des usages et même des contournements d'usages vertueux par sérendipité. Les perspectives de recherche ouvertes s'orientent donc naturellement vers une mise en valeur de " l'agir interprétatif " dans les environnements numériques.

APA, Harvard, Vancouver, ISO, and other styles

30

Kirman, Jerome. "Mise au point d'un formalisme syntaxique de haut niveau pour le traitement automatique des langues." Thesis, Bordeaux, 2015. http://www.theses.fr/2015BORD0330/document.

Full text

Abstract:

La linguistique informatique a pour objet de construire un modèle formel des connaissances linguistiques, et d’en tirer des algorithmes permettant le traitement automatique des langues. Pour ce faire, elle s’appuie fréquemment sur des grammaires dites génératives, construisant des phrases valides par l’application successive de règles de réécriture. Une approche alternative, basée sur la théorie des modèles, vise à décrire la grammaticalité comme une conjonction de contraintes de bonne formation, en s’appuyant sur des liens profonds entre logique et automates pour produire des analyseurs efficaces. Notre travail se situe dans ce dernier cadre. En s’appuyant sur plusieurs résultats existants en informatique théorique, nous proposons un outil de modélisation linguistique expressif, conçu pour faciliter l’ingénierie grammaticale. Celui-ci considère dans un premier temps la structure abstraite des énoncés, et fournit un langage logique s’appuyant sur les propriétés lexicales des mots pour caractériser avec concision l’ensemble des phrases grammaticalement correctes. Puis, dans un second temps, le lien entre ces structures abstraites et leurs représentations concrètes (en syntaxe et en sémantique) est établi par le biais de règles de linéarisation qui exploitent la logique et le lambda-calcul. Par suite, afin de valider cette approche, nous proposons un ensemble de modélisations portant sur des phénomènes linguistiques divers, avec un intérêt particulier pour le traitement des langages présentant des phénomènes d’ordre libre (c’est-à-dire qui autorisent la permutation de certains mots ou groupes de mots dans une phrase sans affecter sa signification), ainsi que pour leur complexité algorithmique
The goal of computational linguistics is to provide a formal account linguistical knowledge, and to produce algorithmic tools for natural languageprocessing. Often, this is done in a so-called generative framework, where grammars describe sets of valid sentences by iteratively applying some set of rewrite rules. Another approach, based on model theory, describes instead grammaticality as a set of well-formedness logical constraints, relying on deep links between logic and automata in order to produce efficient parsers. This thesis favors the latter approach. Making use of several existing results in theoretical computer science, we propose a tool for linguistical description that is both expressive and designed to facilitate grammar engineering. It first tackles the abstract structure of sentences, providing a logical language based on lexical properties of words in order to concisely describe the set of grammaticaly valid sentences. It then draws the link between these abstract structures and their representations (both in syntax and semantics), through the use of linearization rules that rely on logic and lambda-calculus. Then in order to validate this proposal, we use it to model various linguistic phenomenas, ending with a specific focus on languages that include free word order phenomenas (that is, sentences which allow the free reordering of some of their words or syntagmas while keeping their meaning), and on their algorithmic complexity

APA, Harvard, Vancouver, ISO, and other styles

31

Depain-Delmotte, Frédérique. "Proposition d'un modèle linguistique pour la résolution d'anaphores en vue du traitement automatique des langues." Besançon, 2000. http://www.theses.fr/2000BESA1015.

Full text

Abstract:

Il est impossible d'appréhender l'ánaphore à partir d'un formalisme unique. Ce fait provient directement de la nature complexe et composite du phénomène. Nous proposons de traiter dans cette thèse l'aspect sémantique de l'anaphore pronominale. Les langues naturelles sont fortement contraintes et il existe des règles de sélection strictes qui régissent la combinatoire des occurrences. Faire apparaître un système de règles susceptibles de régir le mécanisme interprétatif de l'anaphore à partir de l'idée qu'il existe des contraintes de sélection entre deux éléments éloignés impliqués dans une relation anaphorique, tel est notre propos. . .

APA, Harvard, Vancouver, ISO, and other styles

32

Namer, Fiammetta. "Pronominalisation et effacement du sujet en génération automatique de textes en langues romanes." Paris 7, 1990. http://www.theses.fr/1990PA077249.

Full text

Abstract:

Ce travail est centre sur la generation de textes a partir de representations semantiques, en francais et en italien. Les points abordes concernent essentiellement les aspects syntaxiques de la pronominalisation: nous montrons que les pronoms personnels et, pour l'italien, le sujet vide, tiennent une place capitale dans le mecanisme de synthese d'un texte. Apres avoir presente le modele de l. Danlos, dont nous nous sommes inspires, nous detaillons les aspects linguistiques de la pronominalisation et leurs consequences en generation: les dependances non locales et croisees mises en jeu par les contraintes de co-occurrence entre pronoms. Apres avoir montre la nature similaire, mais aussi les differences qui existent entre l'effacement du sujet et la formation d'un pronom, nous decrivons les conditions morphologiques, semantiques et syntaxiques necessaires a la realisation de ces deux operations. Nous etudions alors deux approches de la synthese d'une phrase: une approche sequentielle et une approche globale, qui realise toutes les phrases potentielles, avec ou sans pronoms, en parallele, et effectue un choix final. Le chapitre 5 est consacre a l'etude des conditions stylistiques de pronominalisation, basees sur le parallelisme de structure. Ces contraintes apportent des arguments en faveur de l'approche globale, dont nous detaillons les avantages. Dans le chapitre 6, nous utilisons l'application recursive de cette approche pour resoudre des problemes de pronominalisation dans les phrases a completive, et ce apres avoir mis en evidence la complexite de ce phenomene. Enfin, le dernier chapitre decrit le programme qui a ete realise. Ce programme engendre des resumes d'operas de verdi en italien, qui sont presentes et commentes

APA, Harvard, Vancouver, ISO, and other styles

33

Okabe, Shu. "Modèles faiblement supervisés pour la documentation automatique des langues." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG091.

Full text

Abstract:

Face à la menace d'extinction de la moitié des langues parlées aujourd'hui d'ici la fin du siècle, la documentation des langues est un domaine de la linguistique notamment consacré à la collecte, annotation et archivage de données. Dans ce contexte, la documentation automatique des langues vise à outiller les linguistes pour faciliter différentes étapes de la documentation, à travers des approches de traitement automatique du langage.Dans le cadre du projet de documentation automatique CLD2025, cette thèse s'intéresse principalement à deux tâches : la segmentation en mots, identifiant les frontières des mots dans une transcription non segmentée d'une phrase enregistrée, ainsi que la génération de gloses interlinéaires, prédisant des annotations linguistiques pour chaque unité de la phrase. Pour la première, nous améliorons les performances des modèles bayésiens non paramétriques utilisés jusque là à travers une supervision faible, en nous appuyant sur des ressources disponibles de manière réaliste lors de la documentation, comme des phrases déjà segmentées ou des lexiques. Comme nous observons toujours une tendance de sur-segmentation dans nos modèles, nous introduisons un second niveau de segmentation : les morphèmes. Nos expériences avec divers types de modèles de segmentation à deux niveaux indiquent une qualité de segmentation sensiblement meilleure ; nous constatons, par ailleurs, les limites des approches uniquement statistiques pour différencier les mots des morphèmes.La seconde tâche concerne la génération de gloses, soit grammaticales, soit lexicales. Comme ces dernières ne peuvent pas être prédites en se basant seulement sur les données d'entraînement, notre modèle statistique d'étiquetage de séquences fait moduler, pour chaque phrase, les étiquettes possibles et propose une approche compétitive avec les modèles neuronaux les plus récents
In the wake of the threat of extinction of half of the languages spoken today by the end of the century, language documentation is a field of linguistics notably dedicated to the recording, annotation, and archiving of data. In this context, computational language documentation aims to devise tools for linguists to ease several documentation steps through natural language processing approaches.As part of the CLD2025 computational language documentation project, this thesis focuses mainly on two tasks: word segmentation to identify word boundaries in an unsegmented transcription of a recorded sentence and automatic interlinear glossing to predict linguistic annotations for each sentence unit.For the first task, we improve the performance of the Bayesian non-parametric models used until now through weak supervision. For this purpose, we leverage realistically available resources during documentation, such as already-segmented sentences or dictionaries. Since we still observe an over-segmenting tendency in our models, we introduce a second segmentation level: the morphemes. Our experiments with various types of two-level segmentation models indicate a slight improvement in the segmentation quality. However, we also face limitations in differentiating words from morphemes, using statistical cues only. The second task concerns the generation of either grammatical or lexical glosses. As the latter cannot be predicted using training data solely, our statistical sequence-labelling model adapts the set of possible labels for each sentence and provides a competitive alternative to the most recent neural models

APA, Harvard, Vancouver, ISO, and other styles

34

Ravaut, Frédéric. "Analyse automatique des manifestations faciales cliniques par techniques de traitement d'images : application aux manifestations de l'épilepsie." Paris 5, 1999. http://www.theses.fr/1999PA05S027.

Full text

Abstract:

L'objectif de cette thèse est d'apporter la précision du traitement numérique d'images et l'automatisation de certaines taches dans le processus médical d'étude des maladies paroxystiques dont les manifestations sont observables au niveau du visage. A ce titre, nous nous sommes particulièrement intéressés à certaines formes d'épilepsie. Approche totalement innovante dans la démarche diagnostique actuelle, l'analyse automatique des mouvements prend place aux cotes de l'examen clinique et electroencephalographique du patient. Elle exploite les enregistrements vidéo de crises réalisés en milieu hospitalier et utilises par les médecins à des fins d'illustration et de classification des types de crise et des syndromes épileptiques. La démarche méthodologique adoptée consiste à exploiter les séquences d'images numériques pour y étudier le mouvement apparent et réaliser une caractérisation topologique et morphologique des parties significatives du visage. L'ordonnancement des mouvements observables durant la crise, étudié par analyse de différences inter-images, est la traduction du cheminement de l'activité cérébrale anormale liée à la période critique et permet d'en retrouver la source avant propagation : le foyer epileptogene. Cette zone du cerveau focalisera alors plus particulièrement l'attention des médecins dans l'élaboration d'une solution thérapeutique. La caractérisation, qui exploite des techniques de segmentation par approche région puis la définition de paramètres mesures sur les zones segmentées, permet une quantification précise des phénomènes observes là ou n'était réalisée qu'une analyse visuelle. Cette quantification participe au début de l'évaluation chiffrée des manifestations cliniques liées a certaines formes d'épilepsie et a d'autres maladies à caractère paroxystique. Elle permettra, dans les perspectives d'évolution du système potentiellement déclenché par la détection de grapho-elements significatifs dans le tracé electroencephalographique, une reconnaissance automatique du type de crise.

APA, Harvard, Vancouver, ISO, and other styles

35

Stroppa, Nicolas. "Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles." Phd thesis, Télécom ParisTech, 2005. http://tel.archives-ouvertes.fr/tel-00145147.

Full text

Abstract:

Le panorama du Traitement Automatique des Langues est dominé par deux familles d'approches~: dans la première, la connaissance linguistique s'exprime sous forme de règles (grammaticales pour le traitement syntaxique, d'inférence pour le traitement sémantique, etc.), et de représentations sur lesquelles ces règles opèrent. La deuxième repose sur l'hypothèse d'un modèle probabiliste sous-jacent aux données, modèle dont les paramètres s'infèrent à partir de corpus de données linguistiques annotées. Ces deux familles de méthodes, bien qu'efficaces pour nombre d'applications, présentent de sérieuses limitations. Pour la première, il s'agit de la difficulté et du coût de construction des bases de connaissances de haute qualité~: les experts sont rares et la connaissance accumulée sur un domaine $X$ ne se transporte pas toujours simplement sur un autre domaine $Y$. Les méthodes probabilistes, quant à elles, ne traitent pas naturellement les objets fortement structurés, ne prévoient pas d'inclusion de connaissances linguistiques explicites, et surtout, reposent lourdement sur le choix a priori d'un certain modèle, puisqu'utilisant principalement des techniques de statistiques paramétriques.

Dans le cadre d'un apprentissage automatique de données linguistiques, des modèles inférentiels alternatifs ont alors été proposés qui remettent en cause le principe d'abstraction opéré par les règles ou les modèles probabilistes. Selon cette conception, la connaissance linguistique reste implicitement représentée dans le corpus accumulé. Dans le domaine de l'Apprentissage Automatique, les méthodes suivant les même principes sont regroupées sous l'appellation d'apprentissage \og{}paresseux\fg{}. Ces méthodes reposent généralement sur le biais d'apprentissage suivant~: si un objet $Y$ est \og{}proche\fg{} d'un objet $X$, alors son analyse $f(Y)$ est un bon candidat pour $f(X)$. Alors que l'hypothèse invoquée se justifie pour les applications usuellement traitées en Apprentissage Automatique, la nature structurée et l'organisation paradigmatique des données linguistiques suggèrent une approche légèrement différente. Pour rendre compte de cette particularité, nous étudions un modèle reposant sur la notion de \og{}proportion analogique\fg{}. Dans ce modèle, l'analyse $f(T)$ d'un nouvel objet $T$ s'opère par identification d'une proportion analogique avec des objets $X$, $Y$ et $Z$ déjà connus. L'hypothèse analogique postule ainsi que si \lana{X}{Y}{Z}{T}, alors \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$f(T)$}. Pour inférer $f(T)$ à partir des $f(X)$, $f(Y)$, $f(Z)$ déjà connus, on résout l'\og{}équation analogique\fg{} d'inconnue $I$~: \lana{$f(X)$}{$f(Y)$}{$f(Z)$}{$I$}.

Nous présentons, dans la première partie de ce travail, une étude de ce modèle de proportion analogique au regard d'un cadre plus général que nous qualifierons d'\og{}apprentissage par analogie\fg{}. Ce cadre s'instancie dans un certain nombre de contextes~: dans le domaine des sciences cognitives, il s'agit de raisonnement par analogie, faculté essentielle au c\oe{}ur de nombreux processus cognitifs~; dans le cadre de la linguistique traditionnelle, il fournit un support à un certain nombre de mécanismes tels que la création analogique, l'opposition ou la commutation~; dans le contexte de l'apprentissage automatique, il correspond à l'ensemble des méthodes d'apprentissage paresseux. Cette mise en perspective offre un éclairage sur la nature du modèle et les mécanismes sous-jacents.

La deuxième partie de notre travail propose un cadre algébrique unifié, définissant la notion de proportion analogique. Partant d'un modèle de proportion analogique entre chaînes de symboles, éléments d'un monoïde libre, nous présentons une extension au cas plus général des semigroupes. Cette généralisation conduit directement à une définition valide pour tous les ensembles dérivant de la structure de semigroupe, permettant ainsi la modélisation des proportions analogiques entre représentations courantes d'entités linguistiques telles que chaînes de symboles, arbres, structures de traits et langages finis. Des algorithmes adaptés au traitement des proportions analogiques entre de tels objets structurés sont présentés. Nous proposons également quelques directions pour enrichir le modèle, et permettre ainsi son utilisation dans des cas plus complexes.

Le modèle inférentiel étudié, motivé par des besoins en Traitement Automatique des Langues, est ensuite explicitement interprété comme une méthode d'Apprentissage Automatique. Cette formalisation a permis de mettre en évidence plusieurs de ses éléments caractéristiques. Une particularité notable du modèle réside dans sa capacité à traiter des objets structurés, aussi bien en entrée qu'en sortie, alors que la tâche classique de classification suppose en général un espace de sortie constitué d'un ensemble fini de classes. Nous montrons ensuite comment exprimer le biais d'apprentissage de la méthode à l'aide de l'introduction de la notion d'extension analogique. Enfin, nous concluons par la présentation de résultats expérimentaux issus de l'application de notre modèle à plusieurs tâches de Traitement Automatique des Langues~: transcription orthographique/phonétique, analyse flexionnelle et analyse dérivationnelle.

APA, Harvard, Vancouver, ISO, and other styles

36

Saadane, Houda. "Le traitement automatique de l’arabe dialectalisé : aspects méthodologiques et algorithmiques." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAL022/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

37

Munch, Damien. "Un modèle dynamique et parcimonieux du traitement automatisé de l'aspect dans les langues naturelles." Electronic Thesis or Diss., Paris, ENST, 2013. http://www.theses.fr/2013ENST0058.

Full text

Abstract:

Dans cette thèse nous avons cherché et développé un modèle du traitement de l'aspect dans les langues naturelles. Notre objectif a été d'élaborer un modèle détaillé et explicatif qui montre la possibilité de traiter l'aspect sur un nombre choisi d’énoncés tout en suivant des contraintes fortes de parcimonie et de plausibilité cognitive. Nous avons réussi à mettre au point un modèle original dans sa réalisation, mais aussi dans ses résultats : des explications nouvelles sont données pour le traitement d'interprétations comme la répétition, la perfectivité ou l'inchoativité ; tout en dévoilant un phénomène original dit de "prédication"
The purpose of this work is to design and to implement a computational model for the processing of aspect in natural language.Our goal is to elaborate a detailed and explicative model of aspect. This model should be able to process aspect on a chosen number of sentences, while following strong constraints of parsimony and cognitive plausibility. We were successful in creating such a model, with both an original design and an extensive explanatory power. New explanations have been obtained for phenomena like repetition, perfectivity and inchoativity. We also propose a new mechanism based on the notion of “predication”

APA, Harvard, Vancouver, ISO, and other styles

38

Perez, Laura Haide. "Génération automatique de phrases pour l'apprentissage des langues." Thesis, Université de Lorraine, 2013. http://www.theses.fr/2013LORR0062/document.

Full text

Abstract:

Dans ces travaux, nous explorons comment les techniques de Générations Automatiques de Langue Naturelle (GLN) peuvent être utilisées pour aborder la tâche de génération (semi-)automatique de matériel et d'activités dans le contexte de l'apprentissage de langues assisté par ordinateur. En particulier, nous montrons comment un Réalisateur de Surface (RS) basé sur une grammaire peut être exploité pour la création automatique d'exercices de grammaire. Notre réalisateur de surface utilise une grammaire réversible étendue, à savoir SemTAG, qui est une Grammaire d'Arbre Adjoints à Structure de Traits (FB-TAG) couplée avec une sémantique compositionnelle basée sur l'unification. Plus précisément, la grammaire FB-TAG intègre une représentation plate et sous-spécifiée des formules de Logique de Premier Ordre (FOL). Dans la première partie de la thèse, nous étudions la tâche de réalisation de surface à partir de formules sémantiques plates et nous proposons un algorithme de réalisation de surface basé sur la grammaire FB-TAG optimisé, qui supporte la génération de phrases longues étant donné une grammaire et un lexique à large couverture. L'approche suivie pour l'optimisation de la réalisation de surface basée sur FB-TAG à partir de sémantiques plates repose sur le fait qu'une grammaire FB-TAG peut être traduite en une Grammaire d'Arbres Réguliers à Structure de Traits (FB-RTG) décrivant ses arbres de dérivation. Le langage d'arbres de dérivation de la grammaire TAG constitue un langage plus simple que le langage d'arbres dérivés, c'est pourquoi des approches de génération basées sur les arbres de dérivation ont déjà été proposées. Notre approche se distingue des précédentes par le fait que notre encodage FB-RTG prend en compte les structures de traits présentes dans la grammaire FB-TAG originelle, ayant de ce fait des conséquences importantes par rapport à la sur-génération et la préservation de l'interface syntaxe-sémantique. L'algorithme de génération d'arbres de dérivation que nous proposons est un algorithme de type Earley intégrant un ensemble de techniques d'optimisation bien connues: tabulation, partage-compression (sharing-packing) et indexation basée sur la sémantique. Dans la seconde partie de la thèse, nous explorons comment notre réalisateur de surface basé sur SemTAG peut être utilisé pour la génération (semi-)automatique d'exercices de grammaire. Habituellement, les enseignants éditent manuellement les exercices et leurs solutions et les classent au regard de leur degré de difficulté ou du niveau attendu de l'apprenant. Un courant de recherche dans le Traitement Automatique des Langues (TAL) pour l'apprentissage des langues assisté par ordinateur traite de la génération (semi-)automatique d'exercices. Principalement, ces travaux s'appuient sur des textes extraits du Web, utilisent des techniques d'apprentissage automatique et des techniques d'analyse de textes (par exemple, analyse de phrases, POS tagging, etc.). Ces approches confrontent l'apprenant à des phrases qui ont des syntaxes potentiellement complexes et du vocabulaire varié. En revanche, l'approche que nous proposons dans cette thèse aborde la génération (semi-)automatique d'exercices du type rencontré dans les manuels pour l'apprentissage des langues. Il s'agit, en d'autres termes, d'exercices dont la syntaxe et le vocabulaire sont faits sur mesure pour des objectifs pédagogiques et des sujets donnés. Les approches de génération basées sur des grammaires associent les phrases du langage naturel avec une représentation linguistique fine de leur propriété morpho-syntaxiques et de leur sémantique grâce à quoi il est possible de définir un langage de contraintes syntaxiques et morpho-syntaxiques permettant la sélection de phrases souches en accord avec un objectif pédagogique donné. Cette représentation permet en outre d'opérer un post-traitement des phrases sélectionées pour construire des exercices de grammaire
In this work, we explore how Natural Language Generation (NLG) techniques can be used to address the task of (semi-)automatically generating language learning material and activities in Camputer-Assisted Language Learning (CALL). In particular, we show how a grammar-based Surface Realiser (SR) can be usefully exploited for the automatic creation of grammar exercises. Our surface realiser uses a wide-coverage reversible grammar namely SemTAG, which is a Feature-Based Tree Adjoining Grammar (FB-TAG) equipped with a unification-based compositional semantics. More precisely, the FB-TAG grammar integrates a flat and underspecified representation of First Order Logic (FOL) formulae. In the first part of the thesis, we study the task of surface realisation from flat semantic formulae and we propose an optimised FB-TAG-based realisation algorithm that supports the generation of longer sentences given a large scale grammar and lexicon. The approach followed to optimise TAG-based surface realisation from flat semantics draws on the fact that an FB-TAG can be translated into a Feature-Based Regular Tree Grammar (FB-RTG) describing its derivation trees. The derivation tree language of TAG constitutes a simpler language than the derived tree language, and thus, generation approaches based on derivation trees have been already proposed. Our approach departs from previous ones in that our FB-RTG encoding accounts for feature structures present in the original FB-TAG having thus important consequences regarding over-generation and preservation of the syntax-semantics interface. The concrete derivation tree generation algorithm that we propose is an Earley-style algorithm integrating a set of well-known optimisation techniques: tabulation, sharing-packing, and semantic-based indexing. In the second part of the thesis, we explore how our SemTAG-based surface realiser can be put to work for the (semi-)automatic generation of grammar exercises. Usually, teachers manually edit exercises and their solutions, and classify them according to the degree of dificulty or expected learner level. A strand of research in (Natural Language Processing (NLP) for CALL addresses the (semi-)automatic generation of exercises. Mostly, this work draws on texts extracted from the Web, use machine learning and text analysis techniques (e.g. parsing, POS tagging, etc.). These approaches expose the learner to sentences that have a potentially complex syntax and diverse vocabulary. In contrast, the approach we propose in this thesis addresses the (semi-)automatic generation of grammar exercises of the type found in grammar textbooks. In other words, it deals with the generation of exercises whose syntax and vocabulary are tailored to specific pedagogical goals and topics. Because the grammar-based generation approach associates natural language sentences with a rich linguistic description, it permits defining a syntactic and morpho-syntactic constraints specification language for the selection of stem sentences in compliance with a given pedagogical goal. Further, it allows for the post processing of the generated stem sentences to build grammar exercise items. We show how Fill-in-the-blank, Shuffle and Reformulation grammar exercises can be automatically produced. The approach has been integrated in the Interactive French Learning Game (I-FLEG) serious game for learning French and has been evaluated both based in the interactions with online players and in collaboration with a language teacher

APA, Harvard, Vancouver, ISO, and other styles

39

Baldy, Bernard. "Vérifications, détections et corrections syntaxico-sémantiques dans le traitement automatique des langues à partir du formalisme des grammaires syntagmatiques généralisées." Paris 13, 1995. http://www.theses.fr/1995PA132029.

Full text

Abstract:

Nous proposons dans ce mémoire de faire le point sur l'avancement dans le domaine du langage naturel des traitements d'erreurs associés. Les traitements orientés vers la vérification, la détection et la correction d'erreurs tendent tous à intégrer la composante sémantique, les niveaux lexicaux et syntaxiques étant de plus en plus performants. En parallèle, nous présentons dans cette thèse, différentes méthodes pour augmenter la tolérance d'une analyse syntaxique par l'adjonction d'informations sémantiques. Nous avons voulu par ce biais, apprécier les limites d'analyses dans un environnement purement syntaxique, sur un corpus d'erreurs relevant de contraintes syntaxico-sémantiques. Pour cela, nous avons construit une grammaire minimale à partir d'un environnement de développement de grammaires basées sur le formalisme des g. P. S. G. Nous avons établi des critères sémantiques et des contraintes linguistiques afin de les incorporer dans la grammaire. Nous expliquons les travaux effectués sur l'analyseur et la grammaire minimale, ainsi que le résultat des analyses en fonction du corpus d'erreurs choisi.

APA, Harvard, Vancouver, ISO, and other styles

40

Arnulphy, Béatrice. "Désignations nominales des événements : étude et extraction automatique dans les textes." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00758062.

Full text

Abstract:

Ma thèse a pour but l'étude des désignations nominales des événements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une démarche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles à une application particulière. Dans ce but général, de nombreuses campagnes d'extraction d'information ont été menées~: pour chaque événement considéré, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). Dès le départ, ces challenges touchent de près aux entités nommées (éléments " notables " des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'événement. Pourtant, ces travaux ne s'intéressent que peu aux mots utilisés pour décrire l'événement (particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme un tout englobant, comme la quantité et la qualité des informations qui le composent. Contrairement aux travaux en extraction d'informations générale, notre intérêt principal est porté uniquement sur la manière dont sont nommés les événements qui se produisent et particulièrement à la désignation nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les événements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un événement peut être évoqué par une description verbale ou nominale. Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous avons observé et comparé les différents aspects présentés dans l'état de l'art jusqu'à construire une définition de l'événement et une typologie des événements en général, et qui conviennent dans le cadre de nos travaux et pour les désignations nominales des événements. Nous avons aussi dégagé de nos études sur corpus différents types de formation de ces noms d'événements, dont nous montrons que chacun peut être ambigu à des titres divers. Pour toutes ces études, la composition d'un corpus annoté est une étape indispensable, nous en avons donc profité pour élaborer un guide d'annotation dédié aux désignations nominales d'événements. Nous avons étudié l'importance et la qualité des lexiques existants pour une application dans notre tâche d'extraction automatique. Nous avons aussi, par des règles d'extraction, porté intérêt au cotexte d'apparition des noms pour en déterminer l'événementialité. À la suite de ces études, nous avons extrait un lexique pondéré en événementialité (dont la particularité est d'être dédié à l'extraction des événements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de représenter des événements. Utilisée comme indice pour l'extraction des noms d'événements, cette pondération permet d'extraire des noms qui ne sont pas présents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillé sur des traits d'apprentissage contextuels en partie fondés sur la syntaxe pour extraire de noms d'événements.

APA, Harvard, Vancouver, ISO, and other styles

41

Li, Yiping. "Étude des problèmes spécifiques de l'intégration du chinois dans un système de traitement automatique pour les langues européennes." Université de Marne-la-Vallée, 2006. http://www.theses.fr/2006MARN0282.

Full text

Abstract:

L’analyse linguistique est une étape fondamentale et essentielle pour le traitement automatique des langues. En effet, elle permet d’étiqueter les mots avec des catégories morphosyntaxiques et d’identifier des entités nommées pour pouvoir réaliser des applications du plus haut niveau, par exemple la recherche d’information, la traduction automatique, la question réponse, etc. L’analyse linguistique du chinois remplit les mêmes missions que celle des autres langues. Mais elle présente une difficulté supplémentaire liée au fait de ne pas avoir de délimiteurs entre les mots. Puisque le mot est l’unité essentielle d’une langue, une segmentation des phrases en mots est indispensable pour le traitement du chinois. Parmi des études existantes, la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées sont souvent enchaînés comme les étapes différentes. La segmentation se sert de la base pour les deux autres. Ce type d’approches subit malheureusement un blocage au niveau de la segmentation : c’est-à-dire que certaines erreurs de segmentation sont inévitables. C’est pourquoi des modèles statistiques qui réalisent la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées ou la segmentation et l’un des deux autres traitements simultanément, ont été créés. Cette combinaison permet d’utiliser des informations supplémentaires apportées par l’étiquettes morphosyntaxiques et l’identification des entités nommées afin d’aider la segmentation. Cependant un modèle unique n’est pas modulaire. Donc il est difficile d’adapter le même modèle aux autres langues, à cause des caractéristiques particulières de chaque langue. Par conséquent, cette approche n’est pas approprie pour créer des systèmes d’analyse automatique multilingue. L’objectif de mon étude consiste à intégrer l’analyse automatique du chinois dans un système d’analyse multilingue LIMA. Par rapport à un système de traitement d’information monolingue du chinois, certaines contraintes sont imposées. D’abord, des traitements pour le chinois doivent être compatibles avec ceux d’autres langues. Ensuite, pour garder la cohérence et l’unité du système, il est favorable d’employer au maximum des modules de traitement en commun pour toutes les langues traitées par le système. En conséquence, le choix s’est porté sur l’utilisation des modules séparés pour la segmentation, l’étiquetage morphosyntaxique et l’identification des entités nommées. Le fait de concevoir des traitements modulaires rend des modules de traitements spécifiques au chinois réutilisables pour d’autres langues ayant des traits linguistiques similaire et il facilite également des réactions entre les traitements. Néanmoins, ce type de méthodes enchaînant des trois traitements ne prend pas en compte des dépendances entre eux. Pour surmonter ce défaut, nous utilisons les informations fournies par l’analyse morphosyntaxique, par l’identification des entités nommées et par des connaissances linguistiques afin d’améliorer la segmentation. Une analyse des origines d’erreurs produites par des traitements enchaînés nous a inspiré une étude de l’interdépendance entre les trois traitements. Etant donné ces interdépendances, trois traitements spécifiques sont rajoutés au système : un prétraitement avant la segmentation basée sur le modèle de cooccurrence, une tokenization de termes liés aux chiffres écrits en caractères chinois et un traitement complémentaire pour la segmentation en identifiant certaines entités nommées entre l’étape de la segmentation et celle de l’étiquetage morphosyntaxique. Ces traitements rajoutés apportent des améliorations importantes à notre système
Linguistic analysis is a fundamental and essential step for natural language processing. It often includes part-of-speech tagging and named entity identification in order to realize higher level applications, such as information retrieval, automatic translation, question answers, etc. Chinese linguistic analysis must perform the same tasks as that of other languages, but it must resolve a supplemental difficulty caused by the lack of delimiter between words. Since the word is the elementary unit for automated language processing, it is indispensable to segment sentences into words for Chinese language processing. In most existing system described in the literature, segmentation, part-of-speech tagging and named entity recognition are often presented as three sequential, independent steps. But since segmentation provides the basis for and impacts the other two steps, some statistical methods which collapse all three treatments or two of the three into one module have been proposed. With these combinations of steps, segmentation can be improved by complementary information supplied by part-of-speech tagging and named entity recognition, and global analysis of Chinese improved. However this unique treatment model is not modular and difficult to adapt to different languages other than Chinese. Consequently, this approach is not suitable for creating multilingual automatic analysis systems. This dissertation studies the integration Chinese automatic analysis into an existing multilingual analysis system LIMA. Originally built for European languages, LIMA’s modular approach imposes some constraints that a monolingual Chinese analysis system need not consider. Firstly, the treatment for Chinese should be compatible and follow the same flow as other languages. And secondly, in order to keep the system coherent, it is preferable to employ common modules for all the languages treated by the system, including a new language like Chinese. To respect these constraints, we chose to realize the phases of segmentation, part-of-speech tagging and named entity recognition separately. Our modular treatment includes a specific module for Chinese analysis that should be reusable for other languages with similar linguistic features. After error analysis of this purely modular approach, we were able to improve our segmentation with enriched information supplied by part-ofspeech tagging, named entity recognition and some linguistic knowledge. In our final results, three specific treatments have been added into the LIMA system: a pretreatment based on a co-occurrence model applied before segmentation, a term tokenization relative to numbers written in Chinese characters, and a complementary treatment after segmentation that identifies certain named entities before subsequent part-of-speech tagging. We evaluate and discuss the improvement that these additional treatments bring to our analysis, while retaining the modular and linear approach of the underlying LIMA natural language processing system

APA, Harvard, Vancouver, ISO, and other styles

42

Munch, Damien. "Un modèle dynamique et parcimonieux du traitement automatisé de l'aspect dans les langues naturelles." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0058/document.

Full text

Abstract:

Dans cette thèse nous avons cherché et développé un modèle du traitement de l'aspect dans les langues naturelles. Notre objectif a été d'élaborer un modèle détaillé et explicatif qui montre la possibilité de traiter l'aspect sur un nombre choisi d’énoncés tout en suivant des contraintes fortes de parcimonie et de plausibilité cognitive. Nous avons réussi à mettre au point un modèle original dans sa réalisation, mais aussi dans ses résultats : des explications nouvelles sont données pour le traitement d'interprétations comme la répétition, la perfectivité ou l'inchoativité ; tout en dévoilant un phénomène original dit de "prédication"
The purpose of this work is to design and to implement a computational model for the processing of aspect in natural language.Our goal is to elaborate a detailed and explicative model of aspect. This model should be able to process aspect on a chosen number of sentences, while following strong constraints of parsimony and cognitive plausibility. We were successful in creating such a model, with both an original design and an extensive explanatory power. New explanations have been obtained for phenomena like repetition, perfectivity and inchoativity. We also propose a new mechanism based on the notion of “predication”

APA, Harvard, Vancouver, ISO, and other styles

43

Boulaknadel, Siham. "Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité : apport des connaissanaces morphologiques et syntaxiques pour l'indexation." Nantes, 2008. http://www.theses.fr/2008NANT2052.

Full text

Abstract:

La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé. Notre thèse s’inscrit dans le cadre de la recherche d’information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d’une part, d’identifier les termes complexes présents dans les requêtes et les documents. D’autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d’identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s’appuyant sur une approche mixte qui combine modèle statistique et données linguistiques
Information retrieval aims to provide to an user an easy access to information. To achieve this goal, an information retrieval system (IRS) must represent, store and organize information, then provide to the user the elements corresponding to the need for information expressed by his query. Most of information retrieval systems (IRS) use simple terms to index and retrieve documents. However, this representation is not precise enough to represent the contents of documents and queries, because of the ambiguity of terms isolated from their context. A solution to this problem is to use multi-word terms to replace simple term. This approach is based on the assumption that a multi-word term is less ambiguous than a simple term. Our thesis is part of the information retrieval in Arabic specific domain. The objective of our work was on the one hand, identifying a multi-word terms present in queries and documents. On the other hand, exploiting the richness of language by combining several linguistic knowledge belonging at the morphological and syntax level, and showing how the contribution of syntactic and morphological knowledge helps to improve access to information. Thus, we proposed a platform integrating various components in the public domain; it leads to show significant contribution of these components. In addition, we have defined linguistically a multi-word term in Arabic and we developed a system of identification of multi-word terms which is based on a mixed approach combining statistical model and linguistic data

APA, Harvard, Vancouver, ISO, and other styles

44

Thibeault, Mélanie, and Mélanie Thibeault. "La catégorisation grammaticale automatique : adaptation du catégoriseur de Brill au français et modification de l'approche." Master's thesis, Université Laval, 2004. http://hdl.handle.net/20.500.11794/17984.

Full text

Abstract:

Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2004-2005
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2004-2005
La catégorisation grammaticale automatique est un domaine où il reste encore beaucoup à faire. De très bons catégoriseurs existent pour l'anglais, mais ceux dont dispose la communauté francophone sont beaucoup moins efficaces. Nous avons donc entraîné le catégoriseur de Brill pour le français pour ensuite en améliorer les résultats. Par ailleurs, quelle que soit la technique utilisée, certains problèmes restent irrésolus. Les mots inconnus sont toujours difficiles à catégoriser correctement. Nous avons tenté de trouver des solutions à ce problème. En somme, nous avons apporté une série de modifications à l'approche de Brill et évalué l'impact de celles-ci sur les performances. Les modifications apportées ont permis de faire passer les performances du traitement des mots inconnus français de 70,7% à 78,6%. Nous avons donc amélioré sensiblement les performances bien qu'il reste encore beaucoup de travail à faire avant que le traitement des mots inconnus français soit satisfaisant.
La catégorisation grammaticale automatique est un domaine où il reste encore beaucoup à faire. De très bons catégoriseurs existent pour l'anglais, mais ceux dont dispose la communauté francophone sont beaucoup moins efficaces. Nous avons donc entraîné le catégoriseur de Brill pour le français pour ensuite en améliorer les résultats. Par ailleurs, quelle que soit la technique utilisée, certains problèmes restent irrésolus. Les mots inconnus sont toujours difficiles à catégoriser correctement. Nous avons tenté de trouver des solutions à ce problème. En somme, nous avons apporté une série de modifications à l'approche de Brill et évalué l'impact de celles-ci sur les performances. Les modifications apportées ont permis de faire passer les performances du traitement des mots inconnus français de 70,7% à 78,6%. Nous avons donc amélioré sensiblement les performances bien qu'il reste encore beaucoup de travail à faire avant que le traitement des mots inconnus français soit satisfaisant.

APA, Harvard, Vancouver, ISO, and other styles

45

Sébillot, Pascale. "Apprentissage sur corpus de relations lexicales sémantiques - La linguistique et l'apprentissage au service d'applications du traitement automatique des langues." Habilitation à diriger des recherches, Université Rennes 1, 2002. http://tel.archives-ouvertes.fr/tel-00533657.

Full text

Abstract:

Le document présente une synthèse des recherches que nous avons menées sur le thème de l'acquisition de ressources lexicales à partir de corpus textuels. Plus particulièrement, ces travaux portent sur le développement de méthodes d'apprentissage automatique de relations lexicales sémantiques, ayant pour objectif d'enrichir la description de mots dans une double optique de désambiguïsation et de traitement de variantes sémantiques intra- et intercatégorielles, et susceptibles d'être utilisées au sein de différentes applications (recherche d'information, filtrage...). Nos études se caractérisent particulièrement par le fort couplage que nous recherchons entre les méthodes d'apprentissage développées et des théories linguistiques. Ces théories nous servent de cadres pour déterminer les relations lexicales pertinentes, valider ce qui est acquis, voire mettre au point la méthode d'apprentissage nécessaire à cette acquisition; de plus, les éléments appris doivent être linguistiquement motivés et significatifs. Ainsi, nous décrivons comment, en nous positionnant dans le cadre de la sémantique interprétative de F. Rastier, nous cherchons à apprendre, par des méthodes statistiques (en particulier de classification ascendante hiérarchique), des liens paradigmatiques intracatégoriels - antonymie, synonymie..., mais aussi d'autres liens plus fins de type sémique - à partir de corpus non spécialisés. D'autre part, nous expliquons comment, en contrôlant leur pertinence grâce au formalisme du Lexique génératif de J. Pustejovsky, nous acquérons par de l'apprentissage symbolique de type programmation logique inductive des liens transcatégoriels nomino-verbaux. Parmi les perspectives évoquées en conclusion, nous abordons en particulier les questions soulevées lorsque l'on s'intéresse à l'insertion des relations acquises dans un système de recherche d'information pour reformuler des requêtes, ainsi que celles concernant l'évaluation des apports de ces ressources lexicales. Nous discutons également de la pertinence de l'utilisation de méthodes d'apprentissage explicative pour acquérir des informations en corpus.

APA, Harvard, Vancouver, ISO, and other styles

46

Sébillot, Pascale. "Apprentissage sur corpus de relations lexicales sémantiques la linguistique et l'apprentissage au service d'applications du traitement automatique des langues /." [S.l.] : [s.n.], 2002. http://www.irisa.fr/centredoc/publis/HDR/2002/irisapublication.2005-08-03.1402955054.

Full text

APA, Harvard, Vancouver, ISO, and other styles

47

Chalendar, Gaël de. "SVETLAN', un système de structuration du lexique guidé par la détermination automatique du contexte thématique." Paris 11, 2001. http://www.theses.fr/2001PA112258.

Full text

Abstract:

Des connaissances sémantiques sont obligatoires pour le Traitement Automatique des Langues. Malheureusement, les classifications à visée universelle sont une utopie. Il existe des systèmes d'extraction de connaissances sémantiques des textes de spécialité par des approches terminologiques mais il est largement reconnu qu'il n'est pas possible d'effectuer une telle extraction de textes de la langue dite " générale ". Cette thèse a pour but de montrer que cette idée est fausse. Nous montrons qu'une analyse thématique de textes non spécialisés (journaux, dépêches de presse en texte intégral ou pages HTML moissonnées sur le Web) permet la plupart du temps de se ramener dans le cadre d'un problème classique de traitement de corpus spécialisé, tout en nécessitant des interventions humaines très réduites. Dans notre approche, le thème des segments de textes est détecté par l'analyse statistique des distributions des mots. Après avoir défini des notions de similarité et d'agrégation, les mots des segments similaires sont agrégés pour former des domaines thématiques dans lesquels les mots de poids élevés décrivent un thème. On regroupe les noms qui apparaissent comme argument d'un même verbe dans les divers segments de texte appartenant à un certain thème, ce qui forme des classes. Notre argumentation est implémentée dans un système informatique. SVETLAN', qui a été testé sur des corpus de plusieurs millions de mots en français et en anglais. L'analyse empirique des résultats montre que, comme prévu, les mots sont très souvent en relation sémantique forte les uns avec les autres dans les classes obtenues, et ce dans le contexte déterminé par le thème. Le jugement humain de classes n'étant pas suffisamment sûr, nous validons de manière indirecte les connaissances acquises par SVETLAN' en les utilisant dans une tâche d'extension de requêtes en vue de l'amélioration des performances d'un système de réponse à des questions en langue naturelle
Semantic knowledge is mandatory for Natural Language Processing. Unfortunately, classifications that have universal goals are an utopia. There exists systems that extracts semantic knowledge from specialized texts but it is well known that it is not possible to do such an extraction from texts said to be of "general" language. The goal of this doctoral dissertation is to show that this idea is false. We show that a thematic analysis of non-specialized texts (newspapers, newswires or HTML pages gathered from the Web) usually allows to reduce the problem to a classical one where the analysis of a technical corpus is done, but where the human interventions are limited. With our approach, the theme of text segments is detected by the statistical analysis of word distributions, designed notions of similarity and aggregation. They allow to aggregate the words of similar segments to build thematic domains where higher weighted words describe the theme. We then group the words that appear as the same argument of the same verb in the various text segments belonging to a theme. That forms classes of words. We have implemented our model in a system called SVETLAN' which has been tested on several French and English million words corpus. The empirical analysis of the results shows that, as anticipated, words are usually in a strong mutual semantic relation in the classes that are obtained, in the context determined by the theme. Human judgment of word classes is not very consistent. So, we indirectly validate the semantic knowledge obtained by SVETLAN' in using it in a request expansion task in order to improve the results of a natural language question answering system

APA, Harvard, Vancouver, ISO, and other styles

48

Colotte, Vincent. "Techniques d'analyse et de synthèse de la parole appliquées à l'apprentissage des langues." Nancy 1, 2002. http://www.theses.fr/2002NAN10222.

Full text

Abstract:

À l'heure où les échanges entre les individus ne cessent de s'internationaliser, la maîtrise d'une langue étrangère devient peu à peu indispensable. L'apprentissage d'une langue assisté par ordinateur apparaît comme un nouvel enjeu. En particulier, l'amélioration de compréhension orale constitue l'une des clés de la maîtrise d'une langue. Pour améliorer l'intelligibilité, j'ai élaboré une première stratégie basée sur le ralentissement sélectif du signal de parole. Les parties transitoires, de forte concentration d'indices acoustiques, se révèlent être des candidats privilégiés pour le ralentissement. La détection de ces régions est basée sur le calcul d'un coefficient reflétant le taux de variation du spectre. J'ai élaboré une seconde stratégie consistant à renforcer les évènements pertinents de la parole c'est-à-dire ceux dont l'amplification améliore l'intelligibilité. J'ai basé ma stratégie sur le principe de préservation des oppositions phonétiques, notamment entre les consonnes voisées et non-voisées. Ainsi, j'ai développé un algorithme de détection des bursts et des fricatives sourdes à partir de critères énergétiques. Des expériences de perception ont validé les stratégies d'amélioration de l'intelligibilité : une préliminaire avec des français sur des phrases américaines (TIMIT) et une seconde avec des étudiants étrangers (apprenant le français comme langue étrangère) sur des phrases françaises (BDSON). Enfin, pour réaliser ces modifications prosodiques (rythme, intensité, fréquence fondamentale), je me suis appuyé sur la méthode PSOLA. J'ai élaboré un algorithme de marquage de la période du fondamental et amélioré la précision de la méthode de synthèse. La mise en oeuvre de ces stratégies est totalement automatique et cette approche permet d'améliorer l'intelligibilité d'un signal de parole dans le cadre de l'apprentissage d'une langue
Nowadays when exchanges between people are more and more international, foreign language grasp is becoming essential. The computer-assisted language learning seems to be a new stake. In particular, the improvement of oral comprehension constitutes one of keys to control a language. To improve intelligibility, I work out a first strategy based on selective slowing down of speech signal. The transitory parts - regions of high acoustic cue concentration - turns out to be privileged candidates to the slowing down. The detection of these regions is based on the computation of a coefficient which reflects spectrum variation rate. I work out a second strategy which enhances relevant events of speech, i. E. That its amplification improves intelligibility. This strategy is based on the preservation of phonetic contrasts, in particular between voiced and unvoiced consonants. Thus, I developed an algorithm of detection of unvoiced plosives and unvoiced fricatives from criteria on energy. Two experiments of perception have been carried out to validate these strategies of intelligibility improvement: the first, preliminary, with French listeners on American sentences and the second with foreign students (learning French as foreign language) on French sentences. At last, to modify the prosodic elements (rhythm, intensity, fundamental frequency), my work was based on PSOLA method (Pitch Synchronous OverLap and Add). I work out an algorithm of pitch marking and I improve the accuracy of synthesis method. These strategies are totally automatic and allow to improve intelligibility of speech signal in the framework of language learning

APA, Harvard, Vancouver, ISO, and other styles

49

Ramisch, Carlos eduardo. "Un environnement générique et ouvert pour le traitement des expressions polylexicales : de l'acquisition aux applications." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00859910.

Full text

Abstract:

Cette thèse présente un environnement ouvert et souple pour l'acquisition automatique d'expressions multimots (MWE) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des MWE pour les applications du TALN. Après avoir brièvement présenté les modules de l'environnement, le mémoire présente des résultats d'évaluation intrinsèque en utilisant deux applications: la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique de MWE, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des MWE dans ces applications et dans bien d'autres

APA, Harvard, Vancouver, ISO, and other styles

50

Samson, Juan Sarah Flora. "Exploiting resources from closely-related languages for automatic speech recognition in low-resource languages from Malaysia." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAM061/document.

Full text

Abstract:

Les langues en Malaisie meurent à un rythme alarmant. A l'heure actuelle, 15 langues sont en danger alors que deux langues se sont éteintes récemment. Une des méthodes pour sauvegarder les langues est de les documenter, mais c'est une tâche fastidieuse lorsque celle-ci est effectuée manuellement.Un système de reconnaissance automatique de la parole (RAP) serait utile pour accélérer le processus de documentation de ressources orales. Cependant, la construction des systèmes de RAP pour une langue cible nécessite une grande quantité de données d'apprentissage comme le suggèrent les techniques actuelles de l'état de l'art, fondées sur des approches empiriques. Par conséquent, il existe de nombreux défis à relever pour construire des systèmes de transcription pour les langues qui possèdent des quantités de données limitées.L'objectif principal de cette thèse est d'étudier les effets de l'utilisation de données de langues étroitement liées, pour construire un système de RAP pour les langues à faibles ressources en Malaisie. Des études antérieures ont montré que les méthodes inter-lingues et multilingues pourraient améliorer les performances des systèmes de RAP à faibles ressources. Dans cette thèse, nous essayons de répondre à plusieurs questions concernant ces approches: comment savons-nous si une langue est utile ou non dans un processus d'apprentissage trans-lingue ? Comment la relation entre la langue source et la langue cible influence les performances de la reconnaissance de la parole ? La simple mise en commun (pooling) des données d'une langue est-elle une approche optimale ?Notre cas d'étude est l'iban, une langue peu dotée de l'île de Bornéo. Nous étudions les effets de l'utilisation des données du malais, une langue locale dominante qui est proche de l'iban, pour développer un système de RAP pour l'iban, sous différentes contraintes de ressources. Nous proposons plusieurs approches pour adapter les données du malais afin obtenir des modèles de prononciation et des modèles acoustiques pour l'iban.Comme la contruction d'un dictionnaire de prononciation à partir de zéro nécessite des ressources humaines importantes, nous avons développé une approche semi-supervisée pour construire rapidement un dictionnaire de prononciation pour l'iban. Celui-ci est fondé sur des techniques d'amorçage, pour améliorer la correspondance entre les données du malais et de l'iban.Pour augmenter la performance des modèles acoustiques à faibles ressources, nous avons exploré deux techniques de modélisation : les modèles de mélanges gaussiens à sous-espaces (SGMM) et les réseaux de neurones profonds (DNN). Nous avons proposé, dans ce cadre, des méthodes de transfert translingue pour la modélisation acoustique permettant de tirer profit d'une grande quantité de langues “proches” de la langue cible d'intérêt. Les résultats montrent que l'utilisation de données du malais est bénéfique pour augmenter les performances des systèmes de RAP de l'iban. Par ailleurs, nous avons également adapté les modèles SGMM et DNN au cas spécifique de la transcription automatique de la parole non native (très présente en Malaisie). Nous avons proposé une approche fine de fusion pour obtenir un SGMM multi-accent optimal. En outre, nous avons développé un modèle DNN spécifique pour la parole accentuée. Les deux approches permettent des améliorations significatives de la précision du système de RAP. De notre étude, nous observons que les modèles SGMM et, de façon plus surprenante, les modèles DNN sont très performants sur des jeux de données d'apprentissage en quantité limités
Languages in Malaysia are dying in an alarming rate. As of today, 15 languages are in danger while two languages are extinct. One of the methods to save languages is by documenting languages, but it is a tedious task when performed manually.Automatic Speech Recognition (ASR) system could be a tool to help speed up the process of documenting speeches from the native speakers. However, building ASR systems for a target language requires a large amount of training data as current state-of-the-art techniques are based on empirical approach. Hence, there are many challenges in building ASR for languages that have limited data available.The main aim of this thesis is to investigate the effects of using data from closely-related languages to build ASR for low-resource languages in Malaysia. Past studies have shown that cross-lingual and multilingual methods could improve performance of low-resource ASR. In this thesis, we try to answer several questions concerning these approaches: How do we know which language is beneficial for our low-resource language? How does the relationship between source and target languages influence speech recognition performance? Is pooling language data an optimal approach for multilingual strategy?Our case study is Iban, an under-resourced language spoken in Borneo island. We study the effects of using data from Malay, a local dominant language which is close to Iban, for developing Iban ASR under different resource constraints. We have proposed several approaches to adapt Malay data to obtain pronunciation and acoustic models for Iban speech.Building a pronunciation dictionary from scratch is time consuming, as one needs to properly define the sound units of each word in a vocabulary. We developed a semi-supervised approach to quickly build a pronunciation dictionary for Iban. It was based on bootstrapping techniques for improving Malay data to match Iban pronunciations.To increase the performance of low-resource acoustic models we explored two acoustic modelling techniques, the Subspace Gaussian Mixture Models (SGMM) and Deep Neural Networks (DNN). We performed cross-lingual strategies using both frameworks for adapting out-of-language data to Iban speech. Results show that using Malay data is beneficial for increasing the performance of Iban ASR. We also tested SGMM and DNN to improve low-resource non-native ASR. We proposed a fine merging strategy for obtaining an optimal multi-accent SGMM. In addition, we developed an accent-specific DNN using native speech data. After applying both methods, we obtained significant improvements in ASR accuracy. From our study, we observe that using SGMM and DNN for cross-lingual strategy is effective when training data is very limited

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!