Thèses : « Traitement du language »

1

Coria, Juan Manuel. « Continual Representation Learning in Written and Spoken Language ». Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG025.

Texte intégral

Résumé :

L'apprentissage automatique a récemment connu des avancées majeures, mais les modèles actuels sont généralement entraînés une fois sur une tâche cible et leurs paramètres sont rarement révisés.Ce problème affecte les performances après la mise en production car les spécifications des tâches et les données peuvent évoluer avec le temps.Pour résoudre ce problème, l'apprentissage continu propose un entraînement au fil du temps, à mesure que de nouvelles données sont disponibles.Cependant, les modèles entraînés de cette manière souffrent d'une perte de performance sur les exemples déjà vus, un phénomène appelé oubli catastrophique.De nombreuses études ont proposé différentes stratégies pour prévenir l'oubli, mais elles s'appuient souvent sur des données étiquetées rarement disponibles en pratique. Dans cette thèse, nous étudions l'apprentissage continu pour la langue écrite et parlée.Notre objectif est de concevoir des systèmes autonomes et auto-apprenants capables d'exploiter les données disponibles sur le terrain pour s'adapter aux nouveaux environnements.Contrairement aux travaux récents sur l'apprentissage de représentations à usage général, nous proposons d'exploiter des représentations adaptées à une tâche cible.En effet, ces dernières pourraient être plus faciles à interpréter et à exploiter par des méthodes non supervisés et plus robustes à l'oubli, comme le clustering. Dans ce travail, nous améliorons notre compréhension de l'apprentissage continu dans plusieurs contextes.Nous montrons que les représentations spécifiques à une tâche permettent un apprentissage continu efficace à faibles ressources, et que les prédictions d'un modèle peuvent être exploitées pour l'auto-apprentissage
Although machine learning has recently witnessed major breakthroughs, today's models are mostly trained once on a target task and then deployed, rarely (if ever) revisiting their parameters.This problem affects performance after deployment, as task specifications and data may evolve with user needs and distribution shifts.To solve this, continual learning proposes to train models over time as new data becomes available.However, models trained in this way suffer from significant performance loss on previously seen examples, a phenomenon called catastrophic forgetting.Although many studies have proposed different strategies to prevent forgetting, they often rely on labeled data, which is rarely available in practice. In this thesis, we study continual learning for written and spoken language.Our main goal is to design autonomous and self-learning systems able to leverage scarce on-the-job data to adapt to the new environments they are deployed in.Contrary to recent work on learning general-purpose representations (or embeddings), we propose to leverage representations that are tailored to a downstream task.We believe the latter may be easier to interpret and exploit by unsupervised training algorithms like clustering, that are less prone to forgetting. Throughout our work, we improve our understanding of continual learning in a variety of settings, such as the adaptation of a language model to new languages for sequence labeling tasks, or even the adaptation to a live conversation in the context of speaker diarization.We show that task-specific representations allow for effective low-resource continual learning, and that a model's own predictions can be exploited for full self-learning

Styles APA, Harvard, Vancouver, ISO, etc.

2

Moncecchi, Guillermo. « Recognizing speculative language in research texts ». Paris 10, 2013. http://www.theses.fr/2013PA100039.

Texte intégral

Résumé :

Cette thèse présente une méthodologie pour résoudre des problèmes de classification, en particulier ceux concernant le classement séquentiel pour les tâches de traitement du langage naturel. Elle propose l'utilisation d'une méthode itérative, basée sur l'analyse des erreurs, pour améliorer la performance de classification. Ce sont des experts du domaine qui suggèrent l'intégration des connaissances spécifiques du domaine dans le processus d'apprentissage automatique. Nous avons appliqué et évalué la méthodologie dans deux tâches liées à la détection des phénomènes de « hedging » dans des textes scientifiques: celle de la détection de repères de « hedging » et celle de l’identification de la portée des repères détectés dans les phrases. Les résultats sont prometteurs: pour la première tâche, nous avons amélioré les résultats de base en 2,5 points en termes de F_mesure au moyen de l’intégration des informations de cooccurrence, tandis que pour la détection de la portée, l'incorporation des informations sur la syntaxe de la phrase nous a permis d'améliorer les performances de classification en F-mesure de 0,712 à un nombre final de 0,835. Par rapport à l'état de l'art des méthodes, les résultats sont compétitifs, ce qui suggère que l'approche de l'amélioration des classificateurs basée uniquement sur l’analyse des erreurs dans une partie du corpus dédiée seulement à cette tâche peut être utilisée avec succès dans d'autres tâches similaires. De plus, cette thèse propose un schéma de classes pour représenter des analyse des phrases dans une structure de donnés unique, y compris les résultats de divers analyses linguistiques. Cela nous permet de mieux gérer le processus itératif d'amélioration du classificateur, où des ensembles d'attributs différents pour l'apprentissage sont utilisés à chaque itération. Nous proposons également de stocker des attributs dans un modèle relationnel, plutôt que des structures traditionnelles à base de texte, pour faciliter l'analyse et la manipulation de données nécessaires pour l’apprentissage
This thesis presents a methodology to solve certain classification problems, particularly those involving sequential classification for Natural Language Processing tasks. It proposes the use of an iterative, error-based approach to improve classification performance, suggesting the incorporation of expert knowledge into the learning process through the use of knowledge rules. We applied and evaluated the methodology to two tasks related with the detection of hedging in scientific articles: those of hedge cue identification and hedge cue scope detection. Results are promising: for the first task, we improved baseline results by 2. 5 points in terms of F-score incorporating cue cooccurence information, while for scope detection, the incorporation of syntax information and rules for syntax scope pruning allowed us to improve classification performance from an F-score of 0. 712 to a final number of 0. 835. Compared with state-of-the-art methods, results are competitive, suggesting that the approach of improving classifiers based only on committed errors on a held out corpus could be successfully used in other, similar tasks. Additionally, this thesis proposes a class schema for representing sentence analysis in a unique structure, including the results of different linguistic analysis. This allows us to better manage the iterative process of classifier improvement, where different attribute sets for learning are used in each iteration. We also propose to store attributes in a relational model, instead of the traditional text-based structures, to facilitate learning data analysis and manipulation

Styles APA, Harvard, Vancouver, ISO, etc.

3

Caucheteux, Charlotte. « Language representations in deep learning algorithms and the brain ». Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG031.

Texte intégral

Résumé :

Algorithmes et cerveau, bien que de nature extrêmement différentes, sont deux systèmes capables d'effectuer des tâches de langage complexes. En particulier, de récentes avancées en intelligence artificielle ont permis l'émergence d'algorithmes produisant des textes de qualité remarquablement similaire à ceux des humains (ChatGPT, GPT-3). De telles similarités interrogent sur la façon dont le cerveau et ces algorithmes traitent le langage, les mécanismes qu'ils utilisent et les représentations internes qu'ils construisent. Ma thèse consiste à comparer les représentations internes de ces deux systèmes, d'identifier leurs similitudes et leurs différences.Pour ce faire, nous analysons les enregistrements par imagerie fonctionnelle (fMRI) et magnéto-encéphalographie (MEG) de participants écoutant et lisant des histoires, et les comparons aux activations de milliers d'algorithmes de langage correspondant à ces mêmes histoires.Nos résultats mettent d'abord en évidence des similarités de haut niveau entre les représentations internes du cerveau et des modèles de langage. Dans une première partie, nous montrons que les activations des réseaux profonds prédisent linéairement l'activité cérébrale de sujets chez différents groupes (>500 participants), pour différentes modalités d'enregistrement (MEG et fMRI), modalités de stimulus (présentation auditive et visuelle), types de stimulus (mots isolés, phrases et histoires naturelles), langues (néerlandais et anglais) et modèles de langage. Cette correspondance est maximale dans les régions cérébrales souvent associées au langage, pour les algorithmes les plus performants et pour les participants qui comprennent le mieux les histoires. De plus, nous mettons en évidence une hiérarchie de traitement similaire entre les deux systèmes. Les premières couches des algorithmes sont alignées sur les régions de traitement de bas niveau dans le cerveau, telles que les zones auditives et le lobe temporal, tandis que les couches profondes sont alignées sur des régions associées à un traitement de plus haut niveau, notamment les zones fronto-pariétales.Nous montrons ensuite, dans une seconde partie, comment de telles similarités peuvent aider à construire de meilleurs modèles prédictifs de l'activité cérébrale, et à décomposer plus finement dans le cerveau différents processus linguistiques tels que la syntaxe et la sémantique.Enfin, dans une troisième partie, nous explorons les différences entre cerveau et algorithmes. Nous montrons que le cerveau prédit des représentations distantes et hiérarchiques, contrairement aux modèles de langage actuels qui sont principalement entraînés à faire des prédictions à court terme et au niveau du mot. Dans l'ensemble, les algorithmes modernes sont encore loin de traiter le langage de la même manière que les humains le font. Cependant, les liens directs entre leur fonctionnement interne et celui du cerveau fournissent une plateforme prometteuse pour mieux comprendre les deux systèmes, et ouvre la voie à la construction d'algorithmes plus similaires au cerveau
Recent deep language models -- like GPT-3 and ChatGPT -- are capable to produce text that closely resembles that of humans. Such similarity raises questions about how the brain and deep models process language, the mechanisms they use, and the internal representations they construct. In this thesis, I compare the internal representations of the brain and deep language models, with the goal of identifying their similarities and differences. To this aim, I analyze functional resonance imaging (fMRI) and magnetoencephalography (MEG) recordings of participants listening to and reading sentences, and compare them to the activations of thousands of language algorithms corresponding to these same sentences.Our results first highlight high-level similarities between the internal representations of the brain and deep language models. We find that deep nets' activations significantly predict brain activity across subjects for different cohorts (>500 participants), recording modalities (MEG and fMRI), stimulus types (isolated words, sentences, and natural stories), stimulus modalities (auditory and visual presentation), languages (Dutch, English and French), and deep language models. This alignment is maximal in brain regions repeatedly associated with language, for the best-performing algorithms and for participants who best understand the stories. Critically, we evidence a similar processing hierarchy between the two systems. The first layers of the algorithms align with low-level processing regions in the brain, such as auditory areas and the temporal lobe, while the deep layers align with regions associated with higher-level processing, such fronto-parietal areas.We then show how such similarities can be leveraged to build better predictive models of brain activity and better decompose several linguistic processes in the brain, such as syntax and semantics. Finally, we explore the differences between deep language models and the brain's activations. We find that the brain predicts distant and hierarchical representations, unlike current language models that are mostly trained to make short-term and word-level predictions. Overall, modern algorithms are still far from processing language in the same way that humans do. However, the direct links between their inner workings and that of the brain provide an promising platform for better understanding both systems, and pave the way for building better algorithms inspired by the human brain

Styles APA, Harvard, Vancouver, ISO, etc.

4

Ayotte, Nathalie. « Le traitement lexicographique du vocabulaire politique Trois études de cas : Nationalisme, nationaliste et nation ». Thesis, University of Ottawa (Canada), 2006. http://hdl.handle.net/10393/27328.

Texte intégral

Résumé :

Our study builds on the metalexicographical studies devoted to the ideological representations contained within dictionaries. While the myth of objectivity of the dictionary keeps prevailing in the general public, many researchers are striving to deconstruct it. Their studies have helped depicting the sometimes subjective nature of the dictionary, particularly when describing the lexicon related to certain topics such as sexuality, religion or politics. Therefore, as part of our study, we wished to confirm the assumption, commonly accepted by researchers in the field, according to which the dictionary conveys ideological representations and subjectivity. The primary objective of our study was to explore and compare the lexicographical treatment of three terms pertaining to politics: nationalism, nationalist and nation, in six standard monolingual dictionaries of three important languages throughout the world, i.e. German, English and French. The dictionaries chosen for this study are: the Deutsches Universalworterbuch (or Duden), Wahrig's Deutsches Worterbuch, the Canadian Oxford Dictionary, the Random House Webster's Dictionary of the English Language, Le Petit Robert and Le Petit Larousse. We have chosen words from the political field since it is considered by many researchers to be conducive of ideological representations. Moreover, the analyses deal with four microstructural components: definitions, examples, usage labels and cross-references. Our second objective was to establish, in the light of the studies carried out, whether the concepts of nation, nationalism and nationalist are addressed objectively in the dictionaries related to the corpus or, on the contrary, whether their treatment lets a certain ideology show through. At the completion of our study, we were indeed able to observe a certain subjectivity in the lexicographical treatment suggested for the concepts of nationalism, nationalist and nation in some of the dictionaries related to the corpus.

Styles APA, Harvard, Vancouver, ISO, etc.

5

Muller, Benjamin. « How Can We Make Language Models Better at Handling the Diversity and Variability of Natural Languages ? » Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS399.

Texte intégral

Résumé :

Ces dernières années, le passage à l’échelle (scaling) des modèles de langues basés sur l’apprentissage profond — principalement en termes de taille de modèle, de taille de l’ensemble de données d’entraînement et de puissance de calcul d’entraînement — est devenu l’une des principales forces motrices des progrès empiriques en Traitement Automatique du Langage (TAL). Comme l’illustrent les exemples de (Peters et al., 2018b; Devlin et al., 2018a; Brown et al., 2020;Zhang et al., 2022; Chowdhery et al., 2022), cela conduit à de meilleures performances en apprentissage supervisé ainsi qu’à de meilleures capacités de zero-shot (i.e. sans données annotées pour une tâche dans une langue donnée) et de few-shot (i.e. pour une quantité très limitée de données annotées) et cela pour une grande variété de tâches. Dans cette thèse, nous travaillons avec des modèles monolingues et multilingues de type BERT (Devlin et al., 2018a). Pour répondre à notre principale question de recherche: “Comment rendre les modèles de langue meilleurs face à la diversité et la variabilité des langues?” Nous explorons trois directions principales.1. Analyses comportementales (behavioral) et structurelles des modèles de langues 2. Approche de réduction des différences de domaine 3. Approche par technique d’adaptation. Tout d’abord, les modèles de langues de type BERT sont des objets complexes. La première étape de cette thèse a été de mener des analyses approfondies pour comprendre le comportement de ces modèles dans différents scénarios d’entraînement et de test (behavioral analysis). Ces analyses ont été enrichies par des études structurelles des modèles en décrivant leur fonctionnement interne. Ensuite, nous nous sommes concentrés sur une approche de réduction de l’écart entre les domaines. Dans cette approche, l’objectif est de rendre les données hautement variables hors domaine plus similaires aux données d’apprentissage. Enfin, nous présentons des techniques d’adaptation qui modélisent directement les données hors-domaine ou dans une langue différente des données d’apprentissage
Deep Learning for NLP has led to impressive empirical progress in recent years. In essence, this progress is based on better contextualized representations that can be easily used for a wide variety of tasks. However, these models usually require substantial computing power and large amounts of raw textual data. This makes language’s inherent diversity and variability a vivid challenge in NLP. We focus on the following: How can we make language models better at handling the variability and diversity of natural languages?. First, we explore the generalizability of language models by building and analyzing one of the first large-scale replication of a BERT model for a non-English language. Our results raise the question of using these language models on highly-variable domains such as these found online. Focusing on lexical normalization, we show that this task can be approached with BERT-like models. However, we show that it only partially helps downstream performance. In consequence, we focus on adaptation techniques using what we refer to as representation transfer and explore challenging settings such as the zero-shot setting, low-resource languages. We show that multilingual language models can be adapted and used efficiently with low-resource languages, even with the ones unseen during pretraining, and that the script is a critical component in this adaptation

Styles APA, Harvard, Vancouver, ISO, etc.

6

Millour, Alice. « Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées ». Thesis, Sorbonne université, 2020. http://www.theses.fr/2020SORUL126.

Texte intégral

Résumé :

Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles
Citizen science, in particular voluntary crowdsourcing, represents a little experimented solution to produce language resources for some languages which are still little resourced despite the presence of sufficient speakers online. We present in this work the experiments we have led to enable the crowdsourcing of linguistic resources for the development of automatic part-of-speech annotation tools. We have applied the methodology to three non-standardised languages, namely Alsatian, Guadeloupean Creole and Mauritian Creole. For different historical reasons, multiple (ortho)-graphic practices coexist for these three languages. The difficulties encountered by the presence of this variation phenomenon led us to propose various crowdsourcing tasks that allow the collection of raw corpora, part-of-speech annotations, and graphic variants. The intrinsic and extrinsic analysis of these resources, used for the development of automatic annotation tools, show the interest of using crowdsourcing in a non-standardized linguistic framework: the participants are not seen in this context a uniform set of contributors whose cumulative efforts allow the completion of a particular task, but rather as a set of holders of complementary knowledge. The resources they collectively produce make possible the development of tools that embrace the variation.The platforms developed, the language resources, as well as the models of trained taggers are freely available

Styles APA, Harvard, Vancouver, ISO, etc.

7

Cadène, Rémi. « Deep Multimodal Learning for Vision and Language Processing ». Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS277.

Texte intégral

Résumé :

Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d’automatiser le traitement de la quantité croissante d’images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adopté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l’intersection entre vision et langage. Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d’apprentissage pour aligner efficacement les deux modalités tout en structurant l’espace de recherche avec de l’information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations par paires entre chaque région de l’image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d’apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles
Digital technologies have become instrumental in transforming our society. Recent statistical methods have been successfully deployed to automate the processing of the growing amount of images, videos, and texts we produce daily. In particular, deep neural networks have been adopted by the computer vision and natural language processing communities for their ability to perform accurate image recognition and text understanding once trained on big sets of data. Advances in both communities built the groundwork for new research problems at the intersection of vision and language. Integrating language into visual recognition could have an important impact on human life through the creation of real-world applications such as next-generation search engines or AI assistants.In the first part of this thesis, we focus on systems for cross-modal text-image retrieval. We propose a learning strategy to efficiently align both modalities while structuring the retrieval space with semantic information. In the second part, we focus on systems able to answer questions about an image. We propose a multimodal architecture that iteratively fuses the visual and textual modalities using a factorized bilinear model while modeling pairwise relationships between each region of the image. In the last part, we address the issues related to biases in the modeling. We propose a learning strategy to reduce the language biases which are commonly present in visual question answering systems

Styles APA, Harvard, Vancouver, ISO, etc.

8

Leybaert, Jacqueline. « Le traitement du mot écrit chez l'enfant sourd ». Doctoral thesis, Universite Libre de Bruxelles, 1987. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/213416.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

9

Saadane, Houda. « Le traitement automatique de l’arabe dialectalisé : aspects méthodologiques et algorithmiques ». Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAL022/document.

Texte intégral

Styles APA, Harvard, Vancouver, ISO, etc.

10

Gonthier, Isabelle. « L'influence des connaissances phonologiques et semantiques dans le traitement lexical : Le role de la valeur d'imagerie des mots ». Thesis, University of Ottawa (Canada), 2003. http://hdl.handle.net/10393/29017.

Texte intégral

Résumé :

Cette these s'inscrit dans le domaine de la psychologie cognitive du langage et porte sur le role des connaissances phonologiques et semantiques dans le traitement lexical. Nous nous proposons d'examiner l'interaction entre ces variables dans le comportement des lecteurs adultes de langue maternelle francaise. La premiere etude de cette these porte sur l'etablissement de normes de frequence subjective et d'imagerie mentale pour 1,760 mots monosyllabiques de la langue francaise. Cette etude permet l'etablissement de normes stables et, en complement aux normes deja publiees par Desrochers et Bergeron (2000), fournit des normes pour la quasi totalite des mots monosyllabiques francais. La deuxieme etude porte sur la lecture a voix haute et sur l'impact de la valeur d'imagerie lors du traitement des mots orthographiquement consistants (i.e. pomme) et inconsistants (i.e. clef). Cette etude illustre le role important de la semantique dans une tache de nature phonologique par la demonstration d'un effet de la valeur d'imagerie sur les mots inconsistants de frequence forte autant que faible. Enfin, la troisieme etude traite de l'impact de la phonologie sur le traitement semantique dans une tache de discrimination semantique. Les resultats de cette etude montrent que lorsque l'on varie la valeur d'imagerie d'un homophone (distracteur), cette manipulation tend a faciliter les reponses aux mots cibles (bonne reponse), et plus particulierement aux cibles a faible valeur d'imagerie lorsque ces deux composants sont presentes a l'interieur d'un meme essai. Lorsqu'une decision semantique est requise uniquement sur l'homophone, on observe que la valeur d'imagerie n'a pas d'impact sur ce type de mot. En fait, l'effet de la valeur d'imagerie n'importe que pour le traitement de la cible. En resume, la presente recherche permet d'apporter des precisions importantes sur l'interaction entre la phonologie et la semantique, leur generalisation inter-linguistiques ainsi que sur les implications de cette interaction pour les modeles theoriques de la lecture qui reposent sur des postulats architecturaux differents (p.ex., les modeles connexionnistes et les modeles a deux voies d'acces).

Styles APA, Harvard, Vancouver, ISO, etc.

11

Boulanger, Hugo. « Data augmentation and generation for natural language processing ». Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG019.

Texte intégral

Résumé :

De plus en plus de domaines cherchent à automatiser une partie de leur processus.Le traitement automatique des langues contient des méthodes permettant d'extraire des informations dans des textes.Ces méthodes peuvent utiliser de l'apprentissage automatique.L'apprentissage automatique nécessite des données annotées pour faire de l'extraction d'information de manière optimale.L'application de ces méthodes à de nouveaux domaines nécessite d'obtenir des données annotées liée à la tâche.Le problème que nous souhaitons résoudre est de proposer et d'étudier des méthodes de génération pour améliorer les performances de modèles appris à basse quantité de données.Nous explorons différentes méthodes avec et sans apprentissage pour générer les données nécessaires à l'apprentissage de modèles d'étiquetage.La première méthode que nous explorons est le remplissage de patrons.Cette méthode de génération de données permet de générer des données annotées en combinant des phrases à trous, les patrons, et des mentions.Nous avons montré que cette méthode permet d'améliorer les performances des modèles d'étiquetage à très petite quantité de données.Nous avons aussi étudié la quantité de données nécessaire pour l'utilisation optimale de cette méthode.La deuxième approche de génération que nous avons testé est l'utilisation de modèles de langue pour la génération couplée à l'utilisation de méthode d'apprentissage semi-supervisé.La méthode d'apprentissage semi-supervisé utilisé est le tri-training et sert à ajouter les étiquettes aux données générées.Le tri-training est testé sur plusieurs méthodes de génération utilisant différents modèles de langue pré-entraînés.Nous avons proposé une version du tri-training appelé tri-training génératif, où la génération n'est pas faite en amont, mais durant le processus de tri-training et profite de celui-ci.Nous avons testé les performances des modèles entraînés durant le processus de semi-supervision et des modèles entraîné sur les données produites par celui-ci.Dans la majeure partie des cas, les données produites permettent d'égaler les performances des modèles entraînés avec la semi-supervision.Cette méthode permet l'amélioration des performances à tous les niveaux de données testés vis-à-vis des modèles sans augmentation.La troisième piste d'étude vise à combiner certains aspects des approches précédentes.Pour cela, nous avons testé différentes approches.L'utilisation de modèles de langues pour faire du remplacement de bouts de phrase à la manière de la méthode de remplissage de patrons fut infructueuse.Nous avons testé l'addition de données générées par différentes méthodes qui ne permet pas de surpasser la meilleure des méthodes.Enfin, nous avons testé l'application de la méthode de remplissage de patrons sur les données générées avec le tri-training qui n'a pas amélioré les résultats obtenu avec le tri-training.S'il reste encore beaucoup à étudier, nous avons cependant mis en évidence des méthodes simples, comme le remplissage de patrons, et plus complexe, comme l'utilisation d'apprentissage supervisé avec des phrases générées par un modèle de langue, permettant d'améliorer les performances de modèles d'étiquetage grâce à la génération de données annotées
More and more fields are looking to automate part of their process.Automatic language processing contains methods for extracting information from texts.These methods can use machine learning.Machine learning requires annotated data to perform information extraction.Applying these methods to new domains requires obtaining annotated data related to the task.In this thesis, our goal is to study generation methods to improve the performance of learned models with low amounts of data.Different methods of generation are explored that either contain machine learning or do not, which are used to generate the data needed to learn sequence labeling models.The first method explored is pattern filling.This data generation method generates annotated data by combining sentences with slots, or patterns, with mentions.We have shown that this method improves the performance of labeling models with tiny amounts of data.The amount of data needed to use this method is also studied.The second approach tested is the use of language models for text generation alongside a semi-supervised learning method for tagging.The semi-supervised learning method used is tri-training and is used to add labels to the generated data.The tri-training is tested on several generation methods using different pre-trained language models.We proposed a version of tri-training called generative tri-training, where the generation is not done in advance but during the tri-training process and takes advantage of it.The performance of the models trained during the semi-supervision process and of the models trained on the data generated by it are tested.In most cases, the data produced match the performance of the models trained with the semi-supervision.This method allows the improvement of the performances at all the tested data levels with respect to the models without augmentation.The third avenue of study combines some aspects of the previous approaches.For this purpose, different approaches are tested.The use of language models to do sentence replacement in the manner of the pattern-filling generation method is unsuccessful.Using a set of data coming from the different generation methods is tested, which does not outperform the best method.Finally, applying the pattern-filling method to the data generated with the tri-training is tested and does not improve the results obtained with the tri-training.While much remains to be studied, we have highlighted simple methods, such as pattern filling, and more complex ones, such as the use of supervised learning with sentences generated by a language model, to improve the performance of labeling models through the generation of annotated data

Styles APA, Harvard, Vancouver, ISO, etc.

12

Bull, Hannah. « Learning sign language from subtitles ». Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG013.

Texte intégral

Résumé :

Les langues des signes sont un moyen de communication essentiel pour les communautés sourdes. Elles sont des langues visuo-gestuelles, qui utilisent comme modalités les mains, les expressions faciales, le regard et les mouvements du corps. Elles ont des structures grammaticales complexes et des lexiques riches qui sont considérablement différents de ceux que l'on trouve dans les langues parlées. Les spécificités des langues des signes en termes de canaux de communication, de structure et de grammaire exigent des méthodologies distinctes. Les performances des systèmes de traduction automatique entre des langues écrites ou parlées sont actuellement suffisantes pour de nombreux cas d'utilisation quotidienne, tels que la traduction de vidéos, de sites web, d'e-mails et de documents. En revanche, les systèmes de traduction automatique pour les langues des signes n'existent pas en dehors de cas d'utilisation très spécifiques avec un vocabulaire limité. La traduction automatique de langues des signes est un défi pour deux raisons principales. Premièrement, les langues des signes sont des langues à faibles ressources avec peu de données d'entraînement disponibles. Deuxièmement, les langues des signes sont des langues visuelles et spatiales sans forme écrite, naturellement représentées sous forme de vidéo plutôt que d'audio ou de texte. Pour relever le premier défi, nous fournissons de grands corpus de données pour l'entraînement et l'évaluation des systèmes de traduction automatique en langue des signes, avec des contenus vidéo en langue des signes interprétée et originale, ainsi que des sous-titres écrits. Alors que les données interprétées nous permettent de collecter un grand nombre d'heures de vidéos, les vidéos originalement en langue des signes sont plus représentatives de l'utilisation de la langue des signes au sein des communautés sourdes. Les sous-titres écrits peuvent être utilisés comme supervision faible pour diverses tâches de compréhension de la langue des signes. Pour relever le deuxième défi, cette thèse propose des méthodes permettant de mieux comprendre les vidéos en langue des signes. Alors que la segmentation des phrases est généralement triviale pour les langues écrites, la segmentation des vidéos en langue des signes en phrases repose sur la détection d'indices sémantiques et prosodiques subtils dans les vidéos. Nous utilisons des indices prosodiques pour apprendre à segmenter automatiquement une vidéo en langue des signes en unités de type phrase, déterminées par les limites des sous-titres. En développant cette méthode de segmentation, nous apprenons ensuite à aligner les sous-titres du texte sur les segments de la vidéo en langue des signes en utilisant des indices sémantiques et prosodiques, afin de créer des paires au niveau de la phrase entre la vidéo en langue des signes et le texte. Cette tâche est particulièrement importante pour les données interprétées, où les sous-titres sont généralement alignés sur l'audio et non sur la langue des signes. En utilisant ces paires vidéo-texte alignées automatiquement, nous développons et améliorons plusieurs méthodes différentes pour annoter de façon dense les signes lexicaux en interrogeant des mots dans le texte des sous-titres et en recherchant des indices visuels dans la vidéo en langue des signes pour les signes correspondants
Sign languages are an essential means of communication for deaf communities. Sign languages are visuo-gestual languages using the modalities of hand gestures, facial expressions, gaze and body movements. They possess rich grammar structures and lexicons that differ considerably from those found among spoken languages. The uniqueness of transmission medium, structure and grammar of sign languages requires distinct methodologies. The performance of automatic translations systems between high-resource written languages or spoken languages is currently sufficient for many daily use cases, such as translating videos, websites, emails and documents. On the other hand, automatic translation systems for sign languages do not exist outside of very specific use cases with limited vocabulary. Automatic sign language translation is challenging for two main reasons. Firstly, sign languages are low-resource languages with little available training data. Secondly, sign languages are visual-spatial languages with no written form, naturally represented as video rather than audio or text. To tackle the first challenge, we contribute large datasets for training and evaluating automatic sign language translation systems with both interpreted and original sign language video content, as well as written text subtitles. Whilst interpreted data allows us to collect large numbers of hours of videos, original sign language video is more representative of sign language usage within deaf communities. Written subtitles can be used as weak supervision for various sign language understanding tasks. To address the second challenge, we develop methods to better understand visual cues from sign language video. Whilst sentence segmentation is mostly trivial for written languages, segmenting sign language video into sentence-like units relies on detecting subtle semantic and prosodic cues from sign language video. We use prosodic cues to learn to automatically segment sign language video into sentence-like units, determined by subtitle boundaries. Expanding upon this segmentation method, we then learn to align text subtitles to sign language video segments using both semantic and prosodic cues, in order to create sentence-level pairs between sign language video and text. This task is particularly important for interpreted TV data, where subtitles are generally aligned to the audio and not to the signing. Using these automatically aligned video-text pairs, we develop and improve multiple different methods to densely annotate lexical signs by querying words in the subtitle text and searching for visual cues in the sign language video for the corresponding signs

Styles APA, Harvard, Vancouver, ISO, etc.

13

Kla, Régis. « Osmose : a natural language based object oriented approach with its CASE tool ». Paris 1, 2004. http://www.theses.fr/2004PA010020.

Texte intégral

Résumé :

Dans cette thèse nous présentons une nouvelle approche de génie logiciel orienté objet, baseé sur le langage naturel et qui se nomme OsMoSE. Nous présentons aussi son outil d'aide à la conception du même nom. Cette approche assiste l'ingénieur dans la délicate tâche de transformation des besoins initialement décrits en langage naturel, vers un ensemble de schémas conceptuel orienté objet. Entièrement basé sur une architecture de système expert, l'outil OsMoSE repose sur un ensemble de règles lui permettant de simuler le comportement d'un analyste humain lors de la phase de conception d'un système logiciel orienté objet. Pour ce faire, l'outil OsMoSE est doté d'un puissant modèle de représentation des connaissances dérivé des graphes conceptuels de SOWA. En plus de ce modèle principal, plusieurs autres sont utilisés pour transformer les connaissances initialement décrites dans les scénarios textuels, en concepts orientés objet. Le processus de transformation défini par l'approche eest incrémental et intercatif. En effet, comme le ferait un analyste humain, l'outil essaie d'abord d'obtenir une compréhension minimale de la sémantique des textes de spécification ; ensuite il essaie d'identifier des situations qui lui sont connues et à partir desquelles il pourra inférer de nouvelles informations. Ces dernières lui permettront d'appliquer ses patrons de conception afin d'obtenir un ensemble cohérent de spécifications orientées objet. Le chapitre 3 de ce document présente un état de l'art des travaux de recherche dans des domaines connexes au notre, qui sont l'ingénierie des besoins basée sur le langage naturel, le génie logiciel et les systèmes experts. Ensuite le chapitre 4 présente tous les modèles, de représentation des connaissances ou des données, utilisés par l'approche. Le chapitre 8 présente en détail une étude de cas menée à l'aide de l'outil OsMoSE. Il présente aussi certaines caractéristiques que nous qualifierons "d'effets de bord bénéfiques", car n'étant pas vraiment liées à la problématique initiale de cette thèse. Enfin, une discussion concernant les limites et les problèmes non encore résolus à ce jour, clôturera le document.

Styles APA, Harvard, Vancouver, ISO, etc.

14

Curiel, Diaz Arturo Tlacaélel. « Using formal logic to represent sign language phonetics in semi-automatic annotation tasks ». Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30308/document.

Texte intégral

Résumé :

Cette thèse présente le développement d'un framework formel pour la représentation des Langues de Signes (LS), les langages des communautés Sourdes, dans le cadre de la construction d'un système de reconnaissance automatique. Les LS sont de langues naturelles, qui utilisent des gestes et l'espace autour du signeur pour transmettre de l'information. Cela veut dire que, à différence des langues vocales, les morphèmes en LS ne correspondent pas aux séquences de sons; ils correspondent aux séquences de postures corporelles très spécifiques, séparés par des changements tels que de mouvements. De plus, lors du discours les signeurs utilisent plusieurs parties de leurs corps (articulateurs) simultanément, ce qui est difficile à capturer avec un système de notation écrite. Cette situation difficulté leur représentation dans de taches de Traitement Automatique du Langage Naturel (TALN). Pour ces raisons, le travail présenté dans ce document a comme objectif la construction d'une représentation abstraite de la LS; plus précisément, le but est de pouvoir représenter des collections de vidéo LS (corpus) de manière formelle. En générale, il s'agit de construire une couche de représentation intermédiaire, permettant de faire de la reconnaissance automatique indépendamment des technologies de suivi et des corpus utilisés pour la recherche. Cette couche corresponde à un système de transition d'états (STE), spécialement crée pour représenter la nature parallèle des LS. En plus, elle peut-être annoté avec de formules logiques pour son analyse, à travers de la vérification de modèles. Pour représenter les propriétés à vérifier, une logique multi-modale a été choisi : la Logique Propositionnelle Dynamique (PDL). Cette logique a été originalement crée pour la spécification de programmes. De manière plus précise, PDL permit d'utilise des opérateurs modales comme [a] et , représentant <> et <>, respectivement. Une variante particulaire a été développée pour les LS : la PDL pour Langue de Signes (PDLSL), qui est interprété sur des STE représentant des corpus. Avec PDLSL, chaque articulateur du corps (comme les mains et la tête) est vu comme un agent indépendant; cela veut dire que chacun a ses propres actions et propositions possibles, et qu'il peux les exécuter pour influencer une posture gestuelle. L'utilisation du framework proposé peut aider à diminuer deux problèmes importantes qui existent dans l'étude linguistique des LS : hétérogénéité des corpus et la manque des systèmes automatiques d'aide à l'annotation. De ce fait, un chercheur peut rendre exploitables des corpus existants en les transformant vers des STE. Finalement, la création de cet outil à permit l'implémentation d'un système d'annotation semi-automatique, basé sur les principes théoriques du formalisme. Globalement, le système reçoit des vidéos LS et les transforme dans un STE valide. Ensuite, un module fait de la vérification formelle sur le STE, en utilisant une base de données de formules crée par un expert en LS. Les formules représentent des propriétés lexicales à chercher dans le STE. Le produit de ce processus, est une annotation qui peut être corrigé par des utilisateurs humains, et qui est utilisable dans des domaines d'études tels que la linguistique
This thesis presents a formal framework for the representation of Signed Languages (SLs), the languages of Deaf communities, in semi-automatic recognition tasks. SLs are complex visio-gestural communication systems; by using corporal gestures, signers achieve the same level of expressivity held by sound-based languages like English or French. However, unlike these, SL morphemes correspond to complex sequences of highly specific body postures, interleaved with postural changes: during signing, signers use several parts of their body simultaneously in order to combinatorially build phonemes. This situation, paired with an extensive use of the three-dimensional space, make them difficult to represent with tools already existent in Natural Language Processing (NLP) of vocal languages. For this reason, the current work presents the development of a formal representation framework, intended to transform SL video repositories (corpus) into an intermediate representation layer, where automatic recognition algorithms can work under better conditions. The main idea is that corpora can be described with a specialized Labeled Transition System (LTS), which can then be annotated with logic formulae for its study. A multi-modal logic was chosen as the basis of the formal language: the Propositional Dynamic Logic (PDL). This logic was originally created to specify and prove properties on computer programs. In particular, PDL uses the modal operators [a] and to denote necessity and possibility, respectively. For SLs, a particular variant based on the original formalism was developed: the PDL for Sign Language (PDLSL). With the PDLSL, body articulators (like the hands or head) are interpreted as independent agents; each articulator has its own set of valid actions and propositions, and executes them without influence from the others. The simultaneous execution of different actions by several articulators yield distinct situations, which can be searched over an LTS with formulae, by using the semantic rules of the logic. Together, the use of PDLSL and the proposed specialized data structures could help curb some of the current problems in SL study; notably the heterogeneity of corpora and the lack of automatic annotation aids. On the same vein, this may not only increase the size of the available datasets, but even extend previous results to new corpora; the framework inserts an intermediate representation layer which can serve to model any corpus, regardless of its technical limitations. With this, annotations is possible by defining with formulae the characteristics to annotate. Afterwards, a formal verification algorithm may be able to find those features in corpora, as long as they are represented as consistent LTSs. Finally, the development of the formal framework led to the creation of a semi-automatic annotator based on the presented theoretical principles. Broadly, the system receives an untreated corpus video, converts it automatically into a valid LTS (by way of some predefined rules), and then verifies human-created PDLSL formulae over the LTS. The final product, is an automatically generated sub-lexical annotation, which can be later corrected by human annotators for their use in other areas such as linguistics

Styles APA, Harvard, Vancouver, ISO, etc.

15

Gainon, de Forsan de Gabriac Clara. « Deep Natural Language Processing for User Representation ». Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS274.

Texte intégral

Résumé :

La dernière décennie a vu s’imposer le développement des méthodes de Deep Learning (DL), aussi bien dans le monde académique qu’industriel. Ce succès peut s’expliquer par la capacité du DL à modéliser des entités toujours plus complexes. En particulier, les méthodes de Representation Learning se concentrent sur l’apprentissage de représentations latentes issues de données hétérogènes, à la fois versatiles et réutilisables, notamment en Natural Language Processing (NLP). En parallèle, le nombre grandissant de systèmes reposant sur des données utilisateurs entraînent leur lot de défis.Cette thèse propose des méthodes tirant partie du pouvoir de représentation du NLP pour apprendre des représentations d’utilisateur riches et versatiles. D'abord, nous étudions la Recommandation. Nous parlons ensuite des récentes avancées du NLP et des moyens de les appliquer de façon à tirer partie des textes écrits par les utilisateurs, pour enfin détailler les modèles génératifs. Puis, nous présentons un Système de Recommandation fondé sur la combinaison, d’une méthode de représentation par factorisation matricielle traditionnelle, et d’un modèle d’analyse de sentiments. Nos expériences montrent que, en plus d’améliorer les performances, ce modèle nous permet de comprendre ce qui intéresse l’utilisateur chez un produit, et de fournir des explications concernant les suggestions émises par le modèle. Enfin, nous présentons une nouvelle tâche centrée sur la représentation d’utilisateur : l’apprentissage de profil professionnel. Nous proposons un cadre de travail pour l’apprentissage et l’évaluation des profils professionnels sur différentes tâches, notamment la génération du prochain job
The last decade has witnessed the impressive expansion of Deep Learning (DL) methods, both in academic research and the private sector. This success can be explained by the ability DL to model ever more complex entities. In particular, Representation Learning methods focus on building latent representations from heterogeneous data that are versatile and re-usable, namely in Natural Language Processing (NLP). In parallel, the ever-growing number of systems relying on user data brings its own lot of challenges. This work proposes methods to leverage the representation power of NLP in order to learn rich and versatile user representations.Firstly, we detail the works and domains associated with this thesis. We study Recommendation. We then go over recent NLP advances and how they can be applied to leverage user-generated texts, before detailing Generative models.Secondly, we present a Recommender System (RS) that is based on the combination of a traditional Matrix Factorization (MF) representation method and a sentiment analysis model. The association of those modules forms a dual model that is trained on user reviews for rating prediction. Experiments show that, on top of improving performances, the model allows us to better understand what the user is really interested in in a given item, as well as to provide explanations to the suggestions made.Finally, we introduce a new task-centered on UR: Professional Profile Learning. We thus propose an NLP-based framework, to learn and evaluate professional profiles on different tasks, including next job generation

Styles APA, Harvard, Vancouver, ISO, etc.

16

Albert, Sabine. « Analyse diachronique du Trésor de la Langue Française et de l'Oxford English Dictionary : le traitement des emprunts ». Thesis, Cergy-Pontoise, 2018. http://www.theses.fr/2018CERG0936/document.

Texte intégral

Résumé :

ANALYSE DIACHRONIQUE DU TRÉSOR DE LA LANGUE FRANÇAISEET DE L’OXFORD ENGLISH DICTIONARY :LE TRAITEMENT DES EMPRUNTSRÉSUMÉIl n’est pas de langue dont le lexique ne s’enrichisse au gré des emprunts, qui permettent d’accroître et de renouveler le fonds lexical au fur et à mesure que se développent les relations entre les pays et entre leurs cultures. Les langues anglaise et française, en raison de leur rayonnement sur tous les continents, ont acquis un contingent très important de mots venus d’ailleurs, qu’elles se sont en outre souvent partagé. En effet, du fait de leur proximité géographique et d’une histoire commune d’une grande richesse, l’anglais et le français ont été amenés à s’interpénétrer pendant plus de dix siècles. Nous avons voulu, dans cette étude, montrer l’impact des emprunts sur les deux langues, et analyser la façon dont ils sont traités dans les dictionnaires les plus extensifs qui soient de part et d’autre de la Manche : le Trésor de la Langue Française et l’Oxford English Dictionary.Dans une première partie, nous étudions la constitution des lexiques anglais et français au fil du temps en fonction des apports étrangers, avant de définir la notion même d’emprunt et d’en montrer la complexité. Enfin, nous présentons le corpus sur lequel repose ce travail.La seconde partie est consacrée à la présentation du Trésor de la Langue Française et de l’Oxford English Dictionary. Après avoir retracé l’histoire des dictionnaires de langue et la genèse de ces deux dictionnaires, leurs caractéristiques sont mises en évidence et leur constitution finement analysée, tant sur le plan macrostructurel que sur le plan microstructurel. Nous avons également montré les atouts que représente leur informatisation.La dernière partie s’arrête plus précisément sur le traitement des emprunts en fonction de leur type dans ces ouvrages et sur les indications données à leur sujet, avant de faire porter l’accent sur les particularités propres au traitement des emprunts et sur les difficultés inhérentes à la description lexicographique des mots venus d’ailleurs
THE TRÉSOR DE LA LANGUE FRANÇAISE ANDTHE OXFORD ENGLISH DICTIONARY :A DIACHRONICAL ANALYSIS OF LOAN-WORDSABSTRACTThere is no language that does not expand thanks to loan-words : they permit the lexical stock to get richer and refreshed as are developed the relationships between cultures and countries. English and French languages, since they have been spreading over all continents, have acquired a lot of words from other horizons, that, moreover, they often shared. Actually, we can but notice that their geographic proximity and the richness of their history have aroused an important interpenetration during more than ten centuries. That is why we wanted to show, in this study, the impact of loan-words on both languages, and to analyse the way the most extensive dictionaries on either side of the Channel — the Trésor de la Langue Française and the Oxford English Dictionary — dealt with them.In the first part of this work, we study how French and English lexicons were built up over the course of time according to foreign contributions, and we define the very notion of loan-word in order to show how complex it is. Afterwards, we present the corpus on which rests this study.The second part is dedicated to an exhaustive presentation of the Trésor de la Langue Française and of the Oxford English Dictionary. After a recounting of language dictionaries and of the creation of those two dictionaries, their main features are highlighted and their constitution accurately examined, as well macrostructurally as microstructurally. We also point out the advantages of their informatisation.In the last part, we observe more precisely how the different types of loan-words are reported and what kind of indications are given about them. Then, we point out the distinctive characteristics of the way loan-words are dealt with and the lexicographical difficulties in describing words from elsewhere

Styles APA, Harvard, Vancouver, ISO, etc.

17

Pasquiou, Alexandre. « Deciphering the neural bases of language comprehension using latent linguistic representations ». Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG041.

Texte intégral

Résumé :

Au cours des dernières décennies, les modèles de langage (MLs) ont atteint des performances équivalentes à celles de l'homme sur plusieurs tâches. Ces modèles peuvent générer des représentations vectorielles qui capturent diverses propriétés linguistiques des mots d'un texte, telles que la sémantique ou la syntaxe. Les neuroscientifiques ont donc mis à profit ces progrès et ont commencé à utiliser ces modèles pour explorer les bases neurales de la compréhension du langage. Plus précisément, les représentations des ML calculées à partir d'une histoire sont utilisées pour modéliser les données cérébrales d'humains écoutant la même histoire, ce qui permet l'examen de plusieurs niveaux de traitement du langage dans le cerveau. Si les représentations du ML s'alignent étroitement avec une région cérébrale, il est probable que le modèle et la région codent la même information. En utilisant les données cérébrales d'IRMf de participants américains écoutant l'histoire du Petit Prince, cette thèse 1) examine les facteurs influant l'alignement entre les représentations des MLs et celles du cerveau, ainsi que 2) les limites de telles alignements. La comparaison de plusieurs MLs pré-entraînés et personnalisés (GloVe, LSTM, GPT-2 et BERT) a révélé que les Transformers s'alignent mieux aux données d'IRMf que LSTM et GloVe. Cependant, aucun d'entre eux n'est capable d'expliquer tout le signal IRMf, suggérant des limites liées au paradigme d'encodage ou aux MLs. En étudiant l'architecture des Transformers, nous avons constaté qu'aucune région cérébrale n'est mieux expliquée par une couche ou une tête d'attention spécifique. Nos résultats montrent que la nature et la quantité de données d'entraînement affectent l'alignement. Ainsi, les modèles pré-entraînés sur de petits ensembles de données ne sont pas efficaces pour capturer les activations cérébrales. Nous avons aussi montré que l'entraînement des MLs influence leur capacité à s'aligner aux données IRMf et que la perplexité n'est pas un bon prédicteur de leur capacité à s'aligner. Cependant, entraîner les MLs améliore particulièrement leur performance d'alignement dans les régions coeur de la sémantique, indépendamment de l'architecture et des données d'entraînement. Nous avons également montré que les représentations du cerveau et des MLs convergent d'abord pendant l'entraînement du modèle avant de diverger l'une de l'autre. Cette thèse examine en outre les bases neurales de la syntaxe, de la sémantique et de la sensibilité au contexte en développant une méthode qui peut sonder des dimensions linguistiques spécifiques. Cette méthode utilise des MLs restreints en information, c'est-à-dire des architectures entraînées sur des espaces de représentations contenant un type spécifique d'information. Tout d'abord, l'entraînement de MLs sur des représentations sémantiques et syntaxiques a révélé un bon alignement dans la plupart du cortex mais avec des degrés relatifs variables. La quantification de cette sensibilité relative à la syntaxe et à la sémantique a montré que les régions cérébrales les plus sensibles à la syntaxe sont plus localisées, contrairement au traitement de la sémantique qui reste largement distribué dans le cortex. Une découverte notable de cette thèse est que l'étendue des régions cérébrales sensibles à la syntaxe et à la sémantique est similaire dans les deux hémisphères. Cependant, l'hémisphère gauche a une plus grande tendance à distinguer le traitement syntaxique et sémantique par rapport à l'hémisphère droit. Dans un dernier ensemble d'expériences, nous avons conçu une méthode qui contrôle les mécanismes d'attention dans les Transformers afin de générer des représentations qui utilisent un contexte de taille fixe. Cette approche fournit des preuves de la sensibilité au contexte dans la plupart du cortex. De plus, cette analyse a révélé que les hémisphères gauche et droit avaient tendance à traiter respectivement des informations contextuelles plus courtes et plus longues
In the last decades, language models (LMs) have reached human level performance on several tasks. They can generate rich representations (features) that capture various linguistic properties such has semantics or syntax. Following these improvements, neuroscientists have increasingly used them to explore the neural bases of language comprehension. Specifically, LM's features computed from a story are used to fit the brain data of humans listening to the same story, allowing the examination of multiple levels of language processing in the brain. If LM's features closely align with a specific brain region, then it suggests that both the model and the region are encoding the same information. LM-brain comparisons can then teach us about language processing in the brain. Using the fMRI brain data of fifty US participants listening to "The Little Prince" story, this thesis 1) investigates the reasons why LMs' features fit brain activity and 2) examines the limitations of such comparisons. The comparison of several pre-trained and custom-trained LMs (GloVe, LSTM, GPT-2 and BERT) revealed that Transformers better fit fMRI brain data than LSTM and GloVe. Yet, none are able to explain all the fMRI signal, suggesting either limitations related to the encoding paradigm or to the LMs. Focusing specifically on Transformers, we found that no brain region is better fitted by specific attentional head or layer. Our results caution that the nature and the amount of training data greatly affects the outcome, indicating that using off-the-shelf models trained on small datasets is not effective in capturing brain activations. We showed that LMs' training influences their ability to fit fMRI brain data, and that perplexity was not a good predictor of brain score. Still, training LMs particularly improves their fitting performance in core semantic regions, irrespective of the architecture and training data. Moreover, we showed a partial convergence between brain's and LM's representations.Specifically, they first converge during model training before diverging from one another. This thesis further investigates the neural bases of syntax, semantics and context-sensitivity by developing a method that can probe specific linguistic dimensions. This method makes use of "information-restricted LMs", that are customized LMs architectures trained on feature spaces containing a specific type of information, in order to fit brain data. First, training LMs on semantic and syntactic features revealed a good fitting performance in a widespread network, albeit with varying relative degrees. The quantification of this relative sensitivity to syntax and semantics showed that brain regions most attuned to syntax tend to be more localized, while semantic processing remain widely distributed over the cortex. One notable finding from this analysis was that the extent of semantic and syntactic sensitive brain regions was similar across hemispheres. However, the left hemisphere had a greater tendency to distinguish between syntactic and semantic processing compared to the right hemisphere. In a last set of experiments we designed "masked-attention generation", a method that controls the attention mechanisms in transformers, in order to generate latent representations that leverage fixed-size context. This approach provides evidence of context-sensitivity across most of the cortex. Moreover, this analysis found that the left and right hemispheres tend to process shorter and longer contextual information respectively

Styles APA, Harvard, Vancouver, ISO, etc.

18

Asadullah, Munshi. « Identification of Function Points in Software Specifications Using Natural Language Processing ». Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112228/document.

Texte intégral

Résumé :

La nécessité d'estimer la taille d’un logiciel pour pouvoir en estimer le coût et l’effort nécessaire à son développement est une conséquence de l'utilisation croissante des logiciels dans presque toutes les activités humaines. De plus, la nature compétitive de l’industrie du développement logiciel rend courante l’utilisation d’estimations précises de leur taille, au plus tôt dans le processus de développement. Traditionnellement, l’estimation de la taille des logiciels était accomplie a posteriori à partir de diverses mesures appliquées au code source. Cependant, avec la prise de conscience, par la communauté de l’ingénierie logicielle, que l’estimation de la taille du code est une donnée cruciale pour la maîtrise du développement et des coûts, l’estimation anticipée de la taille des logiciels est devenue une préoccupation répandue. Une fois le code écrit, l’estimation de sa taille et de son coût permettent d'effectuer des études contrastives et éventuellement de contrôler la productivité. D’autre part, les bénéfices apportés par l'estimation de la taille sont d'autant plus grands que cette estimation est effectuée tôt pendant le développement. En outre, si l’estimation de la taille peut être effectuée périodiquement au fur et à mesure de la progression de la conception et du développement, elle peut fournir des informations précieuses aux gestionnaires du projet pour suivre au mieux la progression du développement et affiner en conséquence l'allocation des ressources. Notre recherche se positionne autour des mesures d’estimation de la taille fonctionnelle, couramment appelées Analyse des Points de Fonctions, qui permettent d’estimer la taille d’un logiciel à partir des fonctionnalités qu’il doit fournir à l’utilisateur final, exprimées uniquement selon son point de vue, en excluant en particulier toute considération propre au développement. Un problème significatif de l'utilisation des points de fonction est le besoin d'avoir recours à des experts humains pour effectuer la quotation selon un ensemble de règles de comptage. Le processus d'estimation représente donc une charge de travail conséquente et un coût important. D'autre part, le fait que les règles de comptage des points de fonction impliquent nécessairement une part d'interprétation humaine introduit un facteur d'imprécision dans les estimations et rend plus difficile la reproductibilité des mesures. Actuellement, le processus d'estimation est entièrement manuel et contraint les experts humains à lire en détails l'intégralité des spécifications, une tâche longue et fastidieuse. Nous proposons de fournir aux experts humains une aide automatique dans le processus d'estimation, en identifiant dans le texte des spécifications, les endroits les plus à même de contenir des points de fonction. Cette aide automatique devrait permettre une réduction significative du temps de lecture et de réduire le coût de l'estimation, sans perte de précision. Enfin, l’identification non ambiguë des points de fonction permettra de faciliter et d'améliorer la reproductibilité des mesures. À notre connaissance, les travaux présentés dans cette thèse sont les premiers à se baser uniquement sur l’analyse du contenu textuel des spécifications, applicable dès la mise à disposition des spécifications préliminaires et en se basant sur une approche générique reposant sur des pratiques établies d'analyse automatique du langage naturel
The inevitable emergence of the necessity to estimate the size of a software thus estimating the probable cost and effort is a direct outcome of increasing need of complex and large software in almost every conceivable situation. Furthermore, due to the competitive nature of the software development industry, the increasing reliance on accurate size estimation at early stages of software development becoming a commonplace practice. Traditionally, estimation of software was performed a posteriori from the resultant source code and several metrics were in practice for the task. However, along with the understanding of the importance of code size estimation in the software engineering community, the realization of early stage software size estimation, became a mainstream concern. Once the code has been written, size and cost estimation primarily provides contrastive study and possibly productivity monitoring. On the other hand, if size estimation can be performed at an early development stage (the earlier the better), the benefits are virtually endless. The most important goals of the financial and management aspect of software development namely development cost and effort estimation can be performed even before the first line of code is being conceived. Furthermore, if size estimation can be performed periodically as the design and development progresses, it can provide valuable information to project managers in terms of progress, resource allocation and expectation management. This research focuses on functional size estimation metrics commonly known as Function Point Analysis (FPA) that estimates the size of a software in terms of the functionalities it is expected to deliver from a user’s point of view. One significant problem with FPA is the requirement of human counters, who need to follow a set of standard counting rules, making the process labour and cost intensive (the process is called Function Point Counting and the professional, either analysts or counters). Moreover, these rules, in many occasion, are open to interpretation, thus they often produce inconsistent counts. Furthermore, the process is entirely manual and requires Function Point (FP) counters to read large specification documents, making it a rather slow process. Some level of automation in the process can make a significant difference in the current counting practice. Automation of the process of identifying the FPs in a document accurately, will at least reduce the reading requirement of the counters, making the process faster and thus shall significantly reduce the cost. Moreover, consistent identification of FPs will allow the production of consistent raw function point counts. To the best of our knowledge, the works presented in this thesis is an unique attempt to analyse specification documents from early stages of the software development, using a generic approach adapted from well established Natural Language Processing (NLP) practices

Styles APA, Harvard, Vancouver, ISO, etc.

19

Martin, Alexander. « Les biais dans le traitement et l'apprentissage phonologiques ». Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLEE071/document.

Texte intégral

Résumé :

Pendant la perception de la parole, les locuteurs sont biaisés par un grand nombre de facteurs. Par exemple, il existe des limitations cognitives comme la mémoire ou l’attention, mais aussi des limitations linguistiques comme leur langue maternelle. Cette thèse se concentre sur deux de ces facteurs : les biais de traitement pendant la reconnaissance des mots, et les biais d’apprentissage pendant le processus de transmission. Ces facteurs peuvent se combiner et, au cours du temps, influencer l’évolution des langues. Dans la première partie de cette thèse, nous nous concentrons sur le processus de la reconnaissance des mots. Des recherches antérieures ont établi l’importance des traits phonologiques (p. ex. le voisement ou le lieu d’articulation) pendant le traitement de la parole. Cependant, nous en savons peu sur leur poids relatif les uns par rapport aux autres, et comment cela peut influencer la capacité des locuteurs à reconnaître les mots. Nous avons testé des locuteurs français sur leur capacité à reconnaître des mots mal prononcés et avons trouvé que les traits de mode et de lieu sont plus importants que le trait de voisement. Nous avons ensuite considéré deux sources de cette asymétrie et avons trouvé que les locuteurs sont biaisés et par la perception acoustique ascendante (les contrastes de mode sont plus facile à percevoir à cause de leur distance acoustique importante) et par la connaissance lexicale descendante (le trait de lieu est plus exploité dans le lexique français que les autres traits). Nous suggérons que ces deux sources de biais se combinent pour influencer les locuteurs lors de la reconnaissance des mots. Dans la seconde partie de cette thèse, nous nous concentrons sur la question d’un biais d’apprentissage. Il a été suggéré que les apprenants peuvent être biaisés vers l’apprentissage de certains patrons phonologiques grâce à leurs connaissances phonétiques. Cela peut alors expliquer pourquoi certains patrons sont récurrents dans la typologie, tandis que d’autres restent rares ou non-attestés. Plus spécifiquement, nous avons exploré le rôle d’un biais d’apprentissage sur l’acquisition de la règle typologiquement commune de l’harmonie vocalique comparée à celle de la règle non-attestée (mais logiquement équivalente) de la disharmonie vocalique. Nous avons trouvé des preuves d’un biais d’apprentissage aussi bien en perception qu’en production. En utilisant un modèle d’apprentissage itéré simulé, nous avons ensuite montré comment un biais, même petit, favorisant l’un des patrons, peut influencer la typologie linguistique au cours du temps et donc expliquer (en partie) la prépondérance de systèmes harmoniques. De plus, nous avons exploré le rôle du sommeil sur la consolidation mnésique. Nous avons montré que seul le patron commun bénéficie d’une consolidation et que cela est un facteur supplémentaire pouvant contribuer à l’asymétrie typologique. Dans l’ensemble, cette thèse considère certaines des sources de biais possibles chez l’individu et discute de comment ces influences peuvent, au cours du temps, faire évoluer les systèmes linguistiques. Nous avons démontré la nature dynamique et complexe du traitement de la parole, à la fois en perception et dans l’apprentissage. De futurs travaux devront explorer plus en détail comment ces différentes sources de biais sont pondérées les unes relativement aux autres
During speech perception, listeners are biased by a great number of factors, including cognitive limitations such as memory and attention and linguistic limitations such as their native language. This thesis focuses on two of these factors: processing bias during word recognition, and learning bias during the transmission process. These factors are combinatorial and can, over time, affect the way languages evolve. In the first part of this thesis, we focus on the process of word recognition. Previous research has established the importance of phonological features (e.g., voicing or place of articulation) during speech processing, but little is known about their weight relative to one another, and how this influences listeners' ability to recognize words. We tested French participants on their ability to recognize mispronounced words and found that the manner and place features were more important than the voicing feature. We then explored two sources of this asymmetry and found that listeners were biased both by bottom-up acoustic perception (manner contrasts are easier to perceive because of their acoustic distance compared to the other features) and top-down lexical knowledge (the place feature is used more in the French lexicon than the other two features). We suggest that these two sources of bias coalesce during the word recognition process to influence listeners. In the second part of this thesis, we turn to the question of bias during the learning process. It has been suggested that language learners may be biased towards the learning of certain phonological patterns because of phonetic knowledge they have. This in turn can explain why certain patterns are recurrent in the typology while others remain rare or unattested. Specifically, we explored the role of learning bias on the acquisition of the typologically common rule of vowel harmony compared to the unattested (but logically equivalent) rule of vowel disharmony. We found that in both perception and production, there was evidence of a learning bias, and using a simulated iterated learning model, showed how even a small bias favoring one pattern over the other could influence the linguistic typology over time, thus explaining (in part) the prevalence of harmonic systems. We additionally explored the role of sleep on memory consolidation and showed evidence that the common pattern benefits from consolidation that the unattested pattern does not, a factor that may also contribute to the typological asymmetry. Overall, this thesis considers a few of the wide-ranging sources of bias in the individual and discusses how these influences can over time shape linguistic systems. We demonstrate the dynamic and complicated nature of speech processing (both in perception and learning) and open the door for future research to explore in finer detail just how these different sources of bias are weighted relative to one another

Styles APA, Harvard, Vancouver, ISO, etc.

20

Jalalzai, Hamid. « Learning from multivariate extremes : theory and application to natural language processing ». Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT043.

Texte intégral

Résumé :

Les extrêmes apparaissent dans une grande variété de données. Par exemple,concernant les données hydrologiques, les extrêmes peuvent correspondre à des inondations, des moussons voire des sécheresses. Les données liées à l’activité humaine peuvent également conduire à des situations extrêmes, dans le cas des transactions bancaires, le montant alloué à une vente peut être considérable et dépasser les transactions courantes. Un autre exemple lié à l’activité humaine est la fréquence des mots utilisés : certains mots sont omniprésents alors que d’autres sont très rares. Qu’importe le contexte applicatif, les extrêmes qui sont rares par définition, correspondent à des données particulières. Ces événements sont notamment alarmants au vu de leur potentiel impact désastreux. Cependant, les données extrêmes sont beaucoup moins considérées dans les statistiques modernes ou les pratiques courantes d’apprentissage machine, principalement car elles sont considérablement sous représentées : ces événements se retrouvent noyés - à l’ère du ”big data” - par une vaste majorité de données classiques et non extrêmes. Ainsi, la grande majorité des outils d’apprentissage machine qui se concentrent naturellement sur une distribution dans son ensemble peut être inadaptée sur les queues de distribution où se trouvent les observations extrêmes. Dans cette thèse, les défis liés aux extrêmes sont détaillés et l’accent est mis sur le développement de méthodes dédiées à ces données. La première partie se consacre à l’apprentissage statistique dans les régions extrêmes. Dans le chapitre 4, des garanties non asymptotiques sur l’erreur d’estimation de la mesure angulaire empirique sont étudiées et permettent d’améliorer des méthodes de détection d’anomalies par minimum volume set sur la sphère. En particulier, le problème de la minimisation du risque empirique pour la classification binaire dédiée aux échantillons extrêmes est traitée au chapitre 5. L’analyse non paramétrique et les garanties qui en résultent sont détaillées. L’approche est adaptée pour traiter de nouveaux échantillons se trouvant hors de l’enveloppe convexe formée par les données rencontrées. Cette propriété d’extrapolation est l’élément clé et charnière nous permettant de concevoir de nouvelles représentations conservant un label donné et d’ainsi augmenter la quantité de données. Le chapitre 6 se concentre sur l’apprentissage de cette représentation à queue lourde (pour être précis, à variation régulière) à partir d’une distribution d’entrée. Les illustrations montrent une meilleure classification des extrêmes et conduit à la génération de phrases cohérentes. Enfin, le chapitre 7 propose d’analyser la structure de dépendance des extrêmes multivariés. En constatant que les extrêmes se concentrent au sein de groupes où les variables explicatives ont tendance à prendre –de manière récurrente–de grandes valeurs simultanément ; il en résulte un problème d’optimisation visant à identifier ces sous-groupes grâce à des moyennes pondérées des composantes
Extremes surround us and appear in a large variety of data. Natural data likethe ones related to environmental sciences contain extreme measurements; inhydrology, for instance, extremes may correspond to floods and heavy rainfalls or on the contrary droughts. Data related to human activity can also lead to extreme situations; in the case of bank transactions, the money allocated to a sale may be considerable and exceed common transactions. The analysis of this phenomenon is one of the basis of fraud detection. Another example related to humans is the frequency of encountered words. Some words are ubiquitous while others are rare. No matter the context, extremes which are rare by definition, correspond to uncanny data. These events are of particular concern because of the disastrous impact they may have. Extreme data, however, are less considered in modern statistics and applied machine learning, mainly because they are substantially scarce: these events are out numbered –in an era of so-called ”big data”– by the large amount of classical and non-extreme data that corresponds to the bulk of a distribution. Thus, the wide majority of machine learning tools and literature may not be well-suited or even performant on the distributional tails where extreme observations occur. Through this dissertation, the particular challenges of working with extremes are detailed and methods dedicated to them are proposed. The first part of the thesisis devoted to statistical learning in extreme regions. In Chapter 4, non-asymptotic bounds for the empirical angular measure are studied. Here, a pre-established anomaly detection scheme via minimum volume set on the sphere, is further im-proved. Chapter 5 addresses empirical risk minimization for binary classification of extreme samples. The resulting non-parametric analysis and guarantees are detailed. The approach is particularly well suited to treat new samples falling out of the convex envelop of encountered data. This extrapolation property is key to designing new embeddings achieving label preserving data augmentation. Chapter 6 focuses on the challenge of learning the latter heavy-tailed (and to be precise regularly varying) representation from a given input distribution. Empirical results show that the designed representation allows better classification performanceon extremes and leads to the generation of coherent sentences. Lastly, Chapter7 analyses the dependence structure of multivariate extremes. By noticing that extremes tend to concentrate on particular clusters where features tend to be recurrently large simulatenously, we define an optimization problem that identifies the aformentioned subgroups through weighted means of features

Styles APA, Harvard, Vancouver, ISO, etc.

21

Ben, Nasr Sana. « Mining and modeling variability from natural language documents : two case studies ». Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S013/document.

Texte intégral

Résumé :

L'analyse du domaine vise à identifier et organiser les caractéristiques communes et variables dans un domaine. Dans la pratique, le coût initial et le niveau d'effort manuel associés à cette analyse constituent un obstacle important pour son adoption par de nombreuses organisations qui ne peuvent en bénéficier. La contribution générale de cette thèse consiste à adopter et exploiter des techniques de traitement automatique du langage naturel et d'exploration de données pour automatiquement extraire et modéliser les connaissances relatives à la variabilité à partir de documents informels. L'enjeu est de réduire le coût opérationnel de l’analyse du domaine. Nous étudions l'applicabilité de notre idée à travers deux études de cas pris dans deux contextes différents: (1) la rétro-ingénierie des Modèles de Features (FMs) à partir des exigences réglementaires de sûreté dans le domaine de l’industrie nucléaire civil et (2) l’extraction de Matrices de Comparaison de Produits (PCMs) à partir de descriptions informelles de produits. Dans la première étude de cas, nous adoptons des techniques basées sur l’analyse sémantique, le regroupement (clustering) des exigences et les règles d'association. L'évaluation de cette approche montre que 69% de clusters sont corrects sans aucune intervention de l'utilisateur. Les dépendances entre features montrent une capacité prédictive élevée: 95% des relations obligatoires et 60% des relations optionnelles sont identifiées, et la totalité des relations d'implication et d'exclusion sont extraites. Dans la deuxième étude de cas, notre approche repose sur la technologie d'analyse contrastive pour identifier les termes spécifiques au domaine à partir du texte, l'extraction des informations pour chaque produit, le regroupement des termes et le regroupement des informations. Notre étude empirique montre que les PCMs obtenus sont compacts et contiennent de nombreuses informations quantitatives qui permettent leur comparaison. L'expérience utilisateur montre des résultats prometteurs et que notre méthode automatique est capable d'identifier 43% de features correctes et 68% de valeurs correctes dans des descriptions totalement informelles et ce, sans aucune intervention de l'utilisateur. Nous montrons qu'il existe un potentiel pour compléter ou même raffiner les caractéristiques techniques des produits. La principale leçon à tirer de ces deux études de cas, est que l’extraction et l’exploitation de la connaissance relative à la variabilité dépendent du contexte, de la nature de la variabilité et de la nature du texte
Domain analysis is the process of analyzing a family of products to identify their common and variable features. This process is generally carried out by experts on the basis of existing informal documentation. When performed manually, this activity is both time-consuming and error-prone. In this thesis, our general contribution is to address mining and modeling variability from informal documentation. We adopt Natural Language Processing (NLP) and data mining techniques to identify features, commonalities, differences and features dependencies among related products. We investigate the applicability of this idea by instantiating it in two different contexts: (1) reverse engineering Feature Models (FMs) from regulatory requirements in nuclear domain and (2) synthesizing Product Comparison Matrices (PCMs) from informal product descriptions. In the first case study, we adopt NLP and data mining techniques based on semantic analysis, requirements clustering and association rules to assist experts when constructing feature models from these regulations. The evaluation shows that our approach is able to retrieve 69% of correct clusters without any user intervention. Moreover, features dependencies show a high predictive capacity: 95% of the mandatory relationships and 60% of optional relationships are found, and the totality of requires and exclude relationships are extracted. In the second case study, our proposed approach relies on contrastive analysis technology to mine domain specific terms from text, information extraction, terms clustering and information clustering. Overall, our empirical study shows that the resulting PCMs are compact and exhibit numerous quantitative and comparable information. The user study shows that our automatic approach retrieves 43% of correct features and 68% of correct values in one step and without any user intervention. We show that there is a potential to complement or even refine technical information of products. The main lesson learnt from the two case studies is that the exploitability and the extraction of variability knowledge depend on the context, the nature of variability and the nature of text

Styles APA, Harvard, Vancouver, ISO, etc.

22

Dinkar, Tanvi. « Computational models of disfluencies : fillers and discourse markers in spoken language understanding ». Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT001.

Texte intégral

Résumé :

Les gens s'expriment rarement de la même manière qu'ils écrivent - en effet ils écrivent rarement de manière diffluente. Les disfluences sont des interruptions dans le flux régulier de la parole, telles que les pauses (silencieuses), les répétitions de mots ou les interruptions pour corriger une phrase précédemment dite. Bien qu'il s'agisse d'une caractéristique naturelle de la parole spontanée et malgré la riche littérature linguistique qui traite de leur caractère informatif, elles sont souvent considérées comme du bruit et éliminées lors du post-traitement des transcriptions de sortie des systèmes de reconnaissance de la parole. Jusqu'à présent, leur prise en compte dans un contexte de compréhension de la langue parlée (CLP) a rarement été explorée. L'objectif de cette thèse est de développer des modèles informatiques des disfluences dans la CLP. Pour ce faire, nous prenons inspirons dans les modèles psycholinguistiques des disfluences, qui se concentrent sur le rôle que les disfluences jouent dans l'expression (par le locuteur) et la compréhension (par l'auditeur) du discours. Plus précisément, lorsque nous utilisons le terme "modèles informatiques des disfluences", nous entendons développer des méthodologies qui traitent automatiquement les disfluences afin d'observer empiriquement 1) leurs impacts sur la production et la compréhension de la parole et 2) leurs interactions avec le signal primaire (lexical, ou la substance du discours). A cet effet, nous nous concentrons sur deux types de discours : les monologues et les dialogues orientés vers une tâche. Nos résultats se concentrent sur des tâches de CLP, ainsi que sur les recherches pertinentes pour les systèmes de dialogues parlés. Lors de l'étude des monologues, nous utilisons une combinaison de modèles traditionnels et neuronaux pour étudier les représentations et l'impact des disfluences sur la performance de le CLP. De plus, nous développons des méthodologies pour étudier les disfluences en tant qu'indices d'informations entrantes dans le flux du discours. Dans l'étude des dialogues orientés vers une tâche, nous nous concentrons sur le développement de modèles informatiques pour étudier les rôles des disfluences dans la dynamique auditeur-locuteur. Nous étudions spécifiquement les disfluences dans le contexte de l'alignement verbal, c'est-à-dire l'alignement des expressions lexicales des interlocuteurs et leurs roles dans l'alignement comportemental, un nouveau contexte d'alignement que nous proposons de définir comme le moment où les instructions données par un interlocuteur sont suivis d'une action par un autre interlocuteur. Nous examinons également comment les disfluences dans les contextes d'alignement locaux peuvent être associées à des phénomènes au niveau du discours, tels que la réussite de la tâche. Nous considérons cette thèse comme l'un des premiers travaux, qui pourrait aboutir à intégration des disfluences dans les contextes d'alignement local
People rarely speak in the same manner that they write – they are generally disfluent. Disfluencies can be defined as interruptions in the regular flow of speech, such as pausing silently, repeating words, or interrupting oneself to correct something said previously. Despite being a natural characteristic of spontaneous speech, and the rich linguistic literature that discusses their informativeness, they are often removed as noise in post-processing from the output transcripts of speech recognisers. So far, their consideration in a Spoken Language Understanding (SLU) context has been rarely explored. The aim of this thesis is to develop computational models of disfluencies in SLU. To do so, we take inspiration from psycholinguistic models of disfluencies, which focus on the role that disfluencies play in the production (by the speaker) and comprehension (by the listener) of speech. Specifically, when we use the term ``computational models of disfluencies'', we mean to develop methodologies that automatically process disfluencies to empirically observe 1) their impact on the production and comprehension of speech, and 2) how they interact with the primary signal (the lexical, or what was said in essence). To do so, we focus on two discourse contexts; monologues and task-oriented dialogues.Our results contribute to broader tasks in SLU, and also research relevant to Spoken Dialogue Systems. When studying monologues, we use a combination of traditional and neural models to study the representations and impact of disfluencies on SLU performance. Additionally, we develop methodologies to study disfluencies as a cue for incoming information in the flow of the discourse. In studying task-oriented dialogues, we focus on developing computational models to study the roles of disfluencies in the listener-speaker dynamic. We specifically study disfluencies in the context of verbal alignment; i.e. the alignment of the interlocutors' lexical expressions, and the role of disfluencies in behavioural alignment; a new alignment context that we propose to mean when instructions given by one interlocutor are followed with an action by another interlocutor. We also consider how these disfluencies in local alignment contexts can be associated with discourse level phenomena; such as success in the task. We consider this thesis one of the many first steps that could be undertaken to integrate disfluencies in SLU contexts

Styles APA, Harvard, Vancouver, ISO, etc.

23

Colin, Émilie. « Traitement automatique des langues et génération automatique d'exercices de grammaire ». Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0059.

Texte intégral

Résumé :

Le thème support de cette thèse la génération de paraphrases sur support neuronal. Nos perspectives sont éducatives : créer des exercices de grammaire pour le français. La paraphrase est une opération de reformulation. Nos travaux tendent à attester que les modèles séquence vers séquence ne sont pas de simples répétiteurs mais peuvent apprendre la syntaxe. Nous avons montré, en combinant divers modèles, que la représentation de l'information sous de multiples formes (en utilisant de la donnée formelle (RDF), couplée à du texte pour l'étendre ou le réduire, ou encore seulement du texte) permet d'exploiter un corpus sous différents angles, augmentant la diversité des sorties, exploitant les leviers syntaxiques mis en place. Nous nous sommes penchée sur un problème récurrent, celui de la qualité des données, et avons obtenu des paraphrases avec une haute adéquation syntaxique (jusqu'à 98% de couverture de la demande) et un très bon niveau linguistique. Nous obtenons jusqu'à 83.97 points de BLEU*, 78.41 de plus que la moyenne de nos lignes de base, sans levier syntaxique. Ce taux indique un meilleur contrôle des sorties, pourtant variées et de bonne qualité en l'absence de levier. Nous avons ensuite travaillé depuis du texte brut en passant, pour la génération de phrases, par la production d'une représentation du sens de ce texte qui puisse servir d'entrée à la génération de paraphrases. Le passage à du texte en français était aussi pour nous un impératif. Travailler depuis du texte brut, en automatisant les procédures, nous a permis de créer un corpus de plus de 450 000 couples représentations/phrases, grâce auquel nous avons appris à générer des textes massivement corrects (92% sur la validation qualitative). Anonymiser ce qui n'est pas fonctionnel a participé notablement à la qualité des résultats (68.31 de BLEU, soit +3.96 par rapport à la ligne de base, qui était la génération depuis des données non anonymisées). La représentation formelle de l'information dans un cadre linguistique particulier à une langue est une tâche ardue. Cette thèse offre des pistes de méthodes pour automatiser cette opération. Par ailleurs, nous n'avons pu traiter que des phrases relativement courtes. L'utilisation de modèles neuronaux plus récents permettrait sans doute d'améliorer les résultats. Enfin, l'usage de traits adéquats en sortie permettrait des vérifications poussées. *BLEU (Papineni et al., 2002) : qualité d'un texte sur une échelle de 0 (pire) à 100 (meilleur)
Our perspectives are educational, to create grammar exercises for French. Paraphrasing is an operation of reformulation. Our work tends to attest that sequence-to-sequence models are not simple repeaters but can learn syntax. First, by combining various models, we have shown that the representation of information in multiple forms (using formal data (RDF), coupled with text to extend or reduce it, or only text) allows us to exploit a corpus from different angles, increasing the diversity of outputs, exploiting the syntactic levers put in place. We also addressed a recurrent problem, that of data quality, and obtained paraphrases with a high syntactic adequacy (up to 98% coverage of the demand) and a very good linguistic level. We obtain up to 83.97 points of BLEU-4*, 78.41 more than our baseline average, without syntax leverage. This rate indicates a better control of the outputs, which are varied and of good quality in the absence of syntax leverage. Our idea was to be able to work from raw text : to produce a representation of its meaning. The transition to French text was also an imperative for us. Working from plain text, by automating the procedures, allowed us to create a corpus of more than 450,000 sentence/representation pairs, thanks to which we learned to generate massively correct texts (92% on qualitative validation). Anonymizing everything that is not functional contributed significantly to the quality of the results (68.31 of BLEU, i.e. +3.96 compared to the baseline, which was the generation of text from non-anonymized data). This second work can be applied the integration of a syntax lever guiding the outputs. What was our baseline at time 1 (generate without constraint) would then be combined with a constrained model. By applying an error search, this would allow the constitution of a silver base associating representations to texts. This base could then be multiplied by a reapplication of a generation under constraint, and thus achieve the applied objective of the thesis. The formal representation of information in a language-specific framework is a challenging task. This thesis offers some ideas on how to automate this operation. Moreover, we were only able to process relatively short sentences. The use of more recent neural modelswould likely improve the results. The use of appropriate output strokes would allow for extensive checks. *BLEU : quality of a text (scale from 0 (worst) to 100 (best), Papineni et al. (2002))

Styles APA, Harvard, Vancouver, ISO, etc.

24

Petitjean, Simon. « Génération modulaire de grammaires formelles ». Thesis, Orléans, 2014. http://www.theses.fr/2014ORLE2048/document.

Texte intégral

Résumé :

Les travaux présentés dans cette thèse visent à faciliter le développement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes très diverses, en raison de l’existence de différents niveaux d’étude de la langue (syntaxe, morphologie, sémantique,. . . ) et de différents formalismes proposés pour la description des langues à chacun de ces niveaux. Les formalismes faisant intervenir différents types de structures, un unique langage de description n’est pas suffisant : il est nécessaire pour chaque formalisme de créer un langage dédié (ou DSL), et d’implémenter un nouvel outil utilisant ce langage, ce qui est une tâche longue et complexe. Pour cette raison, nous proposons dans cette thèse une méthode pour assembler modulairement, et adapter, des cadres de développement spécifiques à des tâches de génération de ressources langagières. Les cadres de développement créés sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), à savoir disposer d’un langage de description permettant la définition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-déterministe (c’est à dire au moyen des opérateurs logiques de conjonction et disjonction). La méthode se base sur l’assemblage d’un langage de description à partir de briques réutilisables, et d’après un fichier unique de spécification. L’intégralité de la chaîne de traitement pour le DSL ainsi défini est assemblée automatiquement d’après cette même spécification. Nous avons dans un premier temps validé cette approche en recréant l’outil XMG à partir de briques élémentaires. Des collaborations avec des linguistes nous ont également amené à assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sémantique (au moyen de la théorie des frames)
The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics

Styles APA, Harvard, Vancouver, ISO, etc.

25

Khelifi, Hadria. « Didactique du discours : le français langue d’écrit universitaire en Algérie. Étude contrastive entre filières scientifiques et sciences humaines ». Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0282.

Texte intégral

Résumé :

Cette thèse intitulée « Didactique du discours : le français langue d’écrit universitaire en Algérie. Étude contrastive entre filières scientifiques et sciences humaines » aborde la question de l’enseignement et/ou l’apprentissage des langues étrangères en Algérie à travers les caractéristiques du genre scientifique. Il s’est agi de savoir si ce genre conserve sa stabilité dans l’écrit universitaire quand il est question de pratique d’une langue étrangère, en l’occurrence, le français. La langue française n’existe pas pour elle-même. Elle est la langue de scolarité à l’université algérienne et pose entre autres causes un obstacle à la réussite. Se basant sur un corpus hétérogène constitué de douze mémoires d’études soutenus en Algérie, nous voudrions contraster, parmi ces rédactions, l’écrit des sciences humaines et sociales avec l’écrit des sciences dures et de la nature. L’application d’une démarche assistée par Hyperbase, un logiciel de traitement automatique des langues, est nécessaire vu la taille volumineuse du corpus. De plus, elle continue à développer de nouvelles techniques pour la recherche scientifique. Afin de nous familiariser au contexte de l’usage de la langue français en Algérie, nous avons effectué une enquête par questionnaire auprès des apprenants et des enseignants universitaires algériens. Le résultat principal obtenu de cette recherche montre que le genre est toujours dominant même dans un cadre précis de l’usage d’une langue étrangère
This thesis, entitled: ‘‘French as a writing academic language in Algeria. Contrastive study between scientific fields and humanities’’addresses the issue of teaching and/or learning foreign languages in Algeria through the characteristics of scientific genre. The aim of this research is to discover if genre retains its stability in the academic writing when it is a question of practice of a foreign language, as well as French. The French language does not exist for itself. It is the language of studying at the Algerian university, and poses, among other factors, an obstacle to success. Based on a heterogeneous corpus which is made up of twelve dissertations presented in Algeria, we would like to contrast, among these writings, the writing of the human and social sciences with the writing of the hard and natural sciences.Adopting an automatic language processing through the software Hyperbase is necessary because the corpus is very large. This tool continues to develop new techniques for scientific research. Also, in order to acquaint ourselves with the context of using French language in Algeria, we conducted a questionnaire survey with Algerian students and teachers at the university. The main result obtained from this research shows that genre is always dominant even in a specific context like the use of a foreign language

Styles APA, Harvard, Vancouver, ISO, etc.

26

Ortiz, Suarez Pedro. « A Data-driven Approach to Natural Language Processing for Contemporary and Historical French ». Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS155.

Texte intégral

Résumé :

Depuis plusieurs années, les approches neuronales ont régulièrement amélioré l'état de l'art du traitement automatique des langues (TAL) sur une grande variété de tâches. L'un des principaux facteurs ayant permis ces progrès continus est l'utilisation de techniques d'apprentissage par transfert. Ces méthodes consistent à partir d'un modèle pré-entraîné et à le réutiliser, avec peu ou pas d'entraînement supplémentaire, pour traiter d'autres tâches. Même si ces modèles présentent des avantages évidents, leur principal inconvénient est la quantité de données nécessaire pour les pré-entraîner. Ainsi, le manque de données disponibles à grande échelle a freiné le développement de tels modèles pour le français contemporain et a fortiori pour ses états de langue plus anciens.Cette thèse met l'accent sur le développement de corpus pour le pré-entraînement de telles architectures. Cette approche s'avère extrêmement efficace car nous sommes en mesure d'améliorer l'état de l'art pour un large éventail de tâches de TAL pour le français contemporain et historique, ainsi que pour six autres langues contemporaines. De plus, nous montrons que ces modèles sont extrêmement sensibles à la qualité, à l'hétérogénéité et à l'équilibre des données de pré-entraînement et montrons que ces trois caractéristiques sont de meilleurs prédicteurs de la performance des modèles que la taille des données de pré-entraînement. Nous montrons également que l'importance de la taille des données de pré-entraînement a été surestimée en démontrant à plusieurs reprises que l'on peut pré-entraîner de tels modèles avec des corpus de taille assez modeste
In recent years, neural methods for Natural Language Processing (NLP) have consistently and repeatedly improved the state of the art in a wide variety of NLP tasks. One of the main contributing reasons for this steady improvement is the increased use of transfer learning techniques. These methods consist in taking a pre-trained model and reusing it, with little to no further training, to solve other tasks. Even though these models have clear advantages, their main drawback is the amount of data that is needed to pre-train them. The lack of availability of large-scale data previously hindered the development of such models for contemporary French, and even more so for its historical states.In this thesis, we focus on developing corpora for the pre-training of these transfer learning architectures. This approach proves to be extremely effective, as we are able to establish a new state of the art for a wide range of tasks in NLP for contemporary, medieval and early modern French as well as for six other contemporary languages. Furthermore, we are able to determine, not only that these models are extremely sensitive to pre-training data quality, heterogeneity and balance, but we also show that these three features are better predictors of the pre-trained models' performance in downstream tasks than the pre-training data size itself. In fact, we determine that the importance of the pre-training dataset size was largely overestimated, as we are able to repeatedly show that such models can be pre-trained with corpora of a modest size

Styles APA, Harvard, Vancouver, ISO, etc.

27

Carrasco-Ortiz, Haydee. « Morphosyntactic learning of french as a second language ». Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM3039.

Texte intégral

Résumé :

La présente thèse a pour but d'étudier l'apprentissage morphosyntaxique du français comme langue seconde (L2). Elle cherche à examiner l'hypothèse proposée par certains modèles linguistiques et neurocognitifs selon laquelle les difficultés observées chez des bilingues tardifs à maitriser les connaissances morphosyntaxiques en L2 peuvent s'expliquer par un échec lors de la représentation mentale et le traitement de l'information morphosyntaxique, en comparaison avec les locuteurs natifs. Ainsi, les travaux présentés dans cette thèse utilisent des mesures électrophysiologiques afin de déterminer si ces difficultés sont associées (a) à la réalisation phonologique des inflexions morphologiques de la langue cible et (b) à l'interférence de la langue maternelle (L1). Les résultats démontrent que les apprenants tardifs sont capables d'acquérir des représentations morphosyntaxiques similaires à celle des locuteurs natifs. Nous avons également montré que l'information phonologique comprise dans les inflexions morphologiques joue un rôle important dans l'apprentissage morphosyntaxique en L2. Ces résultats nous ont permis de conclure que la capacité des apprenants bilingues à traiter l'information morphosyntaxique en L2 est moins influencée par la L1 à un niveau avancé d'apprentissage, tout en restant affectée par les propriétés morphosyntaxiques de la langue cible. De plus, ces résultats plaident en faveur des modèles linguistiques et neurocognitifs qui postulent que le traitement morphosyntaxique chez les bilingues avancés implique les même processus cognitifs que ceux des locuteurs natifs
This thesis investigates morphosyntactic learning in adult second language (L2) learners of French. It examines the assumption posited by linguistic and neurocognitive models according to which L2 learners' difficulty in fully mastering morphosyntactic knowledge is due to a failure to mentally represent and process morphosyntactic information in a native-like manner. The series of experiments presented in this thesis use ERPs to investigate whether the difficulties that late L2 learners encounter in processing morphosyntactic agreement can be explained by (a) the phonological realization of inflectional morphology in the target language and (b) interference from the learners' native language (L1). The findings demonstrate that late L2 learners can achieve native-like processing of morphosyntactic knowledge at high levels of proficiency, regardless of the status of the morphosyntactic system in their L1. In addition, we provide evidence that phonological information contained in inflectional morphology plays an important role in the acquisition and processing of morphosyntactic agreement in L2. It is thus argued that L2 learners' processing of morphosyntactic agreement is less influenced by the L1 at high levels of proficiency, while still being potentially affected by the specific morphosyntactic properties of the target language. These findings give further support to linguistic and neurocognitive models positing that morphosyntactic processing in adult L2 learners involves mental representations and cognitive mechanisms similar to those used by native speakers

Styles APA, Harvard, Vancouver, ISO, etc.

28

Douzon, Thibault. « Language models for document understanding ». Electronic Thesis or Diss., Lyon, INSA, 2023. http://www.theses.fr/2023ISAL0075.

Texte intégral

Résumé :

Chaque jour, les entreprises du monde entier reçoivent et traitent d'énormes volumes de documents, entraînant des coûts considérables. Pour réduire ces coûts, de grandes entreprises automatisent le traitement documentaire, visant une automatisation complète. Cette thèse se concentre sur l'utilisation de modèles d'apprentissage machine pour extraire des informations de documents. Les progrès récents en matière d'architecture de modèle, en particulier les transformeurs, ont révolutionné le domaine grâce à leur utilisation généralisée de l'attention et à l'amélioration des pré-entraînements auto-supervisés. Nous montrons que les transformeurs, pré-entraînés sur des documents, effectuent des tâches de compréhension de documents avec précision et surpassent les modèles à base de réseaux récurrents pour l'extraction d'informations par classification de mots. Les transformeurs nécessitent également moins de données d'entraînement pour atteindre des performances élevées, soulignant l'importance du pré-entraînement auto-supervisé. Dans la suite, nous introduisons des tâches de pré-entraînement spécifiquement adaptées aux documents d'entreprise, améliorant les performances même avec des modèles plus petits. Cela permet d'atteindre des niveaux de performance similaires à ceux de modèles plus gros, ouvrant la voie à des modèles plus petits et plus économiques. Enfin, nous abordons le défi du coût d'évaluation des transformeurs sur de longues séquences. Nous montrons que des architectures plus efficaces dérivées des transformeurs nécessitent moins de ressources et donnent de meilleurs résultats sur de longues séquences. Cependant, elles peuvent perdre légèrement en performance sur de courtes séquences par rapport aux transformeurs classiques. Cela suggère l'avantage d'utiliser plusieurs modèles en fonction de la longueur des séquences à traiter, ouvrant la possibilité de concaténer des séquences de différentes modalités
Every day, an uncountable amount of documents are received and processed by companies worldwide. In an effort to reduce the cost of processing each document, the largest companies have resorted to document automation technologies. In an ideal world, a document can be automatically processed without any human intervention: its content is read, and information is extracted and forwarded to the relevant service. The state-of-the-art techniques have quickly evolved in the last decades, from rule-based algorithms to statistical models. This thesis focuses on machine learning models for document information extraction. Recent advances in model architecture for natural language processing have shown the importance of the attention mechanism. Transformers have revolutionized the field by generalizing the use of attention and by pushing self-supervised pre-training to the next level. In the first part, we confirm that transformers with appropriate pre-training were able to perform document understanding tasks with high performance. We show that, when used as a token classifier for information extraction, transformers are able to exceptionally efficiently learn the task compared to recurrent networks. Transformers only need a small proportion of the training data to reach close to maximum performance. This highlights the importance of self-supervised pre-training for future fine-tuning. In the following part, we design specialized pre-training tasks, to better prepare the model for specific data distributions such as business documents. By acknowledging the specificities of business documents such as their table structure and their over-representation of numeric figures, we are able to target specific skills useful for the model in its future tasks. We show that those new tasks improve the model's downstream performances, even with small models. Using this pre-training approach, we are able to reach the performances of significantly bigger models without any additional cost during finetuning or inference. Finally, in the last part, we address one drawback of the transformer architecture which is its computational cost when used on long sequences. We show that efficient architectures derived from the classic transformer require fewer resources and perform better on long sequences. However, due to how they approximate the attention computation, efficient models suffer from a small but significant performance drop on short sequences compared to classical architectures. This incentivizes the use of different models depending on the input length and enables concatenating multimodal inputs into a single sequence

Styles APA, Harvard, Vancouver, ISO, etc.

29

Samson, Juan Sarah Flora. « Exploiting resources from closely-related languages for automatic speech recognition in low-resource languages from Malaysia ». Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAM061/document.

Texte intégral

Résumé :

Les langues en Malaisie meurent à un rythme alarmant. A l'heure actuelle, 15 langues sont en danger alors que deux langues se sont éteintes récemment. Une des méthodes pour sauvegarder les langues est de les documenter, mais c'est une tâche fastidieuse lorsque celle-ci est effectuée manuellement.Un système de reconnaissance automatique de la parole (RAP) serait utile pour accélérer le processus de documentation de ressources orales. Cependant, la construction des systèmes de RAP pour une langue cible nécessite une grande quantité de données d'apprentissage comme le suggèrent les techniques actuelles de l'état de l'art, fondées sur des approches empiriques. Par conséquent, il existe de nombreux défis à relever pour construire des systèmes de transcription pour les langues qui possèdent des quantités de données limitées.L'objectif principal de cette thèse est d'étudier les effets de l'utilisation de données de langues étroitement liées, pour construire un système de RAP pour les langues à faibles ressources en Malaisie. Des études antérieures ont montré que les méthodes inter-lingues et multilingues pourraient améliorer les performances des systèmes de RAP à faibles ressources. Dans cette thèse, nous essayons de répondre à plusieurs questions concernant ces approches: comment savons-nous si une langue est utile ou non dans un processus d'apprentissage trans-lingue ? Comment la relation entre la langue source et la langue cible influence les performances de la reconnaissance de la parole ? La simple mise en commun (pooling) des données d'une langue est-elle une approche optimale ?Notre cas d'étude est l'iban, une langue peu dotée de l'île de Bornéo. Nous étudions les effets de l'utilisation des données du malais, une langue locale dominante qui est proche de l'iban, pour développer un système de RAP pour l'iban, sous différentes contraintes de ressources. Nous proposons plusieurs approches pour adapter les données du malais afin obtenir des modèles de prononciation et des modèles acoustiques pour l'iban.Comme la contruction d'un dictionnaire de prononciation à partir de zéro nécessite des ressources humaines importantes, nous avons développé une approche semi-supervisée pour construire rapidement un dictionnaire de prononciation pour l'iban. Celui-ci est fondé sur des techniques d'amorçage, pour améliorer la correspondance entre les données du malais et de l'iban.Pour augmenter la performance des modèles acoustiques à faibles ressources, nous avons exploré deux techniques de modélisation : les modèles de mélanges gaussiens à sous-espaces (SGMM) et les réseaux de neurones profonds (DNN). Nous avons proposé, dans ce cadre, des méthodes de transfert translingue pour la modélisation acoustique permettant de tirer profit d'une grande quantité de langues “proches” de la langue cible d'intérêt. Les résultats montrent que l'utilisation de données du malais est bénéfique pour augmenter les performances des systèmes de RAP de l'iban. Par ailleurs, nous avons également adapté les modèles SGMM et DNN au cas spécifique de la transcription automatique de la parole non native (très présente en Malaisie). Nous avons proposé une approche fine de fusion pour obtenir un SGMM multi-accent optimal. En outre, nous avons développé un modèle DNN spécifique pour la parole accentuée. Les deux approches permettent des améliorations significatives de la précision du système de RAP. De notre étude, nous observons que les modèles SGMM et, de façon plus surprenante, les modèles DNN sont très performants sur des jeux de données d'apprentissage en quantité limités
Languages in Malaysia are dying in an alarming rate. As of today, 15 languages are in danger while two languages are extinct. One of the methods to save languages is by documenting languages, but it is a tedious task when performed manually.Automatic Speech Recognition (ASR) system could be a tool to help speed up the process of documenting speeches from the native speakers. However, building ASR systems for a target language requires a large amount of training data as current state-of-the-art techniques are based on empirical approach. Hence, there are many challenges in building ASR for languages that have limited data available.The main aim of this thesis is to investigate the effects of using data from closely-related languages to build ASR for low-resource languages in Malaysia. Past studies have shown that cross-lingual and multilingual methods could improve performance of low-resource ASR. In this thesis, we try to answer several questions concerning these approaches: How do we know which language is beneficial for our low-resource language? How does the relationship between source and target languages influence speech recognition performance? Is pooling language data an optimal approach for multilingual strategy?Our case study is Iban, an under-resourced language spoken in Borneo island. We study the effects of using data from Malay, a local dominant language which is close to Iban, for developing Iban ASR under different resource constraints. We have proposed several approaches to adapt Malay data to obtain pronunciation and acoustic models for Iban speech.Building a pronunciation dictionary from scratch is time consuming, as one needs to properly define the sound units of each word in a vocabulary. We developed a semi-supervised approach to quickly build a pronunciation dictionary for Iban. It was based on bootstrapping techniques for improving Malay data to match Iban pronunciations.To increase the performance of low-resource acoustic models we explored two acoustic modelling techniques, the Subspace Gaussian Mixture Models (SGMM) and Deep Neural Networks (DNN). We performed cross-lingual strategies using both frameworks for adapting out-of-language data to Iban speech. Results show that using Malay data is beneficial for increasing the performance of Iban ASR. We also tested SGMM and DNN to improve low-resource non-native ASR. We proposed a fine merging strategy for obtaining an optimal multi-accent SGMM. In addition, we developed an accent-specific DNN using native speech data. After applying both methods, we obtained significant improvements in ASR accuracy. From our study, we observe that using SGMM and DNN for cross-lingual strategy is effective when training data is very limited

Styles APA, Harvard, Vancouver, ISO, etc.

30

Nilsson, Anna. « Lire et comprendre en français langue étrangère : Les pratiques de lecture et le traitement des similitudes intra- et interlexicales ». Doctoral thesis, Stockholms universitet, Institutionen för franska, italienska och klassiska språk, 2007. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-7048.

Texte intégral

Résumé :

This thesis investigates learners’ reading practices and especially the processing of cross-linguistic similarities at the lexical level. The aim is to determine how learners proceed in order to understand text in French (L3). Data were collected using various reading comprehension tasks in combination with the think-aloud method. Reading comprehension was mainly assessed through a translation task while the reading practices were observed in think-aloud protocols. According to a reading comprehension score, 20 learners were divided into high level and low level groups. The majority of participants were Swedish learners who are also proficient in English L2. Another group of 10 Swedish learners and 10 French native speakers participated in a cross-linguistic word association task. Reading practices were defined as including skills, strategies and readers’ reactions to the text, the tasks and their own capacities. A typology of twelve reading practices was established including three categories based on intralingual and interlingual similarities. Results from the translation task and the think-aloud protocols show that interlingual processing is more important when learners have difficulties in understanding text content. The more learners in the low level groups relied on intralingual and especially interlingual similarities the less they understood the text content. The high level groups on the other hand used reading practices such as reformulation or translation procedures. The think-aloud protocols also show that learners believe that they compare words in the French text (L3) with English similar words (L2) although their interlingual processing during translation actually confirms the dominance of Swedish (L1). Moreover, results from a cross-linguistic word association task suggest that French Swedish/English cognates and false friends activate this type of words more often than French control words. Cross-linguistic stimuli actually triggered patterns of potential interlingual similarities, for example sacrifice (stimulus) – religion (response), even more than words that are similar to the stimulus diplomate – diplom ‘diploma’.

Styles APA, Harvard, Vancouver, ISO, etc.

31

Kessler, Rémy. « Traitement automatique d’informations appliqué aux ressources humaines ». Thesis, Avignon, 2009. http://www.theses.fr/2009AVIG0167/document.

Texte intégral

Résumé :

Depuis les années 90, Internet est au coeur du marché du travail. D’abord mobilisée sur des métiers spécifiques, son utilisation s’étend à mesure qu’augmente le nombre d’internautes dans la population. La recherche d’emploi au travers des « bourses à l’emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d’informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d’information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d’outils pour automatiser les flux d’informations lors d’un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d’une entreprise à gérer efficacement et à moindre coût ces flux d’informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l’application des méthodes d’apprentissage afin d’effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l’analyse et l’intégration d’une offre d’emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d’intégrer une offre d’emploi d’une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d’assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d’effectuer un classement pertinent des candidatures. L’utilisation d’un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité
Since the 90s, Internet is at the heart of the labor market. First mobilized on specific expertise, its use spreads as increase the number of Internet users in the population. Seeking employment through "electronic employment bursary" has become a banality and e-recruitment something current. This information explosion poses various problems in their treatment with the large amount of information difficult to manage quickly and effectively for companies. We present in this PhD thesis, the work we have developed under the E-Gen project, which aims to create tools to automate the flow of information during a recruitment process.We interested first to the problems posed by the routing of emails. The ability of a companie to manage efficiently and at lower cost this information flows becomes today a major issue for customer satisfaction. We propose the application of learning methods to perform automatic classification of emails to their routing, combining technical and probabilistic vector machines support. After, we present work that was conducted as part of the analysis and integration of a job ads via Internet. We present a solution capable of integrating a job ad from an automatic or assisted in order to broadcast it quickly. Based on a combination of classifiers systems driven by a Markov automate, the system gets very good results. Thereafter, we present several strategies based on vectorial and probabilistic models to solve the problem of profiling candidates according to a specific job offer to assist recruiters. We have evaluated a range of measures of similarity to rank candidatures by using ROC curves. Relevance feedback approach allows to surpass our previous results on this task, difficult, diverse and higly subjective

Styles APA, Harvard, Vancouver, ISO, etc.

32

Delyfer, Annie. « Le rôle de l'hémisphère droit dans le traitement des mots connotant une émotion et des mots dénotant une émotion ». Thesis, McGill University, 1995. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=23389.

Texte intégral

Résumé :

A lexical decision task and a semantic judgment task were conducted with eight right brain-damaged, six left brain-damaged and eight control subjects to explore the role of the right hemisphere in the processing of words that connote an emotion and of words that denote an emotion. Accuracy and reaction time data were measured in each experiment. Despite differences in the detailed patterns of responses across groups, there was little evidence to suggest that the right hemisphere is involved in the processing of the two kinds of emotional words. Valence (positive vs negative) had no influence on the results. Nor was there a difference between words that connote and words that denote an emotion. The results that were obtained are discussed in relation to hypotheses about the right hemisphere's role in the processing of emotional words.

Styles APA, Harvard, Vancouver, ISO, etc.

33

Linhares, Pontes Elvys. « Compressive Cross-Language Text Summarization ». Thesis, Avignon, 2018. http://www.theses.fr/2018AVIG0232/document.

Texte intégral

Résumé :

La popularisation des réseaux sociaux et des documents numériques a rapidement accru l'information disponible sur Internet. Cependant, cette quantité massive de données ne peut pas être analysée manuellement. Parmi les applications existantes du Traitement Automatique du Langage Naturel (TALN), nous nous intéressons dans cette thèse au résumé cross-lingue de texte, autrement dit à la production de résumés dans une langue différente de celle des documents sources. Nous analysons également d'autres tâches du TALN (la représentation des mots, la similarité sémantique ou encore la compression de phrases et de groupes de phrases) pour générer des résumés cross-lingues plus stables et informatifs. La plupart des applications du TALN, celle du résumé automatique y compris, utilisent une mesure de similarité pour analyser et comparer le sens des mots, des séquences de mots, des phrases et des textes. L’une des façons d'analyser cette similarité est de générer une représentation de ces phrases tenant compte de leur contenu. Le sens des phrases est défini par plusieurs éléments, tels que le contexte des mots et des expressions, l'ordre des mots et les informations précédentes. Des mesures simples, comme la mesure cosinus et la distance euclidienne, fournissent une mesure de similarité entre deux phrases. Néanmoins, elles n'analysent pas l'ordre des mots ou les séquences de mots. En analysant ces problèmes, nous proposons un modèle de réseau de neurones combinant des réseaux de neurones récurrents et convolutifs pour estimer la similarité sémantique d'une paire de phrases (ou de textes) en fonction des contextes locaux et généraux des mots. Sur le jeu de données analysé, notre modèle a prédit de meilleurs scores de similarité que les systèmes de base en analysant mieux le sens local et général des mots mais aussi des expressions multimots. Afin d'éliminer les redondances et les informations non pertinentes de phrases similaires, nous proposons de plus une nouvelle méthode de compression multiphrase, fusionnant des phrases au contenu similaire en compressions courtes. Pour ce faire, nous modélisons des groupes de phrases semblables par des graphes de mots. Ensuite, nous appliquons un modèle de programmation linéaire en nombres entiers qui guide la compression de ces groupes à partir d'une liste de mots-clés ; nous cherchons ainsi un chemin dans le graphe de mots qui a une bonne cohésion et qui contient le maximum de mots-clés. Notre approche surpasse les systèmes de base en générant des compressions plus informatives et plus correctes pour les langues française, portugaise et espagnole. Enfin, nous combinons les méthodes précédentes pour construire un système de résumé de texte cross-lingue. Notre système génère des résumés cross-lingue de texte en analysant l'information à la fois dans les langues source et cible, afin d’identifier les phrases les plus pertinentes. Inspirés par les méthodes de résumé de texte par compression en analyse monolingue, nous adaptons notre méthode de compression multiphrase pour ce problème afin de ne conserver que l'information principale. Notre système s'avère être performant pour compresser l'information redondante et pour préserver l'information pertinente, en améliorant les scores d'informativité sans perdre la qualité grammaticale des résumés cross-lingues du français vers l'anglais. En analysant les résumés cross-lingues depuis l’anglais, le français, le portugais ou l’espagnol, vers l’anglais ou le français, notre système améliore les systèmes par extraction de l'état de l'art pour toutes ces langues. En outre, une expérience complémentaire menée sur des transcriptions automatiques de vidéo montre que notre approche permet là encore d'obtenir des scores ROUGE meilleurs et plus stables, même pour ces documents qui présentent des erreurs grammaticales et des informations inexactes ou manquantes
The popularization of social networks and digital documents increased quickly the informationavailable on the Internet. However, this huge amount of data cannot be analyzedmanually. Natural Language Processing (NLP) analyzes the interactions betweencomputers and human languages in order to process and to analyze natural languagedata. NLP techniques incorporate a variety of methods, including linguistics, semanticsand statistics to extract entities, relationships and understand a document. Amongseveral NLP applications, we are interested, in this thesis, in the cross-language textsummarization which produces a summary in a language different from the languageof the source documents. We also analyzed other NLP tasks (word encoding representation,semantic similarity, sentence and multi-sentence compression) to generate morestable and informative cross-lingual summaries.Most of NLP applications (including all types of text summarization) use a kind ofsimilarity measure to analyze and to compare the meaning of words, chunks, sentencesand texts in their approaches. A way to analyze this similarity is to generate a representationfor these sentences that contains the meaning of them. The meaning of sentencesis defined by several elements, such as the context of words and expressions, the orderof words and the previous information. Simple metrics, such as cosine metric andEuclidean distance, provide a measure of similarity between two sentences; however,they do not analyze the order of words or multi-words. Analyzing these problems,we propose a neural network model that combines recurrent and convolutional neuralnetworks to estimate the semantic similarity of a pair of sentences (or texts) based onthe local and general contexts of words. Our model predicted better similarity scoresthan baselines by analyzing better the local and the general meanings of words andmulti-word expressions.In order to remove redundancies and non-relevant information of similar sentences,we propose a multi-sentence compression method that compresses similar sentencesby fusing them in correct and short compressions that contain the main information ofthese similar sentences. We model clusters of similar sentences as word graphs. Then,we apply an integer linear programming model that guides the compression of theseclusters based on a list of keywords. We look for a path in the word graph that has goodcohesion and contains the maximum of keywords. Our approach outperformed baselinesby generating more informative and correct compressions for French, Portugueseand Spanish languages. Finally, we combine these previous methods to build a cross-language text summarizationsystem. Our system is an {English, French, Portuguese, Spanish}-to-{English,French} cross-language text summarization framework that analyzes the informationin both languages to identify the most relevant sentences. Inspired by the compressivetext summarization methods in monolingual analysis, we adapt our multi-sentencecompression method for this problem to just keep the main information. Our systemproves to be a good alternative to compress redundant information and to preserve relevantinformation. Our system improves informativeness scores without losing grammaticalquality for French-to-English cross-lingual summaries. Analyzing {English,French, Portuguese, Spanish}-to-{English, French} cross-lingual summaries, our systemsignificantly outperforms extractive baselines in the state of the art for all these languages.In addition, we analyze the cross-language text summarization of transcriptdocuments. Our approach achieved better and more stable scores even for these documentsthat have grammatical errors and missing information

Styles APA, Harvard, Vancouver, ISO, etc.

34

Labeau, Matthieu. « Neural language models : Dealing with large vocabularies ». Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS313/document.

Texte intégral

Résumé :

Le travail présenté dans cette thèse explore les méthodes pratiques utilisées pour faciliter l'entraînement et améliorer les performances des modèles de langues munis de très grands vocabulaires. La principale limite à l'utilisation des modèles de langue neuronaux est leur coût computationnel: il dépend de la taille du vocabulaire avec laquelle il grandit linéairement. La façon la plus aisée de réduire le temps de calcul de ces modèles reste de limiter la taille du vocabulaire, ce qui est loin d'être satisfaisant pour de nombreuses tâches. La plupart des méthodes existantes pour l'entraînement de ces modèles à grand vocabulaire évitent le calcul de la fonction de partition, qui est utilisée pour forcer la distribution de sortie du modèle à être normalisée en une distribution de probabilités. Ici, nous nous concentrons sur les méthodes à base d'échantillonnage, dont le sampling par importance et l'estimation contrastive bruitée. Ces méthodes permettent de calculer facilement une approximation de cette fonction de partition. L'examen des mécanismes de l'estimation contrastive bruitée nous permet de proposer des solutions qui vont considérablement faciliter l'entraînement, ce que nous montrons expérimentalement. Ensuite, nous utilisons la généralisation d'un ensemble d'objectifs basés sur l'échantillonnage comme divergences de Bregman pour expérimenter avec de nouvelles fonctions objectif. Enfin, nous exploitons les informations données par les unités sous-mots pour enrichir les représentations en sortie du modèle. Nous expérimentons avec différentes architectures, sur le Tchèque, et montrons que les représentations basées sur les caractères permettent l'amélioration des résultats, d'autant plus lorsque l'on réduit conjointement l'utilisation des représentations de mots
This work investigates practical methods to ease training and improve performances of neural language models with large vocabularies. The main limitation of neural language models is their expensive computational cost: it depends on the size of the vocabulary, with which it grows linearly. Despite several training tricks, the most straightforward way to limit computation time is to limit the vocabulary size, which is not a satisfactory solution for numerous tasks. Most of the existing methods used to train large-vocabulary language models revolve around avoiding the computation of the partition function, ensuring that output scores are normalized into a probability distribution. Here, we focus on sampling-based approaches, including importance sampling and noise contrastive estimation. These methods allow an approximate computation of the partition function. After examining the mechanism of self-normalization in noise-contrastive estimation, we first propose to improve its efficiency with solutions that are adapted to the inner workings of the method and experimentally show that they considerably ease training. Our second contribution is to expand on a generalization of several sampling based objectives as Bregman divergences, in order to experiment with new objectives. We use Beta divergences to derive a set of objectives from which noise contrastive estimation is a particular case. Finally, we aim at improving performances on full vocabulary language models, by augmenting output words representation with subwords. We experiment on a Czech dataset and show that using character-based representations besides word embeddings for output representations gives better results. We also show that reducing the size of the output look-up table improves results even more

Styles APA, Harvard, Vancouver, ISO, etc.

35

Piat, Guilhem Xavier. « Incorporating expert knowledge in deep neural networks for domain adaptation in natural language processing ». Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG087.

Texte intégral

Résumé :

Les Modèles de Langage (LMs) de pointe sont capables de converser, résumer, traduire, résoudre des problèmes inédits, raisonner, et manipuler des concepts abstraits à niveau quasi-humain. Cependant, pour acquérir ces capacités, et en particulier pour acquérir une forme de ``bon sens'' ou des connaissances spécifiques à un domaine, ils requièrent de vastes quantités de texte, qui ne sont pas disponibles pour toutes les langues ou tous les domaines. De surcroît, leurs besoins en puissance de calcul ne sont atteignables que par quelques organisations, limitant leur spécificité ainsi que leur applicabilité aux données sensibles.Les Graphes de Connaissances (GCs) sont des sources de connaissances structurées qui associent des concepts linguistiques entre eux par le biais de relations sémantiques. Ces graphes sont des sources de connaissances de haute qualité, préexistantes dans une variété de domaines même peu dotés en ressources, et plus denses en informations que du texte. En permettant aux LMs d'exploiter ces structures d'information, ils sont délestés de la responsabilité de mémoriser les informations factuelles, réduisant la quantité de ressources textuelles et calculatoires nécessaires à leur entraînement, et nous permettant de mettre à jour leur connaissances à moindre coût, élargissant leur cadre d'application et augmentant leur potentiel de démocratisation.Diverses approches pour l'amélioration de LMs par intégration de GCs ont démontré leur efficacité. Elles reposent cependant sur la supposition rarement vérifiée que le problème de Désambiguïsation d'Entités Nommées (DEN) est résolu en amont. Ce mémoire couvre les limitations de cette approche, puis explore l'apprentissage simultané de modélisation de langue et de DEN. Cette démarche s'avère viable mais échoue à réduire considérablement la dépendance du LM sur le texte issu du domaine. Enfin, ce mémoire aborde la stratégie de générer du texte à partir de GCs de manière à exploiter les capacités linguistiques des LMs. Il en ressort que même une implémentation naïve de cette approche peut se solder par de considérables progrès en modélisation de langue dans des domaines de spécialité
Current state-of-the-art Language Models (LMs) are able to converse, summarize, translate, solve novel problems, reason, and use abstract concepts at a near-human level. However, to achieve such abilities, and in particular to acquire ``common sense'' and domain-specific knowledge, they require vast amounts of text, which are not available in all languages or domains. Additionally, their computational requirements are out of reach for most organizations, limiting their potential for specificity and their applicability in the context of sensitive data.Knowledge Graphs (KGs) are sources of structured knowledge which associate linguistic concepts through semantic relations. These graphs are sources of high quality knowledge which pre-exist in a variety of otherwise low-resource domains, and are denser in information than typical text. By allowing LMs to leverage these information structures, we could remove the burden of memorizing facts from LMs, reducing the amount of text and computation required to train them and allowing us to update their knowledge with little to no additional training by updating the KGs, therefore broadening their scope of applicability and making them more democratizable.Various approaches have succeeded in improving Transformer-based LMs using KGs. However, most of them unrealistically assume the problem of Entity Linking (EL), i.e. determining which KG concepts are present in the text, is solved upstream. This thesis covers the limitations of handling EL as an upstream task. It goes on to examine the possibility of learning EL jointly with language modeling, and finds that while this is a viable strategy, it does little to decrease the LM's reliance on in-domain text. Lastly, this thesis covers the strategy of using KGs to generate text in order to leverage LMs' linguistic abilities and finds that even naïve implementations of this approach can result in measurable improvements on in-domain language processing

Styles APA, Harvard, Vancouver, ISO, etc.

36

Planchou, Clément. « Traitement auditifs non verbaux et troubles du développement du langage oral : perception et production musicales ». Thesis, Lille 3, 2014. http://www.theses.fr/2014LIL30034.

Texte intégral

Résumé :

L’objectif de cette thèse est de déterminer si le déficit auditif des enfants dysphasiques est spécifique au domaine verbal et d’étudier les liens qu’entretiennent les habiletés verbales et musicales chez ces enfants. Nous avons testé 18 dysphasiques et des enfants au développement du langage typique (DLT) âgés de 7 à 12 ans. Dans la première étude, nous avons étudié leurs capacités de détection des syllabes dans des phrases chantées et parlées. Nos résultats ont confirmé les déficits de détection des syllabes chez les dysphasiques. Nous n’avons toutefois pas observé d’effet facilitateur du chant sur la détection des syllabes. Dans une seconde étude, nous avons exploré leur perception musicale à l’aide de la MBEMA (Peretz et al., 2013). Une part importante de ces enfants a montré des troubles de perception mélodique et rythmique. Une corrélation positive a été retrouvée entre les scores aux tests de perception rythmique et de conscience phonologique, étayant les liens entre le traitement temporel et la perception verbale chez les dysphasiques. Dans la troisième étude, nous avons exploré leurs capacités de chant avec une épreuve de reproduction de notes et de mélodies. Les dysphasiques montraient des troubles importants dans ces deux conditions. Des troubles de production et de perception musicale ont été mis en évidence chez la plupart des dysphasiques et les capacités de conscience phonologique semblaient liées au traitement temporel en musique. Ces résultats en faveur d’un déficit auditif plus global chez la plupart des dysphasiques suggèrent l’importance d’évaluer les capacités auditives non verbales dans la prise en charge diagnostique et thérapeutique de ces enfants
The aim of this thesis is to determine whether the auditory deficit of children with Specific Language Impairment (SLI) is specific to verbal stimuli, and to examine the relation between language and musical abilities in these children. We tested 18 children with SLI and groups of children with Typical Language Development (TLD) aged from 7 to 12 years. In the first study, we examined syllable detection in sung and spoken sentences. Results confirmed the detection syllable deficit in children with SLI. However, we did not observe a facilitation effect of sung over spoken stimuli. In the second study, we explored musical perception abilities in the same children with the MBEMA (Peretz et al. 2013). Our results showed that a large proportion of the children with SLI present deficits in melodic and rhythmic perception. A positive correlation was found between scores in Rhythm and phonological awareness tasks, documenting a link between language and temporal processing in children with SLI. In the third study, we assessed singing abilities in children with SLI: we created a singing reproduction task and tested the pitch matching condition and the melodic reproduction condition. The SLI showed deficits for both conditions. These results suggested deficits in music perception and production in children with SLI for most of them and that development of phonological awareness abilities seems related to the auditory temporal processing in music. The findings seem to support the existence a more general auditory dysfunction in a majority of children with SLI emphasizing the relevance of systematically assessing nonverbal abilities for the diagnostic and rehabilitation of SLI

Styles APA, Harvard, Vancouver, ISO, etc.

37

Knyazeva, Elena. « Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues ». Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS134/document.

Texte intégral

Résumé :

L’apprentissage structuré est devenu omniprésent dans le traitement automatique des langues naturelles. De nombreuses applications qui font maintenant partie de notre vie telles que des assistants personnels, la traduction automatique, ou encore la reconnaissance vocale, reposent sur ces techniques. Les problèmes d'apprentissage structuré qu’il est nécessaire de résoudre sont de plus en plus complexes et demandent de prendre en compte de plus en plus d’informations à des niveaux linguistiques variés (morphologique, syntaxique, etc.) et reposent la question du meilleurs compromis entre la finesse de la modélisation et l’exactitude des algorithmes d’apprentissage et d’inférence. L’apprentissage par imitation propose de réaliser les procédures d’apprentissage et d’inférence de manière approchée afin de pouvoir exploiter pleinement des structures de dépendance plus riches. Cette thèse explore ce cadre d’apprentissage, en particulier l’algorithme SEARN, à la fois sur le plan théorique ainsi que ses possibilités d’application aux tâches de traitement automatique des langues, notamment aux plus complexes telles que la traduction. Concernant les aspects théoriques, nous présentons un cadre unifié pour les différentes familles d’apprentissage par imitation, qui permet de redériver de manière simple les propriétés de convergence de ces algorithmes; concernant les aspects plus appliqués, nous utilisons l’apprentissage par imitation d’une part pour explorer l’étiquetage de séquences en ordre libre; d’autre part pour étudier des stratégies de décodage en deux étapes pour la traduction automatique
Structured learning has become ubiquitousin Natural Language Processing; a multitude ofapplications, such as personal assistants, machinetranslation and speech recognition, to name just afew, rely on such techniques. The structured learningproblems that must now be solved are becomingincreasingly more complex and require an increasingamount of information at different linguisticlevels (morphological, syntactic, etc.). It is thereforecrucial to find the best trade-off between the degreeof modelling detail and the exactitude of the inferencealgorithm. Imitation learning aims to perform approximatelearning and inference in order to better exploitricher dependency structures. In this thesis, we explorethe use of this specific learning setting, in particularusing the SEARN algorithm, both from a theoreticalperspective and in terms of the practical applicationsto Natural Language Processing tasks, especiallyto complex tasks such as machine translation.Concerning the theoretical aspects, we introduce aunified framework for different imitation learning algorithmfamilies, allowing us to review and simplifythe convergence properties of the algorithms. With regardsto the more practical application of our work, weuse imitation learning first to experiment with free ordersequence labelling and secondly to explore twostepdecoding strategies for machine translation

Styles APA, Harvard, Vancouver, ISO, etc.

38

Gouvard, Paul. « Explaining the Variability of Audiences’ Valuations : An Approach Based on Market Categories and Natural Language Processing ». Thesis, Jouy-en Josas, HEC, 2020. http://www.theses.fr/2020EHEC0007.

Texte intégral

Résumé :

Cette thèse cherche à établir si les différents processus de catégorisation influençant les évaluations des audiences sur les marchés conduisent à une stabilisation ou à une plus grande variabilité de leurs évaluations. Bien que les travaux de recherche fondateurs portant sur la catégorisation aient insisté sur le rôle stabilisateur des catégories sur les marchés, la recherche récente suggère que les évaluations des audiences peuvent varier substantiellement, même sur des marchés dotés de catégories pré-existantes bien établies. Cette variabilité résulte notamment des préférences hétérogènes des audiences pour les offres typiques, de changements dans les significations associées aux catégories ou de l’utilisation par les audiences de plusieurs modes d’évaluation. En se basant sur ces nouveaux résultats, cette thèse cherche pourquoi les évaluations des audiences sont si variables et explore en détail le rôle joué par les catégories de marché dans cette variabilité. Cette thèse propose que i) les catégories ambigües, ii) l’influence d’attractions temporaires parmis les audiences aux côtés des catégories plus stables et iii) la co-existence de plusieurs types d’évaluateurs contribuent à produire de la variabilité dans les évaluations des audiences. Les deux premiers essais empiriques utilisent des données sur des entreprises cotées en bourse aux Etats-Unis. Dans ces essais, la similarité des entreprises aux prototypes des catégories existantes ou l’attraction temporaire des audiences vers certains attributs sont mesurés à l’aide de contenus sémantiques extraits d’un large corpus de rapports annuels et de prospectus d’entrée en bourse. Le troisième essai est un modèle théorique. Cette thèse contribue à la littérature sur le rôle des catégories sur les marchés, à la recherche émergente sur le niveau de distinction optimal et aux approches computationelles de l’étude des organisations
This dissertation examines whether the different categorization processes shaping audiences’ valuations in markets bring stability or variability to audiences’ valuations. While seminal research on categorization emphasized the stabilizing role of market categories, recent research suggests that audiences’ valuations can vary substantially even in markets which are well-structured by pre-existing categories. This variability notably results from audiences’ heterogeneous preferences for typical offerings, from shifts in categories’ meanings or from audiences’ reliance on multiple models of valuation. Taking stock of these new results, this dissertation asks why audiences’ valuations are so variable and explores in more details the role that market categories play in this phenomenon.This dissertation proposes that i) ambiguous categories, ii) the influence of temporary attractions among audiences alongside more stable categories and iii) the co-existence of different types of evaluators all contribute to produce variability in audiences’ valuations. The first two empirical essays use data from publicly listed firms in the U.S. In these essays, firms’ similarity to existing category prototypes or audiences’ temporary attractions toward certain features are measured using semantics extracted from large corpora of annual reports and IPO prospectuses. The third essay is a theoretical model. This dissertation contributes to the literature on market categories, to the burgeoning research on optimal distinctiveness and to computational approaches to the study of organizations

Styles APA, Harvard, Vancouver, ISO, etc.

39

Gonzalez, Preciado Matilde. « Computer vision methods for unconstrained gesture recognition in the context of sign language annotation ». Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1798/.

Texte intégral

Résumé :

Cette thèse porte sur l'étude des méthodes de vision par ordinateur pour la reconnaissance de gestes naturels dans le contexte de l'annotation de la Langue des Signes. La langue des signes (LS) est une langue gestuelle développée par les sourds pour communiquer. Un énoncé en LS consiste en une séquence de signes réalisés par les mains, accompagnés d'expressions du visage et de mouvements du haut du corps, permettant de transmettre des informations en parallèles dans le discours. Même si les signes sont définis dans des dictionnaires, on trouve une très grande variabilité liée au contexte lors de leur réalisation. De plus, les signes sont souvent séparés par des mouvements de co-articulation. Cette extrême variabilité et l'effet de co-articulation représentent un problème important dans les recherches en traitement automatique de la LS. Il est donc nécessaire d'avoir de nombreuses vidéos annotées en LS, si l'on veut étudier cette langue et utiliser des méthodes d'apprentissage automatique. Les annotations de vidéo en LS sont réalisées manuellement par des linguistes ou experts en LS, ce qui est source d'erreur, non reproductible et extrêmement chronophage. De plus, la qualité des annotations dépend des connaissances en LS de l'annotateur. L'association de l'expertise de l'annotateur aux traitements automatiques facilite cette tâche et représente un gain de temps et de robustesse. Le but de nos recherches est d'étudier des méthodes de traitement d'images afin d'assister l'annotation des corpus vidéo: suivi des composantes corporelles, segmentation des mains, segmentation temporelle, reconnaissance de gloses. Au cours de cette thèse nous avons étudié un ensemble de méthodes permettant de réaliser l'annotation en glose. Dans un premier temps, nous cherchons à détecter les limites de début et fin de signe. Cette méthode d'annotation nécessite plusieurs traitements de bas niveau afin de segmenter les signes et d'extraire les caractéristiques de mouvement et de forme de la main. D'abord nous proposons une méthode de suivi des composantes corporelles robuste aux occultations basée sur le filtrage particulaire. Ensuite, un algorithme de segmentation des mains est développé afin d'extraire la région des mains même quand elles se trouvent devant le visage. Puis, les caractéristiques de mouvement sont utilisées pour réaliser une première segmentation temporelle des signes qui est par la suite améliorée grâce à l'utilisation de caractéristiques de forme. En effet celles-ci permettent de supprimer les limites de segmentation détectées en milieu des signes. Une fois les signes segmentés, on procède à l'extraction de caractéristiques visuelles pour leur reconnaissance en termes de gloses à l'aide de modèles phonologiques. Nous avons évalué nos algorithmes à l'aide de corpus internationaux, afin de montrer leur avantages et limitations. L'évaluation montre la robustesse de nos méthodes par rapport à la dynamique et le grand nombre d'occultations entre les différents membres. L'annotation résultante est indépendante de l'annotateur et représente un gain de robustese important
This PhD thesis concerns the study of computer vision methods for the automatic recognition of unconstrained gestures in the context of sign language annotation. Sign Language (SL) is a visual-gestural language developed by deaf communities. Continuous SL consists on a sequence of signs performed one after another involving manual and non-manual features conveying simultaneous information. Even though standard signs are defined in dictionaries, we find a huge variability caused by the context-dependency of signs. In addition signs are often linked by movement epenthesis which consists on the meaningless gesture between signs. The huge variability and the co-articulation effect represent a challenging problem during automatic SL processing. It is necessary to have numerous annotated video corpus in order to train statistical machine translators and study this language. Generally the annotation of SL video corpus is manually performed by linguists or computer scientists experienced in SL. However manual annotation is error-prone, unreproducible and time consuming. In addition de quality of the results depends on the SL annotators knowledge. Associating annotator knowledge to image processing techniques facilitates the annotation task increasing robustness and speeding up the required time. The goal of this research concerns on the study and development of image processing technique in order to assist the annotation of SL video corpus: body tracking, hand segmentation, temporal segmentation, gloss recognition. Along this PhD thesis we address the problem of gloss annotation of SL video corpus. First of all we intend to detect the limits corresponding to the beginning and end of a sign. This annotation method requires several low level approaches for performing temporal segmentation and for extracting motion and hand shape features. First we propose a particle filter based approach for robustly tracking hand and face robust to occlusions. Then a segmentation method for extracting hand when it is in front of the face has been developed. Motion is used for segmenting signs and later hand shape is used to improve the results. Indeed hand shape allows to delete limits detected in the middle of a sign. Once signs have been segmented we proceed to the gloss recognition using lexical description of signs. We have evaluated our algorithms using international corpus, in order to show their advantages and limitations. The evaluation has shown the robustness of the proposed methods with respect to high dynamics and numerous occlusions between body parts. Resulting annotation is independent on the annotator and represents a gain on annotation consistency

Styles APA, Harvard, Vancouver, ISO, etc.

40

Franco, Ana. « Impact de l'expertise linguistique sur le traitement statistique de la parole ». Doctoral thesis, Universite Libre de Bruxelles, 2012. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/209565.

Texte intégral

Résumé :

L'objectif de ce travail de thèse était de déterminer si l’expertise linguistique peut moduler les capacités d’apprentissage, et plus spécifiquement les capacités d’apprentissage statistique. Il a été démontré que l'utilisation régulière de deux langues par les personnes bilingues a un impact sur les capacités langagières mais également sur le fonctionnement cognitif de manière plus générale. Cependant, on ne sait que très peu concernant les effets du bilinguisme sur les capacités d'apprentissage. L’acquisition du langage repose en partie sur le traitement des régularités statistiques de la parole. Etant spécifiques à chaque langue, cette information doit être traitée en partant de zéro lors de l’apprentissage d’une nouvelle langue. Les personnes bilingues ont donc traité au moins deux fois plus d'information statistique que les personnes ne maîtrisant qu'une langue. Est-ce que le bilinguisme et l’expérience accrue de traitement statistique de la parole peuvent conférer un avantage en termes de capacités d’apprentissage de régularités ?Nous avons analysé cette question à trois niveaux: la disponibilité des connaissances acquises à la conscience, le décours temporel du traitement statistique et la nature des représentations formées lors de l'apprentissage statistique. Explorer comment l'expertise linguistique module l'apprentissage statistique contribuera à une meilleure compréhension des conséquences cognitives du bilinguisme, mais pourrait également fournir des indices concernant le lien entre l'apprentissage statistique et le langage.

Dans un premier temps, la question de la disponibilité des connaissances acquises à la conscience a été traitée (Etude 1 et 2). L'étude 1 présente une adaptation d’une méthode largement utilisée dans le domaine de l’apprentissage implicite pour rendre compte du caractère conscient ou inconscient des connaissances acquises lors d’un apprentissage, la procédure de dissociation des processus (Jacoby, 1991). Nous avons adapté cette méthode à une situation de traitement des probabilités transitionnelles entre des syllabes afin de déterminer si les représentations acquises suite à l’exposition à un langage artificiel sont disponibles à la conscience. Nous nous sommes ensuite intéressés à la question de savoir comment le caractère conscient des connaissances acquises peut être modulé par l’expertise linguistique. Les résultats suggèrent que bien que les sujets apprennent de manière semblable, les connaissances acquises semblent être moins disponibles à la conscience chez les sujets bilingues.

Dans un deuxième temps nous nous sommes intéressés au décours temporel de l’apprentissage statistique (Etude 3 et 4). L'étude 3 présente une adaptation de la Click location task (Fodor & Bever, 1965) comme mesure online du traitement des probabilités transitionnelles lors de la segmentation de la parole. Nous nous sommes ensuite intéressés à comment le traitement des régularités du langage pouvait être modulé par l’expertise linguistique (Etude 4) et les résultats suggèrent que les deux groupes ne diffèrent pas en termes de décours temporel du traitement statistique.

Dans un troisième temps, nous avons posé la question de ce qui est appris dans une situation d’apprentissage statistique. Est-ce que le produit de cet apprentissage correspond à des fragments d’information, des « candidats mots » ?Ou est-ce que, au contraire, l’apprentissage résulte en une sensibilité aux probabilités de transition entre les éléments ?L’Etude 5 propose une méthode pour déterminer la nature des représentations formées lors de l’apprentissage statistique. Le but de cette étude était d’opposer deux modèles d’apprentissage de régularités statistiques afin de déterminer lequel rend mieux compte des résultats observés lors d’une situation d’apprentissage statistique. Dans l’étude 6, nous nous sommes intéressés à l’influence de l’expertise linguistique sur la nature des représentations formées. Les résultats suggèrent que les sujets bilingues forment des représentations plus fidèles à la réalité du matériel, comparé aux monolingues.

Enfin l'étude 7 avait pour but d'explorer une situation d'apprentissage statistique plus complexe, à savoir l'apprentissage d'une grammaire artificielle. La comparaison entre des sujets monolingues et bilingues suggère que les sujets ne diffèrent pas en termes de décours temporel de l'apprentissage. Par contre, les sujets bilingues semblent former de meilleures représentations du matériel présenté et posséder des connaissances non disponibles à la conscience, alors que les monolingues se basent sur des connaissances conscientes pour effectuer la tâche.

Ainsi, les études présentées dans ce travail suggèrent que l'expertise linguistique ne module pas la vitesse de traitement de l'information statistique. Par contre, dans certaines situations, le fait d'être bilingue pourrait constituer un avantage en termes d'acquisition de connaissances sur base d'un traitement statistique et aurait également un impact sur la disponibilité des connaissances à la conscience. / The aim of this thesis was to determine whether linguistic expertise can modulate learning abilities, and more specifically statistical learning abilities. The regular use of two languages by bilingual individuals has been shown to have a broad impact on language and cognitive functioning. However, little is known about the effect of bilingualism on learning abilities. Language acquisition is a complex process that depends substantially on the processing of statistical regularities contained in speech. Because statistical information is language-specific, this information must be learned from scratch when one learns a new language. Unlike monolinguals, individuals who know more than one language, such as bilinguals or multilinguals, therefore face the challenge of having to master more than one set of statistical contingencies. Does bilingualism and increased experience with statistical processing of speech confer an advantage in terms of learning abilities? In this thesis, we address these questions at three different levels. We compared monolinguals and bilinguals in terms of (1) the nature of the representations formed during learning, (2) the time course of statistical processing, and (3) the availability of statistical knowledge to consciousness. Exploring how linguistic expertise modulates statistical learning will contribute to a better understanding of the cognitive consequences of bilingualism, but could also provide clues regarding the link between statistical learning and language.

First, the present work aimed to determine whether knowledge acquired based on statistical regularities is amenable to conscious control (Study 1 and 2). Study 1 presents an adaptation of the Process Dissociation Procedure (PDP, Jacoby, 1991), a widely used method in the field of implicit learning to account for the conscious nature of knowledge acquired during a learning situation. We adapted this method to a statistical learning paradigm in which participants had to extract artificial words from a continuous speech stream. In Study 2, we used the PDP to explore the extent to which conscious access to the acquired knowledge is modulated by linguistic expertise. Our results suggest that although monolinguals and bilinguals learned the words similarly, knowledge seems to be less available to consciousness for bilingual participants.

Second, in Studies 3 & 4, we investigated the time course of statistical learning. Study 3 introduces a novel online measure of transitional probabilities processing during speech segmentation, — an adaptation of the Click Localizaton Task (Fodor & Bever, 1965) as. In Study 4, explored whether processing of statistical regularities of speech could be modulated by linguistic expertise. The results suggest that the two groups did not differ in terms of time course of statistical processing.

Third, we aimed at exploring what is learned in a statistical learning situation. Two different kinds of mechanisms may account for performance. Participants may either parse the material into smaller chunks that correspond to the words of the artificial language, or they may become progressively sensitive to the actual values of the transitional probabilities between syllables. Study 5 proposes a method to determine the nature of the representations formed during learning. The purpose of this study was to compare two models of statistical learning (PARSER vs. SRN) in order to determine which better reflects the representations formed as a result of statistical learning. In study 6, we investigated the influence of linguistic expertise on the nature of the representations formed. The results suggests that bilinguals tend to form representations of the learned sequences that are more faithful to the reality of the material, compared to monolinguals.

Finally, Study 7 investigates how linguistic expertise influences a more complex statistical learning situation, namely artificial grammar learning. Comparison between monolingual and bilingual subjects suggests that subjects did not differ in terms of the time course of learning. However, bilinguals outperformed monolinguals in learning the grammar and seem to possess both conscious and unconscious knowledge, whereas monolinguals’ performance was only based on conscious knowledge.

To sum up, the studies presented in the present work suggest that linguistic expertise does not modulate the speed of processing of statistical information. However, bilinguals seem have make better use of the learned regularities and outperformed monolinguals in some specific situations. Moreover, linguistic expertise also seems to have an impact on the availability of knowledge to consciousness.
Doctorat en Sciences Psychologiques et de l'éducation
info:eu-repo/semantics/nonPublished

Styles APA, Harvard, Vancouver, ISO, etc.

41

Lepage, Yves. « Un système de grammaires correspondancielles d'identification ». Grenoble 1, 1989. http://www.theses.fr/1989GRE10059.

Texte intégral

Résumé :

Proposition d'un langage de programmation déclaratif ou les objets de base sont des planches. Une planche exprime la correspondance entre une chaine et un arbre. Le système propose expose sur l'identification, les variables y étant non pas des variables de termes, mais des variables de forêts

Styles APA, Harvard, Vancouver, ISO, etc.

42

Le, Hai Son. « Continuous space models with neural networks in natural language processing ». Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00776704.

Texte intégral

Résumé :

The purpose of language models is in general to capture and to model regularities of language, thereby capturing morphological, syntactical and distributional properties of word sequences in a given language. They play an important role in many successful applications of Natural Language Processing, such as Automatic Speech Recognition, Machine Translation and Information Extraction. The most successful approaches to date are based on n-gram assumption and the adjustment of statistics from the training data by applying smoothing and back-off techniques, notably Kneser-Ney technique, introduced twenty years ago. In this way, language models predict a word based on its n-1 previous words. In spite of their prevalence, conventional n-gram based language models still suffer from several limitations that could be intuitively overcome by consulting human expert knowledge. One critical limitation is that, ignoring all linguistic properties, they treat each word as one discrete symbol with no relation with the others. Another point is that, even with a huge amount of data, the data sparsity issue always has an important impact, so the optimal value of n in the n-gram assumption is often 4 or 5 which is insufficient in practice. This kind of model is constructed based on the count of n-grams in training data. Therefore, the pertinence of these models is conditioned only on the characteristics of the training text (its quantity, its representation of the content in terms of theme, date). Recently, one of the most successful attempts that tries to directly learn word similarities is to use distributed word representations in language modeling, where distributionally words, which have semantic and syntactic similarities, are expected to be represented as neighbors in a continuous space. These representations and the associated objective function (the likelihood of the training data) are jointly learned using a multi-layer neural network architecture. In this way, word similarities are learned automatically. This approach has shown significant and consistent improvements when applied to automatic speech recognition and statistical machine translation tasks. A major difficulty with the continuous space neural network based approach remains the computational burden, which does not scale well to the massive corpora that are nowadays available. For this reason, the first contribution of this dissertation is the definition of a neural architecture based on a tree representation of the output vocabulary, namely Structured OUtput Layer (SOUL), which makes them well suited for large scale frameworks. The SOUL model combines the neural network approach with the class-based approach. It achieves significant improvements on both state-of-the-art large scale automatic speech recognition and statistical machine translations tasks. The second contribution is to provide several insightful analyses on their performances, their pros and cons, their induced word space representation. Finally, the third contribution is the successful adoption of the continuous space neural network into a machine translation framework. New translation models are proposed and reported to achieve significant improvements over state-of-the-art baseline systems.

Styles APA, Harvard, Vancouver, ISO, etc.

43

Sasa, Yuko. « Intelligence Socio-Affective pour un Robot : primitives langagières pour une interaction évolutive d'un robot de l’habitat intelligent ». Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM041/document.

Texte intégral

Résumé :

Le Traitement Automatique de la Parole (TAP) s’intéresse de plus en plus et progresse techniquement en matière d’étendue de vocabulaire, de gestion de complexité morphosyntaxique, de style et d’esthétique de la parole humaine. L’Affective Computing tend également à intégrer une dimension « émotionnelle » dans un objectif commun au TAP visant à désambiguïser le langage naturel et augmenter la naturalité de l’interaction personne-machine. Dans le cadre de la robotique sociale, cette interaction est modélisée dans des systèmes d’interaction, de dialogue, qui tendent à engendrer une dimension d’attachement dont les effets doivent être éthiquement et collectivement contrôlés. Or la dynamique du langage humain situé met à mal l’efficacité des systèmes automatiques. L’hypothèse de cette thèse propose dans la dynamique des interactions, il existerait une « glu socio-affective » qui ferait entrer en phases synchroniques deux individus dotés chacun d’un rôle social impliqué dans une situation/contexte d’interaction. Cette thèse s'intéresse à des dynamiques interactionnelles impliquant spécifiquement des processus altruistes, orthogonale à la dimension de dominance. Cette glu permettrait ainsi de véhiculer les événements langagiers entre les interlocuteurs, en modifiant constamment leur relation et leur rôle, qui eux même viennent à modifier cette glu, afin d’assurer la continuité de la communication. La seconde hypothèse propose que la glu socio-affective se construise à partir d’une « prosodie socio-affective pure » que l’on peut retrouver dans certaines formes de micro-expressions vocales. L’effet de ces événements langagiers serait alors graduel en fonction du degré de contrôle d’intentionnalité communicative qui s’observerait successivement par des primitives langagières : 1) des bruits de bouche (non phonétiques, non phonologiques), 2) des sons prélexicaux, 3) des interjections/onomatopées, 4) des imitations à contenu lexical contrôlé. Une méthodologie living-lab est ainsi développée au sein de la plateforme Domus, sur des boucles agiles et itératives co-construites avec les partenaires industriels et sociétaux. Un Magicien d’Oz – EmOz – est utilisé afin de contrôler les primitives vocales comme unique support langagier d’un robot majordome d’un habitat intelligent interagissant avec des personnes âgées en isolement relationnel. Un large corpus, EmOz Elderly Expressions –EEE– est ainsi recueilli. Cet isolement relationnel permet méthodologiquement d’appréhender les dimensions de la glu socio-affective, en introduisant une situation contrastive dégradée de la glu. Les effets des primitives permettraient alors d’observer les comportements de l’humain à travers des indices multimodaux. Les enjeux sociétaux abordés par la gérontechnologie montrent que l’isolement est un facteur de fragilisation où la qualité de la communication délite le maillage relationnel des personnes âgées alors que ces liens sont bénéfiques à sa santé et son bien-être. L’émergence de la robotique d’assistance en est une illustration. Le système automatisé qui découlera des données et des analyses de cette étude permettrait alors d’entraîner les personnes à solliciter pleinement leurs mécanismes de construction relationnelle, afin de redonner l’envie de communiquer avec leur entourage humain. Les analyses du corpus EEE recueilli montrent une évolution de la relation à travers différents indices interactionnels, temporellement organisés. Ces paramètres visent à être intégrés dans une perspective de système de dialogue incrémental – SASI. Les prémisses de ce système sont proposées dans un prototype de reconnaissance de la parole dont la robustesse ne dépendra pas de l’exactitude du contenu langagier reconnu, mais sur la reconnaissance du degré de glu, soit de l’état relationnel entre les locuteurs. Ainsi, les erreurs de reconnaissance tendraient à être compensées par l’intelligence socio-affective adaptative de ce système dont pourrait être doté le robot
The Natural Language Processing (NLP) has technically improved regarding human speech vocabulary extension, morphosyntax scope, style and aesthetic. Affective Computing also tends to integrate an “emotional” dimension with a common goal shared with NLP which is to disambiguate the natural language and increase the human-machine interaction naturalness. Within social robotics, the interaction is modelled in dialogue systems trying to reach out an attachment dimension which effects need to an ethical and collective control. However, the situated natural language dynamics is undermining the automated system’s efficiency, which is trying to respond with useful and suitable feedbacks. This thesis hypothesis supposes the existence of a “socio-affective glue” in every interaction, set up in between two individuals, each with a social role depending on a communication context. This glue is so the consequence of dynamics generated by a process which mechanisms rely on an altruistic dimension, but independent of dominance dimension as seen in emotions studies. This glue would allow the exchange of the language events between interlocutors, by regularly modifying their relation and their role, which is changing themselves this glue, to ensure the communication continuity. The second hypothesis proposes the glue as built by “socio-affective pure prosody” forms that enable this relational construction. These cues are supposed to be carried by hearable and visible micro-expressions. The interaction events effect would also be gradual following the degree of the communication’s intentionality control. The graduation will be continuous through language primitives as 1) mouth noises (neither phonetics nor phonological sounds), 2) pre-lexicalised sounds, 3) interjections and onomatopoeias, 4) controlled command-based imitations with the same socio-affective prosody supposed to create and modify the glue. Within the Domus platform, we developed an almost living-lab methodology. It functions on agile and iterative loops co-constructed with industrial and societal partners. A wizard of oz approach – EmOz – is used to control the vocal primitives proposed as the only language tools of a Smart Home butler robot interacting with relationally isolated elderly. The relational isolation allows the dimensions the socio-affective glue in a contrastive situation where it is damaged. We could thus observe the primitives’ effects through multimodal language cues. One of the gerontechnology social motivation showed the isolation to be a phenomenon amplifying the frailty so can attest the emergence of assistive robotics. A vicious circle leads by the elderly communicational characteristics convey them to some difficulties to maintain their relational tissue while their bonds are beneficial for their health and well-being. If the proposed primitives could have a real effect on the glue, the automated system will be able to train the persons to regain some unfit mechanisms underlying their relational construction, and so possibly increase their desire to communicate with their human social surroundings. The results from the collected EEE corpus show the relation changes through various interactional cues, temporally organised. These denoted parameters tend to build an incremental dialogue system in perspectives – SASI. The first steps moving towards this system reside on a speech recognition prototype which robustness is not based on the accuracy of the recognised language content but on the possibility to identify the glue degree (i.e. the relational state) between the interlocutors. Thus, the recognition errors avoid the system to be rejected by the user, by tempting to be balanced by this system’s adaptive socio-affective intelligence

Styles APA, Harvard, Vancouver, ISO, etc.

44

Moritz-Gasser, Sylvie. « Les bases neurales du traitement sémantique : un nouvel éclairage : études en électrostimulations cérébrales directes ». Thesis, Montpellier 1, 2012. http://www.theses.fr/2012MON1T007/document.

Texte intégral

Résumé :

Le traitement sémantique est le processus mental par lequel nous accédons au sens. Il occupe donc une place centrale dans la compréhension et la production du langage, mais également dans le fonctionnement humain en général, puisqu'il permet de conceptualiser le monde qui nous entoure et de lui donner un sens, en le confrontant en pleine conscience aux connaissances que nous emmagasinons au fil de nos expériences. Si les bases neurales corticales du traitement sémantique sont bien documentées par de nombreuses études basées sur les données de l'imagerie fonctionnelle notamment, l'analyse de la connectivité sous-corticale impliquée dans ce traitement a jusqu'ici reçu moins d'attention. Les auteurs s'accordent néanmoins sur l'existence d'une voie ventrale sémantique, parallèle à une voie dorsale dédiée au traitement phonologique. Le présent ouvrage se propose d'apporter un nouvel éclairage à la connaissance des bases neurales du traitement sémantique du mot isolé, en lien avec le cadre plus large du traitement sémantique non-verbal, par l'étude des habiletés sémantiques de patients présentant un gliome de grade 2 OMS et pour lequel ils bénéficient d'une prise en charge chirurgicale en condition éveillée, avec cartographie cortico-sous-corticale peropératoire. Il met ainsi en évidence l'importance cruciale du faisceau fronto-occipital inférieur gauche dans cette voie ventrale sémantique, au sein d'une organisation cérébrale fonctionnelle en réseaux parallèles et distribués de zones corticales interconnectées par des faisceaux d'association de substance blanche. Il souligne également le caractère interactif du fonctionnement cognitif, ainsi que l'importance des mécanismes de contrôle dans le traitement du langage, et de la mesure de la chronométrie mentale lors son évaluation. Ces différentes considérations nous amènent à proposer un modèle hodotopique général d'organisation anatomo-fonctionnelle du langage. Les résultats présentés dans cet ouvrage peuvent donc avoir des implications cliniques et scientifiques majeures, quant à la compréhension de l'organisation cérébrale fonctionnelle du langage, de ses dysfonctionnements, des mécanismes de réorganisation fonctionnelle en cas de lésion et à l'élaboration de programmes de réhabilitation
Semantic processing is the mental process by which we access to meaning. Therefore, it takes a central place in language comprehension and production, but also in the whole human functioning, since it allows conceptualizing and giving a meaning to the world, by confronting it consciously with the knowledge we store over our experiences. If the neural bases of semantic processing are well known at the cortical level, thanks to numerous studies based particularly on functional neuroimaging data, the analysis of the subcortical connectivity underlying this processing received so far less attention. Nevertheless, the authors agree on the existence of a semantic ventral stream, parallel to a phonological dorsal stream.The present work mean to bring a new highlight on the knowledge of the neural bases of semantic processing at the level of the single word, in connection with the wider setting of non verbal semantic processing, by the study of semantic skills in patients presenting with WHO grade 2 glioma, and for which they undergo a surgery in awaken conditions, with cortico-subcortical intraoperative mapping. Thus, this work highlights the crucial role of the inferior fronto-occipital fascicle, in this ventral semantic route, within a functional brain organization in parallel and distributed networks of cortical areas interconnected by white matter association fibers.it underlines also the interactive feature of cognitive functioning, and the significance of control mechanisms in language processing, as well as the measuring of mental chronometry when assessing it. These considerations lead us to propose a general hodotopical model of language anatomo-functional organization.The results presented in this work may thus have important clinical and scientific implications, regarding the comprehension of language brain functional organization, of its dysfunctioning, of functional reorganization mechanisms in case of brain lesion, and the elaboration of rehabilitation programs

Styles APA, Harvard, Vancouver, ISO, etc.

45

Chan, Shih-Han. « COLLADA Audio : A Formal Representation of Sound in Virtual Cities by a Scene Description Language ». Electronic Thesis or Diss., Paris, CNAM, 2012. http://www.theses.fr/2012CNAM0872.

Texte intégral

Résumé :

Depuis de nombreuses années, des formats de fichier standardisés ont été conçus pour écrire, lire et échanger des descriptions de scènes 3D. Ces descriptions sont principalement faites pour des contenus visuels; les options accessibles pour les compositions audio des scènes virtuelles sont, dans les meilleurs des cas, pauvres et dans les pires, manquantes. C’est pourquoi nous proposons d’inclure une description sonore riche dans le COLLADA qui est un format standard pour d’échange d’assets numériques. La plupart des langages de description qui incluent une description sonore factorisent les éléments communs aux informations visuelles et sonores. Ces deux aspects sont par exemple décrits dans le même système de coordonnées. Cependant, dès lors qu’une description dynamique ou que des données externes sont requises, toutes les liaisons doivent être faites de manière programmée. Dans cette thèse, nous tentons de résoudre ce problème et nous proposons de donner plus de puissance créative aux sound designers même lorsque les scènes sont dynamiques ou basées sur de la synthèse procédurale. Cette solution est basée sur le schéma COLLADA dans lequel nous avons ajouté la description sonore, des capacités de scripting et des extensions externes. L’utilisation de ce langage COLLADA ainsi augmenté est illustrée à travers la création d’un paysage sonore urbain
Standardized file formats has been conceived since many years to write, read, and exchange 3D scene descriptions. These descriptions are mainly for visual contents whereas options given for audio compositions of virtual scenes are either lacking or poor. Therefore, we propose to include a rich sound description in the COLLADA, which is a standard format for exchanging digital assets. Most scene description languages with a sound description factorize common elements needed by the graphical and auditory information. Both aspects are, for example, described with the same coordinate system. However, as soon as a dynamic description or external data are required, all the glue must be done by a programming approach. In this thesis, we address this problem and propose to give more creative power in the hands of sound designers even when the scene is dynamic or based on procedural synthesizers. This solution is based on the COLLADA schema in which we add the sound support, scripting capabilities and external extensions. The use of the augmented COLLADA language is illustrated through the creation of dynamic urban soundscape

Styles APA, Harvard, Vancouver, ISO, etc.

46

Shang, Guokan. « Spoken Language Understanding for Abstractive Meeting Summarization Unsupervised Abstractive Meeting Summarization with Multi-Sentence Compression and Budgeted Submodular Maximization. Energy-based Self-attentive Learning of Abstractive Communities for Spoken Language Understanding Speaker-change Aware CRF for Dialogue Act Classification ». Thesis, Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAX011.

Texte intégral

Résumé :

Grâce aux progrès impressionnants qui ont été réalisés dans la transcription du langage parlé, il est de plus en plus possible d'exploiter les données transcrites pour des tâches qui requièrent la compréhension de ce que l'on dit dans une conversation. Le travail présenté dans cette thèse, réalisé dans le cadre d'un projet consacré au développement d'un assistant de réunion, contribue aux efforts en cours pour apprendre aux machines à comprendre les dialogues des réunions multipartites. Nous nous sommes concentrés sur le défi de générer automatiquement les résumés abstractifs de réunion.Nous présentons tout d'abord nos résultats sur le Résumé Abstractif de Réunion (RAR), qui consiste à prendre une transcription de réunion comme entrée et à produire un résumé abstractif comme sortie. Nous introduisons une approche entièrement non-supervisée pour cette tâche, basée sur la compression multi-phrases et la maximisation sous-modulaire budgétisée. Nous tirons également parti des progrès récents en vecteurs de mots et dégénérescence de graphes appliqués au TAL, afin de prendre en compte les connaissances sémantiques extérieures et de concevoir de nouvelles mesures de diversité et d'informativité.Ensuite, nous discutons de notre travail sur la Classification en Actes de Dialogue (CAD), dont le but est d'attribuer à chaque énoncé d'un discours une étiquette qui représente son intention communicative. La CAD produit des annotations qui sont utiles pour une grande variété de tâches, y compris le RAR. Nous proposons une couche neuronale modifiée de Champ Aléatoire Conditionnel (CAC) qui prend en compte non seulement la séquence des énoncés dans un discours, mais aussi les informations sur les locuteurs et en particulier, s'il y a eu un changement de locuteur d'un énoncé à l'autre.La troisième partie de la thèse porte sur la Détection de Communauté Abstractive (DCA), une sous-tâche du RAR, dans laquelle les énoncés d'une conversation sont regroupés selon qu'ils peuvent être résumés conjointement par une phrase abstractive commune. Nous proposons une nouvelle approche de la DCA dans laquelle nous introduisons d'abord un encodeur neuronal contextuel d'énoncé qui comporte trois types de mécanismes d'auto-attention, puis nous l'entraînons en utilisant les méta-architectures siamoise et triplette basées sur l'énergie. Nous proposons en outre une méthode d'échantillonnage générale qui permet à l'architecture triplette de capturer des motifs subtils (p. ex., des groupes qui se chevauchent et s'emboîtent)
With the impressive progress that has been made in transcribing spoken language, it is becoming increasingly possible to exploit transcribed data for tasks that require comprehension of what is said in a conversation. The work in this dissertation, carried out in the context of a project devoted to the development of a meeting assistant, contributes to ongoing efforts to teach machines to understand multi-party meeting speech. We have focused on the challenge of automatically generating abstractive meeting summaries.We first present our results on Abstractive Meeting Summarization (AMS), which aims to take a meeting transcription as input and produce an abstractive summary as output. We introduce a fully unsupervised framework for this task based on multi-sentence compression and budgeted submodular maximization. We also leverage recent advances in word embeddings and graph degeneracy applied to NLP, to take exterior semantic knowledge into account and to design custom diversity and informativeness measures.Next, we discuss our work on Dialogue Act Classification (DAC), whose goal is to assign each utterance in a discourse a label that represents its communicative intention. DAC yields annotations that are useful for a wide variety of tasks, including AMS. We propose a modified neural Conditional Random Field (CRF) layer that takes into account not only the sequence of utterances in a discourse, but also speaker information and in particular, whether there has been a change of speaker from one utterance to the next.The third part of the dissertation focuses on Abstractive Community Detection (ACD), a sub-task of AMS, in which utterances in a conversation are grouped according to whether they can be jointly summarized by a common abstractive sentence. We provide a novel approach to ACD in which we first introduce a neural contextual utterance encoder featuring three types of self-attention mechanisms and then train it using the siamese and triplet energy-based meta-architectures. We further propose a general sampling scheme that enables the triplet architecture to capture subtle patterns (e.g., overlapping and nested clusters)

Styles APA, Harvard, Vancouver, ISO, etc.

47

Wang, Ilaine. « Syntactic Similarity Measures in Annotated Corpora for Language Learning : application to Korean Grammar ». Thesis, Paris 10, 2017. http://www.theses.fr/2017PA100092/document.

Texte intégral

Résumé :

L'exploration de corpus à travers des requêtes fait aujourd'hui partie de la routine de nombreux chercheurs adoptant une approche empirique de la langue, mais aussi de non-spécialistes qui utilisent des moteurs de recherche ou des concordanciers dans le cadre de l'apprentissage d'une langue. Si les requêtes ainsi basées sur des mots-clés sont communes, les non-spécialistes semblent encore peu enclins à explorer des constructions syntaxiques. En effet, les requêtes syntaxiques requièrent souvent des connaissances spécifiques comme la maîtrise des expressions régulières, le langage de requête de l'outil utilisé, ou même simplement le jeu d'étiquettes morpho-syntaxiques du corpus étudié.Pour permettre aux apprenants de langue de se concentrer sur l'analyse des données langagières plutôt que sur la formulation de requêtes, nous proposons une méthodologie incluant un analyseur syntaxique et utilisant des mesures de similarité classiques pour comparer des séquences d'étiquettes syntaxiques ainsi obtenues de manière automatique
Using queries to explore corpora is today part of the routine of not only researchers of various fields with an empirical approach to discourse, but also of non-specialists who use search engines or concordancers for language learning purposes. If keyword-based queries are quite common, non-specialists still seem to be less likely to explore syntactic constructions. Indeed, syntax-based queries usually require the use of regular expressions with grammatical words combined with morphosyntactic tags, which imply that users master both the query language of the tool and the tagset of the annotated corpus. However, non-specialists like language learners might want to focus on the output rather than spend time and efforts on mastering a query language.To address this shortcoming, we propose a methodology including a syntactic parser and using common similarity measures to compare sequences of morphosyntactic tags automatically provided

Styles APA, Harvard, Vancouver, ISO, etc.

48

Tafforeau, Jérémie. « Modèle joint pour le traitement automatique de la langue : perspectives au travers des réseaux de neurones ». Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0430/document.

Texte intégral

Résumé :

Les recherches en Traitement Automatique des Langues (TAL) ont identifié différents niveaux d'analyse lexicale, syntaxique et sémantique. Il en découle un découpage hiérarchique des différentes tâches à réaliser afin d'analyser un énoncé. Les systèmes classiques du TAL reposent sur des analyseurs indépendants disposés en cascade au sein de chaînes de traitement (pipelines). Cette approche présente un certain nombre de limitations : la dépendance des modèles à la sélection empirique des traits, le cumul des erreurs dans le pipeline et la sensibilité au changement de domaine. Ces limitations peuvent conduire à des pertes de performances particulièrement importantes lorsqu'il existe un décalage entre les conditions d'apprentissage des modèles et celles d'utilisation. Un tel décalage existe lors de l'analyse de transcriptions automatiques de parole spontanée comme par exemple les conversations téléphoniques enregistrées dans des centres d'appels. En effet l'analyse d'une langue non-canonique pour laquelle il existe peu de données d'apprentissage, la présence de disfluences et de constructions syntaxiques spécifiques à l'oral ainsi que la présence d'erreurs de reconnaissance dans les transcriptions automatiques mènent à une détérioration importante des performances des systèmes d'analyse. C'est dans ce cadre que se déroule cette thèse, en visant à mettre au point des systèmes d'analyse à la fois robustes et flexibles permettant de dépasser les limitations des systèmes actuels à l'aide de modèles issus de l'apprentissage par réseaux de neurones profonds
NLP researchers has identified different levels of linguistic analysis. This lead to a hierarchical division of the various tasks performed in order to analyze a text statement. The traditional approach considers task-specific models which are subsequently arranged in cascade within processing chains (pipelines). This approach has a number of limitations: the empirical selection of models features, the errors accumulation in the pipeline and the lack of robusteness to domain changes. These limitations lead to particularly high performance losses in the case of non-canonical language with limited data available such as transcriptions of conversations over phone. Disfluencies and speech-specific syntactic schemes, as well as transcription errors in automatic speech recognition systems, lead to a significant drop of performances. It is therefore necessary to develop robust and flexible systems. We intend to perform a syntactic and semantic analysis using a deep neural network multitask model while taking into account the variations of domain and/or language registers within the data

Styles APA, Harvard, Vancouver, ISO, etc.

49

Zhang, Zheng. « Explorations in Word Embeddings : graph-based word embedding learning and cross-lingual contextual word embedding learning ». Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS369/document.

Texte intégral

Résumé :

Les plongements lexicaux sont un composant standard des architectures modernes de traitement automatique des langues (TAL). Chaque fois qu'une avancée est obtenue dans l'apprentissage de plongements lexicaux, la grande majorité des tâches de traitement automatique des langues, telles que l'étiquetage morphosyntaxique, la reconnaissance d'entités nommées, la recherche de réponses à des questions, ou l'inférence textuelle, peuvent en bénéficier. Ce travail explore la question de l'amélioration de la qualité de plongements lexicaux monolingues appris par des modèles prédictifs et celle de la mise en correspondance entre langues de plongements lexicaux contextuels créés par des modèles préentraînés de représentation de la langue comme ELMo ou BERT.Pour l'apprentissage de plongements lexicaux monolingues, je prends en compte des informations globales au corpus et génère une distribution de bruit différente pour l'échantillonnage d'exemples négatifs dans word2vec. Dans ce but, je précalcule des statistiques de cooccurrence entre mots avec corpus2graph, un paquet Python en source ouverte orienté vers les applications en TAL : il génère efficacement un graphe de cooccurrence à partir d'un grand corpus, et lui applique des algorithmes de graphes tels que les marches aléatoires. Pour la mise en correspondance translingue de plongements lexicaux, je relie les plongements lexicaux contextuels à des plongements de sens de mots. L'algorithme amélioré de création d'ancres que je propose étend également la portée des algorithmes de mise en correspondance de plongements lexicaux du cas non-contextuel au cas des plongements contextuels
Word embeddings are a standard component of modern natural language processing architectures. Every time there is a breakthrough in word embedding learning, the vast majority of natural language processing tasks, such as POS-tagging, named entity recognition (NER), question answering, natural language inference, can benefit from it. This work addresses the question of how to improve the quality of monolingual word embeddings learned by prediction-based models and how to map contextual word embeddings generated by pretrained language representation models like ELMo or BERT across different languages.For monolingual word embedding learning, I take into account global, corpus-level information and generate a different noise distribution for negative sampling in word2vec. In this purpose I pre-compute word co-occurrence statistics with corpus2graph, an open-source NLP-application-oriented Python package that I developed: it efficiently generates a word co-occurrence network from a large corpus, and applies to it network algorithms such as random walks. For cross-lingual contextual word embedding mapping, I link contextual word embeddings to word sense embeddings. The improved anchor generation algorithm that I propose also expands the scope of word embedding mapping algorithms from context independent to contextual word embeddings

Styles APA, Harvard, Vancouver, ISO, etc.

50

Falco, Mathieu-Henri. « Répondre à des questions à réponses multiples sur le Web ». Phd thesis, Université Paris Sud - Paris XI, 2014. http://tel.archives-ouvertes.fr/tel-01015869.

Texte intégral

Résumé :

Les systèmes de question-réponse renvoient une réponse précise à une question formulée en langue naturelle. Les systèmes de question-réponse actuels, ainsi que les campagnes d'évaluation les évaluant, font en général l'hypothèse qu'une seule réponse est attendue pour une question. Or nous avons constaté que, souvent, ce n'était pas le cas, surtout quand on cherche les réponses sur le Web et non dans une collection finie de documents.Nous nous sommes donc intéressés au traitement des questions attendant plusieurs réponses à travers un système de question-réponse sur le Web en français. Pour cela, nous avons développé le système Citron capable d'extraire des réponses multiples différentes à des questions factuelles en domaine ouvert, ainsi que de repérer et d'extraire le critère variant (date, lieu) source de la multiplicité des réponses. Nous avons montré grâce à notre étude de différents corpus que les réponses à de telles questions se trouvaient souvent dans des tableaux ou des listes mais que ces structures sont difficilement analysables automatiquement sans prétraitement. C'est pourquoi, nous avons également développé l'outil Kitten qui permet d'extraire le contenu des documents HTML sous forme de texte et aussi de repérer, analyser et formater ces structures. Enfin, nous avons réalisé deux expériences avec des utilisateurs. La première expérience évaluait Citron et les êtres humains sur la tâche d'extraction de réponse multiples : les résultats ont montré que Citron était plus rapide que les êtres humains et que l'écart entre la qualité des réponses de Citron et celle des utilisateurs était raisonnable. La seconde expérience a évalué la satisfaction des utilisateurs concernant la présentation de réponses multiples : les résultats ont montré que les utilisateurs préféraient la présentation de Citron agrégeant les réponses et y ajoutant un critère variant (lorsqu'il existe) par rapport à la présentation utilisée lors des campagnes d'évaluation.

Styles APA, Harvard, Vancouver, ISO, etc.

Thèses sur le sujet « Traitement du language »

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres