Acceder

Bibliografías temáticas / Modèles linguistiques neuronaux

Índice

Artículos de revistas
Tesis

Literatura académica sobre el tema "Modèles linguistiques neuronaux"

Autor: Grafiati

Publicado: 25 de mayo de 2024

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Modèles linguistiques neuronaux".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Artículos de revistas sobre el tema "Modèles linguistiques neuronaux"

1

Alvarez-Pereyre, Frank. "Linguistique, anthropologie, ethnomusicologie". Anthropologie et Sociétés 38, n.º 1 (10 de julio de 2014): 47–61. http://dx.doi.org/10.7202/1025808ar.

Texto completo

Resumen

Les disciplines des sciences humaines et sociales se différencient assez largement du fait de leurs objets et de leurs méthodes. Pourtant, plusieurs d’entre elles ont régulièrement mobilisé des modèles interprétatifs similaires : du modèle philologique au modèle neuronal, en passant par les modèles structural et stratégique. Or, il s’avère que de tels modèles ne sont pas que des opérateurs analytiques. Ils ont encore à voir avec les dimensions proprement constitutives des objets étudiés. Dans le même contexte, et sur les mêmes bases, il devient possible de revisiter des problématiques que l’on s’était habitué à qualifier par référence à un champ académique particulier. Ainsi du concept d’action, plutôt rattaché à l’anthropologie, ou de celui de signification, qui relève classiquement de la linguistique. Or, à propos de ces deux notions phare, les objets de la linguistique, de l’anthropologie et de l’ethnomusicologie permettent de dresser des topographies nettement plus denses et subtiles que ce que l’on en disait, révélant par surcroît des principes dynamiques insoupçonnés.

Los estilos APA, Harvard, Vancouver, ISO, etc.

2

Bacquelaine, Françoise. "DeepL et Google Translate face à l'ambiguïté phraséologique". Journal of Data Mining & Digital Humanities Towards robotic translation?, III. Biotranslation vs.... (11 de diciembre de 2022). http://dx.doi.org/10.46298/jdmdh.9118.

Texto completo

Resumen

Malgré les progrès de la traduction automatique neuronale, l'intelligence artificielle ne permet toujours pas à la machine de comprendre pour déjouer tous les pièges de la traduction, notamment ceux de l'ambiguïté lexicale, phraséologique, syntaxique et sémantique (Koehn 2020). Deux structures portugaises moyennement figées présentent les caractéristiques des « unités de construction préformées » (UCP) décrites par Schmale (2013). Elles relèvent donc de la phraséologie au sens large et doivent être traduites en bloc. Les principaux défis de traduction en bloc que lancent ces UCP binaires à la machine résultent, d'une part, de variables simples ou complexes, et, d'autre part, des propriétés syntaxiques de scission et d'inversion des éléments sur l'axe syntagmatique. Un échantillon de 168 occurrences de ces UCP en contexte phrastique a été prélevé sur un corpus journalistique portugais. Cet échantillon a été traduit en français par DeepL et Google Translate en 2019 et en 2021. Les traductions automatiques brutes ont été confrontées à un modèle de biotraduction établi à partir de corpus parallèles ou alignés portugais-français et analysées en fonction de deux critères généraux (non-littéralité et acceptabilité) et de quelques défis spécifiques à chaque UCP. Cette analyse permet d'évaluer l'évolution de ces deux systèmes de traduction automatique face à l'ambiguïté phraséologique et d'en tirer des conclusions quant à la possibilité d'extinction de la biotraduction et aux implications de ces outils performants sur la formation des futurs prestataires de services linguistiques. Mots-clefs traduction automatique neuronale ; post-édition ; levée d'ambiguïté ; unité de construction préformée ; portugais ; français

Los estilos APA, Harvard, Vancouver, ISO, etc.

Tesis sobre el tema "Modèles linguistiques neuronaux"

1

García, Martínez Mercedes. "Factored neural machine translation". Thesis, Le Mans, 2018. http://www.theses.fr/2018LEMA1002/document.

Texto completo

Resumen

La diversité des langues complexifie la tâche de communication entre les humains à travers les différentes cultures. La traduction automatique est un moyen rapide et peu coûteux pour simplifier la communication interculturelle. Récemment, laTraduction Automatique Neuronale (NMT) a atteint des résultats impressionnants. Cette thèse s'intéresse à la Traduction Automatique Neuronale Factorisé (FNMT) qui repose sur l'idée d'utiliser la morphologie et la décomposition grammaticale des mots (lemmes et facteurs linguistiques) dans la langue cible. Cette architecture aborde deux défis bien connus auxquelles les systèmes NMT font face. Premièrement, la limitation de la taille du vocabulaire cible, conséquence de la fonction softmax, qui nécessite un calcul coûteux à la couche de sortie du réseau neuronale, conduisant à un taux élevé de mots inconnus. Deuxièmement, le manque de données adéquates lorsque nous sommes confrontés à un domaine spécifique ou une langue morphologiquement riche. Avec l'architecture FNMT, toutes les inflexions des mots sont prises en compte et un vocabulaire plus grand est modélisé tout en gardant un coût de calcul similaire. De plus, de nouveaux mots non rencontrés dans les données d'entraînement peuvent être générés. Dans ce travail, j'ai développé différentes architectures FNMT en utilisant diverses dépendances entre les lemmes et les facteurs. En outre, j'ai amélioré la représentation de la langue source avec des facteurs. Le modèle FNMT est évalué sur différentes langues dont les plus riches morphologiquement. Les modèles à l'état de l'art, dont certains utilisant le Byte Pair Encoding (BPE) sont comparés avec le modèle FNMT en utilisant des données d'entraînement de petite et de grande taille. Nous avons constaté que les modèles utilisant les facteurs sont plus robustes aux conditions d'entraînement avec des faibles ressources. Le FNMT a été combiné avec des unités BPE permettant une amélioration par rapport au modèle FNMT entrainer avec des données volumineuses. Nous avons expérimenté avec dfférents domaines et nous avons montré des améliorations en utilisant les modèles FNMT. De plus, la justesse de la morphologie est mesurée à l'aide d'un ensemble de tests spéciaux montrant l'avantage de modéliser explicitement la morphologie de la cible. Notre travail montre les bienfaits de l'applicationde facteurs linguistiques dans le NMT
Communication between humans across the lands is difficult due to the diversity of languages. Machine translation is a quick and cheap way to make translation accessible to everyone. Recently, Neural Machine Translation (NMT) has achievedimpressive results. This thesis is focus on the Factored Neural Machine Translation (FNMT) approach which is founded on the idea of using the morphological and grammatical decomposition of the words (lemmas and linguistic factors) in the target language. This architecture addresses two well-known challenges occurring in NMT. Firstly, the limitation on the target vocabulary size which is a consequence of the computationally expensive softmax function at the output layer of the network, leading to a high rate of unknown words. Secondly, data sparsity which is arising when we face a specific domain or a morphologically rich language. With FNMT, all the inflections of the words are supported and larger vocabulary is modelled with similar computational cost. Moreover, new words not included in the training dataset can be generated. In this work, I developed different FNMT architectures using various dependencies between lemmas and factors. In addition, I enhanced the source language side also with factors. The FNMT model is evaluated on various languages including morphologically rich ones. State of the art models, some using Byte Pair Encoding (BPE) are compared to the FNMT model using small and big training datasets. We found out that factored models are more robust in low resource conditions. FNMT has been combined with BPE units performing better than pure FNMT model when trained with big data. We experimented with different domains obtaining improvements with the FNMT models. Furthermore, the morphology of the translations is measured using a special test suite showing the importance of explicitly modeling the target morphology. Our work shows the benefits of applying linguistic factors in NMT

Los estilos APA, Harvard, Vancouver, ISO, etc.

2

Swaileh, Wassim. "Des modèles de langage pour la reconnaissance de l'écriture manuscrite". Thesis, Normandie, 2017. http://www.theses.fr/2017NORMR024/document.

Texto completo

Resumen

Cette thèse porte sur le développement d'une chaîne de traitement complète pour réaliser des tâches de reconnaissance d'écriture manuscrite non contrainte. Trois difficultés majeures sont à résoudre: l'étape du prétraitement, l'étape de la modélisation optique et l'étape de la modélisation du langage. Au stade des prétraitements il faut extraire correctement les lignes de texte à partir de l'image du document. Une méthode de segmentation itérative en lignes utilisant des filtres orientables a été développée à cette fin. La difficulté dans l’étape de la modélisation optique vient de la diversité stylistique des scripts d'écriture manuscrite. Les modèles optiques statistiques développés sont des modèles de Markov cachés (HMM-GMM) et les modèles de réseaux de neurones récurrents (BLSTM-CTC). Les réseaux récurrents permettent d’atteindre les performances de l’état de l’art sur les deux bases de référence RIMES (pour le Français) et IAM (pour l’anglais). L'étape de modélisation du langage implique l'intégration d’un lexique et d’un modèle de langage statistique afin de rechercher parmi les hypothèses proposées par le modèle optique, la séquence de mots (phrase) la plus probable du point de vue linguistique. La difficulté à ce stade est liée à l’obtention d’un modèle de couverture lexicale optimale avec un minimum de mots hors vocabulaire (OOV). Pour cela nous introduisons une modélisation en sous-unités lexicales composée soit de syllabes soit de multigrammes. Ces modèles couvrent efficacement une partie importante des mots hors vocabulaire. Les performances du système de reconnaissance avec les unités sous-lexicales dépassent les performances des systèmes de reconnaissance traditionnelles de mots ou de caractères en présence d’un fort taux de mots hors lexique. Elles sont équivalentes aux modèles traditionnels en présence d’un faible taux de mots hors lexique. Grâce à la taille compacte du modèle de langage reposant sur des unités sous-lexicales, un système de reconnaissance multilingue unifié a été réalisé. Le système multilingue unifié améliore les performances de reconnaissance par rapport aux systèmes spécialisés dans chaque langue, notamment lorsque le modèle optique unifié est utilisé
This thesis is about the design of a complete processing chain dedicated to unconstrained handwriting recognition. Three main difficulties are adressed: pre-processing, optical modeling and language modeling. The pre-processing stage is related to extracting properly the text lines to be recognized from the document image. An iterative text line segmentation method using oriented steerable filters was developed for this purpose. The difficulty in the optical modeling stage lies in style diversity of the handwriting scripts. Statistical optical models are traditionally used to tackle this problem such as Hidden Markov models (HMM-GMM) and more recently recurrent neural networks (BLSTM-CTC). Using BLSTM we achieve state of the art performance on the RIMES (for French) and IAM (for English) datasets. The language modeling stage implies the integration of a lexicon and a statistical language model to the recognition processing chain in order to constrain the recognition hypotheses to the most probable sequence of words (sentence) from the language point of view. The difficulty at this stage is related to the finding the optimal vocabulary with minimum Out-Of-Vocabulary words rate (OOV). Enhanced language modeling approaches has been introduced by using sub-lexical units made of syllables or multigrams. The sub-lexical units cover an important portion of the OOV words. Then the language coverage depends on the domain of the language model training corpus, thus the need to train the language model with in domain data. The recognition system performance with the sub-lexical units outperformes the traditional recognition systems that use words or characters language models, in case of high OOV rates. Otherwise equivalent performances are obtained with a compact sub-lexical language model. Thanks to the compact lexicon size of the sub-lexical units, a unified multilingual recognition system has been designed. The unified system performance have been evaluated on the RIMES and IAM datasets. The unified multilingual system shows enhanced recognition performance over the specialized systems, especially when a unified optical model is used

Los estilos APA, Harvard, Vancouver, ISO, etc.

3

Imadache, Abdelmalek. "Reconnaissance de l'écriture manuscrite : extension à de grands lexiques de l'analyse de la forme globale des mots". Paris 6, 1990. http://www.theses.fr/1990PA066551.

Texto completo

Resumen

Dans le cadre d'un système de reconnaissance mono-scripteur, notre travail concerne les traitements morphologiques des mots manuscrits. Son objectif principal est de montrer que ces traitements sont réalisables, sans limiter le vocabulaire du scripteur, à partir d'un ensemble réduit de formes de mots connues. Les traitements envisages constituent une pré-reconnaissance de la forme globale des mots: ils doivent délimiter l'ensemble des mots candidats traite par des analyses ultérieures. On sélectionne, d'abord, des séquences fréquentes de lettres (ou n-grammes), pour constituer l'ensemble des n-grammes de référence permettant de recouvrir tous les mots du vocabulaire utilisé. Cette sélection, qui minimise le nombre de mots d'apprentissage, se prête bien au traitement de grands vocabulaires. Les analyses des traces des mots portent sur leur forme globale, à l'aide d'approximations appelées profils. On détermine les profils des n-grammes de référence par segmentation des profils des mots d'apprentissage. Une première méthode de pré-reconnaissance s'appuie sur une partition du vocabulaire regroupant les mots qui, pour le scripteur donne, ont de fortes chances de se ressembler. On associe, à chaque classe, un profil prototype en vue de la reconnaissance. La trop grande variabilité des profils nous a incités à élaborer une nouvelle méthode, évitant de synthétiser ces prototypes. Elle consiste à rechercher directement les profils des n-grammes de référence qui correspondent à telle portion du profil du mot inconnu. Cela permet d'ordonner les mots du vocabulaire pour constituer l'ensemble candidat; un mot donné sera d'autant mieux place que les n-grammes qui le constituent et leurs emplacements sont compatibles avec les correspondances trouvées. Cette nouvelle méthode donne des résultats satisfaisants. Des vocabulaires étendus peuvent être traités avec des listes réduites de mots d'apprentissage.

Los estilos APA, Harvard, Vancouver, ISO, etc.

4

Zaki, Ahmed. "Modélisation de la prosodie pour la synthèse de la parole arabe standard à partir du texte". Bordeaux 1, 2004. http://www.theses.fr/2004BOR12913.

Texto completo

Resumen

Dans ce mémoire, nous proposons d'aborder le traitement de la prosodie afin d'améliorer le naturel d'un système de synthèse de la parole arabe standard à partir du texte. D'une manière générale, la qualité de synthèse est principalement mesurée par l'intelligibilité et le naturel de la parole. L'intelligibilité dépend essentiellement de la technique et de la méthode de synthèse utilisées. Le naturel est quant à lui il est associé en grande partie à l'aspect prosodique de la langue étudiée. De point de vue acoustique, la prosodie est définie par les variations de la fréquence fondamentale (intonation), la durée segmentale (rythme) et l'intensité. Ce mémoire traite de la modélisation des variations de la fréquence fondamentale et de la durée segmentale de la langue arabe standard. Nous avons proposé deux approches différentes pour la génération automatique de la prosodie. La première approche consistait en l'utilisation des réseaux de neurones pour l'apprentissage automatique. Deux modèles ont ainsi été élaborés. Le premier est dédié à la synthèse des contours intonatifs. Le deuxième est consacré à la prédiction de la durée segmentale. D'après les résultats expérimentaux, l'approche neuronale s'avère plus adaptée à la modélisation de la durée segmentale. C'est ainsi que nous avons proposé l'étude d'une autre approche pour la génération automatique des variations de la fréquence fondamentale. La deuxième approche proposée dans ce mémoire s'est articulée autour du développement d'un modèle intonatif fondé sur l'approche phonologique. Cette dernière permet la compréhension du mécanisme de génération de la prosodie à partir d'une représentation symbolique. Cette compréhension se manifeste par les règles employées sur le plan phonologique et sur le plan phonétique. Les règles utilisées dans le module phonologique sont fondées essentiellement sur un algorithme d'accentuation "standard". Ce dernier représente le noyau des règles tonales qui sont employées dans le module phonétique. Malgré l'aspect approximatif du modèle phonétique, les phrases de synthèse générées avec les contours intonatifs du modèle proposé ont été jugées perceptivement équivalentes aux phrases générées avec les contours intonatifs estimés de la parole naturelle.

Los estilos APA, Harvard, Vancouver, ISO, etc.

5

Strub, Florian. "Développement de modèles multimodaux interactifs pour l'apprentissage du langage dans des environnements visuels". Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I030.

Texto completo

Resumen

Alors que nous nous représentons le monde au travers de nos sens, de notre langage et de nos interactions, chacun de ces domaines a été historiquement étudié de manière indépendante en apprentissage automatique. Heureusement, ce cloisonnement tend à se défaire grâce aux dernières avancées en apprentissage profond, ce qui a conduit à l'uniformisation de l'extraction des données au travers des communautés. Cependant, les architectures neuronales multimodales n'en sont qu'à leurs premiers balbutiements et l’apprentissage par renforcement profond est encore souvent restreint à des environnements limités. Idéalement, nous aimerions pourtant développer des modèles multimodaux et interactifs afin qu’ils puissent correctement appréhender la complexité du monde réel. Dans cet objectif, cette thèse s’attache à la compréhension du langage combiné à la vision pour trois raisons : (i) ce sont deux modalités longuement étudiées aux travers des différentes communautés scientifiques (ii) nous pouvons bénéficier des dernières avancées en apprentissage profond pour les modèles de langues et de vision (iii) l’interaction entre l’apprentissage du langage et notre perception a été validé en science cognitives. Ainsi, nous avons conçu le jeu GuessWhat?! (KéZaKo) afin d’évaluer la compréhension de langue combiné à la vision de nos modèles : deux joueurs doivent ainsi localiser un objet caché dans une image en posant une série de questions. Nous introduisons ensuite le principe de modulation comme un nouveau module d’apprentissage profond multimodal. Nous montrons qu’une telle approche permet de fusionner efficacement des représentations visuelles et langagières en prenant en compte la structure hiérarchique propre aux réseaux de neurones. Enfin, nous explorons comment l'apprentissage par renforcement permet l’apprentissage de la langue et cimente l'apprentissage des représentations multimodales sous-jacentes. Nous montrons qu’un tel apprentissage interactif conduit à des stratégies langagières valides mais donne lieu à de nouvelles problématiques de recherche
While our representation of the world is shaped by our perceptions, our languages, and our interactions, they have traditionally been distinct fields of study in machine learning. Fortunately, this partitioning started opening up with the recent advents of deep learning methods, which standardized raw feature extraction across communities. However, multimodal neural architectures are still at their beginning, and deep reinforcement learning is often limited to constrained environments. Yet, we ideally aim to develop large-scale multimodal and interactive models towards correctly apprehending the complexity of the world. As a first milestone, this thesis focuses on visually grounded language learning for three reasons (i) they are both well-studied modalities across different scientific fields (ii) it builds upon deep learning breakthroughs in natural language processing and computer vision (ii) the interplay between language and vision has been acknowledged in cognitive science. More precisely, we first designed the GuessWhat?! game for assessing visually grounded language understanding of the models: two players collaborate to locate a hidden object in an image by asking a sequence of questions. We then introduce modulation as a novel deep multimodal mechanism, and we show that it successfully fuses visual and linguistic representations by taking advantage of the hierarchical structure of neural networks. Finally, we investigate how reinforcement learning can support visually grounded language learning and cement the underlying multimodal representation. We show that such interactive learning leads to consistent language strategies but gives raise to new research issues

Los estilos APA, Harvard, Vancouver, ISO, etc.

6

Bonnasse-Gahot, Laurent. "Modélisation du codage neuronal de catégories et étude des conséquences perceptives". Paris, EHESS, 2009. http://www.theses.fr/2009EHES0102.

Texto completo

Resumen

À la croisée entre neurosciences théoriques et psycholinguistique, cette thèse s'intéresse au codage neuronal de catégories et cherche à étudier les conséquences perceptives résultant d'une représentation optimisée. On considère des situations où la catégorisation peut être difficile, c'est-à-dire pour lesquelles les catégories se chevauchent dans l'espace des stimuli (les voyelles d'une langue par exemple). Tirant profit d'une interprétation neurobiologique des modèles dits "à exemplaires" développés à l'origine en psychologie, et usant d'outils mathématiques issus de la théorie de l'information, ce travail propose une étude analytique de l'efficacité de codage d'une population de neurones vis-à-vis d'un ensemble de catégories. Par l'introduction d'une distance perceptive basée sur la divergence de Kullback-Leibler entre les activités neuronales évoquées par deux stimuli différents, on montre non seulement que la perception catégorielle émerge naturellement de l'apprentissage de catégories, mais également que divers phénomènes de prototypie (l'effet magnet par exemple) résultent d'une telle représentation. On propose enfin un modèle biologiquement plausible de décodage de l'information et on caractérise analytiquement les temps de réactions conséquents à l'identification de catégories. La formule obtenue donne une relation entre discrimination et temps de réponse. Tout au long de ce travail, les résultats analytiques font systématiquement l'objet d'une étude numérique ainsi que d'une comparaison qualitative, ou quantitative chaque fois que cela est possible, avec des données expérimentales issues des neurosciences ou d'études psycholinguistiques
At the crossroads between theoretical neuroscience and psycholinguistics, this dissertation deals with the neural coding of categories and aims at studying the perceptual consequences resulting from an optimized representation. The focus is on situations where categorization is difficult due to overlapping of categories in stimulus space (a system of vowels, for example). Taking advantage of a neurobiological interpretation of the so-called 'exemplar models' originally introduced in psychology, and using mathematical tools from information theory, this work proposes an analytic study of the coding efficiency of a neuronal population with respect to a discrete set of categories. Introducing a perceptual distance based on the Kullback-Leibler divergence between, patterns of neural activity evoked by two different stimuli, it is shown not only that categorical perception naturally emerges from category learning, but also that several prototypical effects (the magnet effect, for instance) result from an optimized representation. A plausible model of information decoding is finally proposed, and reaction times during an identification task are characterized analytically. The obtained formula gives a «relationship between discrimination accuracy and response time. In the present work, all the analytical results, that are derived are supported by numerical studies as well as by qualitative and quantitative comparisons with experimental data available in both the neuroscience and the psycholinguistics Iiterature

Los estilos APA, Harvard, Vancouver, ISO, etc.

7

Al, Saied Hazem. "Analyse automatique par transitions pour l'identification des expressions polylexicales". Electronic Thesis or Diss., Université de Lorraine, 2019. http://www.theses.fr/2019LORR0206.

Texto completo

Resumen

Cette thèse porte sur l'identification des expressions polylexicales, abordée au moyen d'une analyse par transitions. Une expression polylexicale (EP) est une construction linguistique composée de plusieurs éléments dont la combinaison montre une irrégularité à un ou plusieurs niveaux linguistiques. La tâche d'identification d'EPs consiste à annoter en contexte les occurrences d'EPs dans des textes, i.e à détecter les ensembles de tokens formant de telles occurrences. L'analyse par transitions est une approche célèbre qui construit une sortie structurée à partir d'une séquence d'éléments, en appliquant une séquence de «transitions» choisies parmi un ensemble prédéfini, pour construire incrémentalement la sortie. Dans cette thèse, nous proposons un système par transitions dédié à l'identification des EPs au sein de phrases représentées comme des séquences de tokens, et étudions diverses architectures pour le classifieur qui sélectionne les transitions à appliquer, permettant de construire l'analyse de la phrase. La première variante de notre système utilise un classifieur linéaire de type machine à vecteur support. Les variantes suivantes utilisent des modèles neuronaux: un simple perceptron multicouche, puis des variantes intégrant une ou plusieurs couches récurrentes. Le scénario privilégié est une identification d'EPs n'utilisant pas d'informations syntaxiques, alors même que l'on sait les deux tâches liées. Nous étudions ensuite une approche par apprentissage multitâche, réalisant conjointement l’étiquetage morphosyntaxique, l’identification des EPs par transitions et l’analyse syntaxique en dépendances par transitions. La thèse comporte une partie expérimentale importante. Nous avons d'une part étudié quelles techniques de ré-échantillonnage des données permettent une bonne stabilité de l'apprentissage malgré des initialisations aléatoires. D'autre part, nous avons proposé une méthode de réglage des hyperparamètres de nos modèles par analyse de tendances au sein d'une recherche aléatoire de combinaison d'hyperparamètres. Nous utilisons en effet de manière privilégiée les données des deux compétitions internationales PARSEME des EPs verbales. Nos variantes produisent de très bons résultats, et notamment les scores d’état de l’art pour de nombreuses langues de PARSEME. L’une des variantes s'est classée première pour la plupart des langues de PARSEME 1.0. Pourtant, nos modèles ont des performances faibles sur les EPs non vues à l'apprentissage
This thesis focuses on the identification of multi-word expressions, addressed through a transition-based system. A multi-word expression (MWE) is a linguistic construct composed of several elements whose combination shows irregularity at one or more linguistic levels. Identifying MWEs in context amounts to annotating the occurrences of MWEs in texts, i.e. to detecting sets of tokens forming such occurrences. For example, in the sentence This has nothing to do with the book, the tokens has, to, do and with would be marked as forming an occurrence of the MWE have to do with. Transition-based analysis is a famous NLP technique to build a structured output from a sequence of elements, applying a sequence of actions (called «transitions») chosen from a predefined set, to incrementally build the output structure. In this thesis, we propose a transition system dedicated to MWE identification within sentences represented as token sequences, and we study various architectures for the classifier which selects the transitions to apply to build the sentence analysis. The first variant of our system uses a linear support vector machine (SVM) classifier. The following variants use neural models: a simple multilayer perceptron (MLP), followed by variants integrating one or more recurrent layers. The preferred scenario is an identification of MWEs without the use of syntactic information, even though we know the two related tasks. We further study a multitasking approach, which jointly performs and take mutual advantage of morphosyntactic tagging, transition-based MWE identification and dependency parsing. The thesis comprises an important experimental part. Firstly, we studied which resampling techniques allow good learning stability despite random initializations. Secondly, we proposed a method for tuning the hyperparameters of our models by trend analysis within a random search for a hyperparameter combination. We produce systems with the constraint of using the same hyperparameter combination for different languages. We use data from the two PARSEME international competitions for verbal MWEs. Our variants produce very good results, including state-of-the-art scores for many languages in the PARSEME 1.0 and 1.1 datasets. One of the variants ranked first for most languages in the PARSEME 1.0 shared task. By the way, our models have poor performance on MWEs that are were not seen at learning time

Los estilos APA, Harvard, Vancouver, ISO, etc.

Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!