Einloggen

Thematische Bibliographien / Réseaux neuronaux (informatique) – Traitement automatique du langage naturel

Inhaltsverzeichnis

Dissertationen
Bücher

Auswahl der wissenschaftlichen Literatur zum Thema „Réseaux neuronaux (informatique) – Traitement automatique du langage naturel“

Autor: Grafiati

Veröffentlicht am 25. Mai 2024

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit den Listen der aktuellen Artikel, Bücher, Dissertationen, Berichten und anderer wissenschaftlichen Quellen zum Thema "Réseaux neuronaux (informatique) – Traitement automatique du langage naturel" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Dissertationen zum Thema "Réseaux neuronaux (informatique) – Traitement automatique du langage naturel"

1

Jodouin, Jean-François. "Réseaux de neurones et traitement du langage naturel : étude des réseaux de neurones récurrents et de leurs représentations." Paris 11, 1993. http://www.theses.fr/1993PA112079.

Der volle Inhalt der Quelle

Annotation:

Le but de ce travail a été d'évaluer les possibilités d'application des réseaux connexionnistes aux taches de haut niveau comme le traitement du langage naturel (tln). Un travail de réflexion a permis de cerner les types de réseaux et les techniques de représentation propices à ce domaine d'application. Deux réseaux de la classe des réseaux récurrents à couches ont été sélectionnés pour des études approfondies: le simple récurrent network et le time-unfolding network (tun). Le perceptron multicouches a servi d'étalon. Un domaine d'application mettant à l'épreuve la mémoire et les capacités de représentation des réseaux a aussi été choisi: la prédiction de séquences non déterministes. Un outil de simulation graphique, Baptise Simon, a été crée pour l'étude. Le travail empirique a consisté en trois séries d'expériences qui ont pour but d'étudier les capacités de réseaux dans des conditions se rapprochant progressivement du traitement d'énoncés réels. Cette étude a été approfondie par l'analyse des représentations développées par les réseaux durant leur traitement. Cette recherche semble montrer que les réseaux récurrents ont le potentiel de développer des représentations complexes, ce qui leur permet de traiter de façon efficace les taches qui leur ont été données. En particulier, les performances des tuns dépassent, dans le meilleur des cas, celles de nos meilleurs outils de comparaison. En conclusion, les réseaux récurrents à couches ont une utilité immédiate à la frontière entre la parole (ou l'information est généralement bruitée et incomplète) et le langage (ou les représentations symboliques pures supportent mal ce type d'imprécision). De plus, si un important travail de recherche reste encore à faire, les résultats obtenus permettent d'espérer l'application future de ces réseaux à des taches plus évoluées du tln

APA, Harvard, Vancouver, ISO und andere Zitierweisen

2

Bardet, Adrien. "Architectures neuronales multilingues pour le traitement automatique des langues naturelles." Thesis, Le Mans, 2021. http://www.theses.fr/2021LEMA1002.

Der volle Inhalt der Quelle

Annotation:

La traduction des langues est devenue un besoin essentiel pour la communication entre humains dans un monde où les possibilités de communication s'élargissent. La traduction automatique est une réponse à l'évolution de ce besoin.Plus récemment, la traduction automatique neuronale s'est imposée avec les grandes performances des systèmes neuronaux qui ouvrent une nouvelle aire de l'apprentissage automatique. Les systèmes neuronaux exploitent de grandes quantités de données pour apprendre à réaliser une tâche automatiquement. Dans le cadre de la traduction automatique, les quantités de données parfois importantes et nécessaires pour apprendre des systèmes performants ne sont pas toujours disponibles pour toutes les langues. L'utilisation de systèmes multilingues est une solution pour répondre à ce problème. Les systèmes de traduction automatique multilingues permettent de traduire plusieurs langues au sein d'un même système. Ils permettent aux langues disposant de peu de données d'être apprises aux côtés de langues disposant de plus de données, améliorant ainsi les performances du système de traduction. Cette thèse se concentre sur des approches de traduction automatique multilingues en vue d'améliorer les performances pour les langues disposant de peu de données. J'ai travaillé sur plusieurs approches de traduction multilingues reposant sur différentes techniques de transfert entre les langues. Les différentes approches proposées ainsi que des analyses complémentaires ont révélé l'impact des critères pertinents pour le transfert. Elles montrent aussi l'importance, parfois négligée, de l'équilibre des langues au sein d'approches multilingues<br>The translation of languages has become an essential need for communication between humans in a world where the possibilities of communication are expanding. Machine translation is a response to this evolving need. More recently, neural machine translation has come to the fore with the great performance of neural systems, opening up a new area of machine learning. Neural systems use large amounts of data to learn how to perform a task automatically. In the context of machine translation, the sometimes large amounts of data needed to learn efficient systems are not always available for all languages.The use of multilingual systems is one solution to this problem. Multilingual machine translation systems make it possible to translate several languages within the same system. They allow languages with little data to be learned alongside languages with more data, thus improving the performance of the translation system. This thesis focuses on multilingual machine translation approaches to improve performance for languages with limited data. I have worked on several multilingual translation approaches based on different transfer techniques between languages. The different approaches proposed, as well as additional analyses, have revealed the impact of the relevant criteria for transfer. They also show the importance, sometimes neglected, of the balance of languages within multilingual approaches

APA, Harvard, Vancouver, ISO und andere Zitierweisen

3

Kodelja, Bonan Dorian. "Prise en compte du contexte inter-phrastique pour l'extraction d'événements supervisée." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS005.

Der volle Inhalt der Quelle

Annotation:

Un des principaux pans du traitement automatique des langues (TAL) est l'extraction sous forme structurée des informations contenues dans un document. Cette extraction est généralement constituée de trois étapes : l'extraction d'entités nommées, des relations les liant au sein du texte et enfin celle des événements. Cette étape est communément considérée comme la plus difficile de la chaîne d'extraction. La notion d'événement recouvre différents phénomènes caractérisés par un nombre variable d'actants. L'extraction d'événements consiste alors à identifier la présence d'un événement puis à en déterminer les arguments, c'est-à-dire les différentes entités y remplissant des rôles spécifiques. Ces deux étapes sont généralement traitées successivement et la première étape repose alors sur la détection d'un déclencheur indiquant la présence d'un événement.Les meilleures approches actuelles, reposant sur différents modèles neuronaux, se focalisent sur le voisinage direct du mot dans la phrase. Les informations présentes dans le reste du document sont alors généralement ignorées. Cette thèse présente donc différentes approches visant à exploiter ce contexte distant au sein du document.Nous reproduisons en premier lieu un modèle convolutif obtenant des performances à l'état de l'art et en analysons plusieurs paramètres. Nous réalisons ensuite une expérience permettant d'illustrer le fait que ce modèle, malgré ses bonnes performances, n'exploite effectivement qu'un contexte très restreint au niveau phrastique.Dans un deuxième temps, nous présentons deux méthodes de production et d'intégration d'une représentation du contexte distant à un modèle neuronal opérant au niveau intra-phrastique.La première contribution se fonde sur un mécanisme d'amorçage en produisant une représentation du document spécifique à la tâche par agrégation des prédictions d'un premier modèle intra-phrastique puis en l'intégrant à un nouveau modèle intra-phrastique afin de lui permettre de tenir compte de la distribution globale des événements dans le document. Nous montrons par ailleurs la supériorité de cette approche sur une représentation générique du document.Une seconde contribution, répondant aux limitations de la première méthode, permet d'exploiter dynamiquement, pour chaque cible de prédiction, une représentation des phrases les plus pertinentes au sein du contexte grâce à un modèle de convolution de graphe. Cette méthode permet d'obtenir les meilleures performances pour un modèle simple sur différents jeux de données.Enfin, dans un troisième temps, nous considérons une autre approche de la prise en compte du contexte inter-phrastique. Nous cherchons à modéliser plus directement les interdépendances entre les différentes instances d'événements au sein d'un document afin de réaliser une prédiction jointe. Nous utilisons pour cela le cadre d'apprentissage PSL (Probabilistic Soft Logic) qui permet de modéliser de telles interdépendances sous forme de règles logiques<br>The extraction of structured information from a document is one of the main parts of natural language processing (NLP). This extraction usually consists in three steps: named entities recognition relation extraction and event extraction. This last step is considered to be the most challenging. The notion of event covers a broad list of different phenomena which are characterized through a varying number of roles. Thereupon, Event extraction consists in detecting the occurrence of an event then determining its argument, that is, the different entities filling specific roles. These two steps are usually done one after the other. In this case, the first step revolves around detecting triggers indicating the occurrence of events.The current best approaches, based on neural networks, focus on the direct neighborhood of the target word in the sentence. Information in the rest of the document is then usually ignored. This thesis presents different approaches aiming at exploiting this document-level context.We begin by reproducing a state of the art convolutional neural network and analyze some of its parameters. We then present an experiment showing that, despite its good performances, our model only exploit a narrow context at the intra-sentential level.Subsequently, we present two methods to generate and integrate a representation of the inter-sentential context in a neural network operating on an intra-sentential context.The first contribution consists in producing a task-specific representation of the inter-sentential context through the aggregation of the predictions of a first intra-sentential model. This representation is then integrated in a second model, allowing it to use the document level distribution of event to improve its performances. We also show that this task-specific representation is better than an existing generic representation of the inter-sentential context.Our second contribution, in response to the limitations of the first one, allows for the dynamic generation of a specific context for each target word. This method yields the best performances for a single model on multiples datasets.Finally, we take a different tack on the exploitation of the inter-sentential context. We try a more direct modelisation of the dependencies between multiple event instances inside a document in order to produce a joint prediction. To do so, we use the PSL (Probabilistic Soft Logic) framework which allows to model such dependencies through logic formula

APA, Harvard, Vancouver, ISO und andere Zitierweisen

4

Ramachandra, Rao Sanjay Kamath. "Question Answering with Hybrid Data and Models." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS024.

Der volle Inhalt der Quelle

Annotation:

La recherche de réponses à des questions relève de deux disciplines : le traitement du langage naturel et la recherche d’information. L’émergence de l’apprentissage profond dans plusieurs domaines de recherche tels que la vision par ordinateur, le traitement du langage naturel etc. a conduit à l’émergence de modèles de bout en bout. Les travaux actuels de l’état de l’art en question-réponse (QR) visent à mettre en oeuvre de tels modèles. Dans le cadre du projet GoASQ, l’objectif est d’étudier, comparer et combiner différentes approches pour répondre à des questions formulées en langage naturel sur des données textuelles, en domaine ouvert et en domaine biomédical. Ce travail se concentre principalement sur 1) la construction de modèles permettant de traiter des ensembles de données à petite et à grande échelle, et 2) l’exploitation de connaissances sémantiques pour répondre aux questions par leur intégration dans les différents modèles. Nous visons à fusionner des connaissances issues de textes libres, d’ontologies, de représentations d’entités, etc. Afin de faciliter l’utilisation des modèles neuronaux sur des données de domaine de spécialité, nous nous plaçons dans le cadre de l’adaptation de domaine. Nous avons proposé deux modèles de tâches de QR différents, évalués sur la tâche BIOASQ de réponse à des questions biomédicales. Nous montrons par nos résultats expérimentaux que le modèle de QR ouvert convient mieux qu’une modélisation de type Compréhension machine. Nous pré-entrainons le modèle de Compréhension machine, qui sert de base à notre modèle, sur différents ensembles de données pour montrer la variabilité des performances. Nous constatons que l’utilisation d’un ensemble de données particulier pour le pré-entraînement donne les meilleurs résultats lors du test et qu’une combinaison de quatre jeux de données donne les meilleurs résultats lors de l’adaptation au domaine biomédical. Nous avons testé des modèles de langage à grande échelle, comme BERT, qui sont adaptés à la tâche de réponse aux questions. Les performances varient en fonction du type des données utilisées pour pré-entrainer BERT. Ainsi, le modèle de langue appris sur des données biomédicales, BIOBERT, constitue le meilleur choix pour le QR biomédical. Les modèles d’apprentissage profond visent à fonctionner de bout en bout. Les informations sémantiques provenant de sources de connaissances construites par des experts n’y sont généralement pas introduites. Nous avons annoté manuellement et automatiquement un jeu de données par les variantes des réponses de BIOASQ et montré l’importance d’apprendre un modèle de QR avec ces variantes. Ces types sont ensuite utilisés pour mettre en évidence les entités dans les jeux de données, ce qui montre des améliorations sur l’état de l’art. Par ailleurs l’exploitation de représentations vectorielles d’entités dans les modèles se montre positif pour le domaine ouvert. Nous faisons l’hypothèse que les résultats obtenus à partir de modèles d’apprentissage profond peuvent être encore améliorés en utilisant des traits sémantiques et des traits collectifs calculés à partir des différents paragraphes sélectionnés pour répondre à une question. Nous utilisons des modèles de classification binaires pour améliorer la prédiction de la réponse parmi les K candidats à l’aide de ces caractéristiques, conduisant à un modèle hybride qui surpasse les résultats de l’état de l’art. Enfin, nous avons évalué des modèles de QR ouvert sur des ensembles de données construits pour les tâches de Compréhension machine et Sélection de phrases. Nous montrons la différence de performance lorsque la tâche à résoudre est une tâche de QR ouverte et soulignons le fossé important qu’il reste à franchir dans la construction de modèles de bout en bout pour la tâche complète de réponse aux questions<br>Question Answering is a discipline which lies in between natural language processing and information retrieval domains. Emergence of deep learning approaches in several fields of research such as computer vision, natural language processing, speech recognition etc. has led to the rise of end-to-end models.In the context of GoASQ project, we investigate, compare and combine different approaches for answering questions formulated in natural language over textual data on open domain and biomedical domain data. The thesis work mainly focuses on 1) Building models for small scale and large scale datasets, and 2) Leveraging structured and semantic information into question answering models. Hybrid data in our research context is fusion of knowledge from free text, ontologies, entity information etc. applied towards free text question answering.The current state-of-the-art models for question answering use deep learning based models. In order to facilitate using them on small scale datasets on closed domain data, we propose to use domain adaptation. We model the BIOASQ biomedical question answering task dataset into two different QA task models and show how the Open Domain Question Answering task suits better than the Reading Comprehension task by comparing experimental results. We pre-train the Reading Comprehension model with different datasets to show the variability in performance when these models are adapted to biomedical domain. We find that using one particular dataset (SQUAD v2.0 dataset) for pre-training performs the best on single dataset pre-training and a combination of four Reading Comprehension datasets performed the best towards the biomedical domain adaptation. We perform some of the above experiments using large scale pre-trained language models like BERT which are fine-tuned to the question answering task. The performance varies based on the type of data used to pre-train BERT. For BERT pre-training on the language modelling task, we find the biomedical data trained BIOBERT to be the best choice for biomedical QA.Since deep learning models tend to function in an end-to-end fashion, semantic and structured information coming from expert annotated information sources are not explicitly used. We highlight the necessity for using Lexical and Expected Answer Types in open domain and biomedical domain question answering by performing several verification experiments. These types are used to highlight entities in two QA tasks which shows improvements while using entity embeddings based on the answer type annotations. We manually annotated an answer variant dataset for BIOASQ and show the importance of learning a QA model with answer variants present in the paragraphs.Our hypothesis is that the results obtained from deep learning models can further be improved using semantic features and collective features from different paragraphs for a question. We propose to use ranking models based on binary classification methods to better rank Top-1 prediction among Top-K predictions using these features, leading to an hybrid model that outperforms state-of-art-results on several datasets. We experiment with several overall Open Domain Question Answering models on QA sub-task datasets built for Reading Comprehension and Answer Sentence Selection tasks. We show the difference in performance when these are modelled as overall QA task and highlight the wide gap in building end-to-end models for overall question answering task

APA, Harvard, Vancouver, ISO und andere Zitierweisen

5

Janod, Killian. "La représentation des documents par réseaux de neurones pour la compréhension de documents parlés." Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0222/document.

Der volle Inhalt der Quelle

Annotation:

Les méthodes de compréhension de la parole visent à extraire des éléments de sens pertinents du signal parlé. On distingue principalement deux catégories dans la compréhension du signal parlé : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, les travaux de cette thèse montrent que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, nous proposons deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles<br>Application of spoken language understanding aim to extract relevant items of meaning from spoken signal. There is two distinct types of spoken language understanding : understanding of human/human dialogue and understanding in human/machine dialogue. Given a type of conversation, the structure of dialogues and the goal of the understanding process varies. However, in both cases, most of the time, automatic systems have a step of speech recognition to generate the textual transcript of the spoken signal. Speech recognition systems in adverse conditions, even the most advanced one, produce erroneous or partly erroneous transcript of speech. Those errors can be explained by the presence of information of various natures and functions such as speaker and ambience specificities. They can have an important adverse impact on the performance of the understanding process. The first part of the contribution in this thesis shows that using deep autoencoders produce a more abstract latent representation of the transcript. This latent representation allow spoken language understanding system to be more robust to automatic transcription mistakes. In the other part, we propose two different approaches to generate more robust representation by combining multiple views of a given dialogue in order to improve the results of the spoken language understanding system. The first approach combine multiple thematic spaces to produce a better representation. The second one introduce new autoencoders architectures that use supervision in the denoising autoencoders. These contributions show that these architectures reduce the difference in performance between a spoken language understanding using automatic transcript and one using manual transcript

APA, Harvard, Vancouver, ISO und andere Zitierweisen

6

Petit, Alban. "Structured prediction methods for semantic parsing." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG002.

Der volle Inhalt der Quelle

Annotation:

L'analyse sémantique est une tâche qui consiste à produire une représentation formelle manipulable par un ordinateur à partir d'un énoncé en langage naturel. Il s'agit d'une tâche majeure dans le traitement automatique des langues avec plusieurs applications comme le développement de systèmes de question-réponse ou la génération de code entre autres. Ces dernières années, les approches fondées sur les réseaux de neurones, et en particulier les architectures séquence-à-séquence, ont démontré de très bonnes performances pour cette tâche. Cependant, plusieurs travaux ont mis en avant les limites de ces analyseurs sémantiques sur des exemples hors distribution. En particulier, ils échouent lorsque la généralisation compositionnelle est requise. Il est donc essentiel de développer des analyseurs sémantiques qui possèdent de meilleures capacités de composition.La représentation du contenu sémantique est une autre préoccupation lorsque l'on aborde l'analyse sémantique. Comme différentes structures syntaxiques peuvent être utilisées pour représenter le même contenu sémantique, il est souhaitable d'utiliser des structures qui peuvent à la fois représenter précisément le contenu sémantique et s'ancrer facilement sur le langage naturel. À ces égards, cette thèse utilise des représentations fondées sur les graphes pour l'analyse sémantique et se concentre sur deux tâches. La première concerne l'entrainement des analyseurs sémantiques fondés sur les graphes. Ils doivent apprendre une correspondance entre les différentes parties du graphe sémantique et l'énoncé en langage naturel. Comme cette information est généralement absente des données d'apprentissage, nous proposons des algorithmes d'apprentissage qui traitent cette correspondance comme une variable latente. La deuxième tâche se concentre sur l'amélioration des capacités de composition des analyseurs sémantiques fondés sur les graphes dans deux contextes différents. Notons que dans la prédiction de graphes, la méthode traditionnelle consiste à prédire d'abord les nœuds, puis les arcs du graphe. Dans le premier contexte, nous supposons que les graphes à prédire sont nécessairement des arborescences et nous proposons un algorithme d'optimisation basé sur le lissage des contraintes et la méthode du graident conditionnel qui permet de prédire l'ensemble du graphe de manière jointe. Dans le second contexte, nous ne faisons aucune hypothèse quant à la nature des graphes sémantiques. Dans ce cas, nous proposons d'introduire une étape intermédiaire de superétiquetage dans l'algorithme d'inférence. Celle-ci va imposer des contraintes supplémentaires sur l'étape de prédiction des arcs. Dans les deux cas, nos contributions peuvent être vues comme l'introduction de contraintes locales supplémentaires pour garantir la validité de la prédiction globale. Expérimentalement, nos contributions améliorent de manière significative les capacités de composition des analyseurs sémantiques fondés sur les graphes et surpassent les approches comparables sur plusieurs jeux de données conçus pour évaluer la généralisation compositionnelle<br>Semantic parsing is the task of mapping a natural language utterance into a formal representation that can be manipulated by a computer program. It is a major task in Natural Language Processing with several applications, including the development of questions answers systems or code generation among others.In recent years, neural-based approaches and particularly sequence-to-sequence architectures have demonstrated strong performances on this task. However, several works have put forward the limitations of neural-based parsers on out-of-distribution examples. In particular, they fail when compositional generalization is required. It is thus essential to develop parsers that exhibit better compositional abilities.The representation of the semantic content is another concern when tackling semantic parsing. As different syntactic structures can be used to represent the same semantic content, one should focus on structures that can both accurately represent the semantic content and align well with natural language. In that regard, this thesis relies on graph-based representations for semantic parsing and focuses on two tasks.The first one deals with the training of graph-based semantic parsers. They need to learn a correspondence between the parts of the semantic graph and the natural language utterance. As this information is usually absent in the training data, we propose training algorithms that treat this correspondence as a latent variable.The second task focuses on improving the compositional abilities of graph-based semantic parsers in two different settings. Note that in graph prediction, the traditional pipeline is to first predict the nodes and then the arcs of the graph. In the first setting, we assume that the graphs that must be predicted are trees and propose an optimization algorithm based on constraint smoothing and conditional gradient that allows to predict the entire graph jointly. In the second setting, we do not make any assumption regarding the nature of the semantic graphs. In that case, we propose to introduce an intermediate supertagging step in the inference pipeline that constrains the arc prediction step. In both settings, our contributions can be viewed as introducing additional local constraints to ensure the well-formedness the overall prediction. Experimentally, our contributions significantly improve the compositional abilities of graph-based semantic parsers and outperform comparable baselines on several datasets designed to evaluate compositional generalization

APA, Harvard, Vancouver, ISO und andere Zitierweisen

7

Ngo, Ho Anh Khoa. "Generative Probabilistic Alignment Models for Words and Subwords : a Systematic Exploration of the Limits and Potentials of Neural Parametrizations." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG014.

Der volle Inhalt der Quelle

Annotation:

L'alignement consiste à mettre en correspondance des unités au sein de bitextes, associant un texte en langue source et sa traduction dans une langue cible. L'alignement peut se concevoir à plusieurs niveaux: entre phrases, entre groupes de mots, entre mots, voire à un niveau plus fin lorsque l'une des langues est morphologiquement complexe, ce qui implique d'aligner des fragments de mot (morphèmes). L'alignement peut être envisagé également sur des structures linguistiques plus complexes des arbres ou des graphes. Il s'agit d'une tâche complexe, sous-spécifiée, que les humains réalisent avec difficulté. Son automatisation est un problème exemplaire du traitement des langues, historiquement associé aux premiers modèles de traduction probabilistes. L'arrivée à maturité de nouveaux modèles pour le traitement automatique des langues, reposant sur des représentationts distribuées calculées par des réseaux de neurones permet de reposer la question du calcul de ces alignements. Cette recherche vise donc à concevoir des modèles neuronaux susceptibles d'être appris sans supervision pour dépasser certaines des limitations des modèles d'alignement statistique et améliorer l'état de l'art en matière de précision des alignements automatiques<br>Alignment consists of establishing a mapping between units in a bitext, combining a text in a source language and its translation in a target language. Alignments can be computed at several levels: between documents, between sentences, between phrases, between words, or even between smaller units end when one of the languages is morphologically complex, which implies to align fragments of words (morphemes). Alignments can also be considered between more complex linguistic structures such as trees or graphs. This is a complex, under-specified task that humans accomplish with difficulty. Its automation is a notoriously difficult problem in natural language processing, historically associated with the first probabilistic word-based translation models. The design of new models for natural language processing, based on distributed representations computed by neural networks, allows us to question and revisit the computation of these alignments. This research project, therefore, aims to comprehensively understand the limitations of existing statistical alignment models and to design neural models that can be learned without supervision to overcome these drawbacks and to improve the state of art in terms of alignment accuracy

APA, Harvard, Vancouver, ISO und andere Zitierweisen

8

Parcollet, Titouan. "Quaternion neural networks A survey of quaternion neural networks - Chapter 2 Real to H-space Autoencoders for Theme Identification in Telephone Conversations - Chapter 7." Thesis, Avignon, 2019. http://www.theses.fr/2019AVIG0233.

Der volle Inhalt der Quelle

Annotation:

Au cours des dernières années, l’apprentissage profond est devenu l’approche privilégiée pour le développement d’une intelligence artificielle moderne (IA). L’augmentation importante de la puissance de calcul, ainsi que la quantité sans cesse croissante de données disponibles ont fait des réseaux de neurones profonds la solution la plus performante pour la resolution de problèmes complexes. Cependant, la capacité à parfaitement représenter la multidimensionalité des données réelles reste un défi majeur pour les architectures neuronales artificielles.Pour résoudre ce problème, les réseaux de neurones basés sur les algèbres des nombres complexes et hypercomplexes ont été développés. En particulier, les réseaux de neurones de quaternions (QNN) ont été proposés pour traiter les données tridi- mensionnelles et quadridimensionnelles, sur la base des quaternions représentant des rotations dans notre espace tridimensionnel. Malheureusement, et contrairement aux réseaux de neurones à valeurs complexes qui sont de nos jours acceptés comme une alternative aux réseaux de neurones réels, les QNNs souffrent de nombreuses lacunes qui sont en partie comblées par les différents travaux détaillés par ce manuscrit.Ainsi, la thèse se compose de trois parties qui introduisent progressivement les concepts manquants, afin de faire des QNNs une alternative aux réseaux neuronaux à valeurs réelles. La premiere partie présente et répertorie les précédentes découvertes relatives aux quaternions et aux réseaux de neurones de quaternions, afin de définir une base pour la construction des QNNs modernes.La deuxième partie introduit des réseaux neuronaux de quaternions état de l’art, afin de permettre une comparaison dans des contextes identiques avec les architectures modernes traditionnelles. Plus précisément, les QNNs étaient majoritairement limités par leurs architectures trop simples, souvent composées d’une seule couche cachée comportant peu de neurones. Premièrement, les paradigmes fondamentaux, tels que les autoencodeurs et les réseaux de neurones profonds sont présentés. Ensuite, les très répandus et étudiés réseaux de neurones convolutionnels et récurrents sont étendus à l’espace des quaternions. De nombreuses experiences sur différentes applications réelles, telles que la vision par ordinateur, la compréhension du langage parlé ainsi que la reconnaissance automatique de la parole sont menées pour comparer les modèles de quaternions introduits aux réseaux neuronaux conventionnels. Dans ces contextes bien spécifiques, les QNNs ont obtenus de meilleures performances ainsi qu’une réduction importante du nombre de paramètres neuronaux nécessaires à la phase d’apprentissage.Les QNNs sont ensuite étendus à des conditions d’entrainement permettant de traiter toutes les représentations en entrée des modèles de quaternions. Dans un scénario traditionnel impliquant des QNNs, les caractéristiques d’entrée sont manuellement segmentées en quatre composants, afin de correspondre à la representation induite par les quaternions. Malheureusement, il est difficile d’assurer qu’une telle segmentation est optimale pour résoudre le problème considéré. De plus, une segmentation manuelle réduit fondamentalement l’application des QNNs à des tâches naturellement définies dans un espace à au plus quatre dimensions. De ce fait, la troisième partie de cette thèse introduit un modèle supervisé et un modèle non supervisé permettant l’extraction de caractéristiques d’entrée désentrelacées et significatives dans l’espace des quaternions, à partir de n’importe quel type de signal réel uni-dimentionnel, permettant l’utilisation des QNNs indépendamment de la dimensionnalité des vecteurs d’entrée et de la tâche considérée. Les expériences menées sur la reconnaissance de la parole et la classification de documents parlés montrent que les approches proposées sont plus performantes que les représentations traditionnelles de quaternions<br>In the recent years, deep learning has become the leading approach to modern artificial intelligence (AI). The important improvement in terms of processing time required for learning AI based models alongside with the growing amount of available data made of deep neural networks (DNN) the strongest solution to solve complex real-world problems. However, a major challenge of artificial neural architectures lies on better considering the high-dimensionality of the data.To alleviate this issue, neural networks (NN) based on complex and hypercomplex algebras have been developped. The natural multidimensionality of the data is elegantly embedded within complex and hypercomplex neurons composing the model. In particular, quaternion neural networks (QNN) have been proposed to deal with up to four dimensional features, based on the quaternion representation of rotations and orientations. Unfortunately, and conversely to complex-valued neural networks that are nowadays known as a strong alternative to real-valued neural networks, QNNs suffer from numerous limitations that are carrefuly addressed in the different parts detailled in this thesis.The thesis consists in three parts that gradually introduce the missing concepts of QNNs, to make them a strong alternative to real-valued NNs. The first part introduces and list previous findings on quaternion numbers and quaternion neural networks to define the context and strong basics for building elaborated QNNs.The second part introduces state-of-the-art quaternion neural networks for a fair comparison with real-valued neural architectures. More precisely, QNNs were limited by their simple architectures that were mostly composed of a single and shallow hidden layer. In this part, we propose to bridge the gap between quaternion and real-valued models by presenting different quaternion architectures. First, basic paradigms such as autoencoders and deep fully-connected neural networks are introduced. Then, more elaborated convolutional and recurrent neural networks are extended to the quaternion domain. Experiments to compare QNNs over equivalents NNs have been conducted on real-world tasks across various domains, including computer vision, spoken language understanding and speech recognition. QNNs increase performances while reducing the needed number of neural parameters compared to real-valued neural networks.Then, QNNs are extended to unconventional settings. In a conventional QNN scenario, input features are manually segmented into three or four components, enabling further quaternion processing. Unfortunately, there is no evidence that such manual segmentation is the representation that suits the most to solve the considered task. Morevover, a manual segmentation drastically reduces the field of application of QNNs to four dimensional use-cases. Therefore the third part introduces a supervised and an unsupervised model to extract meaningful and disantengled quaternion input features, from any real-valued input signal, enabling the use of QNNs regardless of the dimensionality of the considered task. Conducted experiments on speech recognition and document classification show that the proposed approaches outperform traditional quaternion features

APA, Harvard, Vancouver, ISO und andere Zitierweisen

9

Tafforeau, Jérémie. "Modèle joint pour le traitement automatique de la langue : perspectives au travers des réseaux de neurones." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0430/document.

Der volle Inhalt der Quelle

Annotation:

Les recherches en Traitement Automatique des Langues (TAL) ont identifié différents niveaux d'analyse lexicale, syntaxique et sémantique. Il en découle un découpage hiérarchique des différentes tâches à réaliser afin d'analyser un énoncé. Les systèmes classiques du TAL reposent sur des analyseurs indépendants disposés en cascade au sein de chaînes de traitement (pipelines). Cette approche présente un certain nombre de limitations : la dépendance des modèles à la sélection empirique des traits, le cumul des erreurs dans le pipeline et la sensibilité au changement de domaine. Ces limitations peuvent conduire à des pertes de performances particulièrement importantes lorsqu'il existe un décalage entre les conditions d'apprentissage des modèles et celles d'utilisation. Un tel décalage existe lors de l'analyse de transcriptions automatiques de parole spontanée comme par exemple les conversations téléphoniques enregistrées dans des centres d'appels. En effet l'analyse d'une langue non-canonique pour laquelle il existe peu de données d'apprentissage, la présence de disfluences et de constructions syntaxiques spécifiques à l'oral ainsi que la présence d'erreurs de reconnaissance dans les transcriptions automatiques mènent à une détérioration importante des performances des systèmes d'analyse. C'est dans ce cadre que se déroule cette thèse, en visant à mettre au point des systèmes d'analyse à la fois robustes et flexibles permettant de dépasser les limitations des systèmes actuels à l'aide de modèles issus de l'apprentissage par réseaux de neurones profonds<br>NLP researchers has identified different levels of linguistic analysis. This lead to a hierarchical division of the various tasks performed in order to analyze a text statement. The traditional approach considers task-specific models which are subsequently arranged in cascade within processing chains (pipelines). This approach has a number of limitations: the empirical selection of models features, the errors accumulation in the pipeline and the lack of robusteness to domain changes. These limitations lead to particularly high performance losses in the case of non-canonical language with limited data available such as transcriptions of conversations over phone. Disfluencies and speech-specific syntactic schemes, as well as transcription errors in automatic speech recognition systems, lead to a significant drop of performances. It is therefore necessary to develop robust and flexible systems. We intend to perform a syntactic and semantic analysis using a deep neural network multitask model while taking into account the variations of domain and/or language registers within the data

APA, Harvard, Vancouver, ISO und andere Zitierweisen

10

Piat, Guilhem Xavier. "Incorporating expert knowledge in deep neural networks for domain adaptation in natural language processing." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG087.

Der volle Inhalt der Quelle

Annotation:

Les Modèles de Langage (LMs) de pointe sont capables de converser, résumer, traduire, résoudre des problèmes inédits, raisonner, et manipuler des concepts abstraits à niveau quasi-humain. Cependant, pour acquérir ces capacités, et en particulier pour acquérir une forme de ``bon sens'' ou des connaissances spécifiques à un domaine, ils requièrent de vastes quantités de texte, qui ne sont pas disponibles pour toutes les langues ou tous les domaines. De surcroît, leurs besoins en puissance de calcul ne sont atteignables que par quelques organisations, limitant leur spécificité ainsi que leur applicabilité aux données sensibles.Les Graphes de Connaissances (GCs) sont des sources de connaissances structurées qui associent des concepts linguistiques entre eux par le biais de relations sémantiques. Ces graphes sont des sources de connaissances de haute qualité, préexistantes dans une variété de domaines même peu dotés en ressources, et plus denses en informations que du texte. En permettant aux LMs d'exploiter ces structures d'information, ils sont délestés de la responsabilité de mémoriser les informations factuelles, réduisant la quantité de ressources textuelles et calculatoires nécessaires à leur entraînement, et nous permettant de mettre à jour leur connaissances à moindre coût, élargissant leur cadre d'application et augmentant leur potentiel de démocratisation.Diverses approches pour l'amélioration de LMs par intégration de GCs ont démontré leur efficacité. Elles reposent cependant sur la supposition rarement vérifiée que le problème de Désambiguïsation d'Entités Nommées (DEN) est résolu en amont. Ce mémoire couvre les limitations de cette approche, puis explore l'apprentissage simultané de modélisation de langue et de DEN. Cette démarche s'avère viable mais échoue à réduire considérablement la dépendance du LM sur le texte issu du domaine. Enfin, ce mémoire aborde la stratégie de générer du texte à partir de GCs de manière à exploiter les capacités linguistiques des LMs. Il en ressort que même une implémentation naïve de cette approche peut se solder par de considérables progrès en modélisation de langue dans des domaines de spécialité<br>Current state-of-the-art Language Models (LMs) are able to converse, summarize, translate, solve novel problems, reason, and use abstract concepts at a near-human level. However, to achieve such abilities, and in particular to acquire ``common sense'' and domain-specific knowledge, they require vast amounts of text, which are not available in all languages or domains. Additionally, their computational requirements are out of reach for most organizations, limiting their potential for specificity and their applicability in the context of sensitive data.Knowledge Graphs (KGs) are sources of structured knowledge which associate linguistic concepts through semantic relations. These graphs are sources of high quality knowledge which pre-exist in a variety of otherwise low-resource domains, and are denser in information than typical text. By allowing LMs to leverage these information structures, we could remove the burden of memorizing facts from LMs, reducing the amount of text and computation required to train them and allowing us to update their knowledge with little to no additional training by updating the KGs, therefore broadening their scope of applicability and making them more democratizable.Various approaches have succeeded in improving Transformer-based LMs using KGs. However, most of them unrealistically assume the problem of Entity Linking (EL), i.e. determining which KG concepts are present in the text, is solved upstream. This thesis covers the limitations of handling EL as an upstream task. It goes on to examine the possibility of learning EL jointly with language modeling, and finds that while this is a viable strategy, it does little to decrease the LM's reliance on in-domain text. Lastly, this thesis covers the strategy of using KGs to generate text in order to leverage LMs' linguistic abilities and finds that even naïve implementations of this approach can result in measurable improvements on in-domain language processing

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mehr Quellen

Bücher zum Thema "Réseaux neuronaux (informatique) – Traitement automatique du langage naturel"

1

Miikkulainen, Risto. Subsymbolic natural language processing: An integrated model of scripts, lexicon, and memory. MIT Press, 1993.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

2

Artificial Vision and Language Processing for Robotics: Create End-To-end Systems That Can Power Robots with Artificial Vision and Deep Learning Techniques. Packt Publishing, Limited, 2019.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!