Dissertations / Theses on the topic 'Réseaux neuronaux (informatique) – Traitement automatique du langage naturel'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 48 dissertations / theses for your research on the topic 'Réseaux neuronaux (informatique) – Traitement automatique du langage naturel.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Jodouin, Jean-François. "Réseaux de neurones et traitement du langage naturel : étude des réseaux de neurones récurrents et de leurs représentations." Paris 11, 1993. http://www.theses.fr/1993PA112079.

Full text
Abstract:
Le but de ce travail a été d'évaluer les possibilités d'application des réseaux connexionnistes aux taches de haut niveau comme le traitement du langage naturel (tln). Un travail de réflexion a permis de cerner les types de réseaux et les techniques de représentation propices à ce domaine d'application. Deux réseaux de la classe des réseaux récurrents à couches ont été sélectionnés pour des études approfondies: le simple récurrent network et le time-unfolding network (tun). Le perceptron multicouches a servi d'étalon. Un domaine d'application mettant à l'épreuve la mémoire et les capacités de représentation des réseaux a aussi été choisi: la prédiction de séquences non déterministes. Un outil de simulation graphique, Baptise Simon, a été crée pour l'étude. Le travail empirique a consisté en trois séries d'expériences qui ont pour but d'étudier les capacités de réseaux dans des conditions se rapprochant progressivement du traitement d'énoncés réels. Cette étude a été approfondie par l'analyse des représentations développées par les réseaux durant leur traitement. Cette recherche semble montrer que les réseaux récurrents ont le potentiel de développer des représentations complexes, ce qui leur permet de traiter de façon efficace les taches qui leur ont été données. En particulier, les performances des tuns dépassent, dans le meilleur des cas, celles de nos meilleurs outils de comparaison. En conclusion, les réseaux récurrents à couches ont une utilité immédiate à la frontière entre la parole (ou l'information est généralement bruitée et incomplète) et le langage (ou les représentations symboliques pures supportent mal ce type d'imprécision). De plus, si un important travail de recherche reste encore à faire, les résultats obtenus permettent d'espérer l'application future de ces réseaux à des taches plus évoluées du tln
APA, Harvard, Vancouver, ISO, and other styles
2

Bardet, Adrien. "Architectures neuronales multilingues pour le traitement automatique des langues naturelles." Thesis, Le Mans, 2021. http://www.theses.fr/2021LEMA1002.

Full text
Abstract:
La traduction des langues est devenue un besoin essentiel pour la communication entre humains dans un monde où les possibilités de communication s'élargissent. La traduction automatique est une réponse à l'évolution de ce besoin.Plus récemment, la traduction automatique neuronale s'est imposée avec les grandes performances des systèmes neuronaux qui ouvrent une nouvelle aire de l'apprentissage automatique. Les systèmes neuronaux exploitent de grandes quantités de données pour apprendre à réaliser une tâche automatiquement. Dans le cadre de la traduction automatique, les quantités de données parfois importantes et nécessaires pour apprendre des systèmes performants ne sont pas toujours disponibles pour toutes les langues. L'utilisation de systèmes multilingues est une solution pour répondre à ce problème. Les systèmes de traduction automatique multilingues permettent de traduire plusieurs langues au sein d'un même système. Ils permettent aux langues disposant de peu de données d'être apprises aux côtés de langues disposant de plus de données, améliorant ainsi les performances du système de traduction. Cette thèse se concentre sur des approches de traduction automatique multilingues en vue d'améliorer les performances pour les langues disposant de peu de données. J'ai travaillé sur plusieurs approches de traduction multilingues reposant sur différentes techniques de transfert entre les langues. Les différentes approches proposées ainsi que des analyses complémentaires ont révélé l'impact des critères pertinents pour le transfert. Elles montrent aussi l'importance, parfois négligée, de l'équilibre des langues au sein d'approches multilingues
The translation of languages has become an essential need for communication between humans in a world where the possibilities of communication are expanding. Machine translation is a response to this evolving need. More recently, neural machine translation has come to the fore with the great performance of neural systems, opening up a new area of machine learning. Neural systems use large amounts of data to learn how to perform a task automatically. In the context of machine translation, the sometimes large amounts of data needed to learn efficient systems are not always available for all languages.The use of multilingual systems is one solution to this problem. Multilingual machine translation systems make it possible to translate several languages within the same system. They allow languages with little data to be learned alongside languages with more data, thus improving the performance of the translation system. This thesis focuses on multilingual machine translation approaches to improve performance for languages with limited data. I have worked on several multilingual translation approaches based on different transfer techniques between languages. The different approaches proposed, as well as additional analyses, have revealed the impact of the relevant criteria for transfer. They also show the importance, sometimes neglected, of the balance of languages within multilingual approaches
APA, Harvard, Vancouver, ISO, and other styles
3

Kodelja, Bonan Dorian. "Prise en compte du contexte inter-phrastique pour l'extraction d'événements supervisée." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS005.

Full text
Abstract:
Un des principaux pans du traitement automatique des langues (TAL) est l'extraction sous forme structurée des informations contenues dans un document. Cette extraction est généralement constituée de trois étapes : l'extraction d'entités nommées, des relations les liant au sein du texte et enfin celle des événements. Cette étape est communément considérée comme la plus difficile de la chaîne d'extraction. La notion d'événement recouvre différents phénomènes caractérisés par un nombre variable d'actants. L'extraction d'événements consiste alors à identifier la présence d'un événement puis à en déterminer les arguments, c'est-à-dire les différentes entités y remplissant des rôles spécifiques. Ces deux étapes sont généralement traitées successivement et la première étape repose alors sur la détection d'un déclencheur indiquant la présence d'un événement.Les meilleures approches actuelles, reposant sur différents modèles neuronaux, se focalisent sur le voisinage direct du mot dans la phrase. Les informations présentes dans le reste du document sont alors généralement ignorées. Cette thèse présente donc différentes approches visant à exploiter ce contexte distant au sein du document.Nous reproduisons en premier lieu un modèle convolutif obtenant des performances à l'état de l'art et en analysons plusieurs paramètres. Nous réalisons ensuite une expérience permettant d'illustrer le fait que ce modèle, malgré ses bonnes performances, n'exploite effectivement qu'un contexte très restreint au niveau phrastique.Dans un deuxième temps, nous présentons deux méthodes de production et d'intégration d'une représentation du contexte distant à un modèle neuronal opérant au niveau intra-phrastique.La première contribution se fonde sur un mécanisme d'amorçage en produisant une représentation du document spécifique à la tâche par agrégation des prédictions d'un premier modèle intra-phrastique puis en l'intégrant à un nouveau modèle intra-phrastique afin de lui permettre de tenir compte de la distribution globale des événements dans le document. Nous montrons par ailleurs la supériorité de cette approche sur une représentation générique du document.Une seconde contribution, répondant aux limitations de la première méthode, permet d'exploiter dynamiquement, pour chaque cible de prédiction, une représentation des phrases les plus pertinentes au sein du contexte grâce à un modèle de convolution de graphe. Cette méthode permet d'obtenir les meilleures performances pour un modèle simple sur différents jeux de données.Enfin, dans un troisième temps, nous considérons une autre approche de la prise en compte du contexte inter-phrastique. Nous cherchons à modéliser plus directement les interdépendances entre les différentes instances d'événements au sein d'un document afin de réaliser une prédiction jointe. Nous utilisons pour cela le cadre d'apprentissage PSL (Probabilistic Soft Logic) qui permet de modéliser de telles interdépendances sous forme de règles logiques
The extraction of structured information from a document is one of the main parts of natural language processing (NLP). This extraction usually consists in three steps: named entities recognition relation extraction and event extraction. This last step is considered to be the most challenging. The notion of event covers a broad list of different phenomena which are characterized through a varying number of roles. Thereupon, Event extraction consists in detecting the occurrence of an event then determining its argument, that is, the different entities filling specific roles. These two steps are usually done one after the other. In this case, the first step revolves around detecting triggers indicating the occurrence of events.The current best approaches, based on neural networks, focus on the direct neighborhood of the target word in the sentence. Information in the rest of the document is then usually ignored. This thesis presents different approaches aiming at exploiting this document-level context.We begin by reproducing a state of the art convolutional neural network and analyze some of its parameters. We then present an experiment showing that, despite its good performances, our model only exploit a narrow context at the intra-sentential level.Subsequently, we present two methods to generate and integrate a representation of the inter-sentential context in a neural network operating on an intra-sentential context.The first contribution consists in producing a task-specific representation of the inter-sentential context through the aggregation of the predictions of a first intra-sentential model. This representation is then integrated in a second model, allowing it to use the document level distribution of event to improve its performances. We also show that this task-specific representation is better than an existing generic representation of the inter-sentential context.Our second contribution, in response to the limitations of the first one, allows for the dynamic generation of a specific context for each target word. This method yields the best performances for a single model on multiples datasets.Finally, we take a different tack on the exploitation of the inter-sentential context. We try a more direct modelisation of the dependencies between multiple event instances inside a document in order to produce a joint prediction. To do so, we use the PSL (Probabilistic Soft Logic) framework which allows to model such dependencies through logic formula
APA, Harvard, Vancouver, ISO, and other styles
4

Ramachandra, Rao Sanjay Kamath. "Question Answering with Hybrid Data and Models." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS024.

Full text
Abstract:
La recherche de réponses à des questions relève de deux disciplines : le traitement du langage naturel et la recherche d’information. L’émergence de l’apprentissage profond dans plusieurs domaines de recherche tels que la vision par ordinateur, le traitement du langage naturel etc. a conduit à l’émergence de modèles de bout en bout. Les travaux actuels de l’état de l’art en question-réponse (QR) visent à mettre en oeuvre de tels modèles. Dans le cadre du projet GoASQ, l’objectif est d’étudier, comparer et combiner différentes approches pour répondre à des questions formulées en langage naturel sur des données textuelles, en domaine ouvert et en domaine biomédical. Ce travail se concentre principalement sur 1) la construction de modèles permettant de traiter des ensembles de données à petite et à grande échelle, et 2) l’exploitation de connaissances sémantiques pour répondre aux questions par leur intégration dans les différents modèles. Nous visons à fusionner des connaissances issues de textes libres, d’ontologies, de représentations d’entités, etc. Afin de faciliter l’utilisation des modèles neuronaux sur des données de domaine de spécialité, nous nous plaçons dans le cadre de l’adaptation de domaine. Nous avons proposé deux modèles de tâches de QR différents, évalués sur la tâche BIOASQ de réponse à des questions biomédicales. Nous montrons par nos résultats expérimentaux que le modèle de QR ouvert convient mieux qu’une modélisation de type Compréhension machine. Nous pré-entrainons le modèle de Compréhension machine, qui sert de base à notre modèle, sur différents ensembles de données pour montrer la variabilité des performances. Nous constatons que l’utilisation d’un ensemble de données particulier pour le pré-entraînement donne les meilleurs résultats lors du test et qu’une combinaison de quatre jeux de données donne les meilleurs résultats lors de l’adaptation au domaine biomédical. Nous avons testé des modèles de langage à grande échelle, comme BERT, qui sont adaptés à la tâche de réponse aux questions. Les performances varient en fonction du type des données utilisées pour pré-entrainer BERT. Ainsi, le modèle de langue appris sur des données biomédicales, BIOBERT, constitue le meilleur choix pour le QR biomédical. Les modèles d’apprentissage profond visent à fonctionner de bout en bout. Les informations sémantiques provenant de sources de connaissances construites par des experts n’y sont généralement pas introduites. Nous avons annoté manuellement et automatiquement un jeu de données par les variantes des réponses de BIOASQ et montré l’importance d’apprendre un modèle de QR avec ces variantes. Ces types sont ensuite utilisés pour mettre en évidence les entités dans les jeux de données, ce qui montre des améliorations sur l’état de l’art. Par ailleurs l’exploitation de représentations vectorielles d’entités dans les modèles se montre positif pour le domaine ouvert. Nous faisons l’hypothèse que les résultats obtenus à partir de modèles d’apprentissage profond peuvent être encore améliorés en utilisant des traits sémantiques et des traits collectifs calculés à partir des différents paragraphes sélectionnés pour répondre à une question. Nous utilisons des modèles de classification binaires pour améliorer la prédiction de la réponse parmi les K candidats à l’aide de ces caractéristiques, conduisant à un modèle hybride qui surpasse les résultats de l’état de l’art. Enfin, nous avons évalué des modèles de QR ouvert sur des ensembles de données construits pour les tâches de Compréhension machine et Sélection de phrases. Nous montrons la différence de performance lorsque la tâche à résoudre est une tâche de QR ouverte et soulignons le fossé important qu’il reste à franchir dans la construction de modèles de bout en bout pour la tâche complète de réponse aux questions
Question Answering is a discipline which lies in between natural language processing and information retrieval domains. Emergence of deep learning approaches in several fields of research such as computer vision, natural language processing, speech recognition etc. has led to the rise of end-to-end models.In the context of GoASQ project, we investigate, compare and combine different approaches for answering questions formulated in natural language over textual data on open domain and biomedical domain data. The thesis work mainly focuses on 1) Building models for small scale and large scale datasets, and 2) Leveraging structured and semantic information into question answering models. Hybrid data in our research context is fusion of knowledge from free text, ontologies, entity information etc. applied towards free text question answering.The current state-of-the-art models for question answering use deep learning based models. In order to facilitate using them on small scale datasets on closed domain data, we propose to use domain adaptation. We model the BIOASQ biomedical question answering task dataset into two different QA task models and show how the Open Domain Question Answering task suits better than the Reading Comprehension task by comparing experimental results. We pre-train the Reading Comprehension model with different datasets to show the variability in performance when these models are adapted to biomedical domain. We find that using one particular dataset (SQUAD v2.0 dataset) for pre-training performs the best on single dataset pre-training and a combination of four Reading Comprehension datasets performed the best towards the biomedical domain adaptation. We perform some of the above experiments using large scale pre-trained language models like BERT which are fine-tuned to the question answering task. The performance varies based on the type of data used to pre-train BERT. For BERT pre-training on the language modelling task, we find the biomedical data trained BIOBERT to be the best choice for biomedical QA.Since deep learning models tend to function in an end-to-end fashion, semantic and structured information coming from expert annotated information sources are not explicitly used. We highlight the necessity for using Lexical and Expected Answer Types in open domain and biomedical domain question answering by performing several verification experiments. These types are used to highlight entities in two QA tasks which shows improvements while using entity embeddings based on the answer type annotations. We manually annotated an answer variant dataset for BIOASQ and show the importance of learning a QA model with answer variants present in the paragraphs.Our hypothesis is that the results obtained from deep learning models can further be improved using semantic features and collective features from different paragraphs for a question. We propose to use ranking models based on binary classification methods to better rank Top-1 prediction among Top-K predictions using these features, leading to an hybrid model that outperforms state-of-art-results on several datasets. We experiment with several overall Open Domain Question Answering models on QA sub-task datasets built for Reading Comprehension and Answer Sentence Selection tasks. We show the difference in performance when these are modelled as overall QA task and highlight the wide gap in building end-to-end models for overall question answering task
APA, Harvard, Vancouver, ISO, and other styles
5

Janod, Killian. "La représentation des documents par réseaux de neurones pour la compréhension de documents parlés." Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0222/document.

Full text
Abstract:
Les méthodes de compréhension de la parole visent à extraire des éléments de sens pertinents du signal parlé. On distingue principalement deux catégories dans la compréhension du signal parlé : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, les travaux de cette thèse montrent que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, nous proposons deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles
Application of spoken language understanding aim to extract relevant items of meaning from spoken signal. There is two distinct types of spoken language understanding : understanding of human/human dialogue and understanding in human/machine dialogue. Given a type of conversation, the structure of dialogues and the goal of the understanding process varies. However, in both cases, most of the time, automatic systems have a step of speech recognition to generate the textual transcript of the spoken signal. Speech recognition systems in adverse conditions, even the most advanced one, produce erroneous or partly erroneous transcript of speech. Those errors can be explained by the presence of information of various natures and functions such as speaker and ambience specificities. They can have an important adverse impact on the performance of the understanding process. The first part of the contribution in this thesis shows that using deep autoencoders produce a more abstract latent representation of the transcript. This latent representation allow spoken language understanding system to be more robust to automatic transcription mistakes. In the other part, we propose two different approaches to generate more robust representation by combining multiple views of a given dialogue in order to improve the results of the spoken language understanding system. The first approach combine multiple thematic spaces to produce a better representation. The second one introduce new autoencoders architectures that use supervision in the denoising autoencoders. These contributions show that these architectures reduce the difference in performance between a spoken language understanding using automatic transcript and one using manual transcript
APA, Harvard, Vancouver, ISO, and other styles
6

Petit, Alban. "Structured prediction methods for semantic parsing." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG002.

Full text
Abstract:
L'analyse sémantique est une tâche qui consiste à produire une représentation formelle manipulable par un ordinateur à partir d'un énoncé en langage naturel. Il s'agit d'une tâche majeure dans le traitement automatique des langues avec plusieurs applications comme le développement de systèmes de question-réponse ou la génération de code entre autres. Ces dernières années, les approches fondées sur les réseaux de neurones, et en particulier les architectures séquence-à-séquence, ont démontré de très bonnes performances pour cette tâche. Cependant, plusieurs travaux ont mis en avant les limites de ces analyseurs sémantiques sur des exemples hors distribution. En particulier, ils échouent lorsque la généralisation compositionnelle est requise. Il est donc essentiel de développer des analyseurs sémantiques qui possèdent de meilleures capacités de composition.La représentation du contenu sémantique est une autre préoccupation lorsque l'on aborde l'analyse sémantique. Comme différentes structures syntaxiques peuvent être utilisées pour représenter le même contenu sémantique, il est souhaitable d'utiliser des structures qui peuvent à la fois représenter précisément le contenu sémantique et s'ancrer facilement sur le langage naturel. À ces égards, cette thèse utilise des représentations fondées sur les graphes pour l'analyse sémantique et se concentre sur deux tâches. La première concerne l'entrainement des analyseurs sémantiques fondés sur les graphes. Ils doivent apprendre une correspondance entre les différentes parties du graphe sémantique et l'énoncé en langage naturel. Comme cette information est généralement absente des données d'apprentissage, nous proposons des algorithmes d'apprentissage qui traitent cette correspondance comme une variable latente. La deuxième tâche se concentre sur l'amélioration des capacités de composition des analyseurs sémantiques fondés sur les graphes dans deux contextes différents. Notons que dans la prédiction de graphes, la méthode traditionnelle consiste à prédire d'abord les nœuds, puis les arcs du graphe. Dans le premier contexte, nous supposons que les graphes à prédire sont nécessairement des arborescences et nous proposons un algorithme d'optimisation basé sur le lissage des contraintes et la méthode du graident conditionnel qui permet de prédire l'ensemble du graphe de manière jointe. Dans le second contexte, nous ne faisons aucune hypothèse quant à la nature des graphes sémantiques. Dans ce cas, nous proposons d'introduire une étape intermédiaire de superétiquetage dans l'algorithme d'inférence. Celle-ci va imposer des contraintes supplémentaires sur l'étape de prédiction des arcs. Dans les deux cas, nos contributions peuvent être vues comme l'introduction de contraintes locales supplémentaires pour garantir la validité de la prédiction globale. Expérimentalement, nos contributions améliorent de manière significative les capacités de composition des analyseurs sémantiques fondés sur les graphes et surpassent les approches comparables sur plusieurs jeux de données conçus pour évaluer la généralisation compositionnelle
Semantic parsing is the task of mapping a natural language utterance into a formal representation that can be manipulated by a computer program. It is a major task in Natural Language Processing with several applications, including the development of questions answers systems or code generation among others.In recent years, neural-based approaches and particularly sequence-to-sequence architectures have demonstrated strong performances on this task. However, several works have put forward the limitations of neural-based parsers on out-of-distribution examples. In particular, they fail when compositional generalization is required. It is thus essential to develop parsers that exhibit better compositional abilities.The representation of the semantic content is another concern when tackling semantic parsing. As different syntactic structures can be used to represent the same semantic content, one should focus on structures that can both accurately represent the semantic content and align well with natural language. In that regard, this thesis relies on graph-based representations for semantic parsing and focuses on two tasks.The first one deals with the training of graph-based semantic parsers. They need to learn a correspondence between the parts of the semantic graph and the natural language utterance. As this information is usually absent in the training data, we propose training algorithms that treat this correspondence as a latent variable.The second task focuses on improving the compositional abilities of graph-based semantic parsers in two different settings. Note that in graph prediction, the traditional pipeline is to first predict the nodes and then the arcs of the graph. In the first setting, we assume that the graphs that must be predicted are trees and propose an optimization algorithm based on constraint smoothing and conditional gradient that allows to predict the entire graph jointly. In the second setting, we do not make any assumption regarding the nature of the semantic graphs. In that case, we propose to introduce an intermediate supertagging step in the inference pipeline that constrains the arc prediction step. In both settings, our contributions can be viewed as introducing additional local constraints to ensure the well-formedness the overall prediction. Experimentally, our contributions significantly improve the compositional abilities of graph-based semantic parsers and outperform comparable baselines on several datasets designed to evaluate compositional generalization
APA, Harvard, Vancouver, ISO, and other styles
7

Ngo, Ho Anh Khoa. "Generative Probabilistic Alignment Models for Words and Subwords : a Systematic Exploration of the Limits and Potentials of Neural Parametrizations." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG014.

Full text
Abstract:
L'alignement consiste à mettre en correspondance des unités au sein de bitextes, associant un texte en langue source et sa traduction dans une langue cible. L'alignement peut se concevoir à plusieurs niveaux: entre phrases, entre groupes de mots, entre mots, voire à un niveau plus fin lorsque l'une des langues est morphologiquement complexe, ce qui implique d'aligner des fragments de mot (morphèmes). L'alignement peut être envisagé également sur des structures linguistiques plus complexes des arbres ou des graphes. Il s'agit d'une tâche complexe, sous-spécifiée, que les humains réalisent avec difficulté. Son automatisation est un problème exemplaire du traitement des langues, historiquement associé aux premiers modèles de traduction probabilistes. L'arrivée à maturité de nouveaux modèles pour le traitement automatique des langues, reposant sur des représentationts distribuées calculées par des réseaux de neurones permet de reposer la question du calcul de ces alignements. Cette recherche vise donc à concevoir des modèles neuronaux susceptibles d'être appris sans supervision pour dépasser certaines des limitations des modèles d'alignement statistique et améliorer l'état de l'art en matière de précision des alignements automatiques
Alignment consists of establishing a mapping between units in a bitext, combining a text in a source language and its translation in a target language. Alignments can be computed at several levels: between documents, between sentences, between phrases, between words, or even between smaller units end when one of the languages is morphologically complex, which implies to align fragments of words (morphemes). Alignments can also be considered between more complex linguistic structures such as trees or graphs. This is a complex, under-specified task that humans accomplish with difficulty. Its automation is a notoriously difficult problem in natural language processing, historically associated with the first probabilistic word-based translation models. The design of new models for natural language processing, based on distributed representations computed by neural networks, allows us to question and revisit the computation of these alignments. This research project, therefore, aims to comprehensively understand the limitations of existing statistical alignment models and to design neural models that can be learned without supervision to overcome these drawbacks and to improve the state of art in terms of alignment accuracy
APA, Harvard, Vancouver, ISO, and other styles
8

Parcollet, Titouan. "Quaternion neural networks A survey of quaternion neural networks - Chapter 2 Real to H-space Autoencoders for Theme Identification in Telephone Conversations - Chapter 7." Thesis, Avignon, 2019. http://www.theses.fr/2019AVIG0233.

Full text
Abstract:
Au cours des dernières années, l’apprentissage profond est devenu l’approche privilégiée pour le développement d’une intelligence artificielle moderne (IA). L’augmentation importante de la puissance de calcul, ainsi que la quantité sans cesse croissante de données disponibles ont fait des réseaux de neurones profonds la solution la plus performante pour la resolution de problèmes complexes. Cependant, la capacité à parfaitement représenter la multidimensionalité des données réelles reste un défi majeur pour les architectures neuronales artificielles.Pour résoudre ce problème, les réseaux de neurones basés sur les algèbres des nombres complexes et hypercomplexes ont été développés. En particulier, les réseaux de neurones de quaternions (QNN) ont été proposés pour traiter les données tridi- mensionnelles et quadridimensionnelles, sur la base des quaternions représentant des rotations dans notre espace tridimensionnel. Malheureusement, et contrairement aux réseaux de neurones à valeurs complexes qui sont de nos jours acceptés comme une alternative aux réseaux de neurones réels, les QNNs souffrent de nombreuses lacunes qui sont en partie comblées par les différents travaux détaillés par ce manuscrit.Ainsi, la thèse se compose de trois parties qui introduisent progressivement les concepts manquants, afin de faire des QNNs une alternative aux réseaux neuronaux à valeurs réelles. La premiere partie présente et répertorie les précédentes découvertes relatives aux quaternions et aux réseaux de neurones de quaternions, afin de définir une base pour la construction des QNNs modernes.La deuxième partie introduit des réseaux neuronaux de quaternions état de l’art, afin de permettre une comparaison dans des contextes identiques avec les architectures modernes traditionnelles. Plus précisément, les QNNs étaient majoritairement limités par leurs architectures trop simples, souvent composées d’une seule couche cachée comportant peu de neurones. Premièrement, les paradigmes fondamentaux, tels que les autoencodeurs et les réseaux de neurones profonds sont présentés. Ensuite, les très répandus et étudiés réseaux de neurones convolutionnels et récurrents sont étendus à l’espace des quaternions. De nombreuses experiences sur différentes applications réelles, telles que la vision par ordinateur, la compréhension du langage parlé ainsi que la reconnaissance automatique de la parole sont menées pour comparer les modèles de quaternions introduits aux réseaux neuronaux conventionnels. Dans ces contextes bien spécifiques, les QNNs ont obtenus de meilleures performances ainsi qu’une réduction importante du nombre de paramètres neuronaux nécessaires à la phase d’apprentissage.Les QNNs sont ensuite étendus à des conditions d’entrainement permettant de traiter toutes les représentations en entrée des modèles de quaternions. Dans un scénario traditionnel impliquant des QNNs, les caractéristiques d’entrée sont manuellement segmentées en quatre composants, afin de correspondre à la representation induite par les quaternions. Malheureusement, il est difficile d’assurer qu’une telle segmentation est optimale pour résoudre le problème considéré. De plus, une segmentation manuelle réduit fondamentalement l’application des QNNs à des tâches naturellement définies dans un espace à au plus quatre dimensions. De ce fait, la troisième partie de cette thèse introduit un modèle supervisé et un modèle non supervisé permettant l’extraction de caractéristiques d’entrée désentrelacées et significatives dans l’espace des quaternions, à partir de n’importe quel type de signal réel uni-dimentionnel, permettant l’utilisation des QNNs indépendamment de la dimensionnalité des vecteurs d’entrée et de la tâche considérée. Les expériences menées sur la reconnaissance de la parole et la classification de documents parlés montrent que les approches proposées sont plus performantes que les représentations traditionnelles de quaternions
In the recent years, deep learning has become the leading approach to modern artificial intelligence (AI). The important improvement in terms of processing time required for learning AI based models alongside with the growing amount of available data made of deep neural networks (DNN) the strongest solution to solve complex real-world problems. However, a major challenge of artificial neural architectures lies on better considering the high-dimensionality of the data.To alleviate this issue, neural networks (NN) based on complex and hypercomplex algebras have been developped. The natural multidimensionality of the data is elegantly embedded within complex and hypercomplex neurons composing the model. In particular, quaternion neural networks (QNN) have been proposed to deal with up to four dimensional features, based on the quaternion representation of rotations and orientations. Unfortunately, and conversely to complex-valued neural networks that are nowadays known as a strong alternative to real-valued neural networks, QNNs suffer from numerous limitations that are carrefuly addressed in the different parts detailled in this thesis.The thesis consists in three parts that gradually introduce the missing concepts of QNNs, to make them a strong alternative to real-valued NNs. The first part introduces and list previous findings on quaternion numbers and quaternion neural networks to define the context and strong basics for building elaborated QNNs.The second part introduces state-of-the-art quaternion neural networks for a fair comparison with real-valued neural architectures. More precisely, QNNs were limited by their simple architectures that were mostly composed of a single and shallow hidden layer. In this part, we propose to bridge the gap between quaternion and real-valued models by presenting different quaternion architectures. First, basic paradigms such as autoencoders and deep fully-connected neural networks are introduced. Then, more elaborated convolutional and recurrent neural networks are extended to the quaternion domain. Experiments to compare QNNs over equivalents NNs have been conducted on real-world tasks across various domains, including computer vision, spoken language understanding and speech recognition. QNNs increase performances while reducing the needed number of neural parameters compared to real-valued neural networks.Then, QNNs are extended to unconventional settings. In a conventional QNN scenario, input features are manually segmented into three or four components, enabling further quaternion processing. Unfortunately, there is no evidence that such manual segmentation is the representation that suits the most to solve the considered task. Morevover, a manual segmentation drastically reduces the field of application of QNNs to four dimensional use-cases. Therefore the third part introduces a supervised and an unsupervised model to extract meaningful and disantengled quaternion input features, from any real-valued input signal, enabling the use of QNNs regardless of the dimensionality of the considered task. Conducted experiments on speech recognition and document classification show that the proposed approaches outperform traditional quaternion features
APA, Harvard, Vancouver, ISO, and other styles
9

Tafforeau, Jérémie. "Modèle joint pour le traitement automatique de la langue : perspectives au travers des réseaux de neurones." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0430/document.

Full text
Abstract:
Les recherches en Traitement Automatique des Langues (TAL) ont identifié différents niveaux d'analyse lexicale, syntaxique et sémantique. Il en découle un découpage hiérarchique des différentes tâches à réaliser afin d'analyser un énoncé. Les systèmes classiques du TAL reposent sur des analyseurs indépendants disposés en cascade au sein de chaînes de traitement (pipelines). Cette approche présente un certain nombre de limitations : la dépendance des modèles à la sélection empirique des traits, le cumul des erreurs dans le pipeline et la sensibilité au changement de domaine. Ces limitations peuvent conduire à des pertes de performances particulièrement importantes lorsqu'il existe un décalage entre les conditions d'apprentissage des modèles et celles d'utilisation. Un tel décalage existe lors de l'analyse de transcriptions automatiques de parole spontanée comme par exemple les conversations téléphoniques enregistrées dans des centres d'appels. En effet l'analyse d'une langue non-canonique pour laquelle il existe peu de données d'apprentissage, la présence de disfluences et de constructions syntaxiques spécifiques à l'oral ainsi que la présence d'erreurs de reconnaissance dans les transcriptions automatiques mènent à une détérioration importante des performances des systèmes d'analyse. C'est dans ce cadre que se déroule cette thèse, en visant à mettre au point des systèmes d'analyse à la fois robustes et flexibles permettant de dépasser les limitations des systèmes actuels à l'aide de modèles issus de l'apprentissage par réseaux de neurones profonds
NLP researchers has identified different levels of linguistic analysis. This lead to a hierarchical division of the various tasks performed in order to analyze a text statement. The traditional approach considers task-specific models which are subsequently arranged in cascade within processing chains (pipelines). This approach has a number of limitations: the empirical selection of models features, the errors accumulation in the pipeline and the lack of robusteness to domain changes. These limitations lead to particularly high performance losses in the case of non-canonical language with limited data available such as transcriptions of conversations over phone. Disfluencies and speech-specific syntactic schemes, as well as transcription errors in automatic speech recognition systems, lead to a significant drop of performances. It is therefore necessary to develop robust and flexible systems. We intend to perform a syntactic and semantic analysis using a deep neural network multitask model while taking into account the variations of domain and/or language registers within the data
APA, Harvard, Vancouver, ISO, and other styles
10

Piat, Guilhem Xavier. "Incorporating expert knowledge in deep neural networks for domain adaptation in natural language processing." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG087.

Full text
Abstract:
Les Modèles de Langage (LMs) de pointe sont capables de converser, résumer, traduire, résoudre des problèmes inédits, raisonner, et manipuler des concepts abstraits à niveau quasi-humain. Cependant, pour acquérir ces capacités, et en particulier pour acquérir une forme de ``bon sens'' ou des connaissances spécifiques à un domaine, ils requièrent de vastes quantités de texte, qui ne sont pas disponibles pour toutes les langues ou tous les domaines. De surcroît, leurs besoins en puissance de calcul ne sont atteignables que par quelques organisations, limitant leur spécificité ainsi que leur applicabilité aux données sensibles.Les Graphes de Connaissances (GCs) sont des sources de connaissances structurées qui associent des concepts linguistiques entre eux par le biais de relations sémantiques. Ces graphes sont des sources de connaissances de haute qualité, préexistantes dans une variété de domaines même peu dotés en ressources, et plus denses en informations que du texte. En permettant aux LMs d'exploiter ces structures d'information, ils sont délestés de la responsabilité de mémoriser les informations factuelles, réduisant la quantité de ressources textuelles et calculatoires nécessaires à leur entraînement, et nous permettant de mettre à jour leur connaissances à moindre coût, élargissant leur cadre d'application et augmentant leur potentiel de démocratisation.Diverses approches pour l'amélioration de LMs par intégration de GCs ont démontré leur efficacité. Elles reposent cependant sur la supposition rarement vérifiée que le problème de Désambiguïsation d'Entités Nommées (DEN) est résolu en amont. Ce mémoire couvre les limitations de cette approche, puis explore l'apprentissage simultané de modélisation de langue et de DEN. Cette démarche s'avère viable mais échoue à réduire considérablement la dépendance du LM sur le texte issu du domaine. Enfin, ce mémoire aborde la stratégie de générer du texte à partir de GCs de manière à exploiter les capacités linguistiques des LMs. Il en ressort que même une implémentation naïve de cette approche peut se solder par de considérables progrès en modélisation de langue dans des domaines de spécialité
Current state-of-the-art Language Models (LMs) are able to converse, summarize, translate, solve novel problems, reason, and use abstract concepts at a near-human level. However, to achieve such abilities, and in particular to acquire ``common sense'' and domain-specific knowledge, they require vast amounts of text, which are not available in all languages or domains. Additionally, their computational requirements are out of reach for most organizations, limiting their potential for specificity and their applicability in the context of sensitive data.Knowledge Graphs (KGs) are sources of structured knowledge which associate linguistic concepts through semantic relations. These graphs are sources of high quality knowledge which pre-exist in a variety of otherwise low-resource domains, and are denser in information than typical text. By allowing LMs to leverage these information structures, we could remove the burden of memorizing facts from LMs, reducing the amount of text and computation required to train them and allowing us to update their knowledge with little to no additional training by updating the KGs, therefore broadening their scope of applicability and making them more democratizable.Various approaches have succeeded in improving Transformer-based LMs using KGs. However, most of them unrealistically assume the problem of Entity Linking (EL), i.e. determining which KG concepts are present in the text, is solved upstream. This thesis covers the limitations of handling EL as an upstream task. It goes on to examine the possibility of learning EL jointly with language modeling, and finds that while this is a viable strategy, it does little to decrease the LM's reliance on in-domain text. Lastly, this thesis covers the strategy of using KGs to generate text in order to leverage LMs' linguistic abilities and finds that even naïve implementations of this approach can result in measurable improvements on in-domain language processing
APA, Harvard, Vancouver, ISO, and other styles
11

Delecraz, Sébastien. "Approches jointes texte/image pour la compréhension multimodale de documents." Electronic Thesis or Diss., Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0634.

Full text
Abstract:
Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes
The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions
APA, Harvard, Vancouver, ISO, and other styles
12

Strub, Florian. "Développement de modèles multimodaux interactifs pour l'apprentissage du langage dans des environnements visuels." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I030.

Full text
Abstract:
Alors que nous nous représentons le monde au travers de nos sens, de notre langage et de nos interactions, chacun de ces domaines a été historiquement étudié de manière indépendante en apprentissage automatique. Heureusement, ce cloisonnement tend à se défaire grâce aux dernières avancées en apprentissage profond, ce qui a conduit à l'uniformisation de l'extraction des données au travers des communautés. Cependant, les architectures neuronales multimodales n'en sont qu'à leurs premiers balbutiements et l’apprentissage par renforcement profond est encore souvent restreint à des environnements limités. Idéalement, nous aimerions pourtant développer des modèles multimodaux et interactifs afin qu’ils puissent correctement appréhender la complexité du monde réel. Dans cet objectif, cette thèse s’attache à la compréhension du langage combiné à la vision pour trois raisons : (i) ce sont deux modalités longuement étudiées aux travers des différentes communautés scientifiques (ii) nous pouvons bénéficier des dernières avancées en apprentissage profond pour les modèles de langues et de vision (iii) l’interaction entre l’apprentissage du langage et notre perception a été validé en science cognitives. Ainsi, nous avons conçu le jeu GuessWhat?! (KéZaKo) afin d’évaluer la compréhension de langue combiné à la vision de nos modèles : deux joueurs doivent ainsi localiser un objet caché dans une image en posant une série de questions. Nous introduisons ensuite le principe de modulation comme un nouveau module d’apprentissage profond multimodal. Nous montrons qu’une telle approche permet de fusionner efficacement des représentations visuelles et langagières en prenant en compte la structure hiérarchique propre aux réseaux de neurones. Enfin, nous explorons comment l'apprentissage par renforcement permet l’apprentissage de la langue et cimente l'apprentissage des représentations multimodales sous-jacentes. Nous montrons qu’un tel apprentissage interactif conduit à des stratégies langagières valides mais donne lieu à de nouvelles problématiques de recherche
While our representation of the world is shaped by our perceptions, our languages, and our interactions, they have traditionally been distinct fields of study in machine learning. Fortunately, this partitioning started opening up with the recent advents of deep learning methods, which standardized raw feature extraction across communities. However, multimodal neural architectures are still at their beginning, and deep reinforcement learning is often limited to constrained environments. Yet, we ideally aim to develop large-scale multimodal and interactive models towards correctly apprehending the complexity of the world. As a first milestone, this thesis focuses on visually grounded language learning for three reasons (i) they are both well-studied modalities across different scientific fields (ii) it builds upon deep learning breakthroughs in natural language processing and computer vision (ii) the interplay between language and vision has been acknowledged in cognitive science. More precisely, we first designed the GuessWhat?! game for assessing visually grounded language understanding of the models: two players collaborate to locate a hidden object in an image by asking a sequence of questions. We then introduce modulation as a novel deep multimodal mechanism, and we show that it successfully fuses visual and linguistic representations by taking advantage of the hierarchical structure of neural networks. Finally, we investigate how reinforcement learning can support visually grounded language learning and cement the underlying multimodal representation. We show that such interactive learning leads to consistent language strategies but gives raise to new research issues
APA, Harvard, Vancouver, ISO, and other styles
13

Francis, Danny. "Représentations sémantiques d'images et de vidéos." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS605.

Full text
Abstract:
Des travaux de recherche récents en apprentissage profond ont permis d’améliorer significativement les performances des modèles multimédias : avec la création de grands jeux de données d’images ou de vidéos annotées, les réseaux de neurones profonds ont surpassé les modèles précédemment utilisés dans la plupart des cas. Dans cette thèse, nous avons développé de nouveaux modèles neuronaux profonds permettant de générer des représentations sémantiques d’images et de vidéos. Nous nous sommes intéressés à deux tâches principales : l’appariement d’images ou de vidéos et de textes, et la génération automatique de légendes. La tâche d’appariement peut être réalisée par le biais d’un espace multimodal commun permettant de comparer images ou vidéos et textes. Nous avons pour cela défini deux types de modèles d’appariement en nous inspirant des travaux récents sur les réseaux de capsules. La génération automatique de légendes textuelles est une tâche ardue, puisqu’elle demande à analyser un objet visuel, et à le transcrire en une description en langage naturel. Pour cela, nous proposons deux méthodes d’apprentissage par curriculum. Par ailleurs, nous avons défini une méthode permettant à un modèle de génération de légendes de vidéos de combiner des informations spatiales et temporelles. Des expériences ont permis de prouver l’intérêt de nos propositions par rapport aux travaux existants
Recent research in Deep Learning has sent the quality of results in multimedia tasks rocketing: thanks to new big datasets of annotated images and videos, Deep Neural Networks (DNN) have outperformed other models in most cases. In this thesis, we aim at developing DNN models for automatically deriving semantic representations of images and videos. In particular we focus on two main tasks : vision-text matching and image/video automatic captioning. Addressing the matching task can be done by comparing visual objects and texts in a visual space, a textual space or a multimodal space. Based on recent works on capsule networks, we define two novel models to address the vision-text matching problem: Recurrent Capsule Networks and Gated Recurrent Capsules. In image and video captioning, we have to tackle a challenging task where a visual object has to be analyzed, and translated into a textual description in natural language. For that purpose, we propose two novel curriculum learning methods. Moreover regarding video captioning, analyzing videos requires not only to parse still images, but also to draw correspondences through time. We propose a novel Learned Spatio-Temporal Adaptive Pooling method for video captioning that combines spatial and temporal analysis. Extensive experiments on standard datasets assess the interest of our models and methods with respect to existing works
APA, Harvard, Vancouver, ISO, and other styles
14

Xiao, Chunyang. "Neural-Symbolic Learning for Semantic Parsing." Thesis, Université de Lorraine, 2017. http://www.theses.fr/2017LORR0268/document.

Full text
Abstract:
Notre but dans cette thèse est de construire un système qui réponde à une question en langue naturelle (NL) en représentant sa sémantique comme une forme logique (LF) et ensuite en calculant une réponse en exécutant cette LF sur une base de connaissances. La partie centrale d'un tel système est l'analyseur sémantique qui transforme les questions en formes logiques. Notre objectif est de construire des analyseurs sémantiques performants en apprenant à partir de paires (NL, LF). Nous proposons de combiner des réseaux neuronaux récurrents (RNN) avec des connaissances préalables symboliques exprimées à travers des grammaires hors-contexte (CFGs) et des automates. En intégrant des CFGs contrôlant la validité des LFs dans les processus d'apprentissage et d'inférence des RNNs, nous garantissons que les formes logiques générées sont bien formées; en intégrant, par le biais d'automates pondérés, des connaissances préalables sur la présence de certaines entités dans la LF, nous améliorons encore la performance de nos modèles. Expérimentalement, nous montrons que notre approche permet d'obtenir de meilleures performances que les analyseurs sémantiques qui n'utilisent pas de réseaux neuronaux, ainsi que les analyseurs à base de RNNs qui ne sont pas informés par de telles connaissances préalables
Our goal in this thesis is to build a system that answers a natural language question (NL) by representing its semantics as a logical form (LF) and then computing the answer by executing the LF over a knowledge base. The core part of such a system is the semantic parser that maps questions to logical forms. Our focus is how to build high-performance semantic parsers by learning from (NL, LF) pairs. We propose to combine recurrent neural networks (RNNs) with symbolic prior knowledge expressed through context-free grammars (CFGs) and automata. By integrating CFGs over LFs into the RNN training and inference processes, we guarantee that the generated logical forms are well-formed; by integrating, through weighted automata, prior knowledge over the presence of certain entities in the LF, we further enhance the performance of our models. Experimentally, we show that our approach achieves better performance than previous semantic parsers not using neural networks as well as RNNs not informed by such prior knowledge
APA, Harvard, Vancouver, ISO, and other styles
15

Veron, Mathilde. "Systèmes de dialogue apprenant tout au long de leur vie : de l'élaboration à l'évaluation." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG089.

Full text
Abstract:
Les systèmes de dialogue orientés tâche, plus communément appelés chatbots, ont pour but de réaliser des tâches et de fournir des informations à la demande d’un utilisateur dans le cadre d’une conversation et d’un domaine précis (e.g. réservation d’un billet de train). Ces systèmes ont été largement adoptés par de nombreuses entreprises. Cependant, ils souffrent en pratique de certaines limitations : (1) ils sont dépendants des données d’entraînement nécessaires afin d’obtenir un système performant, (2) ils manquent de flexibilité et sont peu performants dès que le cas de figure rencontré en pratique s’éloigne des données vues pendant le développement, et (3) il est difficile de les adapter au cours du temps aux nouveaux éléments qui apparaissent étant donné l’évolution inévitable du monde et des exigences des concepteurs et des utilisateurs. Ainsi, nous appliquons le Lifelong Learning (LL) aux systèmes de dialogue orientés tâche. Nous définissons le LL comme la capacité d’un système à être appliqué à et à apprendre plusieurs tâches au cours du temps, en production, en autonomie, en continu et de manière interactive. Trois étapes doivent alors être réalisées en autonomie par le système : (1) Détecter la présence d’un nouvel élément, (2) extraire et identifier le nouvel élément et (3) adapter les composants du système associés à cet élément. Dans le cadre de cette thèse et étant donné la complexité du sujet, nous nous concentrons sur trois sous-problèmes liés aux systèmes de dialogue apprenant tout au long de leur vie. Dans un 1er temps, nous proposons une 1ère méthodologie pour l’évaluation continue et au cours du temps de l’apprentissage sur le terrain des systèmes de dialogue. Ce type d’apprentissage est proche du LL mais met de côté l’aspect multi-tâches. Nous décrivons aussi un système de dialogue orienté tâche capable d’améliorer sur le terrain sa détection des slots via l’annotation autonome de données collectées au cours de ses interactions. Nous évaluons ce système à travers deux méthodes d’adaptation grâce à notre méthodologie et montrons l’intérêt d’une évaluation continue et au cours du temps. Dans un 2nd temps, nous nous concentrons sur l’étude novatrice du transfert inter-langue dans le cadre de l’apprentissage continu d’une séquence de langues. En effet, le transfert et l’apprentissage continu sont deux aspects importants du LL. Nous réalisons cette étude sur la tâche de détection des slots à l’aide de BERT multilingue. Nous observons des capacités de transfert en avant substantielles malgré la présence d’oubli et présentons les capacités d’un modèle entraîné de manière continue. Dans un 3ème temps, nous nous intéressons à l’étude du transfert inter-domaine dans le cadre de l’apprentissage zero-shot. Nous réalisons cette étude sur la tâche de suivi de l’état du dialogue, qui nécessite de considérer l’ensemble du dialogue et plus seulement le tour courant. Nous étudions d’abord les capacités de généralisation et de transfert d’un modèle existant sur de nouvelles valeurs de slots. Ensuite, nous proposons des variantes du modèle et une méthode capable d’améliorer les performances zero-shot du modèle sur des nouveaux types de slots appartenant à un nouveau domaine
Task-oriented dialogue systems, more commonly known as chatbots, are intended to perform tasks and provide the information required by a user in a conversation in a specific domain (e.g., train booking). These systems have been widely adopted by many companies. However, they suffer in practice from some limitations: (1) they are dependent on the training data needed to obtain a performing system, (2) they lack flexibility and perform poorly as soon as the case encountered in practice moves away from the data seen during development, and (3) it is difficult to adapt them over time to new elements that appear given the inevitable evolution of the world, of the requirements of the designers and users. Thus, we apply Lifelong Learning (LL) to task-oriented dialogue systems. We define LL as the ability of a system to be applied to and learn multiple tasks over time, in production, autonomously, continuously, and interactively. Three steps must be performed in autonomy by the system: (1) Detect the presence of a new element, (2) extract and identify the new element, and (3) adapt the system components associated with this element. As part of this thesis and given the complexity of LL, we focus our work on three subproblems associated with LL dialogue systems. As a first step, we propose a first methodology for the continuous and time-dependent evaluation of on-the-job learning dialogue systems. This type of learning is close to LL but puts aside the multitask aspect. We also describe a task-oriented dialogue system capable of improving its slot detection on-the-job via the autonomous annotation of data collected during its interactions. We evaluate this system through two adaptation methods using our methodology and show interest in a continuous evaluation over time. As a second step, we focus on the innovative study of interlingual transfer when applying continual learning to a language sequence. Indeed, transfer and continual learning are two main aspects of LL. We perform this study on the slot-filling task using multilingual BERT. We observe substantial forward transfer capabilities despite the presence of forgetting and demonstrate the capabilities of a model trained in a continual manner. As a third step, we study inter-domain transfer in the context of zero-shot learning. We carry out this study on a task that requires considering the whole dialogue and not only the current turn, which corresponds to the dialogue state tracking task. We first study the generalization and transfer capabilities of an existing model on new slot values. Then, we propose some model variants and a method able to improve the zero-shot performance of the model on new types of slots belonging to a new domain
APA, Harvard, Vancouver, ISO, and other styles
16

Ortiz, Suarez Pedro. "A Data-driven Approach to Natural Language Processing for Contemporary and Historical French." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS155.

Full text
Abstract:
Depuis plusieurs années, les approches neuronales ont régulièrement amélioré l'état de l'art du traitement automatique des langues (TAL) sur une grande variété de tâches. L'un des principaux facteurs ayant permis ces progrès continus est l'utilisation de techniques d'apprentissage par transfert. Ces méthodes consistent à partir d'un modèle pré-entraîné et à le réutiliser, avec peu ou pas d'entraînement supplémentaire, pour traiter d'autres tâches. Même si ces modèles présentent des avantages évidents, leur principal inconvénient est la quantité de données nécessaire pour les pré-entraîner. Ainsi, le manque de données disponibles à grande échelle a freiné le développement de tels modèles pour le français contemporain et a fortiori pour ses états de langue plus anciens.Cette thèse met l'accent sur le développement de corpus pour le pré-entraînement de telles architectures. Cette approche s'avère extrêmement efficace car nous sommes en mesure d'améliorer l'état de l'art pour un large éventail de tâches de TAL pour le français contemporain et historique, ainsi que pour six autres langues contemporaines. De plus, nous montrons que ces modèles sont extrêmement sensibles à la qualité, à l'hétérogénéité et à l'équilibre des données de pré-entraînement et montrons que ces trois caractéristiques sont de meilleurs prédicteurs de la performance des modèles que la taille des données de pré-entraînement. Nous montrons également que l'importance de la taille des données de pré-entraînement a été surestimée en démontrant à plusieurs reprises que l'on peut pré-entraîner de tels modèles avec des corpus de taille assez modeste
In recent years, neural methods for Natural Language Processing (NLP) have consistently and repeatedly improved the state of the art in a wide variety of NLP tasks. One of the main contributing reasons for this steady improvement is the increased use of transfer learning techniques. These methods consist in taking a pre-trained model and reusing it, with little to no further training, to solve other tasks. Even though these models have clear advantages, their main drawback is the amount of data that is needed to pre-train them. The lack of availability of large-scale data previously hindered the development of such models for contemporary French, and even more so for its historical states.In this thesis, we focus on developing corpora for the pre-training of these transfer learning architectures. This approach proves to be extremely effective, as we are able to establish a new state of the art for a wide range of tasks in NLP for contemporary, medieval and early modern French as well as for six other contemporary languages. Furthermore, we are able to determine, not only that these models are extremely sensitive to pre-training data quality, heterogeneity and balance, but we also show that these three features are better predictors of the pre-trained models' performance in downstream tasks than the pre-training data size itself. In fact, we determine that the importance of the pre-training dataset size was largely overestimated, as we are able to repeatedly show that such models can be pre-trained with corpora of a modest size
APA, Harvard, Vancouver, ISO, and other styles
17

Cadène, Rémi. "Deep Multimodal Learning for Vision and Language Processing." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS277.

Full text
Abstract:
Les technologies du numérique ont joué un rôle déterminant dans la transformation de notre société. Des méthodes statistiques récentes ont été déployées avec succès afin d’automatiser le traitement de la quantité croissante d’images, de vidéos et de textes que nous produisons quotidiennement. En particulier, les réseaux de neurones profonds ont été adopté par les communautés de la vision par ordinateur et du traitement du langage naturel pour leur capacité à interpréter le contenu des images et des textes une fois entraînés sur de grands ensembles de données. Les progrès réalisés dans les deux communautés ont permis de jeter les bases de nouveaux problèmes de recherche à l’intersection entre vision et langage. Dans la première partie de cette thèse, nous nous concentrons sur des moteurs de recherche multimodaux images-textes. Nous proposons une stratégie d’apprentissage pour aligner efficacement les deux modalités tout en structurant l’espace de recherche avec de l’information sémantique. Dans la deuxième partie, nous nous concentrons sur des systèmes capables de répondre à toute question sur une image. Nous proposons une architecture multimodale qui fusionne itérativement les modalités visuelles et textuelles en utilisant un modèle bilinéaire factorisé, tout en modélisant les relations par paires entre chaque région de l’image. Dans la dernière partie, nous abordons les problèmes de biais dans la modélisation. Nous proposons une stratégie d’apprentissage réduisant les biais linguistiques généralement présents dans les systèmes de réponse aux questions visuelles
Digital technologies have become instrumental in transforming our society. Recent statistical methods have been successfully deployed to automate the processing of the growing amount of images, videos, and texts we produce daily. In particular, deep neural networks have been adopted by the computer vision and natural language processing communities for their ability to perform accurate image recognition and text understanding once trained on big sets of data. Advances in both communities built the groundwork for new research problems at the intersection of vision and language. Integrating language into visual recognition could have an important impact on human life through the creation of real-world applications such as next-generation search engines or AI assistants.In the first part of this thesis, we focus on systems for cross-modal text-image retrieval. We propose a learning strategy to efficiently align both modalities while structuring the retrieval space with semantic information. In the second part, we focus on systems able to answer questions about an image. We propose a multimodal architecture that iteratively fuses the visual and textual modalities using a factorized bilinear model while modeling pairwise relationships between each region of the image. In the last part, we address the issues related to biases in the modeling. We propose a learning strategy to reduce the language biases which are commonly present in visual question answering systems
APA, Harvard, Vancouver, ISO, and other styles
18

Benamar, Alexandra. "Évaluation et adaptation de plongements lexicaux au domaine à travers l'exploitation de connaissances syntaxiques et sémantiques." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG035.

Full text
Abstract:
Les modèles de plongements lexicaux se sont imposés comme les modèles de représentation les plus populaires en TAL. Afin d'obtenir de bonnes performances, ils nécessitent d'être entraînés sur de grands corpus de données provenant principalement du domaine général et sont fréquemment affinés pour être appliqués à des données de spécialité. Cependant, l'affinage des données est une pratique coûteuse en termes de ressources et son efficacité est controversée.Dans le cadre de cette thèse, nous évaluons l'utilisation de modèles de plongements lexicaux sur des corpus de spécialité et nous montrons que la proximité entre les vocabulaires des données d'entraînement et des données d'application joue un rôle majeur dans la représentation des termes hors-vocabulaire. Nous observons que cela est principalement dû à la tokenisation initiale des mots, et nous proposons une mesure pour calculer l'impact de la segmentation des mots sur leur représentation.Pour résoudre ce problème, nous proposons deux méthodes permettant d'injecter des connaissances linguistiques aux représentations générées par les Transformer : une méthode intervient à l'échelle des données et l'autre à l'échelle du modèle. Notre recherche démontre que l'ajout de contexte syntaxique et sémantique peut améliorer l'application de modèles auto-supervisés à des domaines de spécialité, tant pour la représentation du vocabulaire que pour la résolution de tâches de TAL. Les méthodes proposées peuvent être utilisées pour n'importe quelle langue disposant d'informations linguistiques ou d'autres connaissances externes. Le code utilisé pour les expériences a été publié pour faciliter la reproductibilité et des mesures ont été prises pour limiter l'impact environnemental en réduisant le nombre d'expériences
Word embeddings have established themselves as the most popular representation in NLP. To achieve good performance, they require training on large data sets mainly from the general domain and are frequently finetuned for specialty data. However, finetuning is a resource-intensive practice and its effectiveness is controversial.In this thesis, we evaluate the use of word embedding models on specialty corpora and show that proximity between the vocabularies of the training and application data plays a major role in the representation of out-of-vocabulary terms. We observe that this is mainly due to the initial tokenization of words and propose a measure to compute the impact of the tokenization of words on their representation. To solve this problem, we propose two methods for injecting linguistic knowledge into representations generated by Transformers: one at the data level and the other at the model level. Our research demonstrates that adding syntactic and semantic context can improve the application of self-supervised models to specialty domains, both for vocabulary representation and for NLP tasks.The proposed methods can be used for any language with linguistic information or external knowledge available. The code used for the experiments has been published to facilitate reproducibility and measures have been taken to limit the environmental impact by reducing the number of experiments
APA, Harvard, Vancouver, ISO, and other styles
19

Labeau, Matthieu. "Neural language models : Dealing with large vocabularies." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS313/document.

Full text
Abstract:
Le travail présenté dans cette thèse explore les méthodes pratiques utilisées pour faciliter l'entraînement et améliorer les performances des modèles de langues munis de très grands vocabulaires. La principale limite à l'utilisation des modèles de langue neuronaux est leur coût computationnel: il dépend de la taille du vocabulaire avec laquelle il grandit linéairement. La façon la plus aisée de réduire le temps de calcul de ces modèles reste de limiter la taille du vocabulaire, ce qui est loin d'être satisfaisant pour de nombreuses tâches. La plupart des méthodes existantes pour l'entraînement de ces modèles à grand vocabulaire évitent le calcul de la fonction de partition, qui est utilisée pour forcer la distribution de sortie du modèle à être normalisée en une distribution de probabilités. Ici, nous nous concentrons sur les méthodes à base d'échantillonnage, dont le sampling par importance et l'estimation contrastive bruitée. Ces méthodes permettent de calculer facilement une approximation de cette fonction de partition. L'examen des mécanismes de l'estimation contrastive bruitée nous permet de proposer des solutions qui vont considérablement faciliter l'entraînement, ce que nous montrons expérimentalement. Ensuite, nous utilisons la généralisation d'un ensemble d'objectifs basés sur l'échantillonnage comme divergences de Bregman pour expérimenter avec de nouvelles fonctions objectif. Enfin, nous exploitons les informations données par les unités sous-mots pour enrichir les représentations en sortie du modèle. Nous expérimentons avec différentes architectures, sur le Tchèque, et montrons que les représentations basées sur les caractères permettent l'amélioration des résultats, d'autant plus lorsque l'on réduit conjointement l'utilisation des représentations de mots
This work investigates practical methods to ease training and improve performances of neural language models with large vocabularies. The main limitation of neural language models is their expensive computational cost: it depends on the size of the vocabulary, with which it grows linearly. Despite several training tricks, the most straightforward way to limit computation time is to limit the vocabulary size, which is not a satisfactory solution for numerous tasks. Most of the existing methods used to train large-vocabulary language models revolve around avoiding the computation of the partition function, ensuring that output scores are normalized into a probability distribution. Here, we focus on sampling-based approaches, including importance sampling and noise contrastive estimation. These methods allow an approximate computation of the partition function. After examining the mechanism of self-normalization in noise-contrastive estimation, we first propose to improve its efficiency with solutions that are adapted to the inner workings of the method and experimentally show that they considerably ease training. Our second contribution is to expand on a generalization of several sampling based objectives as Bregman divergences, in order to experiment with new objectives. We use Beta divergences to derive a set of objectives from which noise contrastive estimation is a particular case. Finally, we aim at improving performances on full vocabulary language models, by augmenting output words representation with subwords. We experiment on a Czech dataset and show that using character-based representations besides word embeddings for output representations gives better results. We also show that reducing the size of the output look-up table improves results even more
APA, Harvard, Vancouver, ISO, and other styles
20

Bannour, Nesrine. "Information Extraction from Electronic Health Records : Studies on temporal ordering, privacy and environmental impact." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG082.

Full text
Abstract:
L'extraction automatique des informations contenues dans les Dossiers Patients Informatisés (DPIs) est cruciale pour améliorer la recherche clinique. Or, la plupart des informations sont sous forme de texte non structuré. La complexité et le caractère confidentiel du texte clinique présente des défis supplémentaires. Par conséquent, le partage de données est difficile dans la pratique et est strictement encadré par des réglementations. Les modèles neuronaux offrent de bons résultats pour l'extraction d'informations. Mais ils nécessitent de grandes quantités de données annotées, qui sont souvent limitées, en particulier pour les langues autres que l'anglais. Ainsi, la performance n'est pas encore adaptée à des applications pratiques. Outre les enjeux de confidentialité, les modèles d'apprentissage profond ont un important impact environnemental. Dans cette thèse, nous proposons des méthodes et des ressources pour la Reconnaissance d'entités nommées (REN) et l'extraction de relations temporelles dans des textes cliniques en français.Plus précisément, nous proposons une architecture de modèles préservant la confidentialité des données par mimétisme permettant un transfert de connaissances d'un modèle enseignant entraîné sur un corpus privé à un modèle élève. Ce modèle élève pourrait être partagé sans révéler les données sensibles ou le modèle privé construit avec ces données. Notre stratégie offre un bon compromis entre la performance et la préservation de la confidentialité. Ensuite, nous introduisons une nouvelle représentation des relations temporelles, indépendante des événements et de la tâche d'extraction, qui permet d'identifier des portions de textes homogènes du point de vue temporel et de caractériser la relation entre chaque portion du texte et la date de création du document. Cela rend l'annotation et l'extraction des relations temporelles plus facile et reproductible à travers différents types d'événements, vu qu'aucune définition et extraction préalable des événements n'est requise.Enfin, nous effectuons une analyse comparative des outils existants de mesure d'empreinte carbone des modèles de TAL. Nous adoptons un des outils étudiés pour calculer l'empreinte carbone de nos modèles, en considérant que c'est une première étape vers une prise de conscience et un contrôle de leur impact environnemental. En résumé, nous générons des modèles de REN partageables préservant la confidentialité que les cliniciens peuvent utiliser efficacement. Nous démontrons également que l'extraction de relations temporelles peut être abordée indépendamment du domaine d'application et que de bons résultats peuvent être obtenus en utilisant des données d'oncologie du monde réel
Automatically extracting rich information contained in Electronic Health Records (EHRs) is crucial to improve clinical research. However, most of this information is in the form of unstructured text.The complexity and the sensitive nature of clinical text involve further challenges. As a result, sharing data is difficult in practice and is governed by regulations. Neural-based models showed impressive results for Information Extraction, but they need significant amounts of manually annotated data, which is often limited, particularly for non-English languages. Thus, the performance is still not ideal for practical use. In addition to privacy issues, using deep learning models has a significant environmental impact.In this thesis, we develop methods and resources for clinical Named Entity Recognition (NER) and Temporal Relation Extraction (TRE) in French clinical narratives.Specifically, we propose a privacy-preserving mimic models architecture by exploring the mimic learning approach to enable knowledge transfer through a teacher model trained on a private corpus to a student model. This student model could be publicly shared without disclosing the original sensitive data or the private teacher model on which it was trained. Our strategy offers a good compromise between performance and data privacy preservation.Then, we introduce a novel event- and task-independent representation of temporal relations. Our representation enables identifying homogeneous text portions from a temporal standpoint and classifying the relation between each text portion and the document creation time. This makes the annotation and extraction of temporal relations easier and reproducible through different event types, as no prior definition and extraction of events is required.Finally, we conduct a comparative analysis of existing tools for measuring the carbon emissions of NLP models. We adopt one of the studied tools to calculate the carbon footprint of all our created models during the thesis, as we consider it a first step toward increasing awareness and control of their environmental impact.To summarize, we generate shareable privacy-preserving NER models that clinicians can efficiently use. We also demonstrate that the TRE task may be tackled independently of the application domain and that good results can be obtained using real-world oncology clinical notes
APA, Harvard, Vancouver, ISO, and other styles
21

Barhoumi, Amira. "Une approche neuronale pour l’analyse d’opinions en arabe." Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1022.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre de l’analyse d’opinions en arabe. Son objectif consiste à déterminer la polarité globale d’un énoncé textuel donné écrit en Arabe standard moderne (ASM) ou dialectes arabes. Cette thématique est un domaine de recherche en plein essor et a fait l’objet de nombreuses études avec une majorité de travaux actuels traitant des langues indo-européennes, en particulier la langue anglaise. Une des difficultés à laquelle se confronte cette thèse est le traitement de la langue arabe qui est une langue morphologiquement riche avec une grande variabilité des formes de surface observables dans les données d’apprentissage. Nous souhaitons pallier ce problème en produisant, de manière totalement automatique et contrôlée, de nouvelles représentations vectorielles continues (en anglais embeddings) spécifiques à la langue arabe. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection de polarité, en exploitant la puissance des embeddings. En effet, ceux-ci se sont révélés un atout fondamental dans différentes tâches de traitement automatique des langues naturelles (TALN). Notre contribution dans le cadre de cette thèse porte plusieurs axes. Nous commençons, d’abord, par une étude préliminaire des différentes ressources d’embeddings de mots pré-entraînés existants en langue arabe. Ces embeddings considèrent les mots comme étant des unités séparées par des espaces afin de capturer, dans l'espace de projection, des similarités sémantiques et syntaxiques. Ensuite, nous nous focalisons sur les spécificités de la langue arabe en proposant des embeddings spécifiques pour cette langue. Les phénomènes comme l’agglutination et la richesse morphologique de l’arabe sont alors pris en compte. Ces embeddings spécifiques ont été utilisés, seuls et combinés, comme entrée à deux réseaux neuronaux (l’un convolutif et l’autre récurrent) apportant une amélioration des performances dans la détection de polarité sur un corpus de revues. Nous proposons une analyse poussée des embeddings proposées. Dans une évaluation intrinsèque, nous proposons un nouveau protocole introduisant la notion de la stabilité de polarités (sentiment stability) dans l’espace d'embeddings. Puis, nous proposons une analyse qualitative extrinsèque de nos embeddings en utilisant des méthodes de projection et de visualisation
My thesis is part of Arabic sentiment analysis. Its aim is to determine the global polarity of a given textual statement written in MSA or dialectal arabic. This research area has been subject of numerous studies dealing with Indo-European languages, in particular English. One of difficulties confronting this thesis is the processing of Arabic. In fact, Arabic is a morphologically rich language which implies a greater sparsity : we want to overcome this problem by producing, in a completely automatic way, new arabic specific embeddings. Our study focuses on the use of a neural approach to improve polarity detection, using embeddings. These embeddings have revealed fundamental in various natural languages processing tasks (NLP). Our contribution in this thesis concerns several axis. First, we begin with a preliminary study of the various existing pre-trained word embeddings resources in arabic. These embeddings consider words as space separated units in order to capture semantic and syntactic similarities in the embedding space. Second, we focus on the specifity of Arabic language. We propose arabic specific embeddings that take into account agglutination and morphological richness of Arabic. These specific embeddings have been used, alone and in combined way, as input to neural networks providing an improvement in terms of classification performance. Finally, we evaluate embeddings with intrinsic and extrinsic methods specific to sentiment analysis task. For intrinsic embeddings evaluation, we propose a new protocol introducing the notion of sentiment stability in the embeddings space. We propose also a qualitaive extrinsic analysis of our embeddings by using visualisation methods
APA, Harvard, Vancouver, ISO, and other styles
22

Delecraz, Sébastien. "Approches jointes texte/image pour la compréhension multimodale de documents." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0634/document.

Full text
Abstract:
Les mécanismes de compréhension chez l'être humain sont par essence multimodaux. Comprendre le monde qui l'entoure revient chez l'être humain à fusionner l'information issue de l'ensemble de ses récepteurs sensoriels. La plupart des documents utilisés en traitement automatique de l'information sont multimodaux. Par exemple, du texte et des images dans des documents textuels ou des images et du son dans des documents vidéo. Cependant, les traitements qui leurs sont appliqués sont le plus souvent monomodaux. Le but de cette thèse est de proposer des traitements joints s'appliquant principalement au texte et à l'image pour le traitement de documents multimodaux à travers deux études : l'une portant sur la fusion multimodale pour la reconnaissance du rôle du locuteur dans des émissions télévisuelles, l'autre portant sur la complémentarité des modalités pour une tâche d'analyse linguistique sur des corpus d'images avec légendes. Pour la première étude nous nous intéressons à l'analyse de documents audiovisuels provenant de chaînes d'information télévisuelle. Nous proposons une approche utilisant des réseaux de neurones profonds pour la création d'une représentation jointe multimodale pour les représentations et la fusion des modalités. Dans la seconde partie de cette thèse nous nous intéressons aux approches permettant d'utiliser plusieurs sources d'informations multimodales pour une tâche monomodale de traitement automatique du langage, afin d'étudier leur complémentarité. Nous proposons un système complet de correction de rattachements prépositionnels utilisant de l'information visuelle, entraîné sur un corpus multimodal d'images avec légendes
The human faculties of understanding are essentially multimodal. To understand the world around them, human beings fuse the information coming from all of their sensory receptors. Most of the documents used in automatic information processing contain multimodal information, for example text and image in textual documents or image and sound in video documents, however the processings used are most often monomodal. The aim of this thesis is to propose joint processes applying mainly to text and image for the processing of multimodal documents through two studies: one on multimodal fusion for the speaker role recognition in television broadcasts, the other on the complementarity of modalities for a task of linguistic analysis on corpora of images with captions. In the first part of this study, we interested in audiovisual documents analysis from news television channels. We propose an approach that uses in particular deep neural networks for representation and fusion of modalities. In the second part of this thesis, we are interested in approaches allowing to use several sources of multimodal information for a monomodal task of natural language processing in order to study their complementarity. We propose a complete system of correction of prepositional attachments using visual information, trained on a multimodal corpus of images with captions
APA, Harvard, Vancouver, ISO, and other styles
23

Zablocki, Éloi. "Multimodal machine learning : complementarity of textual and visual contexts." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS409.

Full text
Abstract:
L'interaction entre le langage et la vision reste relativement peu explorée malgré un intérêt grandissant. Au-delà des différences triviales entre textes et images, ces deux modalités portent des sémantiques distinctes. D'une part, le langage peut exprimer une sémantique de haut niveau sur le monde, mais il est biaisé dans le sens qu’une grande partie de son contenu est implicite (sens commun). D'autre part, les images sont des agrégats de niveaux inférieurs informations, mais elles donnent accès plus directement aux statistiques du monde réel et peuvent être utilisées pour ancrer l'apprentissage de la sémantique d'un objet. Dans cette thèse, nous exploitons les connexions et nous tirons parti de la complémentarité entre langage et vision. Premièrement, les capacités de compréhension du langage naturel peuvent être améliorer à l'aide de la modalité visuelle, car le langage est naturellement ancré dans le monde visuel. En particulier, représenter la sémantique d'un mot est un problème de longue date pour la communauté du traitement de la langue naturel, et, pour améliorer les approches traditionnelles, il est essentiel de tirer parti des informations visuelles. Nous montrons que les représentations linguistiques peuvent être enrichies par des informations visuelles et nous nous concentrons particulièrement sur les contextes visuels et l'organisation spatiale des scènes. Nous présentons deux modèles pour apprendre des représentations multimodales sémantiques pour des mots ou des phrases, à l’aide d’images. A l'inverse, l'intégration du langage à la vision ouvre la possibilité d'élargir les horizons et les tâches de la communauté de la vision par ordinateur. En supposant que le langage contienne des informations visuelles sur les objets et que celles-ci puissent être capturées dans une représentation sémantique, nous nous concentrons sur la tâche de reconnaissance zero-shot, qui consiste à reconnaître des objets qui n'ont jamais été vus grâce aux connaissances linguistiques acquises auparavant. En particulier, nous montrons que les représentations linguistiques contiennent non seulement des informations visuelles sur l'apparence visuelle des objets, mais également sur leur environnement visuel typique et leurs fréquences d'occurrence visuelle. Nous présentons ainsi un modèle de reconnaissance zero-shot tirant parti du contexte visuel d'un objet et de sa probabilité d'occurrence visuelle, en plus de la région d'intérêt, comme dans les approches traditionnelles. Enfin, nous présentons des pistes de recherche potentielles pour exploiter davantage les liens entre langage et images et pour mieux comprendre le fossé sémantique entre les deux modalités
Research looking at the interaction between language and vision, despite a growing interest, is relatively underexplored. Beyond trivial differences between texts and images, these two modalities have non overlapping semantics. On the one hand, language can express high-level semantics about the world, but it is biased in the sense that a large portion of its content is implicit (common-sense or implicit knowledge). On the other hand, images are aggregates of lower-level information, but they can depict a more direct view of real-world statistics and can be used to ground the meaning of objects. In this thesis, we exploit connections and leverage complementarity between language and vision. First, natural language understanding capacities can be augmented with the help of the visual modality, as language is known to be grounded in the visual world. In particular, representing language semantics is a long-standing problem for the natural language processing community, and to further improve traditional approaches towards that goal, leveraging visual information is crucial. We show that semantic linguistic representations can be enriched by visual information, and we especially focus on visual contexts and spatial organization of scenes. We present two models to learn grounded word or sentence semantic representations respectively, with the help of images. Conversely, integrating language with vision brings the possibility of expanding the horizons and tasks of the vision community. Assuming that language contains visual information about objects, and that this can be captured within linguistic semantic representation, we focus on the zero-shot object recognition task, which consists in recognizing objects that have never been seen thanks to linguistic knowledge acquired about the objects beforehand. In particular, we argue that linguistic representations not only contain visual information about the visual appearance of objects but also about their typical visual surroundings and visual occurrence frequencies. We thus present a model for zero-shot recognition that leverages the visual context of an object, and its visual occurrence likelihood, in addition to the region of interest as done in traditional approaches. Finally, we present prospective research directions to further exploit connections between language and images and to better understand the semantic gap between the two modalities
APA, Harvard, Vancouver, ISO, and other styles
24

Montariol, Syrielle. "Models of diachronic semantic change using word embeddings." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG006.

Full text
Abstract:
Dans cette thèse, nous étudions les changements lexico-sémantiques : les variations temporelles dans l'usage et la signification des mots, également appelé extit{diachronie}. Ces changements reflètent l'évolution de divers aspects de la société tels que l'environnement technologique et culturel.Nous explorons et évaluons des méthodes de construction de plongements lexicaux variant dans le temps afin d'analyser l'évolution du language. Nous utilisont notamment des plongements contextualisés à partir de modèles de langue pré-entraînés tels que BERT.Nous proposons plusieurs approches pour extraire et agréger les représentations contextualisées des mots dans le temps, et quantifier leur degré de changement sémantique. En particulier, nous abordons l'aspect pratique de ces systèmes: le passage à l'échelle de nos approches, en vue de les appliquer à de grands corpus ou de larges vocabulaire; leur interprétabilité, en désambiguïsant les différents usages d'un mot au cours du temps; et leur applicabilité à des problématiques concrètes, pour des documents liés au COVID19 et des corpus du domaine financier. Nous évaluons l'efficacité de ces méthodes de manière quantitative, en utilisant plusieurs corpus annotés, et de manière qualitative, en liant les variations détectées dans des corpus avec des événements de la vie réelle et des données numériques.Enfin, nous étendons la tâche de détection de changements sémantiques au-delà de la dimension temporelle. Nous l'adaptons à un cadre bilingue, pour étudier l'évolution conjointe d'un mot et sa traduction dans deux corpus de langues différentes; et à un cadre synchronique, pour détecter des variations sémantiques entre différentes sources ou communautés en plus de la variation temporelle
In this thesis, we study lexical semantic change: temporal variations in the use and meaning of words, also called extit{diachrony}. These changes are carried by the way people use words, and mirror the evolution of various aspects of society such as its technological and cultural environment.We explore, compare and evaluate methods to build time-varying embeddings from a corpus in order to analyse language evolution.We focus on contextualised word embeddings using pre-trained language models such as BERT. We propose several approaches to extract and aggregate the contextualised representations of words over time, and quantify their level of semantic change.In particular, we address the practical aspect of these systems: the scalability of our approaches, with a view to applying them to large corpora or large vocabularies; their interpretability, by disambiguating the different uses of a word over time; and their applicability to concrete issues, for documents related to COVID19We evaluate the efficiency of these methods quantitatively using several annotated corpora, and qualitatively by linking the detected semantic variations with real-life events and numerical data.Finally, we extend the task of semantic change detection beyond the temporal dimension. We adapt it to a bilingual setting, to study the joint evolution of a word and its translation in two corpora of different languages; and to a synchronic frame, to detect semantic variations across different sources or communities on top of the temporal variation
APA, Harvard, Vancouver, ISO, and other styles
25

Meftah, Sara. "Neural Transfer Learning for Domain Adaptation in Natural Language Processing." Thesis, université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG021.

Full text
Abstract:
Les méthodes d’apprentissage automatique qui reposent sur les Réseaux de Neurones (RNs) ont démontré des performances de prédiction qui s'approchent de plus en plus de la performance humaine dans plusieurs applications du Traitement Automatique de la Langue (TAL) qui bénéficient de la capacité des différentes architectures des RNs à généraliser à partir des régularités apprises à partir d'exemples d'apprentissage. Toutefois, ces modèles sont limités par leur dépendance aux données annotées. En effet, pour être performants, ces modèles neuronaux ont besoin de corpus annotés de taille importante. Par conséquent, uniquement les langues bien dotées peuvent bénéficier directement de l'avancée apportée par les RNs, comme par exemple les formes formelles des langues. Dans le cadre de cette thèse, nous proposons des méthodes d'apprentissage par transfert neuronal pour la construction d'outils de TAL pour les langues peu dotées en exploitant leurs similarités avec des langues bien dotées. Précisément, nous expérimentons nos approches pour le transfert à partir du domaine source des textes formels vers le domaine cible des textes informels (langue utilisée dans les réseaux sociaux). Tout au long de cette thèse nous proposons différentes contributions. Tout d'abord, nous proposons deux approches pour le transfert des connaissances encodées dans les représentations neuronales d'un modèle source, pré-entraîné sur les données annotées du domaine source, vers un modèle cible, adapté par la suite sur quelques exemples annotés du domaine cible. La première méthode transfère des représentations contextuelles pré-entraînées sur le domaine source. Tandis que la deuxième méthode utilise des poids pré-entraînés pour initialiser les paramètres du modèle cible. Ensuite, nous effectuons une série d'analyses pour repérer les limites des méthodes proposées ci-dessus. Nous constatons que, même si l'approche d'apprentissage par transfert proposée améliore les résultats du domaine cible, un transfert négatif « dissimulé » peut atténuer le gain final apporté par l'apprentissage par transfert. De plus, une analyse interprétative du modèle pré-entraîné, montre que les neurones pré-entraînés peuvent être biaisés par ce qu'ils ont appris du domaine source, et donc peuvent avoir des difficultés à apprendre des « patterns » spécifiques au domaine cible. Issu de notre analyse, nous proposons un nouveau schéma d'adaptation qui augmente le modèle cible avec des neurones normalisés, pondérés et initialisés aléatoirement qui permettent une meilleure adaptation au domaine cible tout en conservant les connaissances apprises du domaine source. Enfin, nous proposons une approche d’apprentissage par transfert qui permet de profiter des similarités entre différentes tâches, en plus des connaissances pré-apprises du domaine source
Recent approaches based on end-to-end deep neural networks have revolutionised Natural Language Processing (NLP), achieving remarkable results in several tasks and languages. Nevertheless, these approaches are limited with their "gluttony" in terms of annotated data, since they rely on a supervised training paradigm, i.e. training from scratch on large amounts of annotated data. Therefore, there is a wide gap between NLP technologies capabilities for high-resource languages compared to the long tail of low-resourced languages. Moreover, NLP researchers have focused much of their effort on training NLP models on the news domain, due to the availability of training data. However, many research works have highlighted that models trained on news fail to work efficiently on out-of-domain data, due to their lack of robustness against domain shifts. This thesis presents a study of transfer learning approaches, through which we propose different methods to take benefit from the pre-learned knowledge on the high-resourced domain to enhance the performance of neural NLP models in low-resourced settings. Precisely, we apply our approaches to transfer from the news domain to the social media domain. Indeed, despite the importance of its valuable content for a variety of applications (e.g. public security, health monitoring, or trends highlight), this domain is still poor in terms of annotated data. We present different contributions. First, we propose two methods to transfer the knowledge encoded in the neural representations of a source model pretrained on large labelled datasets from the source domain to the target model, further adapted by a fine-tuning on few annotated examples from the target domain. The first transfers contextualised supervisedly pretrained representations, while the second method transfers pretrained weights, used to initialise the target model's parameters. Second, we perform a series of analysis to spot the limits of the above-mentioned proposed methods. We find that even if the proposed transfer learning approach enhances the performance on social media domain, a hidden negative transfer may mitigate the final gain brought by transfer learning. In addition, an interpretive analysis of the pretrained model, show that pretrained neurons may be biased by what they have learned from the source domain, thus struggle with learning uncommon target-specific patterns. Third, stemming from our analysis, we propose a new adaptation scheme which augments the target model with normalised, weighted and randomly initialised neurons that beget a better adaptation while maintaining the valuable source knowledge. Finally, we propose a model, that in addition to the pre-learned knowledge from the high-resource source-domain, takes advantage of various supervised NLP tasks
APA, Harvard, Vancouver, ISO, and other styles
26

Schaub, Léon-Paul. "Dimensions mémorielles de l'interaction écrite humain-machine ˸ une approche cognitive par les modèles mnémoniques pour la détection et la correction des incohérences du système dans les dialogues orientés-tâche." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG023.

Full text
Abstract:
Dans ce travail, nous nous intéressons à la place des systèmes de dialogue orientés-tâche à la fois dans le traitement automatique des langues, et dans l’interaction humain-machine. Nous nous concentrons plus particulièrement sur la différence de traitement de l’information et de l’utilisation de la mémoire, d’un tour de parole à l’autre, par l’humain et la machine, pendant une conversation écrite de type clavardage. Après avoir étudié les mécanismes de rétention et de rappel mémoriels chez l’humain durant un dialogue, en particulier dans l'accomplissement d'une tâche, nous émettons l’hypothèse qu’un des éléments susceptible d'expliquer que les performances des machines demeurent en deçà de celles des humains, est la capacité à posséder non seulement une image de l’utilisateur, mais également une image de soi, explicitement convoquée pendant les inférences liées à la poursuite du dialogue. Cela se traduit pour le système par les trois axes suivants. Tout d’abord, par l’anticipation, à un tour de parole donné, du tour suivant de l’utilisateur. Ensuite, par la détection d’une incohérence dans son propre énoncé, facilitée, comme nous le démontrons, par l’anticipation du tour suivant de l’utilisateur en tant qu’indice supplémentaire. Enfin, par la prévision du nombre de tours de paroles restants dans le dialogue afin d’avoir une meilleure vision de la progression du dialogue, en prenant en compte la potentielle présence d’une incohérence dans son propre énoncé, c’est que nous appelons le double modèle du système, qui représente à la fois l’utilisateur et l’image que le système renvoie à l’utilisateur. Pour mettre en place ces fonctionnalités, nous exploitons les réseaux de mémoire de bout-en-bout, un modèle de réseau de neurones récurrent qui possède la spécificité non seulement de traiter des historiques de dialogue longs (comme un RNN ou un LSTM) mais également de créer des sauts de réflexion, permettant de filtrer l’information contenue à la fois dans l’énoncé de l’utilisateur et dans celui de l’historique de dialogue. De plus, ces trois sauts de réflexion servent de mécanisme d’attention “naturel” pour le réseau de mémoire, à la manière d’un décodeur de transformeur. Pour notre étude, nous améliorons, en y ajoutant nos trois fonctionnalités, un type de réseau de mémoire appelé WMM2Seq (réseau de mémoire de travail par séquence). Ce modèle s’inspire des modèles cognitifs de la mémoire, en présentant les concepts de mémoire épisodique, de mémoire sémantique et de mémoire de travail. Il obtient des résultats performants sur des tâches de génération de réponse de dialogue sur les corpus DSTC2 (humain-machine dans le domaine de restaurant) et MultiWOZ (multi-domaine créé avec Magicien d’Oz); ce sont les corpus que nous utilisons pour nos expériences. Les trois axes mentionnés précédemment apportent deux contributions principales à l’existant. En premier lieu, ceci complexifie l’intelligence du système de dialogue en le dotant d’un garde-fou (incohérences détectées). En second lieu, cela optimise à la fois le traitement des informations dans le dialogue (réponses plus précises ou plus riches) et la durée de celui-ci. Nous évaluons les performances de notre système avec premièrement la f-mesure pour les entités détectées à chaque tour de parole, deuxièmement de score BLEU pour la fluidité de l’énoncé du système et troisièmement de taux d’exactitude jointe pour la réussite du dialogue. Les résultats obtenus montrent l’intérêt d’orienter les recherches vers des modèles de gestion de la mémoire plus cognitifs afin de réduire l’écart de performance dans un dialogue entre l’humain et la machine
In this work, we are interested in the place of task-oriented dialogue systems in both automatic language processing and human-machine interaction. In particular, we focus on the difference in information processing and memory use, from one turn to the next, by humans and machines, during a written chat conversation. After having studied the mechanisms of memory retention and recall in humans during a dialogue, in particular during the accomplishment of a task, we hypothesize that one of the elements that may explain why the performance of machines remains below that of humans, is the ability to possess not only an image of the user, but also an image of oneself, explicitly summoned during the inferences linked to the continuation of the dialogue. This translates into the following three axes for the system. First, by the anticipation, at a given turn of speech, of the next turn of the user. Secondly, by the detection of an inconsistency in one's own utterance, facilitated, as we demonstrate, by the anticipation of the user's next turn as an additional cue. Finally, by predicting the number of remaining turns in the dialogue in order to have a better vision of the dialogue progression, taking into account the potential presence of an incoherence in one's own utterance, this is what we call the dual model of the system, which represents both the user and the image that the system sends to the user. To implement these features, we exploit end-to-end memory networks, a recurrent neural network model that has the specificity not only to handle long dialogue histories (such as an RNN or an LSTM) but also to create reflection jumps, allowing to filter the information contained in both the user's utterance and the dialogue history. In addition, these three reflection jumps serve as a "natural" attention mechanism for the memory network, similar to a transformer decoder. For our study, we enhance a type of memory network called WMM2Seq (sequence-based working memory network) by adding our three features. This model is inspired by cognitive models of memory, presenting the concepts of episodic memory, semantic memory and working memory. It performs well on dialogue response generation tasks on the DSTC2 (human-machine in the restaurant domain) and MultiWOZ (multi-domain created with Wizard of Oz) corpora; these are the corpora we use for our experiments. The three axes mentioned above bring two main contributions to the existing. Firstly, it adds complexity to the intelligence of the dialogue system by providing it with a safeguard (detected inconsistencies). Second, it optimizes both the processing of information in the dialogue (more accurate or richer answers) and the duration of the dialogue. We evaluate the performance of our system with firstly the F1 score for the entities detected in each speech turn, secondly the BLEU score for the fluency of the system utterance and thirdly the joint accuracy for the success of the dialogue. The results obtained show that it would be interesting to direct research towards more cognitive models of memory management in order to reduce the performance gap in a human-machine dialogue
APA, Harvard, Vancouver, ISO, and other styles
27

Coavoux, Maximin. "Discontinuous constituency parsing of morphologically rich languages." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCC032.

Full text
Abstract:
L’analyse syntaxique consiste à prédire la représentation syntaxique de phrases en langue naturelle sous la forme d’arbres syntaxiques. Cette tâche pose des problèmes particuliers pour les langues non-configurationnelles ou qui ont une morphologie flexionnelle plus riche que celle de l’anglais. En particulier, ces langues manifestent une dispersion lexicale problématique, des variations d’ordre des mots plus fréquentes et nécessitent de prendre en compte la structure interne des mots-formes pour permettre une analyse syntaxique de qualité satisfaisante. Dans cette thèse, nous nous plaçons dans le cadre de l’analyse syntaxique robuste en constituants par transitions. Dans un premier temps, nous étudions comment intégrer l’analyse morphologique à l’analyse syntaxique, à l’aide d’une architecture de réseaux de neurones basée sur l’apprentissage multitâches. Dans un second temps, nous proposons un système de transitions qui permet de prédire des structures générées par des grammaires légèrement sensibles au contexte telles que les LCFRS. Enfin, nous étudions la question de la lexicalisation de l’analyse syntaxique. Les analyseurs syntaxiques en constituants lexicalisés font l’hypothèse que les constituants s’organisent autour d’une tête lexicale et que la modélisation des relations bilexicales est cruciale pour désambiguïser. Nous proposons un système de transition non lexicalisé pour l’analyse en constituants discontinus et un modèle de scorage basé sur les frontières de constituants et montrons que ce système, plus simple que des systèmes lexicalisés, obtient de meilleurs résultats que ces derniers
Syntactic parsing consists in assigning syntactic trees to sentences in natural language. Syntactic parsing of non-configurational languages, or languages with a rich inflectional morphology, raises specific problems. These languages suffer more from lexical data sparsity and exhibit word order variation phenomena more frequently. For these languages, exploiting information about the internal structure of word forms is crucial for accurate parsing. This dissertation investigates transition-based methods for robust discontinuous constituency parsing. First of all, we propose a multitask learning neural architecture that performs joint parsing and morphological analysis. Then, we introduce a new transition system that is able to predict discontinuous constituency trees, i.e.\ syntactic structures that can be seen as derivations of mildly context-sensitive grammars, such as LCFRS. Finally, we investigate the question of lexicalization in syntactic parsing. Some syntactic parsers are based on the hypothesis that constituent are organized around a lexical head and that modelling bilexical dependencies is essential to solve ambiguities. We introduce an unlexicalized transition system for discontinuous constituency parsing and a scoring model based on constituent boundaries. The resulting parser is simpler than lexicalized parser and achieves better results in both discontinuous and projective constituency parsing
APA, Harvard, Vancouver, ISO, and other styles
28

Belissen, Valentin. "From Sign Recognition to Automatic Sign Language Understanding : Addressing the Non-Conventionalized Units." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG064.

Full text
Abstract:
Les langues des signes (LS) se sont développées naturellement au sein des communautés de Sourds. Ne disposant pas de forme écrite, ce sont des langues orales, utilisant les canaux gestuel pour l’expression et visuel pour la réception. Ces langues peu dotées ne font pas l'objet d'un large consensus au niveau de leur description linguistique. Elles intègrent des signes lexicaux, c’est-à-dire des unités conventionnalisées du langage dont la forme est supposée arbitraire, mais aussi – et à la différence des langues vocales, si on ne considère pas la gestualité co-verbale – des structures iconiques, en utilisant l’espace pour organiser le discours. L’iconicité, ce lien entre la forme d’un signe et le sens qu’il porte, est en effet utilisée à plusieurs niveaux du discours en LS.La plupart des travaux de recherche en reconnaissance automatique de LS se sont en fait attelés à reconnaitre les signes lexicaux, d’abord sous forme isolée puis au sein de LS continue. Les corpus de vidéos associés à ces recherches sont souvent relativement artificiels, consistant en la répétition d’énoncés élicités sous forme écrite, parfois en LS interprétée, qui peut également présenter des différences importantes avec la LS naturelle.Dans cette thèse, nous souhaitons montrer les limites de cette approche, en élargissant cette perspective pour envisager la reconnaissance d’éléments utilisés pour la construction du discours ou au sein de structures illustratives.Pour ce faire, nous montrons l’intérêt et les limites des corpus de linguistes : la langue y est naturelle et les annotations parfois détaillées, mais pas toujours utilisables en données d’entrée de système d’apprentissage automatique, car pas nécessairement cohérentes. Nous proposons alors la refonte d’un corpus de dialogue en langue des signes française, Dicta-Sign-LSF-v2, avec des annotations riches et cohérentes, suivant un schéma d’annotation partagé par de nombreux linguistes.Nous proposons ensuite une redéfinition du problème de la reconnaissance automatique de LS, consistant en la reconnaissance de divers descripteurs linguistiques, plutôt que de se focaliser sur les signes lexicaux uniquement. En parallèle, nous discutons de métriques de la performance adaptées.Pour réaliser une première expérience de reconnaissance de descripteurs linguistiques non uniquement lexicaux, nous développons alors une représentation compacte et généralisable des signeurs dans les vidéos. Celle-ci est en effet réalisée par un traitement parallèle des mains, du visage et du haut du corps, en utilisant des outils existants ainsi que des modèles que nous avons développés. Un prétraitement permet alors de former un vecteur de caractéristiques pertinentes. Par la suite, nous présentons une architecture adaptée et modulaire d’apprentissage automatique de descripteurs linguistiques, consistant en un réseau de neurones récurrent et convolutionnel.Nous montrons enfin via une analyse quantitative et qualitative l’effectivité du modèle proposé, testé sur Dicta-Sign-LSF-v2. Nous réalisons en premier lieu une analyse approfondie du paramétrage, en évaluant tant le modèle d'apprentissage que la représentation des signeurs. L’étude des prédictions du modèle montre alors le bien-fondé de l'approche proposée, avec une performance tout à fait intéressante pour la reconnaissance continue de quatre descripteurs linguistiques, notamment au vu de l’incertitude relative aux annotations elles-mêmes. La segmentation de ces dernières est en effet subjective, et la pertinence même des catégories utilisées n’est pas démontrée de manière forte. Indirectement, le modèle proposé pourrait donc permettre de mesurer la validité de ces catégories. Avec plusieurs pistes d’amélioration envisagées, notamment sur la représentation des signeurs et l’utilisation de corpus de taille supérieure, le bilan est très encourageant et ouvre la voie à une acception plus large de la reconnaissance continue de langue des signes
Sign Languages (SLs) have developed naturally in Deaf communities. With no written form, they are oral languages, using the gestural channel for expression and the visual channel for reception. These poorly endowed languages do not meet with a broad consensus at the linguistic level. These languages make use of lexical signs, i.e. conventionalized units of language whose form is supposed to be arbitrary, but also - and unlike vocal languages, if we don't take into account the co-verbal gestures - iconic structures, using space to organize discourse. Iconicity, which is defined as the existence of a similarity between the form of a sign and the meaning it carries, is indeed used at several levels of SL discourse.Most research in automatic Sign Language Recognition (SLR) has in fact focused on recognizing lexical signs, at first in the isolated case and then within continuous SL. The video corpora associated with such research are often relatively artificial, consisting of the repetition of elicited utterances in written form. Other corpora consist of interpreted SL, which may also differ significantly from natural SL, as it is strongly influenced by the surrounding vocal language.In this thesis, we wish to show the limits of this approach, by broadening this perspective to consider the recognition of elements used for the construction of discourse or within illustrative structures.To do so, we show the interest and the limits of the corpora developed by linguists. In these corpora, the language is natural and the annotations are sometimes detailed, but not always usable as input data for machine learning systems, as they are not necessarily complete or coherent. We then propose the redesign of a French Sign Language dialogue corpus, Dicta-Sign-LSF-v2, with rich and consistent annotations, following an annotation scheme shared by many linguists.We then propose a redefinition of the problem of automatic SLR, consisting in the recognition of various linguistic descriptors, rather than focusing on lexical signs only. At the same time, we discuss adapted metrics for relevant performance assessment.In order to perform a first experiment on the recognition of linguistic descriptors that are not only lexical, we then develop a compact and generalizable representation of signers in videos. This is done by parallel processing of the hands, face and upper body, using existing tools and models that we have set up. Besides, we preprocess these parallel representations to obtain a relevant feature vector. We then present an adapted and modular architecture for automatic learning of linguistic descriptors, consisting of a recurrent and convolutional neural network.Finally, we show through a quantitative and qualitative analysis the effectiveness of the proposed model, tested on Dicta-Sign-LSF-v2. We first carry out an in-depth analysis of the parameterization, evaluating both the learning model and the signer representation. The study of the model predictions then demonstrates the merits of the proposed approach, with a very interesting performance for the continuous recognition of four linguistic descriptors, especially in view of the uncertainty related to the annotations themselves. The segmentation of the latter is indeed subjective, and the very relevance of the categories used is not strongly demonstrated. Indirectly, the proposed model could therefore make it possible to measure the validity of these categories. With several areas for improvement being considered, particularly in terms of signer representation and the use of larger corpora, the results are very encouraging and pave the way for a wider understanding of continuous Sign Language Recognition
APA, Harvard, Vancouver, ISO, and other styles
29

Djioua, Brahim. "Modélisation informatique d'une base de connaissances lexicales (DISSC) : réseaux polysémiques et schémas sémantico-cognitifs." Paris 4, 2000. http://www.theses.fr/2000PA040180.

Full text
Abstract:
La thèse décrit une méthodologie de construction automatique d'un lexique verbal en vue d'une utilisation didactique par des linguistes et lors d'un traitement automatique de textes écrits. Le lexique verbal est basé sur un langage de représentation appelé représentation sémantico-cognitif (RSC) s'appuyant sur un ensemble de relateurs et de primitives sémantico-cognitives typées. Un schème sémantico-cognitif (SSC) représente, au sein d'une structure abstraite, la signification d'une occurrence d'un verbe insérée dans un contexte précis. Chaque verbe polysémique se voit associer non pas une représentation par un schème mais un réseau de SSC liés entre eux par des relations de spécification/généralisation, d'abstraction, de changement de domaine,. . . Pour certains réseaux il existe une racine, un archétype cognitif, qui représente la signification abstraite commune à toutes les significations du même item verbal. La construction du lexique verbal à travers le système DISSC, se réalise en deux grandes étapes. La première tâche est de construire et d'enregistrer des SSC correspondant à des items verbaux non instancies. Une deuxième étape consiste à lier toutes ses significations par des opérations d'emboitement, d'instanciation ou de détermination afin de construire des réseaux polysémiques. La recherche d'informations peut être effectuée soit par un linguiste afin de consulter le dictionnaire lexical et voir comment les catégories sémantiques de verbes sont organisées. La base de SSC peut aussi être consultée par un programme externe suivant un langage d'interrogation. Le système DISSC est conçu de façon à maintenir, à tout moment de son utilisation, un isomorphisme en un langage applicatif type et un langage d'interfaces graphiques. Toutes les opérations de vérification et de validation sont assurées par le niveau fonctionnel et l'interaction avec les utilisateurs est gérée par les interfaces.
APA, Harvard, Vancouver, ISO, and other styles
30

Linhares, Pontes Elvys. "Compressive Cross-Language Text Summarization." Thesis, Avignon, 2018. http://www.theses.fr/2018AVIG0232/document.

Full text
Abstract:
La popularisation des réseaux sociaux et des documents numériques a rapidement accru l'information disponible sur Internet. Cependant, cette quantité massive de données ne peut pas être analysée manuellement. Parmi les applications existantes du Traitement Automatique du Langage Naturel (TALN), nous nous intéressons dans cette thèse au résumé cross-lingue de texte, autrement dit à la production de résumés dans une langue différente de celle des documents sources. Nous analysons également d'autres tâches du TALN (la représentation des mots, la similarité sémantique ou encore la compression de phrases et de groupes de phrases) pour générer des résumés cross-lingues plus stables et informatifs. La plupart des applications du TALN, celle du résumé automatique y compris, utilisent une mesure de similarité pour analyser et comparer le sens des mots, des séquences de mots, des phrases et des textes. L’une des façons d'analyser cette similarité est de générer une représentation de ces phrases tenant compte de leur contenu. Le sens des phrases est défini par plusieurs éléments, tels que le contexte des mots et des expressions, l'ordre des mots et les informations précédentes. Des mesures simples, comme la mesure cosinus et la distance euclidienne, fournissent une mesure de similarité entre deux phrases. Néanmoins, elles n'analysent pas l'ordre des mots ou les séquences de mots. En analysant ces problèmes, nous proposons un modèle de réseau de neurones combinant des réseaux de neurones récurrents et convolutifs pour estimer la similarité sémantique d'une paire de phrases (ou de textes) en fonction des contextes locaux et généraux des mots. Sur le jeu de données analysé, notre modèle a prédit de meilleurs scores de similarité que les systèmes de base en analysant mieux le sens local et général des mots mais aussi des expressions multimots. Afin d'éliminer les redondances et les informations non pertinentes de phrases similaires, nous proposons de plus une nouvelle méthode de compression multiphrase, fusionnant des phrases au contenu similaire en compressions courtes. Pour ce faire, nous modélisons des groupes de phrases semblables par des graphes de mots. Ensuite, nous appliquons un modèle de programmation linéaire en nombres entiers qui guide la compression de ces groupes à partir d'une liste de mots-clés ; nous cherchons ainsi un chemin dans le graphe de mots qui a une bonne cohésion et qui contient le maximum de mots-clés. Notre approche surpasse les systèmes de base en générant des compressions plus informatives et plus correctes pour les langues française, portugaise et espagnole. Enfin, nous combinons les méthodes précédentes pour construire un système de résumé de texte cross-lingue. Notre système génère des résumés cross-lingue de texte en analysant l'information à la fois dans les langues source et cible, afin d’identifier les phrases les plus pertinentes. Inspirés par les méthodes de résumé de texte par compression en analyse monolingue, nous adaptons notre méthode de compression multiphrase pour ce problème afin de ne conserver que l'information principale. Notre système s'avère être performant pour compresser l'information redondante et pour préserver l'information pertinente, en améliorant les scores d'informativité sans perdre la qualité grammaticale des résumés cross-lingues du français vers l'anglais. En analysant les résumés cross-lingues depuis l’anglais, le français, le portugais ou l’espagnol, vers l’anglais ou le français, notre système améliore les systèmes par extraction de l'état de l'art pour toutes ces langues. En outre, une expérience complémentaire menée sur des transcriptions automatiques de vidéo montre que notre approche permet là encore d'obtenir des scores ROUGE meilleurs et plus stables, même pour ces documents qui présentent des erreurs grammaticales et des informations inexactes ou manquantes
The popularization of social networks and digital documents increased quickly the informationavailable on the Internet. However, this huge amount of data cannot be analyzedmanually. Natural Language Processing (NLP) analyzes the interactions betweencomputers and human languages in order to process and to analyze natural languagedata. NLP techniques incorporate a variety of methods, including linguistics, semanticsand statistics to extract entities, relationships and understand a document. Amongseveral NLP applications, we are interested, in this thesis, in the cross-language textsummarization which produces a summary in a language different from the languageof the source documents. We also analyzed other NLP tasks (word encoding representation,semantic similarity, sentence and multi-sentence compression) to generate morestable and informative cross-lingual summaries.Most of NLP applications (including all types of text summarization) use a kind ofsimilarity measure to analyze and to compare the meaning of words, chunks, sentencesand texts in their approaches. A way to analyze this similarity is to generate a representationfor these sentences that contains the meaning of them. The meaning of sentencesis defined by several elements, such as the context of words and expressions, the orderof words and the previous information. Simple metrics, such as cosine metric andEuclidean distance, provide a measure of similarity between two sentences; however,they do not analyze the order of words or multi-words. Analyzing these problems,we propose a neural network model that combines recurrent and convolutional neuralnetworks to estimate the semantic similarity of a pair of sentences (or texts) based onthe local and general contexts of words. Our model predicted better similarity scoresthan baselines by analyzing better the local and the general meanings of words andmulti-word expressions.In order to remove redundancies and non-relevant information of similar sentences,we propose a multi-sentence compression method that compresses similar sentencesby fusing them in correct and short compressions that contain the main information ofthese similar sentences. We model clusters of similar sentences as word graphs. Then,we apply an integer linear programming model that guides the compression of theseclusters based on a list of keywords. We look for a path in the word graph that has goodcohesion and contains the maximum of keywords. Our approach outperformed baselinesby generating more informative and correct compressions for French, Portugueseand Spanish languages. Finally, we combine these previous methods to build a cross-language text summarizationsystem. Our system is an {English, French, Portuguese, Spanish}-to-{English,French} cross-language text summarization framework that analyzes the informationin both languages to identify the most relevant sentences. Inspired by the compressivetext summarization methods in monolingual analysis, we adapt our multi-sentencecompression method for this problem to just keep the main information. Our systemproves to be a good alternative to compress redundant information and to preserve relevantinformation. Our system improves informativeness scores without losing grammaticalquality for French-to-English cross-lingual summaries. Analyzing {English,French, Portuguese, Spanish}-to-{English, French} cross-lingual summaries, our systemsignificantly outperforms extractive baselines in the state of the art for all these languages.In addition, we analyze the cross-language text summarization of transcriptdocuments. Our approach achieved better and more stable scores even for these documentsthat have grammatical errors and missing information
APA, Harvard, Vancouver, ISO, and other styles
31

Tian, Tian. "Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts." Thesis, Paris 3, 2019. http://www.theses.fr/2019PA030003.

Full text
Abstract:
Internet propose aujourd’hui aux utilisateurs de services en ligne de commenter, d’éditer et de partager leurs points de vue sur différents sujets de discussion. Ce type de contenu est maintenant devenu la ressource principale pour les analyses d’opinions sur Internet. Néanmoins, à cause des abréviations, du bruit, des fautes d’orthographe et toutes autres sortes de problèmes, les outils de traitements automatiques des langues, y compris les reconnaisseurs d’entités nommées et les étiqueteurs automatiques morphosyntaxiques, ont des performances plus faibles que sur les textes bien-formés (Ritter et al., 2011).Cette thèse a pour objet la reconnaissance d’entités nommées sur les contenus générés par les utilisateurs sur Internet. Nous avons établi un corpus d’évaluation avec des textes multi-sources et multi-domaines. Ensuite, nous avons développé un modèle de champs conditionnels aléatoires, entrainé sur un corpus annoté provenant des contenus générés par les utilisateurs.Dans le but d’améliorer les résultats de la reconnaissance d’entités nommées, nous avons d’abord développé un étiqueteur morpho-syntaxique sur les contenus générés par les utilisateurs et nous avons utilisé les étiquettesprédites comme un attribut du modèle des champs conditionnels aléatoire. Enfin, pour transformer les contenus générés par les utilisateurs en textes bien-formés, nous avons développé un modèle de normalisation lexicale basé sur des réseaux de neurones pour proposer une forme correcte pour les mots non-standard
The increasing mass of User-Generated Content (UGC) on the Internet means that people are now willing to comment, edit or share their opinions on different topics. This content is now the main ressource for sentiment analysis on the Internet. Due to abbreviations, noise, spelling errors and all other problems with UGC, traditional Natural Language Processing (NLP) tools, including Named Entity Recognizers and part-of-speech (POS) taggers, perform poorly when compared to their usual results on canonical text (Ritter et al., 2011).This thesis deals with Named Entity Recognition (NER) on some User-Generated Content (UGC). We have created an evaluation dataset including multi-domain and multi-sources texts. We then developed a Conditional Random Fields (CRFs) model trained on User-Generated Content (UGC).In order to improve NER results in this context, we first developed a POStagger on UGC and used the predicted POS tags as a feature in the CRFs model. To turn UGC into canonical text, we also developed a normalization model using neural networks to propose a correct form for Non-Standard Words (NSW) in the UGC
各种社交网络应用使得互联网用户对各种话题的实时评价,编辑和分享成为可能。这类用户生成的文本内容(User Generated content)已成为社交网络上意见分析的主要目标和来源。但是,此类文本内容中包含的缩写,噪声(不规则词),拼写错误以及其他各种问题导致包括命名实体识别,词性标注在内的传统的自然语言处理工具的性能,相比良好组成的文本降低了许多【参见Ritter 2011】。本论文的主要目标是针对社交网络上用户生成文本内容的命名实体识别。我们首先建立了一个包含多来源,多领域文本的有标注的语料库作为标准评价语料库。然后,我们开发了一个由社交网络用户生成文本训练的基于条件随机场(Conditional Random Fields)的序列标注模型。基于改善这个命名实体识别模型的目的,我们又开发了另一个同样由社交网络用户生成内容训练的词性标注模型,并使用此模型预测的词性作为命名实体识别的条件随机场模型的特征。最后,为了将用户生成文本内容转换成相对标准的良好文本内容,我们开发了一个基于神经网络的词汇标准化模型,用以改正用户生成文本内容中的不标准字,并使用模型提供的改正形式作为命名实体识别的条件随机场模型的特征,借以改善原模型的性能。
APA, Harvard, Vancouver, ISO, and other styles
32

Tourille, Julien. "Extracting Clinical Event Timelines : Temporal Information Extraction and Coreference Resolution in Electronic Health Records." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS603/document.

Full text
Abstract:
Les dossiers patients électroniques contiennent des informations importantes pour la santé publique. La majeure partie de ces informations est contenue dans des documents rédigés en langue naturelle. Bien que le texte texte soit pertinent pour décrire des concepts médicaux complexes, il est difficile d'utiliser cette source de données pour l'aide à la décision, la recherche clinique ou l'analyse statistique.Parmi toutes les informations cliniques intéressantes présentes dans ces dossiers, la chronologie médicale du patient est l'une des plus importantes. Être capable d'extraire automatiquement cette chronologie permettrait d'acquérir une meilleure connaissance de certains phénomènes cliniques tels que la progression des maladies et les effets à long-terme des médicaments. De plus, cela permettrait d'améliorer la qualité des systèmes de question--réponse et de prédiction de résultats cliniques. Par ailleurs, accéder aux chronologiesmédicales est nécessaire pour évaluer la qualité du parcours de soins en le comparant aux recommandations officielles et pour mettre en lumière les étapes de ce parcours auxquelles une attention particulière doit être portée.Dans notre thèse, nous nous concentrons sur la création de ces chronologies médicales en abordant deux questions connexes en traitement automatique des langues: l'extraction d'informations temporelles et la résolution de la coréférence dans des documents cliniques.Concernant l'extraction d'informations temporelles, nous présentons une approche générique pour l'extraction de relations temporelles basée sur des traits catégoriels. Cette approche peut être appliquée sur des documents écrits en anglais ou en français. Puis, nous décrivons une approche neuronale pour l'extraction d'informations temporelles qui inclut des traits catégoriels.La deuxième partie de notre thèse porte sur la résolution de la coréférence. Nous décrivons une approche neuronale pour la résolution de la coréférence dans les documents cliniques. Nous menons une étude empirique visant à mesurer l'effet de différents composants neuronaux, tels que les mécanismes d'attention ou les représentations au niveau des caractères, sur la performance de notre approche
Important information for public health is contained within Electronic Health Records (EHRs). The vast majority of clinical data available in these records takes the form of narratives written in natural language. Although free text is convenient to describe complex medical concepts, it is difficult to use for medical decision support, clinical research or statistical analysis.Among all the clinical aspects that are of interest in these records, the patient timeline is one of the most important. Being able to retrieve clinical timelines would allow for a better understanding of some clinical phenomena such as disease progression and longitudinal effects of medications. It would also allow to improve medical question answering and clinical outcome prediction systems. Accessing the clinical timeline is needed to evaluate the quality of the healthcare pathway by comparing it to clinical guidelines, and to highlight the steps of the pathway where specific care should be provided.In this thesis, we focus on building such timelines by addressing two related natural language processing topics which are temporal information extraction and clinical event coreference resolution.Our main contributions include a generic feature-based approach for temporal relation extraction that can be applied to documents written in English and in French. We devise a neural based approach for temporal information extraction which includes categorical features.We present a neural entity-based approach for coreference resolution in clinical narratives. We perform an empirical study to evaluate how categorical features and neural network components such as attention mechanisms and token character-level representations influence the performance of our coreference resolution approach
APA, Harvard, Vancouver, ISO, and other styles
33

Colin, Émilie. "Traitement automatique des langues et génération automatique d'exercices de grammaire." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0059.

Full text
Abstract:
Le thème support de cette thèse la génération de paraphrases sur support neuronal. Nos perspectives sont éducatives : créer des exercices de grammaire pour le français. La paraphrase est une opération de reformulation. Nos travaux tendent à attester que les modèles séquence vers séquence ne sont pas de simples répétiteurs mais peuvent apprendre la syntaxe. Nous avons montré, en combinant divers modèles, que la représentation de l'information sous de multiples formes (en utilisant de la donnée formelle (RDF), couplée à du texte pour l'étendre ou le réduire, ou encore seulement du texte) permet d'exploiter un corpus sous différents angles, augmentant la diversité des sorties, exploitant les leviers syntaxiques mis en place. Nous nous sommes penchée sur un problème récurrent, celui de la qualité des données, et avons obtenu des paraphrases avec une haute adéquation syntaxique (jusqu'à 98% de couverture de la demande) et un très bon niveau linguistique. Nous obtenons jusqu'à 83.97 points de BLEU*, 78.41 de plus que la moyenne de nos lignes de base, sans levier syntaxique. Ce taux indique un meilleur contrôle des sorties, pourtant variées et de bonne qualité en l'absence de levier. Nous avons ensuite travaillé depuis du texte brut en passant, pour la génération de phrases, par la production d'une représentation du sens de ce texte qui puisse servir d'entrée à la génération de paraphrases. Le passage à du texte en français était aussi pour nous un impératif. Travailler depuis du texte brut, en automatisant les procédures, nous a permis de créer un corpus de plus de 450 000 couples représentations/phrases, grâce auquel nous avons appris à générer des textes massivement corrects (92% sur la validation qualitative). Anonymiser ce qui n'est pas fonctionnel a participé notablement à la qualité des résultats (68.31 de BLEU, soit +3.96 par rapport à la ligne de base, qui était la génération depuis des données non anonymisées). La représentation formelle de l'information dans un cadre linguistique particulier à une langue est une tâche ardue. Cette thèse offre des pistes de méthodes pour automatiser cette opération. Par ailleurs, nous n'avons pu traiter que des phrases relativement courtes. L'utilisation de modèles neuronaux plus récents permettrait sans doute d'améliorer les résultats. Enfin, l'usage de traits adéquats en sortie permettrait des vérifications poussées. *BLEU (Papineni et al., 2002) : qualité d'un texte sur une échelle de 0 (pire) à 100 (meilleur)
Our perspectives are educational, to create grammar exercises for French. Paraphrasing is an operation of reformulation. Our work tends to attest that sequence-to-sequence models are not simple repeaters but can learn syntax. First, by combining various models, we have shown that the representation of information in multiple forms (using formal data (RDF), coupled with text to extend or reduce it, or only text) allows us to exploit a corpus from different angles, increasing the diversity of outputs, exploiting the syntactic levers put in place. We also addressed a recurrent problem, that of data quality, and obtained paraphrases with a high syntactic adequacy (up to 98% coverage of the demand) and a very good linguistic level. We obtain up to 83.97 points of BLEU-4*, 78.41 more than our baseline average, without syntax leverage. This rate indicates a better control of the outputs, which are varied and of good quality in the absence of syntax leverage. Our idea was to be able to work from raw text : to produce a representation of its meaning. The transition to French text was also an imperative for us. Working from plain text, by automating the procedures, allowed us to create a corpus of more than 450,000 sentence/representation pairs, thanks to which we learned to generate massively correct texts (92% on qualitative validation). Anonymizing everything that is not functional contributed significantly to the quality of the results (68.31 of BLEU, i.e. +3.96 compared to the baseline, which was the generation of text from non-anonymized data). This second work can be applied the integration of a syntax lever guiding the outputs. What was our baseline at time 1 (generate without constraint) would then be combined with a constrained model. By applying an error search, this would allow the constitution of a silver base associating representations to texts. This base could then be multiplied by a reapplication of a generation under constraint, and thus achieve the applied objective of the thesis. The formal representation of information in a language-specific framework is a challenging task. This thesis offers some ideas on how to automate this operation. Moreover, we were only able to process relatively short sentences. The use of more recent neural modelswould likely improve the results. The use of appropriate output strokes would allow for extensive checks. *BLEU : quality of a text (scale from 0 (worst) to 100 (best), Papineni et al. (2002))
APA, Harvard, Vancouver, ISO, and other styles
34

Caglayan, Ozan. "Multimodal Machine Translation." Thesis, Le Mans, 2019. http://www.theses.fr/2019LEMA1016/document.

Full text
Abstract:
La traduction automatique vise à traduire des documents d’une langue à une autre sans l’intervention humaine. Avec l’apparition des réseaux de neurones profonds (DNN), la traduction automatique neuronale(NMT) a commencé à dominer le domaine, atteignant l’état de l’art pour de nombreuses langues. NMT a également ravivé l’intérêt pour la traduction basée sur l’interlangue grâce à la manière dont elle place la tâche dans un cadre encodeur-décodeur en passant par des représentations latentes. Combiné avec la flexibilité architecturale des DNN, ce cadre a aussi ouvert une piste de recherche sur la multimodalité, ayant pour but d’enrichir les représentations latentes avec d’autres modalités telles que la vision ou la parole, par exemple. Cette thèse se concentre sur la traduction automatique multimodale(MMT) en intégrant la vision comme une modalité secondaire afin d’obtenir une meilleure compréhension du langage, ancrée de façon visuelle. J’ai travaillé spécifiquement avec un ensemble de données contenant des images et leurs descriptions traduites, où le contexte visuel peut être utile pour désambiguïser le sens des mots polysémiques, imputer des mots manquants ou déterminer le genre lors de la traduction vers une langue ayant du genre grammatical comme avec l’anglais vers le français. Je propose deux approches principales pour intégrer la modalité visuelle : (i) un mécanisme d’attention multimodal qui apprend à prendre en compte les représentations latentes des phrases sources ainsi que les caractéristiques visuelles convolutives, (ii) une méthode qui utilise des caractéristiques visuelles globales pour amorcer les encodeurs et les décodeurs récurrents. Grâce à une évaluation automatique et humaine réalisée sur plusieurs paires de langues, les approches proposées se sont montrées bénéfiques. Enfin,je montre qu’en supprimant certaines informations linguistiques à travers la dégradation systématique des phrases sources, la véritable force des deux méthodes émerge en imputant avec succès les noms et les couleurs manquants. Elles peuvent même traduire lorsque des morceaux de phrases sources sont entièrement supprimés
Machine translation aims at automatically translating documents from one language to another without human intervention. With the advent of deep neural networks (DNN), neural approaches to machine translation started to dominate the field, reaching state-ofthe-art performance in many languages. Neural machine translation (NMT) also revived the interest in interlingual machine translation due to how it naturally fits the task into an encoder-decoder framework which produces a translation by decoding a latent source representation. Combined with the architectural flexibility of DNNs, this framework paved the way for further research in multimodality with the objective of augmenting the latent representations with other modalities such as vision or speech, for example. This thesis focuses on a multimodal machine translation (MMT) framework that integrates a secondary visual modality to achieve better and visually grounded language understanding. I specifically worked with a dataset containing images and their translated descriptions, where visual context can be useful forword sense disambiguation, missing word imputation, or gender marking when translating from a language with gender-neutral nouns to one with grammatical gender system as is the case with English to French. I propose two main approaches to integrate the visual modality: (i) a multimodal attention mechanism that learns to take into account both sentence and convolutional visual representations, (ii) a method that uses global visual feature vectors to prime the sentence encoders and the decoders. Through automatic and human evaluation conducted on multiple language pairs, the proposed approaches were demonstrated to be beneficial. Finally, I further show that by systematically removing certain linguistic information from the input sentences, the true strength of both methods emerges as they successfully impute missing nouns, colors and can even translate when parts of the source sentences are completely removed
APA, Harvard, Vancouver, ISO, and other styles
35

Enguehard, Chantal. "Acquisition naturelle automatique d'un réseau sémantique." Compiègne, 1992. http://www.theses.fr/1992COMPD527.

Full text
Abstract:
Cette recherche se situe dans le domaine des systèmes de documentation. Nous présentons un état de l'art des méthodes d'indexation automatique dont nous détaillons la partie concernant la sélection de thésaurus. Ensuite, nous exposons nos hypothèses et le système ANA (Apprentissage Naturel Automatique) que nous avons développé. Le système ANA effectue automatiquement l'extraction de la terminologie d'un domaine et structure cet ensemble de concepts en un réseau sémantique. Cette acquisition de connaissances est fondée sur l'étude de textes libres. Le système n'utilise ni grammaire ni dictionnaire mais s'appuie sur des procédures statistiques, ce qui le rend indépendant de la langue utilisée dans les textes. Dans un premier module le système se familiarise avec la langue (il apprend quelques éléments de syntaxe ainsi qu'une liste de mots fonctionnels), et avec le domaine (il sélectionne quelques éléments de terminologie qui constituent le noyau initiateur des connaissances). Le second module rassemble les trois procédures d'acquisition de nouveaux concepts. Celles-ci utilisent la connaissance acquise précédemment, tant sur le langage que sur le domaine. Le résultat est un réseau sémantique rassemblant les éléments de terminologie présents dans les textes analysés. Le système a été testé et évalué sur de gros corpus. Ces résultats ont conduit à sa prochaine industrialisation. De nombreux développements sont maintenant envisagés tels l'établissement automatique de taxonomie, ou l'analyse automatique des réseaux sémantiques afin d'en extraire la connaissance implicite.
APA, Harvard, Vancouver, ISO, and other styles
36

Poitevin, Christine. "Contribution à une définition du domaine des industries de la langue : l'élucidation des statuts juridiques." Paris 8, 1993. http://www.theses.fr/1993PA080861.

Full text
Abstract:
Le traitement automatique du langage naturel, parlé par les humains, est devenu progressivement un champ d'applications industrielles. Le concept industries de la langue désigne l'ensemble des activités qui visent à faire manipuler, interpréter ou générer par des machines le langage naturel écrit ou parlé par les humains. Ces activités vont de la recherche au commerce, en passant par le développement industriel de produits. Mais les investissements nécessaires à la réalisation de produits du secteur des industries de la langue ne peuvent être consentis dans un environnement juridique qui n'apporterait pas un niveau de sécurité satisfaisant. Aussi, le droit doit pouvoir apporter une réponse appropriée au besoin de protection des entreprises et remplit sa fonction régulatrice. Les produits issus des industries de la langue sont des biens immatériels et peuvent bénéficier d'une protection au titre du droit d'auteur. Ces produits sont aussi des créations informatiques complexes de deux parties distinctes : une partie logicielle et une partie dictionnaire. Chacune de ces composantes est susceptible d'être protégée par un droit différent (la loi du 11 mars 1957 pour la partie dictionnaire et la loi du 3 juillet 1985 pour la partie logicielle). La réponse au problème du statut juridique ne peut être apportée qu'après s'être demandé si les produits du secteur des industries de la langue, considérés dans leur globalité, peuvent être qualifiés de logiciels
The automatic processing of the natural language spoken by humans has gradually become a field of industrial implementation. The concept of language industries indicates a set of activities aiming and having the natural language spoken or written by humans handled, interpreted or engendered by machines. These activities spread from research to trade going through the industrial development of products. But the necessary investements to the achievement of products in the field of language industries cannot be granted in a judicial environment that would not bring a satisfactory level of security. Therefore, law ought to provide a relevant response to the need of companies to be protected and should fulfil its regulating role. The products created by the language industries are unsubstantial goods and can benefit from the protection of copyright. These products are also complex computer creations that are made up of two distinct parts: a software part and a dictionary part. Each of its components is liable to be protected by a different right (the law of marche 17th 1957 for the dictionary part and the law of july 3rd 1985 for the software part). The response to the problem of the judicial status can only be brought after wondering if the products of the field language industries considered as a whole can be qualified as software
APA, Harvard, Vancouver, ISO, and other styles
37

Gruer, Juan Pablo. "Eléments de synchronisation pour un langage temps-réel de commande de procédés." Mulhouse, 1989. http://www.theses.fr/1989MULH0105.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

Marzinotto, Gabriel. "Semantic frame based analysis using machine learning techniques : improving the cross-domain generalization of semantic parsers." Electronic Thesis or Diss., Aix-Marseille, 2019. http://www.theses.fr/2019AIXM0483.

Full text
Abstract:
Rendre les analyseurs sémantiques robustes aux variations lexicales et stylistiques est un véritable défi pour de nombreuses applications industrielles. De nos jours, l'analyse sémantique nécessite de corpus annotés spécifiques à chaque domaine afin de garantir des performances acceptables. Les techniques d'apprenti-ssage par transfert sont largement étudiées et adoptées pour résoudre ce problème de manque de robustesse et la stratégie la plus courante consiste à utiliser des représentations de mots pré-formés. Cependant, les meilleurs analyseurs montrent toujours une dégradation significative des performances lors d'un changement de domaine, mettant en évidence la nécessité de stratégies d'apprentissage par transfert supplémentaires pour atteindre la robustesse. Ce travail propose une nouvelle référence pour étudier le problème de dépendance de domaine dans l'analyse sémantique. Nous utilisons un nouveau corpus annoté pour évaluer les techniques classiques d'apprentissage par transfert et pour proposer et évaluer de nouvelles techniques basées sur les réseaux antagonistes. Toutes ces techniques sont testées sur des analyseurs sémantiques de pointe. Nous affirmons que les approches basées sur les réseaux antagonistes peuvent améliorer les capacités de généralisation des modèles. Nous testons cette hypothèse sur différents schémas de représentation sémantique, langages et corpus, en fournissant des résultats expérimentaux à l'appui de notre hypothèse
Making semantic parsers robust to lexical and stylistic variations is a real challenge with many industrial applications. Nowadays, semantic parsing requires the usage of domain-specific training corpora to ensure acceptable performances on a given domain. Transfer learning techniques are widely studied and adopted when addressing this lack of robustness, and the most common strategy is the usage of pre-trained word representations. However, the best parsers still show significant performance degradation under domain shift, evidencing the need for supplementary transfer learning strategies to achieve robustness. This work proposes a new benchmark to study the domain dependence problem in semantic parsing. We use this bench to evaluate classical transfer learning techniques and to propose and evaluate new techniques based on adversarial learning. All these techniques are tested on state-of-the-art semantic parsers. We claim that adversarial learning approaches can improve the generalization capacities of models. We test this hypothesis on different semantic representation schemes, languages and corpora, providing experimental results to support our hypothesis
APA, Harvard, Vancouver, ISO, and other styles
39

Soriano-Morales, Edmundo-Pavel. "Hypergraphs and information fusion for term representation enrichment : applications to named entity recognition and word sense disambiguation." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE2009/document.

Full text
Abstract:
Donner du sens aux données textuelles est une besoin essentielle pour faire les ordinateurs comprendre notre langage. Pour extraire des informations exploitables du texte, nous devons les représenter avec des descripteurs avant d’utiliser des techniques d’apprentissage. Dans ce sens, le but de cette thèse est de faire la lumière sur les représentations hétérogènes des mots et sur la façon de les exploiter tout en abordant leur nature implicitement éparse.Dans un premier temps, nous proposons un modèle de réseau basé sur des hypergraphes qui contient des données linguistiques hétérogènes dans un seul modèle unifié. En d’autres termes, nous introduisons un modèle qui représente les mots au moyen de différentes propriétés linguistiques et les relie ensemble en fonction desdites propriétés. Notre proposition diffère des autres types de réseaux linguistiques parce que nous visons à fournir une structure générale pouvant contenir plusieurstypes de caractéristiques descriptives du texte, au lieu d’une seule comme dans la plupart des représentations existantes.Cette représentation peut être utilisée pour analyser les propriétés inhérentes du langage à partir de différents points de vue, oupour être le point de départ d’un pipeline de tâches du traitement automatique de langage. Deuxièmement, nous utilisons des techniques de fusion de caractéristiques pour fournir une représentation enrichie unique qui exploite la nature hétérogènedu modèle et atténue l’eparsité de chaque représentation. Ces types de techniques sont régulièrement utilisés exclusivement pour combiner des données multimédia.Dans notre approche, nous considérons différentes représentations de texte comme des sources d’information distinctes qui peuvent être enrichies par elles-mêmes. Cette approche n’a pas été explorée auparavant, à notre connaissance. Troisièmement, nous proposons un algorithme qui exploite les caractéristiques du réseau pour identifier et grouper des mots liés sémantiquement en exploitant les propriétés des réseaux. Contrairement aux méthodes similaires qui sont également basées sur la structure du réseau, notre algorithme réduit le nombre de paramètres requis et surtout, permet l’utilisation de réseaux lexicaux ou syntaxiques pour découvrir les groupes de mots, au lieu d’un type unique des caractéristiques comme elles sont habituellement employées.Nous nous concentrons sur deux tâches différentes de traitement du langage naturel: l’induction et la désambiguïsation des sens des mots (en anglais, Word Sense, Induction and Disambiguation, ou WSI/WSD) et la reconnaissance d’entité nommées(en anglais, Named Entity Recognition, ou NER). Au total, nous testons nos propositions sur quatre ensembles de données différents. Nous effectuons nos expériences et développements en utilisant des corpus à accès libre. Les résultats obtenus nous permettent de montrer la pertinence de nos contributions et nous donnent également un aperçu des propriétés des caractéristiques hétérogènes et de leurs combinaisons avec les méthodes de fusion. Plus précisément, nos expériences sont doubles: premièrement, nous montrons qu’en utilisant des caractéristiques hétérogènes enrichies par la fusion, provenant de notre réseau linguistique proposé, nous surpassons la performance des systèmes à caractéristiques uniques et basés sur la simple concaténation de caractéristiques. Aussi, nous analysons les opérateurs de fusion utilisés afin de mieux comprendre la raison de ces améliorations. En général, l’utilisation indépendante d’opérateurs de fusion n’est pas aussi efficace que l’utilisation d’une combinaison de ceux-ci pour obtenir une représentation spatiale finale. Et deuxièmement, nous abordons encore une fois la tâche WSI/WSD, cette fois-ci avec la méthode à base de graphes proposée afin de démontrer sa pertinence par rapport à la tâche. Nous discutons les différents résultats obtenus avec des caractéristiques lexicales ou syntaxiques
Making sense of textual data is an essential requirement in order to make computers understand our language. To extract actionable information from text, we need to represent it by means of descriptors before using knowledge discovery techniques.The goal of this thesis is to shed light into heterogeneous representations of words and how to leverage them while addressing their implicit sparse nature.First, we propose a hypergraph network model that holds heterogeneous linguistic data in a single unified model. In other words, we introduce a model that represents words by means of different linguistic properties and links them together accordingto said properties. Our proposition differs to other types of linguistic networks in that we aim to provide a general structure that can hold several types of descriptive text features, instead of a single one as in most representations. This representationmay be used to analyze the inherent properties of language from different points of view, or to be the departing point of an applied NLP task pipeline. Secondly, we employ feature fusion techniques to provide a final single enriched representation that exploits the heterogeneous nature of the model and alleviates the sparseness of each representation.These types of techniques are regularly used exclusively to combine multimedia data. In our approach, we consider different text representations as distinct sources of information which can be enriched by themselves. This approach has not been explored before, to the best of our knowledge. Thirdly, we propose an algorithm that exploits the characteristics of the network to identify and group semantically related words by exploiting the real-world properties of the networks. In contrast with similar methods that are also based on the structure of the network, our algorithm reduces the number of required parameters and more importantly, allows for the use of either lexical or syntactic networks to discover said groups of words, instead of the singletype of features usually employed.We focus on two different natural language processing tasks: Word Sense Induction and Disambiguation (WSI/WSD), and Named Entity Recognition (NER). In total, we test our propositions on four different open-access datasets. The results obtained allow us to show the pertinence of our contributions and also give us some insights into the properties of heterogeneous features and their combinations with fusion methods. Specifically, our experiments are twofold: first, we show that using fusion-enriched heterogeneous features, coming from our proposed linguistic network, we outperform the performance of single features’ systems and other basic baselines. We note that using single fusion operators is not efficient compared to using a combination of them in order to obtain a final space representation. We show that the features added by each combined fusion operation are important towards the models predicting the appropriate classes. We test the enriched representations on both WSI/WSD and NER tasks. Secondly, we address the WSI/WSD task with our network-based proposed method. While based on previous work, we improve it by obtaining better overall performance and reducing the number of parameters needed. We also discuss the use of either lexical or syntactic networks to solve the task.Finally, we parse a corpus based on the English Wikipedia and then store it following the proposed network model. The parsed Wikipedia version serves as a linguistic resource to be used by other researchers. Contrary to other similar resources, insteadof just storing its part of speech tag and its dependency relations, we also take into account the constituency-tree information of each word analyzed. The hope is for this resource to be used on future developments without the need to compile suchresource from zero
APA, Harvard, Vancouver, ISO, and other styles
40

Dupont, Yoann. "La structuration dans les entités nommées." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCA100/document.

Full text
Abstract:
La reconnaissance des entités nommées et une discipline cruciale du domaine du TAL. Elle sert à l'extraction de relations entre entités nommées, ce qui permet la construction d'une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc... Nous nous intéressons ici aux phénomènes de structurations qui les entourent.Nous distinguons ici deux types d'éléments structurels dans une entité nommée. Les premiers sont des sous-chaînes récurrentes, que nous appelerons les affixes caractéristiques d'une entité nommée. Le second type d'éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l'algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l'extraction d'entités nommées du Français et d'adresses postales.Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d'imbrications ou arborée. Nous proposons un type de cascade d'étiqueteurs linéaires qui n'avait jusqu'à présent jamais été utilisé pour la reconnaissance d'entités nommées, généralisant les approches précédentes qui ne sont capables de reconnaître des entités de profondeur finie ou ne pouvant modéliser certaines particularités des entités nommées structurées.Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients de chacune des méthodes
Named entity recognition is a crucial discipline of NLP. It is used to extract relations between named entities, which allows the construction of knowledge bases (Surdeanu and Ji, 2014), automatic summary (Nobata et al., 2002) and so on. Our interest in this thesis revolves around structuration phenomena that surround them.We distinguish here two kinds of structural elements in named entities. The first one are recurrent substrings, that we will call the caracteristic affixes of a named entity. The second type of element is tokens with a good discriminative power, which we call trigger tokens of named entities. We will explain here the algorithm we provided to extract such affixes, which we will compare to Morfessor (Creutz and Lagus, 2005b). We will then apply the same algorithm to extract trigger tokens, which we will use for French named entity recognition and postal address extraction.Another form of structuration for named entities is of a syntactic nature. It follows an overlapping or tree structure. We propose a novel kind of linear tagger cascade which have not been used before for structured named entity recognition, generalising other previous methods that are only able to recognise named entities of a fixed depth or being unable to model certain characteristics of the structure. Ours, however, can do both.Throughout this thesis, we compare two machine learning methods, CRFs and neural networks, for which we will compare respective advantages and drawbacks
APA, Harvard, Vancouver, ISO, and other styles
41

Nana, jipmo Coriane. "Intégration du web social dans les systèmes de recommandation." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLC082/document.

Full text
Abstract:
Le Web social croît de plus en plus et donne accès à une multitude de ressources très variées, qui proviennent de sites de partage tels que del.icio.us, d’échange de messages comme Twitter, des réseaux sociaux à finalité professionnelle, comme LinkedIn, ou plus généralement à finalité sociale, comme Facebook et LiveJournal. Un même individu peut être inscrit et actif sur différents réseaux sociaux ayant potentiellement des finalités différentes, où il publie des informations diverses et variées, telles que son nom, sa localité, ses communautés, et ses différentes activités. Ces informations (textuelles), au vu de la dimension internationale du Web, sont par nature, d’une part multilingue, et d’autre part, intrinsèquement ambiguë puisqu’elles sont éditées par les individus en langage naturel dans un vocabulaire libre. De même, elles sont une source de données précieuses, notamment pour les applications cherchant à connaître leurs utilisateurs afin de mieux comprendre leurs besoins et leurs intérêts. L’objectif de nos travaux de recherche est d’exploiter, en utilisant essentiellement l’encyclopédie Wikipédia, les ressources textuelles des utilisateurs extraites de leurs différents réseaux sociaux afin de construire un profil élargi les caractérisant et exploitable par des applications telles que les systèmes de recommandation. En particulier, nous avons réalisé une étude afin de caractériser les traits de personnalité des utilisateurs. De nombreuses expérimentations, analyses et évaluations ont été réalisées sur des données réelles collectées à partir de différents réseaux sociaux
The social Web grows more and more and gives through the web, access to a wide variety of resources, like sharing sites such as del.icio.us, exchange messages as Twitter, or social networks with the professional purpose such as LinkedIn, or more generally for social purposes, such as Facebook and LiveJournal. The same individual can be registered and active on different social networks (potentially having different purposes), in which it publishes various information, which are constantly growing, such as its name, locality, communities, various activities. The information (textual), given the international dimension of the Web, is inherently multilingual and intrinsically ambiguous, since it is published in natural language in a free vocabulary by individuals from different origin. They are also important, specially for applications seeking to know their users in order to better understand their needs, activities and interests. The objective of our research is to exploit using essentially the Wikpédia encyclopedia, the textual resources extracted from the different social networks of the same individual in order to construct his characterizing profile, which can be exploited in particular by applications seeking to understand their users, such as recommendation systems. In particular, we conducted a study to characterize the personality traits of users. Many experiments, analyzes and evaluations were carried out on real data collected from different social networks
APA, Harvard, Vancouver, ISO, and other styles
42

Lumbreras, Alberto. "Automatic role detection in online forums." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE2111/document.

Full text
Abstract:
Nous traitons dans cette thèse le problème de la détection des rôles des utilisateurs sur des forums de discussion en ligne. On peut détenir un rôle comme l'ensemble des comportements propres d'une personne ou d'une position. Sur les forums de discussion, les comportements sont surtout observés à travers des conversations. Pour autant, nous centrons notre attention sur la manière dont les utilisateurs dialoguent. Nous proposons trois méthodes pour détecter des groupes d'utilisateurs où les utilisateurs d'un même groupe dialoguent de façon similaire.Notre première méthode se base sur les structures des conversations dans lesquelles les utilisateurs participent. Nous appliquons des notions de voisinage différentes (radiusbased, order-based, and time-based) applicables aux commentaires qui sont représentés par des noeuds sur un arbre. Nous comparons les motifs de conversation qu'ils permettent de détecter ainsi que les groupes d'utilisateurs associés à des motifs similaires. Notre deuxième méthode se base sur des modèles stochastiques de croissance appliqués aux fils de discussion. Nous proposons une méthode pour trouver des groupes d'utilisateurs qui ont tendance à répondre au même type de commentaire. Nous montrons que, bien qu'il y ait des groupes d'utilisateurs avec des motifs de réponse similaires, il n'y a pas d'évidence forte qui confirme que ces comportements présentent des propriétés prédictives quant aux comportements futurs {sauf pour quelques groupes avec des comportements extrêmes. Avec notre troisième méthode nous intégrons les types de données utilisés dans les deux méthodes précédentes (feature-based et behavioral ou functional-based) et nous montrons que le modèle trouve des groupes en ayant besoin de moins d'observations. L'hypothèse du modèle est que les utilisateurs qui ont des caractéristiques similaires ont aussi des comportements similaires
This thesis addresses the problem of detecting user roles in online discussion forums. A role may be defined as the set of behaviors characteristic of a person or a position. In discussion forums, behaviors are primarily observed through conversations. Hence, we focus our attention on how users discuss. We propose three methods to detect groups of users with similar conversational behaviors.Our first method for the detection of roles is based on conversational structures. Weapply different notions of neighborhood for posts in tree graphs (radius-based, order-based, and time-based) and compare the conversational patterns that they detect as well as the clusters of users with similar conversational patterns.Our second method is based on stochastic models of growth for conversation threads.Building upon these models we propose a method to find groups of users that tend to reply to the same type of posts. We show that, while there are clusters of users with similar replying patterns, there is no strong evidence that these behaviors are predictive of future behaviors |except for some groups of users with extreme behaviors.In out last method, we integrate the type of data used in the two previous methods(feature-based and behavioral or functional-based) and show that we can find clusters using fewer examples. The model exploits the idea that users with similar features have similar behaviors
APA, Harvard, Vancouver, ISO, and other styles
43

Parmentier, François. "Spécification d'une architecture émergente fondée sur le raisonnement par analogie : application aux références bibliographiques." Phd thesis, Université Henri Poincaré - Nancy I, 1998. http://tel.archives-ouvertes.fr/tel-00003024.

Full text
Abstract:
BAsCET est un système multi-agents à « blackboard », fondé sur l'émergence de concepts dans un modèle dynamique et inspiré de COPYCAT. Pour éviter un raisonnement déterministe unique limitant sa
créativité il adapte son comportement en fonction de la solution courante. Nous l'avons appliqué à la reconnaissance automatique de la structure logique (des champs) de références bibliographiques dans les articles scientifiques (en format uniquement physique, c'est-à-dire en PostScript). Le modèle, appelé Réseau de Concepts, s'apparentant à la fois aux réseaux sémantiques et aux réseaux de neurones, est construit automatiquement à partir d'une base de références BIBTeX. Le système utilise les co-occurrences entre les termes des références pour rapprocher dans le modèle ceux qui sont conceptuellement voisins. Le principe de l'analogie est utilisé sur les références de la base : quand le système rencontre une référence inconnue, il fait l'analogie avec la partie physique de la base et essaye de proposer une solution correspondante. Les résultats obtenus, bien que modérés (65,5% de reconnaissance), laissent augurer des résultats encore meilleurs, après optimisation du système.
APA, Harvard, Vancouver, ISO, and other styles
44

Chatelain, Clément. "Extraction de séquences numériques dans des documents manuscrits quelconques." Phd thesis, Université de Rouen, 2006. http://tel.archives-ouvertes.fr/tel-00143090.

Full text
Abstract:
Dans le cadre du traitement automatique de courriers entrants, nous présentons dans cette thèse l'étude, la conception et la mise en \oe uvre d'un système d'extraction de champs numériques dans des documents manuscrits quelconques. En effet, si la reconnaissance d'entités manuscrites isolées peut être considérée comme un problème en partie résolu, l'extraction d'information dans des images de documents aussi complexes et peu contraints que les courriers manuscrits libres reste à ce jour un réel défi. Ce problème nécessite aussi bien la mise en \oe uvre de méthodes classiques de reconnaissance d'entités manuscrites que de méthodes issues du domaine de l'extraction d'information dans des documents électroniques. Notre contribution repose sur le développement de deux stratégies différentes : la première réalise l'extraction des champs numériques en se basant sur les techniques classiques de reconnaissance de l'écriture, alors que la seconde, plus proche des méthodes utilisées pour l'extraction d'information, réalise indépendamment la localisation et la reconnaissance des champs. Les résultats obtenus sur une base réelle de courriers manuscrits montrent que les choix plus originaux de la seconde approche se révèlent également plus pertinents. Il en résulte un système complet, générique et industrialisable répondant à l'une des perspectives émergentes dans le domaine de la lecture automatique de documents manuscrits : l'extraction d'informations complexes dans des images de documents quelconques.
APA, Harvard, Vancouver, ISO, and other styles
45

Chatelain, Clément. "Extraction de séquences numériques dans des documents manuscrits quelconques." Phd thesis, Rouen, 2006. http://www.theses.fr/2006ROUES056.

Full text
Abstract:
Dans le cadre du traitement automatique de courriers entrants, nous présentons dans cette thèse l’étude, la conception et la mise en oeuvre d’un système d’extraction de champs numériques dans des documents manuscrits quelconques. En effet, si la reconnaissance d’entités manuscrites isolées peut être considérée comme un problème en partie résolu, l’extraction d’information dans des images de documents aussi complexes et peu contraints que les courriers manuscrits libres reste à ce jour un réel défi. Ce problème nécessite aussi bien la mise en oeuvre de méthodes classiques de reconnaissance d’entités manuscrites que de méthodes issues du domaine de l’extraction d’information dans des documents électroniques. Notre contribution repose sur le développement de deux stratégies différentes : la première réalise l’extraction des champs numériques en se basant sur les techniques classiques de reconnaissance de l’écriture, alors que la seconde, plus proche des méthodes utilisées pour l’extraction d’information, réalise indépendamment la localisation et la reconnaissance des champs. Les résultats obtenus sur une base réelle de courriers manuscrits montrent que les choix plus originaux de la seconde approche se révèlent également plus pertinents. Il en résulte un système complet, générique et industrialisable répondant à l’une des perspectives émergentes dans le domaine de la lecture automatique de documents manuscrits : l’extraction d’informations complexes dans des images de documents quelconques
Within the framework of the automatic processing of incoming mail documents, we present in this thesis the conception and development of a numerical field extraction system in weakly constrained handwritten documents. Although the recognition of isolated handwritten entities can be considered as a partially solved problem, the extraction of information in images of complex and free-layout documents is still a challenge. This problem requires the implementation of both handwriting recognition and information extraction methods inspired by approaches developed within the field of information extraction in electronic documents. Our contribution consists in the conception and the implementation of two different strategies: the first extends classical handwriting recognition methods, while the second is inspired from approaches used within the field of information extraction in electronic documents. The results obtained on a real handwritten mail database show that our second approach is significantly better. Finally, a complete, generic and efficient system is produced, answering one of the emergent perspectives in the field of the automatic reading of handwritten documents: the extraction of complex information in images of documents
APA, Harvard, Vancouver, ISO, and other styles
46

Vukotic, Verdran. "Deep Neural Architectures for Automatic Representation Learning from Multimedia Multimodal Data." Thesis, Rennes, INSA, 2017. http://www.theses.fr/2017ISAR0015/document.

Full text
Abstract:
La thèse porte sur le développement d'architectures neuronales profondes permettant d'analyser des contenus textuels ou visuels, ou la combinaison des deux. De manière générale, le travail tire parti de la capacité des réseaux de neurones à apprendre des représentations abstraites. Les principales contributions de la thèse sont les suivantes: 1) Réseaux récurrents pour la compréhension de la parole: différentes architectures de réseaux sont comparées pour cette tâche sur leurs facultés à modéliser les observations ainsi que les dépendances sur les étiquettes à prédire. 2) Prédiction d’image et de mouvement : nous proposons une architecture permettant d'apprendre une représentation d'une image représentant une action humaine afin de prédire l'évolution du mouvement dans une vidéo ; l'originalité du modèle proposé réside dans sa capacité à prédire des images à une distance arbitraire dans une vidéo. 3) Encodeurs bidirectionnels multimodaux : le résultat majeur de la thèse concerne la proposition d'un réseau bidirectionnel permettant de traduire une modalité en une autre, offrant ainsi la possibilité de représenter conjointement plusieurs modalités. L'approche été étudiée principalement en structuration de collections de vidéos, dons le cadre d'évaluations internationales où l'approche proposée s'est imposée comme l'état de l'art. 4) Réseaux adverses pour la fusion multimodale: la thèse propose d'utiliser les architectures génératives adverses pour apprendre des représentations multimodales en offrant la possibilité de visualiser les représentations dans l'espace des images
In this dissertation, the thesis that deep neural networks are suited for analysis of visual, textual and fused visual and textual content is discussed. This work evaluates the ability of deep neural networks to learn automatic multimodal representations in either unsupervised or supervised manners and brings the following main contributions:1) Recurrent neural networks for spoken language understanding (slot filling): different architectures are compared for this task with the aim of modeling both the input context and output label dependencies.2) Action prediction from single images: we propose an architecture that allow us to predict human actions from a single image. The architecture is evaluated on videos, by utilizing solely one frame as input.3) Bidirectional multimodal encoders: the main contribution of this thesis consists of neural architecture that translates from one modality to the other and conversely and offers and improved multimodal representation space where the initially disjoint representations can translated and fused. This enables for improved multimodal fusion of multiple modalities. The architecture was extensively studied an evaluated in international benchmarks within the task of video hyperlinking where it defined the state of the art today.4) Generative adversarial networks for multimodal fusion: continuing on the topic of multimodal fusion, we evaluate the possibility of using conditional generative adversarial networks to lean multimodal representations in addition to providing multimodal representations, generative adversarial networks permit to visualize the learned model directly in the image domain
APA, Harvard, Vancouver, ISO, and other styles
47

Zhang, Saizheng. "Recurrent neural models and related problems in natural language processing." Thèse, 2019. http://hdl.handle.net/1866/22663.

Full text
APA, Harvard, Vancouver, ISO, and other styles
48

Lin, Zhouhan. "Deep neural networks for natural language processing and its acceleration." Thèse, 2019. http://hdl.handle.net/1866/23438.

Full text
Abstract:
Cette thèse par article comprend quatre articles qui contribuent au domaine de l'apprentissage profond, en particulier à l'accélération de l’apprentissage par le biais de réseaux à faible précision et à l'application de réseaux de neurones profonds au traitement du langage naturel. Dans le premier article, nous étudions un schéma d’entraînement de réseau de neurones qui élimine la plupart des multiplications en virgule flottante. Cette approche consiste à binariser ou à ternariser les poids dans la propagation en avant et à quantifier les états cachés dans la propagation arrière, ce qui convertit les multiplications en changements de signe et en décalages binaires. Les résultats expérimentaux sur des jeux de données de petite à moyenne taille montrent que cette approche produit des performances encore meilleures que l’approche standard de descente de gradient stochastique, ouvrant la voie à un entraînement des réseaux de neurones rapide et efficace au niveau du matériel. Dans le deuxième article, nous avons proposé un mécanisme structuré d’auto-attention d’enchâssement de phrases qui extrait des représentations interprétables de phrases sous forme matricielle. Nous démontrons des améliorations dans 3 tâches différentes: le profilage de l'auteur, la classification des sentiments et l'implication textuelle. Les résultats expérimentaux montrent que notre modèle génère un gain en performance significatif par rapport aux autres méthodes d’enchâssement de phrases dans les 3 tâches. Dans le troisième article, nous proposons un modèle hiérarchique avec graphe de calcul dynamique, pour les données séquentielles, qui apprend à construire un arbre lors de la lecture de la séquence. Le modèle apprend à créer des connexions de saut adaptatives, ce qui facilitent l'apprentissage des dépendances à long terme en construisant des cellules récurrentes de manière récursive. L’entraînement du réseau peut être fait soit par entraînement supervisée en donnant des structures d’arbres dorés, soit par apprentissage par renforcement. Nous proposons des expériences préliminaires dans 3 tâches différentes: une nouvelle tâche d'évaluation de l'expression mathématique (MEE), une tâche bien connue de la logique propositionnelle et des tâches de modélisation du langage. Les résultats expérimentaux montrent le potentiel de l'approche proposée. Dans le quatrième article, nous proposons une nouvelle méthode d’analyse par circonscription utilisant les réseaux de neurones. Le modèle prédit la structure de l'arbre d'analyse en prédisant un scalaire à valeur réelle, soit la distance syntaxique, pour chaque position de division dans la phrase d'entrée. L'ordre des valeurs relatives de ces distances syntaxiques détermine ensuite la structure de l'arbre d'analyse en spécifiant l'ordre dans lequel les points de division seront sélectionnés, en partitionnant l'entrée de manière récursive et descendante. L’approche proposée obtient une performance compétitive sur le jeu de données Penn Treebank et réalise l’état de l’art sur le jeu de données Chinese Treebank.
This thesis by article consists of four articles which contribute to the field of deep learning, specifically in the acceleration of training through low-precision networks, and the application of deep neural networks on natural language processing. In the first article, we investigate a neural network training scheme that eliminates most of the floating-point multiplications. This approach consists of binarizing or ternarizing the weights in the forward propagation and quantizing the hidden states in the backward propagation, which converts multiplications to sign changes and binary shifts. Experimental results on datasets from small to medium size show that this approach result in even better performance than standard stochastic gradient descent training, paving the way to fast, hardware-friendly training of neural networks. In the second article, we proposed a structured self-attentive sentence embedding that extracts interpretable sentence representations in matrix form. We demonstrate improvements on 3 different tasks: author profiling, sentiment classification and textual entailment. Experimental results show that our model yields a significant performance gain compared to other sentence embedding methods in all of the 3 tasks. In the third article, we propose a hierarchical model with dynamical computation graph for sequential data that learns to construct a tree while reading the sequence. The model learns to create adaptive skip-connections that ease the learning of long-term dependencies through constructing recurrent cells in a recursive manner. The training of the network can either be supervised training by giving golden tree structures, or through reinforcement learning. We provide preliminary experiments in 3 different tasks: a novel Math Expression Evaluation (MEE) task, a well-known propositional logic task, and language modelling tasks. Experimental results show the potential of the proposed approach. In the fourth article, we propose a novel constituency parsing method with neural networks. The model predicts the parse tree structure by predicting a real valued scalar, named syntactic distance, for each split position in the input sentence. The order of the relative values of these syntactic distances then determine the parse tree structure by specifying the order in which the split points will be selected, recursively partitioning the input, in a top-down fashion. Our proposed approach was demonstrated with competitive performance on Penn Treebank dataset, and the state-of-the-art performance on Chinese Treebank dataset.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography