Academic literature on the topic 'Modèles multilingues'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Modèles multilingues.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Modèles multilingues"

1

Todiraşcu-Courtier, Amalia, and Christopher Gledhill. "Extracting collocations in context : the case of verb-noun constructions in English and Romanian." Recherches anglaises et nord-américaines 41, no. 1 (2008): 127–42. http://dx.doi.org/10.3406/ranam.2008.1357.

Full text
Abstract:
Les constructions Verbo-Nominales (VN) sont composées d’un V générique et d’un N spécifique, lequel est soit (i) qualifieur structurel du Prédicateur comme faire faillite, soit (ii) Complément syntaxique comme dans faire des recommandations. Dans chaque cas, le N exprime la portée sémantique de la construction (Banks 2000, Gledhill 2007). Mais malgré quantité d’études sur les Verbes supports’ ou Verbes légers’, aucune propriété morpho-syntaxique ne permet de distinguer ces constructions des autres séquences V plus N, au moins en anglais. Du point de vue de l’analyste de corpus, ce manque de marque formelle rend difficile la conception d’un outil d’extraction automatique. Dans le cadre d’un projet lexicographique, nous avons étudié plusieurs modèles destinés à extraire des VN des corpus multilingues. Nos résultats préliminaires indiquent que des méthodes purement statistiques ne sont pas suffisantes : les données révèlent parfois de ‘véritables’ constructions VN, mais aussi pour la plupart des exemples ‘non-pertinents’ de cooccurrences VN, ou tout simplement du bruit.
APA, Harvard, Vancouver, ISO, and other styles
2

Dancette, Jeanne. "L’intégration des relations sémantiques dans les dictionnaires spécialisés multilingues : du corpus ciblé à l’organisation des connaissances." Meta 56, no. 2 (October 14, 2011): 284–300. http://dx.doi.org/10.7202/1006177ar.

Full text
Abstract:
L’implantation d’un grand nombre de relations sémantiques (RS) dans des dictionnaires spécialisés multilingues ouvre une voie nouvelle en terminographie, facilitée par les immenses possibilités de traitement de corpus offertes par les technologies de l’information. Les outils terminologiques favorisant l’organisation des connaissances sont privilégiés par les traducteurs et les apprenants des langues de spécialité. Allant dans cette voie, cet article présente deux projets dictionnairiques exploitant les RS, l’un dans le domaine du commerce de détail et l’autre dans le domaine de la mondialisation économique. Il discute les modèles de RS, les moyens de les implanter dans des dictionnaires en ligne et les contraintes liées au choix des techniques et des logiciels. Les ouvrages présentés illustrent l’idée selon laquelle les classes de relations sémantiques peuvent servir à reproduire la structure conceptuelle d’un domaine. Si certaines classes de relations sont communes à tous les domaines (les relations de générique, spécifique, partie, tout, agent), nombre d’autres sont spécifiques au domaine. L’objectif de cet article est de montrer comment la structure sémantique du dictionnaire peut aider l’utilisateur à organiser ses connaissances et faciliter l’extraction de l’information contenue dans les fiches, en fonction de ses besoins particuliers.
APA, Harvard, Vancouver, ISO, and other styles
3

Milian-Massana, Antoni. "L’intervention des pouvoirs publics dans les déterminations linguistiques relatives à l’enseignement : modèles et limites." Doctrine : droit comparé 26, no. 2 (March 30, 2016): 205–33. http://dx.doi.org/10.7202/1035860ar.

Full text
Abstract:
Comme son titre l’indique, cette étude analyse les différentes formes d’intervention des pouvoirs publics dans les déterminations linguistiques relatives à renseignement et en définit les limites. Les décisions des pouvoirs publics en matière linguistico-scolaire sont très hétérogènes, aussi bien en ce qui concerne leur contenu matériel (intégration des langues dans le programme scolaire; détermination de la langue d’enseignement; fixation et moment de l’introduction de la seconde langue; connaissances linguistiques requises pour la fonction enseignante; autorisation des livres scolaires), qu’en ce qui concerne leur intensité. D’où le fait que les modèles linguistico-scolaires appliqués dans les États multilingues soient très divers. L’auteur s’interroge sur la conformité desdits modèles aux principes régissant les États démocratiques. Le degré élevé de discrétion que les systèmes juridiques des pays démocratiques laissent en cette matière permet à la majorité des modèles d’être légitimes dans la perspective du droit. Toutefois, cette discrétion n’est pas exempte de limites. Les restrictions à la liberté de choix linguistique des individus sont possibles mais requièrent des prévisions constitutionnelles ou des normes appartenant au bloc de constitutionnalité qui les avalisent. L’interdiction de l’arbitraire oblige à ce que les décisions, même lorsqu’elles sont discrétionnaires, soient rationnelles et suffisamment motivées. Le principe d’égalité empêche d’utiliser la langue comme moyen de discrimination dans les écoles. De même, dans les sociétés libres et démocratiques la discrétion dans les déterminations linguistico-scolaires est toujours soumise à deux limites infranchissables. En premier lieu, l’enseignement doit être donné d’une manière qui soit compréhensible pour l’élève. Il s’agit là de l’exigence linguistique dérivée du noyau dur du droit à l’éducation. En second lieu, il doit être reconnu aux élèves le droit à recevoir l’enseignement de leur langue lorsqu’ils étudient dans une école située sur le territoire où la communauté linguistique à laquelle ils appartiennent a demeuré de manière traditionnelle et historique, et qu’elle y demeure encore aujourd’hui. Dans l’ensemble du travail l’auteur recourt au droit comparé et, lorsque c’est nécessaire, aux instruments internationaux ainsi qu’au droit communautaire européen.
APA, Harvard, Vancouver, ISO, and other styles
4

Guy, Gregory R. "International Perspectives on Linguistic Diversity and Language Rights." Language Problems and Language Planning 13, no. 1 (January 1, 1989): 45–53. http://dx.doi.org/10.1075/lplp.13.1.06guy.

Full text
Abstract:
RESUMO Internaciaj perspektivoj pri lingva diverseco kaj lingvaj rajtoj La aktuala debato en Usono pri oficiala lingva politiko havas siajn precedentojn en aliaj landoj. En la antikva mondo, ciuj gravaj statoj kaj imperioj estis multlingvaj, same la cefaj mezepokaj kaj frumodernaj statoj. Multaj hodiaǔe gravaj landoj estas multlingvaj. Efektive la ekvacio "unu nacio/unu lingvo" estas relative lastatempa eltrovaĵo. Pledantoj por oficialigo de la angla en Usono argumentas, ke la lando riskas "disŝiriĝi" pro multling-veco, sed landoj kiel Aǔstralio kaj Sovetunio proponas modelojn de sukcesa mastrumo, ec apogo, de multlingvismo. Tie kie oni uzas la lingvojn por obstrukci aliron al postenoj, klerigo, progreso kaj povo, konflikto povas ekesti. La solvo estas konservi egalecon, ne devigi al ciuj uzi unusolan lingvon. SOMMAIRE Perspectives internationales sur la diversité linguistique et sur les droits linguistiques Le débat qui se déroule actuellement aux Etats-Unis au sujet d'une politique linguistique officielle a eu des précédents dans d'autres pays. Dans l'Antiquité, tous les états et empires principaux étaient multilingues et il en allait de même des principaux états du Moyen-Age et du début de l'ère moderne. Aujourd'hui, de nombreux pays sont multilingues. En effet, l'équation "une nation = une langue" est une invention relativement récente. Ceux qui défendent la position d'officialiser l'anglais aux Etats-Unis prétendent que le pays risque d'être "déchiré" par le multilinguisme, mais des pays comme l'Australie et l'Union Soviétique présentent des modèles intéressants pour une gestion efficace, et même une promotion du multilinguisme. Un conflit peut naître là où la langue est utilisée pour empêcher l'accès à certaines professions, à l'éducation, au progrès et au pouvoir. La réponse est de maintenir l'égalité, et non pas d'imposer une langue unique pour tous.
APA, Harvard, Vancouver, ISO, and other styles
5

Li, Bo, and Eric Gaussier. "Modèles d’information pour la recherche multilingue." Document numérique 16, no. 2 (August 30, 2013): 11–30. http://dx.doi.org/10.3166/dn.16.2.11-30.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Gfeller, Elisabeth. "modèle africain d'éducation multilingue: le trilinguisme extensif." Travaux neuchâtelois de linguistique, no. 26 (April 1, 1997): 43–57. http://dx.doi.org/10.26034/tranel.1997.2519.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Somers, Harold, and Danny Jones. "La génération de textes multilingues par un utilisateur monolingue." Meta 37, no. 4 (September 30, 2002): 647–56. http://dx.doi.org/10.7202/004200ar.

Full text
Abstract:
Résumé Dans cet article, nous décrivons une approche de la traduction automatique qui comprend la génération de textes multilingues par une interaction avec un utilisateur monolingue : le système fonctionne dans un domaine spécifique et plutôt limité. Entre autres grandes techniques employées, on trouve l'utilisation d'exemples au lieu de règles linguistiques pour donner les équivalents entre les langues, et le codage des connaissances contextuelles comme un modèle de textes possibles.
APA, Harvard, Vancouver, ISO, and other styles
8

Noyau, Colette. "enseignement plurilingue du point de vue de l'apprenant." Langues & Parole 3 (November 30, 2017): 89–109. http://dx.doi.org/10.5565/rev/languesparole.37.

Full text
Abstract:
Ce texte retrace de façon synthétique des expériences de recherche sur une vingtaine d’années avec des classes africaines monolingues et bilingues en contexte plurilingue. Il aborde la diversité des modèles scolaires en contexte multilingue africain, les pratiques d’enseignement, le lien de l’éducation scolaire avec les langues et les cultures du milieu de l’enfant, les processus d’apprentissage dans ces contextes, le lien entre langues d’enseignement et construction des connaissances, et l’approche bi-plurilingue ELAN expérimentée et évaluée dans 8 pays subsahariens.
APA, Harvard, Vancouver, ISO, and other styles
9

Meylaerts, Reine. "La traduction dans la culture multilingue." Target. International Journal of Translation Studies 16, no. 2 (December 31, 2004): 289–317. http://dx.doi.org/10.1075/target.16.2.05mey.

Full text
Abstract:
Résumé Le présent article discute certains concepts clés des Etudes Descriptives de la Traduction (DTS) par le biais de la traduction dans les sociétés multilingues, i.c. des traductions de prose flamande en français dans l’entre-deux-guerres belge. Dans des contextes géopolitiques multilingues, les frontières géolinguistiques entre les cultures ‘source’ et ‘cible’ sont floues de sorte que les traductions, tant comme procès que comme produit, fonctionnent également dans la culture source. Celle-ci codétermine e.a. les stratégies textuelles de traduction et la réception des textes traduits. La notion d’ ‘interculture’ devient fondamentale et les rôles des agents interculturels (auteurs, traducteurs, critiques) sont interchangeables. Toutefois, ‘sources’ et ‘cibles’ survivent dans la perception de ces acteurs : leurs définitions respectives sont fonction de l’intériorisation des structures institutionnelles et discursives et des relations de pouvoir socio-culturelles par ces acteurs ainsi que de leurs (prises de) positions dans les cultures ‘source’ et ‘cible’. Une redéfinition nécessairement plus flexible de ces concepts clés s’impose donc ; elle nécessite une orientation plus sociologique des DTS, dans le sens d’une intégration et d’une élaboration du concept d’habitus dans le modèle.
APA, Harvard, Vancouver, ISO, and other styles
10

Trautmann-Waller, Céline. "L’enfance juive multilingue comme origine d’un projet scientifique. Récurrences d’un modèle autobiographique." Revue germanique internationale, no. 17 (January 15, 2002): 81–92. http://dx.doi.org/10.4000/rgi.885.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Modèles multilingues"

1

Charton, Eric. "Génération de phrases multilingues par apprentissage automatique de modèles de phrases." Phd thesis, Université d'Avignon, 2010. http://tel.archives-ouvertes.fr/tel-00622561.

Full text
Abstract:
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d'attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d'exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l'implémentation d'un système de GAT en plusieurs langues et améliore les capacités d'adaptations d'un système de génération à un domaine sémantique particulier. La production, d'après un corpus d'apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l'extraction d'information et de la classification. Nous décrivons le système d'étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d'information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l'intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d'investigations prometteuses sur la nature du processus de formation de phrases
APA, Harvard, Vancouver, ISO, and other styles
2

Charton, Éric. "Génération de phrases multilingues par apprentissage automatique de modèles de phrases." Thesis, Avignon, 2010. http://www.theses.fr/2010AVIG0175/document.

Full text
Abstract:
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d’attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d’exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l’implémentation d’un système de GAT en plusieurs langues et améliore les capacités d’adaptations d’un système de génération à un domaine sémantique particulier. La production, d’après un corpus d’apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l’extraction d’information et de la classification. Nous décrivons le système d’étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d’information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l’intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d’investigations prometteuses sur la nature du processus de formation de phrases
Natural Language Generation (NLG) is the natural language processing task of generating natural language from a machine representation system. In this thesis report, we present an architecture of NLG system relying on statistical methods. The originality of our proposition is its ability to use a corpus as a learning resource for sentences production. This method offers several advantages : it simplifies the implementation and design of a multilingual NLG system, capable of sentence production of the same meaning in several languages. Our method also improves the adaptability of a NLG system to a particular semantic field. In our proposal, sentence generation is achieved trough the use of sentence models, obtained from a training corpus. Extracted sentences are abstracted by a labelling step obtained from various information extraction and text mining methods like named entity recognition, co-reference resolution, semantic labelling and part of speech tagging. The sentence generation process is achieved by a sentence realisation module. This module provide an adapted sentence model to fit a communicative intent, and then transform this model to generate a new sentence. Two methods are proposed to transform a sentence model into a generated sentence, according to the semantic content to express. In this document, we describe the complete labelling system applied to encyclopaedic content to obtain the sentence models. Then we present two models of sentence generation. The first generation model substitute the semantic content to an original sentence content. The second model is used to find numerous proto-sentences, structured as Subject, Verb, Object, able to fit by part a whole communicative intent, and then aggregate all the selected proto-sentences into a more complex one. Our experiments of sentence generation with various configurations of our system have shown that this new approach of NLG have an interesting potential
APA, Harvard, Vancouver, ISO, and other styles
3

Sam, Sethserey. "Vers une adaptation autonome des modèles acoustiques multilingues pour le traitement automatique de la parole." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00685204.

Full text
Abstract:
Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est généralement une tâche très difficile et peu réaliste pour représenter toutes les origines des locuteurs. Ce travail de thèse porte sur l'amélioration des modèles acoustiques multilingues pour la transcription phonétique de la parole de type " réunion multilingue ". Traiter ce type de parole constitue plusieurs défis : 1) il peut exister de la conversation entre des locuteurs natifs et non natifs ; 2) il y a non seulement de la parole non native d'une langue, mais de plusieurs langues parlées par des locuteurs venant de différentes origines ; 3) il est difficile de collecter suffisamment de données pour amorcer les systèmes de transcription. Pour répondre à ces défis, nous proposons un processus d'adaptation de modèles acoustiques multilingues que nous appelons " adaptation autonome ". Dans l'adaptation autonome, nous étudions plusieurs approches pour adapter les modèles acoustiques multilingues de manière non supervisée (les langues parlées et les origines des locuteurs ne sont pas connues à l'avance) et qui n'utilise aucune donnée supplémentaire lors du processus d'adaptation. Les approches étudiées sont décomposées selon deux modules. Le premier module qui s'appelle " l'observateur de langues " consiste à récupérer les caractéristiques linguistiques (les langues parlées et les origines des locuteurs) des segments à décoder. Le deuxième module consiste à adapter le modèle acoustique multilingue en fonction des connaissances fournies par l'observateur de langue. Pour évaluer l'utilité de l'adaptation autonome d'un modèle acoustique multilingue, nous utilisons les données de test, qui sont extraites de réunions multilingues, contenant de la parole native et non native de trois langues : l'anglais (EN), le français (FR) et le vietnamien (VN). Selon les résultats d'expérimentation, l'adaptation autonome donne des résultats prometteurs pour les paroles non natives mais dégradent très légèrement les performances sur de la parole native. Afin d'améliorer la performance globale des systèmes de transcription pour toutes les paroles natives et non natives, nous étudions plusieurs approches de détection de parole non native et proposons de cascader un tel détecteur avec notre processus d'adaptation autonome. Les résultats obtenus ainsi, sont les meilleurs parmi toutes les expériences réalisées sur notre corpus de réunions multilingues.
APA, Harvard, Vancouver, ISO, and other styles
4

Balikas, Georgios. "Explorer et apprendre à partir de collections de textes multilingues à l'aide des modèles probabilistes latents et des réseaux profonds." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM054/document.

Full text
Abstract:
Le texte est l'une des sources d'informations les plus répandues et les plus persistantes. L'analyse de contenu du texte se réfère à des méthodes d'étude et de récupération d'informations à partir de documents. Aujourd'hui, avec une quantité de texte disponible en ligne toujours croissante l'analyse de contenu du texte revêt une grande importance parce qu' elle permet une variété d'applications. À cette fin, les méthodes d'apprentissage de la représentation sans supervision telles que les modèles thématiques et les word embeddings constituent des outils importants.L'objectif de cette dissertation est d'étudier et de relever des défis dans ce domaine.Dans la première partie de la thèse, nous nous concentrons sur les modèles thématiques et plus précisément sur la manière d'incorporer des informations antérieures sur la structure du texte à ces modèles.Les modèles de sujets sont basés sur le principe du sac-de-mots et, par conséquent, les mots sont échangeables. Bien que cette hypothèse profite les calculs des probabilités conditionnelles, cela entraîne une perte d'information.Pour éviter cette limitation, nous proposons deux mécanismes qui étendent les modèles de sujets en intégrant leur connaissance de la structure du texte. Nous supposons que les documents sont répartis dans des segments de texte cohérents. Le premier mécanisme attribue le même sujet aux mots d'un segment. La seconde, capitalise sur les propriétés de copulas, un outil principalement utilisé dans les domaines de l'économie et de la gestion des risques, qui sert à modéliser les distributions communes de densité de probabilité des variables aléatoires tout en n'accédant qu'à leurs marginaux.La deuxième partie de la thèse explore les modèles de sujets bilingues pour les collections comparables avec des alignements de documents explicites. En règle générale, une collection de documents pour ces modèles se présente sous la forme de paires de documents comparables. Les documents d'une paire sont écrits dans différentes langues et sont thématiquement similaires. À moins de traductions, les documents d'une paire sont semblables dans une certaine mesure seulement. Pendant ce temps, les modèles de sujets représentatifs supposent que les documents ont des distributions thématiques identiques, ce qui constitue une hypothèse forte et limitante. Pour le surmonter, nous proposons de nouveaux modèles thématiques bilingues qui intègrent la notion de similitude interlingue des documents qui constituent les paires dans leurs processus générateurs et d'inférence.La dernière partie de la thèse porte sur l'utilisation d'embeddings de mots et de réseaux de neurones pour trois applications d'exploration de texte. Tout d'abord, nous abordons la classification du document polylinguistique où nous soutenons que les traductions d'un document peuvent être utilisées pour enrichir sa représentation. À l'aide d'un codeur automatique pour obtenir ces représentations de documents robustes, nous démontrons des améliorations dans la tâche de classification de documents multi-classes. Deuxièmement, nous explorons la classification des tweets à plusieurs tâches en soutenant que, en formant conjointement des systèmes de classification utilisant des tâches corrélées, on peut améliorer la performance obtenue. À cette fin, nous montrons comment réaliser des performances de pointe sur une tâche de classification du sentiment en utilisant des réseaux neuronaux récurrents. La troisième application que nous explorons est la récupération d'informations entre langues. Compte tenu d'un document écrit dans une langue, la tâche consiste à récupérer les documents les plus similaires à partir d'un ensemble de documents écrits dans une autre langue. Dans cette ligne de recherche, nous montrons qu'en adaptant le problème du transport pour la tâche d'estimation des distances documentaires, on peut obtenir des améliorations importantes
Text is one of the most pervasive and persistent sources of information. Content analysis of text in its broad sense refers to methods for studying and retrieving information from documents. Nowadays, with the ever increasing amounts of text becoming available online is several languages and different styles, content analysis of text is of tremendous importance as it enables a variety of applications. To this end, unsupervised representation learning methods such as topic models and word embeddings constitute prominent tools.The goal of this dissertation is to study and address challengingproblems in this area, focusing on both the design of novel text miningalgorithms and tools, as well as on studying how these tools can be applied to text collections written in a single or several languages.In the first part of the thesis we focus on topic models and more precisely on how to incorporate prior information of text structure to such models.Topic models are built on the premise of bag-of-words, and therefore words are exchangeable. While this assumption benefits the calculations of the conditional probabilities it results in loss of information.To overcome this limitation we propose two mechanisms that extend topic models by integrating knowledge of text structure to them. We assume that the documents are partitioned in thematically coherent text segments. The first mechanism assigns the same topic to the words of a segment. The second, capitalizes on the properties of copulas, a tool mainly used in the fields of economics and risk management that is used to model the joint probability density distributions of random variables while having access only to their marginals.The second part of the thesis explores bilingual topic models for comparable corpora with explicit document alignments. Typically, a document collection for such models is in the form of comparable document pairs. The documents of a pair are written in different languages and are thematically similar. Unless translations, the documents of a pair are similar to some extent only. Meanwhile, representative topic models assume that the documents have identical topic distributions, which is a strong and limiting assumption. To overcome it we propose novel bilingual topic models that incorporate the notion of cross-lingual similarity of the documents that constitute the pairs in their generative and inference processes. Calculating this cross-lingual document similarity is a task on itself, which we propose to address using cross-lingual word embeddings.The last part of the thesis concerns the use of word embeddings and neural networks for three text mining applications. First, we discuss polylingual document classification where we argue that translations of a document can be used to enrich its representation. Using an auto-encoder to obtain these robust document representations we demonstrate improvements in the task of multi-class document classification. Second, we explore multi-task sentiment classification of tweets arguing that by jointly training classification systems using correlated tasks can improve the obtained performance. To this end we show how can achieve state-of-the-art performance on a sentiment classification task using recurrent neural networks. The third application we explore is cross-lingual information retrieval. Given a document written in one language, the task consists in retrieving the most similar documents from a pool of documents written in another language. In this line of research, we show that by adapting the transportation problem for the task of estimating document distances one can achieve important improvements
APA, Harvard, Vancouver, ISO, and other styles
5

Zhang, Ying. "Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM017/document.

Full text
Abstract:
Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M).Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques.Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI-2, dont les "liens riches", nous avons transformé PIVAX-1 en PIVAX-2, et réactivé le projet GBDLEX-UW++ commencé lors du projet ANR TRAOUIERO, en réimportant toutes les données (multilingues) supportées par PIVAX-1, et en les rendant disponibles sur un serveur ouvert.Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES. Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREATDICO, LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECTRA, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES
Our research is in computational lexicography, and concerns not only the computer support to lexical resources useful for MT (machine translation) and MAHT (Machine Aided Human Translation), but also the linguistic architecture of lexical databases supporting these resources in an operational context (CIFRE thesis with L&M).We begin with a study of the evolution of ideas in this area, since the computerization of classical dictionaries to platforms for building up true "lexical databases" such as JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] and JIBIKI-2 [Zhang, Y. et al., 2014]. The starting point was the PIVAX-1 system [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] designed for lexical bases for heterogeneous MT systems with a lexical pivot, able to support multiple volumes in each "lexical space", be it natural or artificial (as UNL). Considering the industrial context, we focused our research on some issues, in informatics and lexicography.To scale up, and to add some new features enabled by JIBIKI-2, such as the "rich links", we have transformed PIVAX-1 into PIVAX-2, and reactivated the GBDLEX-UW++ project that started during the ANR TRAOUIERO project, by re-importing all (multilingual) data supported by PIVAX-1, and making them available on an open server.Hence a need for L&M for acronyms, we expanded the "macrostructure" of PIVAX incorporating volumes of "prolexemes" as in PROLEXBASE [Tran, M. & Maurel, D., 2006]. We also show how to extend it to meet new needs such as those of the INNOVALANGUES project. Finally, we have created a "lemmatisation middleware", LEXTOH, which allows calling several morphological analyzers or lemmatizers and then to merge and filter their results. Combined with a new dictionary creation tool, CREATDICO, LEXTOH allows to build on the fly a "mini-dictionary" corresponding to a sentence or a paragraph of a text being "post-edited" online under IMAG/SECTRA, which performs the lexical proactive support functionality foreseen in [Huynh, C.-P., 2010]. It could also be used to create parallel corpora with the aim to build MOSES-based "factored MT systems"
APA, Harvard, Vancouver, ISO, and other styles
6

Daoud, Mohammad. "Utilisation de ressources non conventionnelles et de méthodes contributives pour combler le fossé terminologique entre les langues en développant des "préterminologies" multilingues." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00583682.

Full text
Abstract:
Notre motivation est de combler le fossé terminologique qui grandit avec la production massive de nouveaux concepts (50 quotidiens) dans divers domaines, pour lesquels les termes sont souvent inventés d'abord dans une certaine langue bien dotée, telle que l'anglais ou le français. Trouver des termes équivalents dans différentes langues est nécessaire pour de nombreuses applications, telles que la RI translingue et la TA. Cette tâche est très difficile, particulièrement pour certaines langues très utilisées telles que l'arabe, parce que (1) seule une petite proportion de nouveaux termes est correctement enregistrée par des terminologues, et pour peu de langues ; (2) des communautés spécifiques créent continuellement des termes équivalents sans les normaliser ni même les enregistrer (terminologie latente) ; (3) dans de nombreux cas, aucuns termes équivalents ne sont créés, formellement ou informellement (absence de terminologie). Cette thèse propose de remplacer le but impossible de construire d'une manière continue une terminologie à jour, complète et de haute qualité pour un grand nombre de langues par celui de construire une preterminologie, en utilisant des méthodes non conventionnelles et des contributions passives ou actives par des communautés d'internautes : extraction de termes parallèles potentiels non seulement à partir de textes parallèles ou comparables, mais également à partir des logs (traces) des visites à des sites Web tels que DSR (Route de la Soie Digitale), et à partir de données produites par des jeux sérieux. Une préterminologie est un nouveau genre de ressource lexicale qui peut être facilement construit et a une bonne couverture. Suivant en ceci une tendance croissante en lexicographie computationnelle et en TALN en général, nous représentons une préterminologie multilingue par une structure de graphe (Preterminological Multilingual Graph, MPG), où les nœuds portent des prétermes et les arcs des relations préterminologiques simples (synonymie monolingue, traduction, généralisation, spécialisation, etc.) qui sont des approximations des relations (terminologiques ou ontologiques) usuelles. Un Système complet pour Éliciter une Préterminologie (SEPT) a été développé pour construire et maintenir des MPG. Des approches passives ont été expérimentées en développant un MPG pour le site Web culturel de DSR, et un autre pour le domaine de l'onirologie arabe : les ressources produites ont atteint une bonne couverture informationnelle et linguistique. L'approche indirecte par contribution active est testée depuis 8-9 mois sur l'instance arabe du jeu sérieux JeuxDeMots.
APA, Harvard, Vancouver, ISO, and other styles
7

Daoud, Mohammad. "Utilisation de ressources non conventionnelles et de méthodes contributives pour combler le fossé terminologique entre les langues en développant des "préterminologies" multilingues." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM090.

Full text
Abstract:
Notre motivation est de combler le fossé terminologique qui grandit avec la production massive de nouveaux concepts (50 quotidiens) dans divers domaines, pour lesquels les termes sont souvent inventés d'abord dans une certaine langue bien dotée, telle que l'anglais ou le français. Trouver des termes équivalents dans différentes langues est nécessaire pour de nombreuses applications, telles que la RI translingue et la TA. Cette tâche est très difficile, particulièrement pour certaines langues très utilisées telles que l'arabe, parce que (1) seule une petite proportion de nouveaux termes est correctement enregistrée par des terminologues, et pour peu de langues ; (2) des communautés spécifiques créent continuellement des termes équivalents sans les normaliser ni même les enregistrer (terminologie latente) ; (3) dans de nombreux cas, aucuns termes équivalents ne sont créés, formellement ou informellement (absence de terminologie). Cette thèse propose de remplacer le but impossible de construire d'une manière continue une terminologie à jour, complète et de haute qualité pour un grand nombre de langues par celui de construire une preterminologie, en utilisant des méthodes non conventionnelles et des contributions passives ou actives par des communautés d'internautes : extraction de termes parallèles potentiels non seulement à partir de textes parallèles ou comparables, mais également à partir des logs (traces) des visites à des sites Web tels que DSR (Route de la Soie Digitale), et à partir de données produites par des jeux sérieux. Une préterminologie est un nouveau genre de ressource lexicale qui peut être facilement construit et a une bonne couverture. Suivant en ceci une tendance croissante en lexicographie computationnelle et en TALN en général, nous représentons une préterminologie multilingue par une structure de graphe (Multilingual Preterminological Graph, MPG), où les nœuds portent des prétermes et les arcs des relations préterminologiques simples (synonymie monolingue, traduction, généralisation, spécialisation, etc. ) qui sont des approximations des relations (terminologiques ou ontologiques) usuelles. Un Système complet pour Éliciter une Préterminologie (SEPT) a été développé pour construire et maintenir des MPG. Des approches passives ont été expérimentées en développant un MPG pour le site Web culturel de DSR, et un autre pour le domaine de l'onirologie arabe : les ressources produites ont atteint une bonne couverture informationnelle et linguistique. L'approche indirecte par contribution active est testée depuis 8-9 mois sur l'instance arabe du jeu sérieux JeuxDeMots
Our motivation is to bridge the terminological gap that grows with the massive production of new concepts (50 daily) in various domains, for which terms are often first coined in some well-resourced language, such as English or French. Finding equivalent terms in different languages is necessary for many applications, such as CLIR and MT. This task is very difficult, especially for some widely used languages such as Arabic, because (1) only a small proportion of new terms is properly recorded by terminologists, and for few languages; (2) specific communities continuously create equivalent terms without normalizing and even recording them (latent terminology); (3) in many cases, no equivalent terms are created, formally or informally (absence of terminology). This thesis proposes to replace the impossible goal of building in a continuous way an up-to-date, complete and high-quality terminology for a large number of languages by that of building a preterminology, using unconventional methods and passive or active contributions by communities of internauts: extracting potential parallel terms not only from parallel or comparable texts, but also from logs of visits to Web sites such as DSR (Digital Silk Road), and from data produced by serious games. A preterminology is a new kind of lexical resource that can be easily constructed and has good coverage. Following a growing trend in computational lexicography and NLP in general, we represent a multilingual preterminology by a graph structure (Multilingual Preterminological Graph, MPG), where nodes bear preterms and arcs simple preterminological relations (monolingual synonymy, translation, generalization, specialization, etc. ) that approximate usual terminological (or ontological) relations. A complete System for Eliciting Preterminology (SEpT) has been developed to build and maintain MPGs. Passive approaches have been experimented by developing an MPG for the DSR cultural Web site, and another for the domain of Arabic oneirology: the produced resources achieved good informational and linguistic coverage. The indirect active contribution approach is being tested since 8-9 months using the Arabic instance of the JeuxDeMots serious game
APA, Harvard, Vancouver, ISO, and other styles
8

Le, Thi Hoang Diem. "Utilisation de ressources externes dans un modèle Bayésien de Recherche d'Information. Application à la recherche d'information multilingue avec UMLS." Phd thesis, Université Joseph Fourier (Grenoble), 2009. http://tel.archives-ouvertes.fr/tel-00463681.

Full text
Abstract:
Dans les systèmes de recherche d'information, une indexation à base de termes et une correspondance à base d'intersection introduisent le problème de la disparité à cause des variations linguistiques. Avec l'objectif de résoudre ce problème, notre travail de thèse se positionne dans l'utilisation des ressources externes dans la recherche d'information. Ces ressources offrent non seulement les concepts pour une indexation plus précise et indépendante de langue, mais aussi une base de relations sémantiques entre ces concepts. Nous étudions en premier une indexation par concepts extraits à partir d'une ressource externe. Nous proposons ensuite de prendre en compte ces relations sémantiques entre les concepts dans la correspondance par un modèle de recherche d'information basé sur un réseau Bayésien des concepts et leurs relations sémantiques. Ainsi, nous étudions les extensions de l'indexation conceptuelle à des documents et requête structurés et multi-médias. Les fonctions de reclassement et de combinaison ont été proposées afin d'améliorer la performance de la recherche dans ces contextes. La validation des propositions est effectuée par des expérimentations dans la recherche d'information multilingue médicale, avec l'utilisation du méta thésaurus UMLS comme ressource externe.
APA, Harvard, Vancouver, ISO, and other styles
9

Muller, Benjamin. "How Can We Make Language Models Better at Handling the Diversity and Variability of Natural Languages ?" Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS399.

Full text
Abstract:
Ces dernières années, le passage à l’échelle (scaling) des modèles de langues basés sur l’apprentissage profond — principalement en termes de taille de modèle, de taille de l’ensemble de données d’entraînement et de puissance de calcul d’entraînement — est devenu l’une des principales forces motrices des progrès empiriques en Traitement Automatique du Langage (TAL). Comme l’illustrent les exemples de (Peters et al., 2018b; Devlin et al., 2018a; Brown et al., 2020;Zhang et al., 2022; Chowdhery et al., 2022), cela conduit à de meilleures performances en apprentissage supervisé ainsi qu’à de meilleures capacités de zero-shot (i.e. sans données annotées pour une tâche dans une langue donnée) et de few-shot (i.e. pour une quantité très limitée de données annotées) et cela pour une grande variété de tâches. Dans cette thèse, nous travaillons avec des modèles monolingues et multilingues de type BERT (Devlin et al., 2018a). Pour répondre à notre principale question de recherche: “Comment rendre les modèles de langue meilleurs face à la diversité et la variabilité des langues?” Nous explorons trois directions principales.1. Analyses comportementales (behavioral) et structurelles des modèles de langues 2. Approche de réduction des différences de domaine 3. Approche par technique d’adaptation. Tout d’abord, les modèles de langues de type BERT sont des objets complexes. La première étape de cette thèse a été de mener des analyses approfondies pour comprendre le comportement de ces modèles dans différents scénarios d’entraînement et de test (behavioral analysis). Ces analyses ont été enrichies par des études structurelles des modèles en décrivant leur fonctionnement interne. Ensuite, nous nous sommes concentrés sur une approche de réduction de l’écart entre les domaines. Dans cette approche, l’objectif est de rendre les données hautement variables hors domaine plus similaires aux données d’apprentissage. Enfin, nous présentons des techniques d’adaptation qui modélisent directement les données hors-domaine ou dans une langue différente des données d’apprentissage
Deep Learning for NLP has led to impressive empirical progress in recent years. In essence, this progress is based on better contextualized representations that can be easily used for a wide variety of tasks. However, these models usually require substantial computing power and large amounts of raw textual data. This makes language’s inherent diversity and variability a vivid challenge in NLP. We focus on the following: How can we make language models better at handling the variability and diversity of natural languages?. First, we explore the generalizability of language models by building and analyzing one of the first large-scale replication of a BERT model for a non-English language. Our results raise the question of using these language models on highly-variable domains such as these found online. Focusing on lexical normalization, we show that this task can be approached with BERT-like models. However, we show that it only partially helps downstream performance. In consequence, we focus on adaptation techniques using what we refer to as representation transfer and explore challenging settings such as the zero-shot setting, low-resource languages. We show that multilingual language models can be adapted and used efficiently with low-resource languages, even with the ones unseen during pretraining, and that the script is a critical component in this adaptation
APA, Harvard, Vancouver, ISO, and other styles
10

Le, Thi Hoang Diem. "Utilisation de ressources externes dans un modèle Bayésien de recherche d'information : application à la recherche d'information médicale multilingue avec UMLS." Phd thesis, Grenoble 1, 2009. http://www.theses.fr/2009GRE10073.

Full text
Abstract:
Dans les systèmes de recherche d'information, une indexation à base de termes et une correspondance à base d'intersection introduisent le problème de la disparité à cause des variations linguistiques. Avec l'objectif de résoudre ce problème, notre travail de thèse se positionne dans l'utilisation des ressources externes dans la recherche d'information. Ces ressources offrent non seulement les concepts pour une indexation plus précise et indépendante de langue, mais aussi une base de relations sémantiques entre ces concepts. Nous étudions en premier une indexation par concepts extraits à partir d'une ressource externe. Nous proposons ensuite de prendre en compte ces relations sémantiques entre les concepts dans la correspondance par un modèle de recherche d'information basé sur un réseau Bayésien des concepts et leurs relations sémantiques Ainsi, nous étudions les extensions de l'indexation conceptuelle à des documents et requête structurés et multi-médias. Les fonctions de reclassement et de combinaison ont été proposées afin d'améliorer la performance de la recherche dans ces contextes. La validation des propositions est effectuée par des expérimentations dans la recherche d'information multilingue médicale, avec l'utilisation du méta thésaurus UMLS comme ressource externe
With the availability of external resources to documents, the Information Retrieval Systems evolve. These resources provide not only information on the terms and concepts for a more precise indexing, but also the semantic relations between these terms or concepts. Our thesis work lies in the use of external resources in information retrieval. We study firstly the indexing conceptual in comparison with term-based indexing. The problem arrise when the documents and the query don't share the same concepts, but the concepts of the documents are semantically related with the concepts of the query. We propose to take into account these semantic relationships between concepts by a information retrieval model which is based on a Bayesian network of concepts and their semantic relationships. Ln addition, we propose the use of knowledge of the problem from external ressource to improve the performance of retrieval. The validation of the proposed mode is achieved by experiments in the medical domaine information retrieval, with the use of meta thesaurus UMU as external resource. The application for a system of information retrieval multi modality (text and images) was also performed
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography