Dissertations / Theses on the topic 'Modèles multilingues'

To see the other types of publications on this topic, follow the link: Modèles multilingues.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 19 dissertations / theses for your research on the topic 'Modèles multilingues.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Charton, Eric. "Génération de phrases multilingues par apprentissage automatique de modèles de phrases." Phd thesis, Université d'Avignon, 2010. http://tel.archives-ouvertes.fr/tel-00622561.

Full text
Abstract:
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d'attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d'exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l'implémentation d'un système de GAT en plusieurs langues et améliore les capacités d'adaptations d'un système de génération à un domaine sémantique particulier. La production, d'après un corpus d'apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l'extraction d'information et de la classification. Nous décrivons le système d'étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d'information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l'intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d'investigations prometteuses sur la nature du processus de formation de phrases
APA, Harvard, Vancouver, ISO, and other styles
2

Charton, Éric. "Génération de phrases multilingues par apprentissage automatique de modèles de phrases." Thesis, Avignon, 2010. http://www.theses.fr/2010AVIG0175/document.

Full text
Abstract:
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d’attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d’exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l’implémentation d’un système de GAT en plusieurs langues et améliore les capacités d’adaptations d’un système de génération à un domaine sémantique particulier. La production, d’après un corpus d’apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l’extraction d’information et de la classification. Nous décrivons le système d’étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d’information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l’intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d’investigations prometteuses sur la nature du processus de formation de phrases
Natural Language Generation (NLG) is the natural language processing task of generating natural language from a machine representation system. In this thesis report, we present an architecture of NLG system relying on statistical methods. The originality of our proposition is its ability to use a corpus as a learning resource for sentences production. This method offers several advantages : it simplifies the implementation and design of a multilingual NLG system, capable of sentence production of the same meaning in several languages. Our method also improves the adaptability of a NLG system to a particular semantic field. In our proposal, sentence generation is achieved trough the use of sentence models, obtained from a training corpus. Extracted sentences are abstracted by a labelling step obtained from various information extraction and text mining methods like named entity recognition, co-reference resolution, semantic labelling and part of speech tagging. The sentence generation process is achieved by a sentence realisation module. This module provide an adapted sentence model to fit a communicative intent, and then transform this model to generate a new sentence. Two methods are proposed to transform a sentence model into a generated sentence, according to the semantic content to express. In this document, we describe the complete labelling system applied to encyclopaedic content to obtain the sentence models. Then we present two models of sentence generation. The first generation model substitute the semantic content to an original sentence content. The second model is used to find numerous proto-sentences, structured as Subject, Verb, Object, able to fit by part a whole communicative intent, and then aggregate all the selected proto-sentences into a more complex one. Our experiments of sentence generation with various configurations of our system have shown that this new approach of NLG have an interesting potential
APA, Harvard, Vancouver, ISO, and other styles
3

Sam, Sethserey. "Vers une adaptation autonome des modèles acoustiques multilingues pour le traitement automatique de la parole." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00685204.

Full text
Abstract:
Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d'enregistrements en grande quantité de parole non native est généralement une tâche très difficile et peu réaliste pour représenter toutes les origines des locuteurs. Ce travail de thèse porte sur l'amélioration des modèles acoustiques multilingues pour la transcription phonétique de la parole de type " réunion multilingue ". Traiter ce type de parole constitue plusieurs défis : 1) il peut exister de la conversation entre des locuteurs natifs et non natifs ; 2) il y a non seulement de la parole non native d'une langue, mais de plusieurs langues parlées par des locuteurs venant de différentes origines ; 3) il est difficile de collecter suffisamment de données pour amorcer les systèmes de transcription. Pour répondre à ces défis, nous proposons un processus d'adaptation de modèles acoustiques multilingues que nous appelons " adaptation autonome ". Dans l'adaptation autonome, nous étudions plusieurs approches pour adapter les modèles acoustiques multilingues de manière non supervisée (les langues parlées et les origines des locuteurs ne sont pas connues à l'avance) et qui n'utilise aucune donnée supplémentaire lors du processus d'adaptation. Les approches étudiées sont décomposées selon deux modules. Le premier module qui s'appelle " l'observateur de langues " consiste à récupérer les caractéristiques linguistiques (les langues parlées et les origines des locuteurs) des segments à décoder. Le deuxième module consiste à adapter le modèle acoustique multilingue en fonction des connaissances fournies par l'observateur de langue. Pour évaluer l'utilité de l'adaptation autonome d'un modèle acoustique multilingue, nous utilisons les données de test, qui sont extraites de réunions multilingues, contenant de la parole native et non native de trois langues : l'anglais (EN), le français (FR) et le vietnamien (VN). Selon les résultats d'expérimentation, l'adaptation autonome donne des résultats prometteurs pour les paroles non natives mais dégradent très légèrement les performances sur de la parole native. Afin d'améliorer la performance globale des systèmes de transcription pour toutes les paroles natives et non natives, nous étudions plusieurs approches de détection de parole non native et proposons de cascader un tel détecteur avec notre processus d'adaptation autonome. Les résultats obtenus ainsi, sont les meilleurs parmi toutes les expériences réalisées sur notre corpus de réunions multilingues.
APA, Harvard, Vancouver, ISO, and other styles
4

Balikas, Georgios. "Explorer et apprendre à partir de collections de textes multilingues à l'aide des modèles probabilistes latents et des réseaux profonds." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM054/document.

Full text
Abstract:
Le texte est l'une des sources d'informations les plus répandues et les plus persistantes. L'analyse de contenu du texte se réfère à des méthodes d'étude et de récupération d'informations à partir de documents. Aujourd'hui, avec une quantité de texte disponible en ligne toujours croissante l'analyse de contenu du texte revêt une grande importance parce qu' elle permet une variété d'applications. À cette fin, les méthodes d'apprentissage de la représentation sans supervision telles que les modèles thématiques et les word embeddings constituent des outils importants.L'objectif de cette dissertation est d'étudier et de relever des défis dans ce domaine.Dans la première partie de la thèse, nous nous concentrons sur les modèles thématiques et plus précisément sur la manière d'incorporer des informations antérieures sur la structure du texte à ces modèles.Les modèles de sujets sont basés sur le principe du sac-de-mots et, par conséquent, les mots sont échangeables. Bien que cette hypothèse profite les calculs des probabilités conditionnelles, cela entraîne une perte d'information.Pour éviter cette limitation, nous proposons deux mécanismes qui étendent les modèles de sujets en intégrant leur connaissance de la structure du texte. Nous supposons que les documents sont répartis dans des segments de texte cohérents. Le premier mécanisme attribue le même sujet aux mots d'un segment. La seconde, capitalise sur les propriétés de copulas, un outil principalement utilisé dans les domaines de l'économie et de la gestion des risques, qui sert à modéliser les distributions communes de densité de probabilité des variables aléatoires tout en n'accédant qu'à leurs marginaux.La deuxième partie de la thèse explore les modèles de sujets bilingues pour les collections comparables avec des alignements de documents explicites. En règle générale, une collection de documents pour ces modèles se présente sous la forme de paires de documents comparables. Les documents d'une paire sont écrits dans différentes langues et sont thématiquement similaires. À moins de traductions, les documents d'une paire sont semblables dans une certaine mesure seulement. Pendant ce temps, les modèles de sujets représentatifs supposent que les documents ont des distributions thématiques identiques, ce qui constitue une hypothèse forte et limitante. Pour le surmonter, nous proposons de nouveaux modèles thématiques bilingues qui intègrent la notion de similitude interlingue des documents qui constituent les paires dans leurs processus générateurs et d'inférence.La dernière partie de la thèse porte sur l'utilisation d'embeddings de mots et de réseaux de neurones pour trois applications d'exploration de texte. Tout d'abord, nous abordons la classification du document polylinguistique où nous soutenons que les traductions d'un document peuvent être utilisées pour enrichir sa représentation. À l'aide d'un codeur automatique pour obtenir ces représentations de documents robustes, nous démontrons des améliorations dans la tâche de classification de documents multi-classes. Deuxièmement, nous explorons la classification des tweets à plusieurs tâches en soutenant que, en formant conjointement des systèmes de classification utilisant des tâches corrélées, on peut améliorer la performance obtenue. À cette fin, nous montrons comment réaliser des performances de pointe sur une tâche de classification du sentiment en utilisant des réseaux neuronaux récurrents. La troisième application que nous explorons est la récupération d'informations entre langues. Compte tenu d'un document écrit dans une langue, la tâche consiste à récupérer les documents les plus similaires à partir d'un ensemble de documents écrits dans une autre langue. Dans cette ligne de recherche, nous montrons qu'en adaptant le problème du transport pour la tâche d'estimation des distances documentaires, on peut obtenir des améliorations importantes
Text is one of the most pervasive and persistent sources of information. Content analysis of text in its broad sense refers to methods for studying and retrieving information from documents. Nowadays, with the ever increasing amounts of text becoming available online is several languages and different styles, content analysis of text is of tremendous importance as it enables a variety of applications. To this end, unsupervised representation learning methods such as topic models and word embeddings constitute prominent tools.The goal of this dissertation is to study and address challengingproblems in this area, focusing on both the design of novel text miningalgorithms and tools, as well as on studying how these tools can be applied to text collections written in a single or several languages.In the first part of the thesis we focus on topic models and more precisely on how to incorporate prior information of text structure to such models.Topic models are built on the premise of bag-of-words, and therefore words are exchangeable. While this assumption benefits the calculations of the conditional probabilities it results in loss of information.To overcome this limitation we propose two mechanisms that extend topic models by integrating knowledge of text structure to them. We assume that the documents are partitioned in thematically coherent text segments. The first mechanism assigns the same topic to the words of a segment. The second, capitalizes on the properties of copulas, a tool mainly used in the fields of economics and risk management that is used to model the joint probability density distributions of random variables while having access only to their marginals.The second part of the thesis explores bilingual topic models for comparable corpora with explicit document alignments. Typically, a document collection for such models is in the form of comparable document pairs. The documents of a pair are written in different languages and are thematically similar. Unless translations, the documents of a pair are similar to some extent only. Meanwhile, representative topic models assume that the documents have identical topic distributions, which is a strong and limiting assumption. To overcome it we propose novel bilingual topic models that incorporate the notion of cross-lingual similarity of the documents that constitute the pairs in their generative and inference processes. Calculating this cross-lingual document similarity is a task on itself, which we propose to address using cross-lingual word embeddings.The last part of the thesis concerns the use of word embeddings and neural networks for three text mining applications. First, we discuss polylingual document classification where we argue that translations of a document can be used to enrich its representation. Using an auto-encoder to obtain these robust document representations we demonstrate improvements in the task of multi-class document classification. Second, we explore multi-task sentiment classification of tweets arguing that by jointly training classification systems using correlated tasks can improve the obtained performance. To this end we show how can achieve state-of-the-art performance on a sentiment classification task using recurrent neural networks. The third application we explore is cross-lingual information retrieval. Given a document written in one language, the task consists in retrieving the most similar documents from a pool of documents written in another language. In this line of research, we show that by adapting the transportation problem for the task of estimating document distances one can achieve important improvements
APA, Harvard, Vancouver, ISO, and other styles
5

Zhang, Ying. "Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM017/document.

Full text
Abstract:
Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M).Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques.Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI-2, dont les "liens riches", nous avons transformé PIVAX-1 en PIVAX-2, et réactivé le projet GBDLEX-UW++ commencé lors du projet ANR TRAOUIERO, en réimportant toutes les données (multilingues) supportées par PIVAX-1, et en les rendant disponibles sur un serveur ouvert.Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES. Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREATDICO, LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECTRA, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES
Our research is in computational lexicography, and concerns not only the computer support to lexical resources useful for MT (machine translation) and MAHT (Machine Aided Human Translation), but also the linguistic architecture of lexical databases supporting these resources in an operational context (CIFRE thesis with L&M).We begin with a study of the evolution of ideas in this area, since the computerization of classical dictionaries to platforms for building up true "lexical databases" such as JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] and JIBIKI-2 [Zhang, Y. et al., 2014]. The starting point was the PIVAX-1 system [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] designed for lexical bases for heterogeneous MT systems with a lexical pivot, able to support multiple volumes in each "lexical space", be it natural or artificial (as UNL). Considering the industrial context, we focused our research on some issues, in informatics and lexicography.To scale up, and to add some new features enabled by JIBIKI-2, such as the "rich links", we have transformed PIVAX-1 into PIVAX-2, and reactivated the GBDLEX-UW++ project that started during the ANR TRAOUIERO project, by re-importing all (multilingual) data supported by PIVAX-1, and making them available on an open server.Hence a need for L&M for acronyms, we expanded the "macrostructure" of PIVAX incorporating volumes of "prolexemes" as in PROLEXBASE [Tran, M. & Maurel, D., 2006]. We also show how to extend it to meet new needs such as those of the INNOVALANGUES project. Finally, we have created a "lemmatisation middleware", LEXTOH, which allows calling several morphological analyzers or lemmatizers and then to merge and filter their results. Combined with a new dictionary creation tool, CREATDICO, LEXTOH allows to build on the fly a "mini-dictionary" corresponding to a sentence or a paragraph of a text being "post-edited" online under IMAG/SECTRA, which performs the lexical proactive support functionality foreseen in [Huynh, C.-P., 2010]. It could also be used to create parallel corpora with the aim to build MOSES-based "factored MT systems"
APA, Harvard, Vancouver, ISO, and other styles
6

Daoud, Mohammad. "Utilisation de ressources non conventionnelles et de méthodes contributives pour combler le fossé terminologique entre les langues en développant des "préterminologies" multilingues." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00583682.

Full text
Abstract:
Notre motivation est de combler le fossé terminologique qui grandit avec la production massive de nouveaux concepts (50 quotidiens) dans divers domaines, pour lesquels les termes sont souvent inventés d'abord dans une certaine langue bien dotée, telle que l'anglais ou le français. Trouver des termes équivalents dans différentes langues est nécessaire pour de nombreuses applications, telles que la RI translingue et la TA. Cette tâche est très difficile, particulièrement pour certaines langues très utilisées telles que l'arabe, parce que (1) seule une petite proportion de nouveaux termes est correctement enregistrée par des terminologues, et pour peu de langues ; (2) des communautés spécifiques créent continuellement des termes équivalents sans les normaliser ni même les enregistrer (terminologie latente) ; (3) dans de nombreux cas, aucuns termes équivalents ne sont créés, formellement ou informellement (absence de terminologie). Cette thèse propose de remplacer le but impossible de construire d'une manière continue une terminologie à jour, complète et de haute qualité pour un grand nombre de langues par celui de construire une preterminologie, en utilisant des méthodes non conventionnelles et des contributions passives ou actives par des communautés d'internautes : extraction de termes parallèles potentiels non seulement à partir de textes parallèles ou comparables, mais également à partir des logs (traces) des visites à des sites Web tels que DSR (Route de la Soie Digitale), et à partir de données produites par des jeux sérieux. Une préterminologie est un nouveau genre de ressource lexicale qui peut être facilement construit et a une bonne couverture. Suivant en ceci une tendance croissante en lexicographie computationnelle et en TALN en général, nous représentons une préterminologie multilingue par une structure de graphe (Preterminological Multilingual Graph, MPG), où les nœuds portent des prétermes et les arcs des relations préterminologiques simples (synonymie monolingue, traduction, généralisation, spécialisation, etc.) qui sont des approximations des relations (terminologiques ou ontologiques) usuelles. Un Système complet pour Éliciter une Préterminologie (SEPT) a été développé pour construire et maintenir des MPG. Des approches passives ont été expérimentées en développant un MPG pour le site Web culturel de DSR, et un autre pour le domaine de l'onirologie arabe : les ressources produites ont atteint une bonne couverture informationnelle et linguistique. L'approche indirecte par contribution active est testée depuis 8-9 mois sur l'instance arabe du jeu sérieux JeuxDeMots.
APA, Harvard, Vancouver, ISO, and other styles
7

Daoud, Mohammad. "Utilisation de ressources non conventionnelles et de méthodes contributives pour combler le fossé terminologique entre les langues en développant des "préterminologies" multilingues." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM090.

Full text
Abstract:
Notre motivation est de combler le fossé terminologique qui grandit avec la production massive de nouveaux concepts (50 quotidiens) dans divers domaines, pour lesquels les termes sont souvent inventés d'abord dans une certaine langue bien dotée, telle que l'anglais ou le français. Trouver des termes équivalents dans différentes langues est nécessaire pour de nombreuses applications, telles que la RI translingue et la TA. Cette tâche est très difficile, particulièrement pour certaines langues très utilisées telles que l'arabe, parce que (1) seule une petite proportion de nouveaux termes est correctement enregistrée par des terminologues, et pour peu de langues ; (2) des communautés spécifiques créent continuellement des termes équivalents sans les normaliser ni même les enregistrer (terminologie latente) ; (3) dans de nombreux cas, aucuns termes équivalents ne sont créés, formellement ou informellement (absence de terminologie). Cette thèse propose de remplacer le but impossible de construire d'une manière continue une terminologie à jour, complète et de haute qualité pour un grand nombre de langues par celui de construire une preterminologie, en utilisant des méthodes non conventionnelles et des contributions passives ou actives par des communautés d'internautes : extraction de termes parallèles potentiels non seulement à partir de textes parallèles ou comparables, mais également à partir des logs (traces) des visites à des sites Web tels que DSR (Route de la Soie Digitale), et à partir de données produites par des jeux sérieux. Une préterminologie est un nouveau genre de ressource lexicale qui peut être facilement construit et a une bonne couverture. Suivant en ceci une tendance croissante en lexicographie computationnelle et en TALN en général, nous représentons une préterminologie multilingue par une structure de graphe (Multilingual Preterminological Graph, MPG), où les nœuds portent des prétermes et les arcs des relations préterminologiques simples (synonymie monolingue, traduction, généralisation, spécialisation, etc. ) qui sont des approximations des relations (terminologiques ou ontologiques) usuelles. Un Système complet pour Éliciter une Préterminologie (SEPT) a été développé pour construire et maintenir des MPG. Des approches passives ont été expérimentées en développant un MPG pour le site Web culturel de DSR, et un autre pour le domaine de l'onirologie arabe : les ressources produites ont atteint une bonne couverture informationnelle et linguistique. L'approche indirecte par contribution active est testée depuis 8-9 mois sur l'instance arabe du jeu sérieux JeuxDeMots
Our motivation is to bridge the terminological gap that grows with the massive production of new concepts (50 daily) in various domains, for which terms are often first coined in some well-resourced language, such as English or French. Finding equivalent terms in different languages is necessary for many applications, such as CLIR and MT. This task is very difficult, especially for some widely used languages such as Arabic, because (1) only a small proportion of new terms is properly recorded by terminologists, and for few languages; (2) specific communities continuously create equivalent terms without normalizing and even recording them (latent terminology); (3) in many cases, no equivalent terms are created, formally or informally (absence of terminology). This thesis proposes to replace the impossible goal of building in a continuous way an up-to-date, complete and high-quality terminology for a large number of languages by that of building a preterminology, using unconventional methods and passive or active contributions by communities of internauts: extracting potential parallel terms not only from parallel or comparable texts, but also from logs of visits to Web sites such as DSR (Digital Silk Road), and from data produced by serious games. A preterminology is a new kind of lexical resource that can be easily constructed and has good coverage. Following a growing trend in computational lexicography and NLP in general, we represent a multilingual preterminology by a graph structure (Multilingual Preterminological Graph, MPG), where nodes bear preterms and arcs simple preterminological relations (monolingual synonymy, translation, generalization, specialization, etc. ) that approximate usual terminological (or ontological) relations. A complete System for Eliciting Preterminology (SEpT) has been developed to build and maintain MPGs. Passive approaches have been experimented by developing an MPG for the DSR cultural Web site, and another for the domain of Arabic oneirology: the produced resources achieved good informational and linguistic coverage. The indirect active contribution approach is being tested since 8-9 months using the Arabic instance of the JeuxDeMots serious game
APA, Harvard, Vancouver, ISO, and other styles
8

Le, Thi Hoang Diem. "Utilisation de ressources externes dans un modèle Bayésien de Recherche d'Information. Application à la recherche d'information multilingue avec UMLS." Phd thesis, Université Joseph Fourier (Grenoble), 2009. http://tel.archives-ouvertes.fr/tel-00463681.

Full text
Abstract:
Dans les systèmes de recherche d'information, une indexation à base de termes et une correspondance à base d'intersection introduisent le problème de la disparité à cause des variations linguistiques. Avec l'objectif de résoudre ce problème, notre travail de thèse se positionne dans l'utilisation des ressources externes dans la recherche d'information. Ces ressources offrent non seulement les concepts pour une indexation plus précise et indépendante de langue, mais aussi une base de relations sémantiques entre ces concepts. Nous étudions en premier une indexation par concepts extraits à partir d'une ressource externe. Nous proposons ensuite de prendre en compte ces relations sémantiques entre les concepts dans la correspondance par un modèle de recherche d'information basé sur un réseau Bayésien des concepts et leurs relations sémantiques. Ainsi, nous étudions les extensions de l'indexation conceptuelle à des documents et requête structurés et multi-médias. Les fonctions de reclassement et de combinaison ont été proposées afin d'améliorer la performance de la recherche dans ces contextes. La validation des propositions est effectuée par des expérimentations dans la recherche d'information multilingue médicale, avec l'utilisation du méta thésaurus UMLS comme ressource externe.
APA, Harvard, Vancouver, ISO, and other styles
9

Muller, Benjamin. "How Can We Make Language Models Better at Handling the Diversity and Variability of Natural Languages ?" Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS399.

Full text
Abstract:
Ces dernières années, le passage à l’échelle (scaling) des modèles de langues basés sur l’apprentissage profond — principalement en termes de taille de modèle, de taille de l’ensemble de données d’entraînement et de puissance de calcul d’entraînement — est devenu l’une des principales forces motrices des progrès empiriques en Traitement Automatique du Langage (TAL). Comme l’illustrent les exemples de (Peters et al., 2018b; Devlin et al., 2018a; Brown et al., 2020;Zhang et al., 2022; Chowdhery et al., 2022), cela conduit à de meilleures performances en apprentissage supervisé ainsi qu’à de meilleures capacités de zero-shot (i.e. sans données annotées pour une tâche dans une langue donnée) et de few-shot (i.e. pour une quantité très limitée de données annotées) et cela pour une grande variété de tâches. Dans cette thèse, nous travaillons avec des modèles monolingues et multilingues de type BERT (Devlin et al., 2018a). Pour répondre à notre principale question de recherche: “Comment rendre les modèles de langue meilleurs face à la diversité et la variabilité des langues?” Nous explorons trois directions principales.1. Analyses comportementales (behavioral) et structurelles des modèles de langues 2. Approche de réduction des différences de domaine 3. Approche par technique d’adaptation. Tout d’abord, les modèles de langues de type BERT sont des objets complexes. La première étape de cette thèse a été de mener des analyses approfondies pour comprendre le comportement de ces modèles dans différents scénarios d’entraînement et de test (behavioral analysis). Ces analyses ont été enrichies par des études structurelles des modèles en décrivant leur fonctionnement interne. Ensuite, nous nous sommes concentrés sur une approche de réduction de l’écart entre les domaines. Dans cette approche, l’objectif est de rendre les données hautement variables hors domaine plus similaires aux données d’apprentissage. Enfin, nous présentons des techniques d’adaptation qui modélisent directement les données hors-domaine ou dans une langue différente des données d’apprentissage
Deep Learning for NLP has led to impressive empirical progress in recent years. In essence, this progress is based on better contextualized representations that can be easily used for a wide variety of tasks. However, these models usually require substantial computing power and large amounts of raw textual data. This makes language’s inherent diversity and variability a vivid challenge in NLP. We focus on the following: How can we make language models better at handling the variability and diversity of natural languages?. First, we explore the generalizability of language models by building and analyzing one of the first large-scale replication of a BERT model for a non-English language. Our results raise the question of using these language models on highly-variable domains such as these found online. Focusing on lexical normalization, we show that this task can be approached with BERT-like models. However, we show that it only partially helps downstream performance. In consequence, we focus on adaptation techniques using what we refer to as representation transfer and explore challenging settings such as the zero-shot setting, low-resource languages. We show that multilingual language models can be adapted and used efficiently with low-resource languages, even with the ones unseen during pretraining, and that the script is a critical component in this adaptation
APA, Harvard, Vancouver, ISO, and other styles
10

Le, Thi Hoang Diem. "Utilisation de ressources externes dans un modèle Bayésien de recherche d'information : application à la recherche d'information médicale multilingue avec UMLS." Phd thesis, Grenoble 1, 2009. http://www.theses.fr/2009GRE10073.

Full text
Abstract:
Dans les systèmes de recherche d'information, une indexation à base de termes et une correspondance à base d'intersection introduisent le problème de la disparité à cause des variations linguistiques. Avec l'objectif de résoudre ce problème, notre travail de thèse se positionne dans l'utilisation des ressources externes dans la recherche d'information. Ces ressources offrent non seulement les concepts pour une indexation plus précise et indépendante de langue, mais aussi une base de relations sémantiques entre ces concepts. Nous étudions en premier une indexation par concepts extraits à partir d'une ressource externe. Nous proposons ensuite de prendre en compte ces relations sémantiques entre les concepts dans la correspondance par un modèle de recherche d'information basé sur un réseau Bayésien des concepts et leurs relations sémantiques Ainsi, nous étudions les extensions de l'indexation conceptuelle à des documents et requête structurés et multi-médias. Les fonctions de reclassement et de combinaison ont été proposées afin d'améliorer la performance de la recherche dans ces contextes. La validation des propositions est effectuée par des expérimentations dans la recherche d'information multilingue médicale, avec l'utilisation du méta thésaurus UMLS comme ressource externe
With the availability of external resources to documents, the Information Retrieval Systems evolve. These resources provide not only information on the terms and concepts for a more precise indexing, but also the semantic relations between these terms or concepts. Our thesis work lies in the use of external resources in information retrieval. We study firstly the indexing conceptual in comparison with term-based indexing. The problem arrise when the documents and the query don't share the same concepts, but the concepts of the documents are semantically related with the concepts of the query. We propose to take into account these semantic relationships between concepts by a information retrieval model which is based on a Bayesian network of concepts and their semantic relationships. Ln addition, we propose the use of knowledge of the problem from external ressource to improve the performance of retrieval. The validation of the proposed mode is achieved by experiments in the medical domaine information retrieval, with the use of meta thesaurus UMU as external resource. The application for a system of information retrieval multi modality (text and images) was also performed
APA, Harvard, Vancouver, ISO, and other styles
11

Bayeh, Rania. "Reconnaissance de la parole multilingue : adaptation de modèles acoustiques vers une langue cible." Paris, Télécom ParisTech, 2009. http://www.theses.fr/2009ENST0060.

Full text
Abstract:
Le traitement de la parole est devenu une technologie clé et des systèmes de reconnaissance automatique de la parole (RAP) sont disponibles pour les langues populaires. Les utilisateurs de tels systèmes ne sont pas toujours des locuteurs natals et les conversations sont souvent un mélange de langues variées. Alors, un système pour la reconnaissance de plusieurs langues est nécessaire. Dans le cadre de la RAP multilingue et avec l'objectif de la modélisation acoustique universelle, cette thèse vise le «portage» des modèles acoustiques (MA) d'une langue peu-dotées à partir des MA d'une langue populaire. L’approche dite «portage» consiste à trouver une association entre les unités de la langue source et celles de la langue cible, initialiser les MA cibles à partir de cette association et finalement adapter ces modèles avec peu de données. Des méthodes «knowledge-driven» et «data-driven» sont étudiées pour l’association entre l’Arabe Standard (langue cible) et le Français (langue source) pour différents types d’élocution et d’applications. A partir des associations obtenues, chaque MA HMM cible indépendant du contexte (CI) est initialisé d'un seul modèle acoustique HMM source et une adaptation de ces modèles est appliquée. Pour l’initialisation des MA cible a partir de plusieurs MA source, de nouveaux modèles «multi-path» sont proposés. En plus, Les MA dépendant du contexte (CD) sont meilleure que ceux indépendant du contexte pour la RAP monolingue et multilingue. Alors, différentes méthodes sont ainsi proposées pour porter des MA CD d’une langue source à une langue cible avec peu de données. Toutes approches sont aussi validées pour une nouvelle langue, L’arabe dialectale
Speech processing has become a key technology where different automatic speech recognition (ASR) systems are available for popular languages. With the constant interaction of different cultures, not all users of such systems are native speakers & conversations are often a mixture of several languages which is challenging for ASR. Therefore, a multilingual ASR system is needed. This thesis focuses on efficiently porting the acoustic models (AM) of an under resourced target language using the acoustic models of a more resourced source language with the goal of universal acoustic modeling. Different approaches are suggested & tested for porting models for the recognition of Modern Standard Arabic starting from French for different types of speech & applications. Porting includes the association of speech units, initialization & adaptation of AM. Initially, methods are proposed for the creation of one-to-one phone associations by a human expert or using an automatic data-driven approach. Initialization is done at the context independent level by copying Hidden Markov Models (HMM) target language phone models from a source language HMM phone model based on these associations. Resulting models are adapted using different amounts of target language data. Then, novel methods for one-to-many associations are introduced & multi-path models are used for initialization. Moreover, since the superiority of context dependency extends to cross-lingual & multilingual, different approaches are proposed to create context dependent AM for the under resourced target language using robust AM from a source language. Approaches are also validated for a new language, Colloquial Levantine Arabic
APA, Harvard, Vancouver, ISO, and other styles
12

Ellouze, Nebrasse. "Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable." Phd thesis, Conservatoire national des arts et metiers - CNAM, 2010. http://tel.archives-ouvertes.fr/tel-00555929.

Full text
Abstract:
Cette thèse aborde les problématiques liées à la construction de Topic Maps et à leur utilisation pour la recherche d'information dans le cadre défini par le Web sémantique (WS). Le WS a pour objectif de structurer les informations disponibles sur le Web. Pour cela, les ressources doivent être sémantiquement étiquetées par des métadonnées afin de permettre d'optimiser l'accès à ces ressources. Ces métadonnées sont actuellement spécifiées à l'aide des deux standards qui utilisent le langage XML : RDF et les Topic Maps. Un contenu à organiser étant très souvent volumineux et sujet à enrichissement perpétuel, il est pratiquement impossible d'envisager une création et gestion d'une Topic Map, le décrivant, de façon manuelle. Plusieurs travaux de recherche ont concerné la construction de Topic Maps à partir de documents textuels [Ellouze et al. 2008a]. Cependant, aucune d'elles ne permet de traiter un contenu multilingue. De plus, bien que les Topic Maps soient, par définition, orientées utilisation (recherche d'information), peu d'entre elles prennent en compte les requêtes des utilisateurs.Dans le cadre de cette thèse, nous avons donc conçu une approche que nous avons nommée ACTOM pour " Approche de Construction d'une TOpic Map Multilingue ". Cette dernière sert à organiser un contenu multilingue composé de documents textuels. Elle a pour avantage de faciliter la recherche d'information dans ce contenu. Notre approche est incrémentale et évolutive, elle est basée sur un processus automatisé, qui prend en compte des documents multilingues et l'évolution de la Topic Map selon le changement du contenu en entrée et l'usage de la Topic Map. Elle prend comme entrée un référentiel de documents que nous construisons suite à la segmentation thématique et à l'indexation sémantique de ces documents et un thésaurus du domaine pour l'ajout de liens ontologiques. Pour enrichir la Topic Map, nous nous basons sur deux ontologies générales et nous explorons toutes les questions potentielles relatives aux documents sources. Dans ACTOM, en plus des liens d'occurrences reliant un Topic à ses ressources, nous catégorisons les liens en deux catégories: (a) les liens ontologiques et (b) les liens d'usage. Nous proposons également d'étendre le modèle des Topic Maps défini par l'ISO en rajoutant aux caractéristiques d'un Topic des méta-propriétés servant à mesurer la pertinence des Topics plus précisément pour l'évaluation de la qualité et l'élagage dynamique de la Topic Map.
APA, Harvard, Vancouver, ISO, and other styles
13

Bella, Gábor. "Modélisation de texte numérique multilingue : vers un modèle général et extensible fondé sur le concept de textème." Télécom Bretagne, 2008. http://www.theses.fr/2008TELB0067.

Full text
Abstract:
Cette thèse s'intéresse aux modèles de texte numériques, plus précisément à la définition même des éléments textuels atomiques et à la manière dont le texte se compose à partir de ceux-ci. En réponse aux besoins d'internationalisation des systèmes informatiques, les modèles de texte historiques, basés sur l'idée de la table de codage, ont été enrichis par des connaissances semi-formelles liées aux systèmes d'écriture, connaissances qui sont désormais essentielles pour l'exécution de la moindre opération textuelle. Ainsi sont nés le codage de caractères Unicode et les formats de fonte dits " intelligents ". Par la réalisation que cet enrichissement ne représente que le début d'une convergence vers des modèles fondés sur des principes de la représentation des connaissances, nous proposons une approche alternative à la modélisation de texte, selon laquelle l'élément textuel se définit non comme une entrée d'une table mais par les propriétés qui le décrivent. Le formalisme que nous établissons - initialement développé dans le cadre de la représentation des connaissances - nous fournit une méthodologie pour définir, pour la première fois de manière précise, des notions telles que caractère, glyphe ou usage, mais aussi de concevoir l'élément textuel généralisé que nous appelons textème et qui devient l'atome d'une famille de nouveaux modèles de texte. L'étude de ces modèles nous amène ensuite à comprendre et à formaliser, du moins en partie, des phénomènes tels que la contextualité ou la dépendance entre éléments textuels, phénomènes qui sont également présents, même si parfois de manière cachée, dans les modèles actuels. Dans la thèse nous analysons également les enjeux liés à l'implémentation des modèles proposés
This thesis is concerned with the modelling of electronic text. This modelling involves the definition both of the atomic text elements and of the way these elements join together to form textual structures. In response to the growing need for internationalisation of information systems, historical models of text, based on the concept of code tables, have been extended by semi-formalised knowledge related to the writing system so that, by now, such knowledge is essential to text processing of even the simplest kind. Thus were born the Unicode character encoding and the so-called 'intelligent' font formats. Realising that this phenomenon marks only the beginning of a convergence towards models based on the principles of knowledge representation, we here propose an alternative approach to text modelling that defines a text element not as a table entry but through the properties that describe the element. The formal framework that we establish, initially developed for the purposes of knowledge representation, provides us with a method by which precise formal definitions can be given to much-used but ill-defined notions such as character, glyph, or usage. The same framework allows us to define a generalised text element that we call a texteme, the atomic element on which a whole family of new text models is based. The study of these models then leads us to the understanding
APA, Harvard, Vancouver, ISO, and other styles
14

Haton, Sébastien. "Analyse et modélisation de la polysémie verbale dans une perspective multilingue : le dictionnaire bilingue vu dans un miroir." Nancy 2, 2006. http://www.theses.fr/2006NAN21016.

Full text
Abstract:
On observe dans les dictionnaires bilingues une forte asymétrie entre les deux parties d'un même dictionnaire et l'existence de traductions et d'informations "cachées", i. E. Pas directement visibles à l'entrée du mot à traduire. L'objectif de cette thèse est de proposer une méthodologie de récupération des données cachées ainsi que la "symétrisation" du dictionnaire grâce au TAL. L'étude d'un certain nombre de verbes et de leurs traductions en plusieurs langues a conduit à l'intégration de toutes les données, visibles ou cachées, au sein d'une base de données unique et multilingue. La réflexion est enrichie par une étude du comportement de certains verbes en contexte. L'objectif est d'enrichir les données lexicographiques par les données attestées sans remettre en cause les premières. Enfin, l'exploitation de la base de données a été rendue possible par l'écriture d'un algorithme de création de graphe synonymique qui lie dans un même espace les mots de langues différentes
Lexical asymmetry and hidden data, i. E. Not directly visible into one lexical entry, are phenomena peculiar to most of the bilingual dictionaries. Our purpose is to establish a methodology to highlight both phenomena by extracting hidden data from the dictionary and by re-establishing symmetry between its two parts. So we studied a large number of verbs and integrated them into a unique multilingual database. In order to offset some lacks of the lexicography, we also studied verb occurrences from a literary database. The purpose is to expand dictionaires' data without criticizing these ones. At last, our database is turned into a "multilexical" graph thanks to an algorithm, which is binding words from different languages into the same semantic space
APA, Harvard, Vancouver, ISO, and other styles
15

El, Abed Walid. "Meta modèle sémantique et noyau informatique pour l'interrogation multilingue des bases de données en langue naturelle (théorie et application)." Besançon, 2001. http://www.theses.fr/2001BESA1014.

Full text
Abstract:
L'interrogation d'une base de données relationnelles, par un non spécialiste, constitue un véritable problème. En effet, l'utilisateur final doit au préalable connaître le langage de requête SQL (Structured Query Langage) et la structure, souvent complexe, de la base de données. Dans un tel contexte, il devient essentiel d'organiser des domaines interrogeables en langue naturelle. Un domaine est une base de données regroupant toute l'information pertinente autour d'un thème ou d'un sujet offrant ainsi la possibilité à l'utilisateur d'accéder à l'information sur le sujet en utilisant le langage naturel. . .
APA, Harvard, Vancouver, ISO, and other styles
16

Ellouze, Nebrasse. "Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable." Electronic Thesis or Diss., Paris, CNAM, 2010. http://www.theses.fr/2010CNAM0736.

Full text
Abstract:
Cette thèse aborde les problématiques liées à la construction de Topic Maps et à leur utilisation pour la recherche d’information dans le cadre défini par le Web sémantique (WS). Le WS a pour objectif de structurer les informations disponibles sur le Web. Pour cela, les ressources doivent être sémantiquement étiquetées par des métadonnées afin de permettre d'optimiser l'accès à ces ressources. Ces métadonnées sont actuellement spécifiées à l'aide des deux standards qui utilisent le langage XML : RDF et les Topic Maps. Un contenu à organiser étant très souvent volumineux et sujet à enrichissement perpétuel, il est pratiquement impossible d’envisager une création et gestion d’une Topic Map, le décrivant, de façon manuelle. Plusieurs travaux de recherche ont concerné la construction de Topic Maps à partir de documents textuels [Ellouze et al. 2008a]. Cependant, aucune d’elles ne permet de traiter un contenu multilingue. De plus, bien que les Topic Maps soient, par définition, orientées utilisation (recherche d’information), peu d’entre elles prennent en compte les requêtes des utilisateurs.Dans le cadre de cette thèse, nous avons donc conçu une approche que nous avons nommée ACTOM pour « Approche de Construction d’une TOpic Map Multilingue ». Cette dernière sert à organiser un contenu multilingue composé de documents textuels. Elle a pour avantage de faciliter la recherche d’information dans ce contenu. Notre approche est incrémentale et évolutive, elle est basée sur un processus automatisé, qui prend en compte des documents multilingues et l’évolution de la Topic Map selon le changement du contenu en entrée et l’usage de la Topic Map. Elle prend comme entrée un référentiel de documents que nous construisons suite à la segmentation thématique et à l’indexation sémantique de ces documents et un thésaurus du domaine pour l’ajout de liens ontologiques. Pour enrichir la Topic Map, nous nous basons sur deux ontologies générales et nous explorons toutes les questions potentielles relatives aux documents sources. Dans ACTOM, en plus des liens d’occurrences reliant un Topic à ses ressources, nous catégorisons les liens en deux catégories: (a) les liens ontologiques et (b) les liens d’usage. Nous proposons également d’étendre le modèle des Topic Maps défini par l’ISO en rajoutant aux caractéristiques d’un Topic des méta-propriétés servant à mesurer la pertinence des Topics plus précisément pour l’évaluation de la qualité et l’élagage dynamique de la Topic Map
The research work in this thesis is related to Topic Map construction and their use in semantic annotation of web resources in order to help users find relevant information in these resources. The amount of information sources available today is very huge and continuously increasing, for that, it is impossible to create and maintain manually a Topic Map to represent and organize all these information. Many Topic Maps building approaches can be found in the literature [Ellouze et al. 2008a]. However, none of these approaches takes as input multilingual document content. In addition, although Topic Maps are basically dedicated to users navigation and information search, no one approach takes into consideration users requests in the Topic Map building process. In this context, we have proposed ACTOM, a Topic Map building approach based on an automated process taking into account multilingual documents and Topic Map evolution according to content and usage changes. To enrich the Topic Map, we are based on a domain thesaurus and we propose also to explore all potential questions related to source documents in order to represent usage in the Topic Map. In our approach, we extend the Topic Map model that already exists by defining the usage links and a list of meta-properties associated to each Topic, these meta-properties are used in the Topic Map pruning process. In our approach ACTOM, we propose also to precise and enrich semantics of Topic Map links so, except occurrences links between Topics and resources, we classify Topic Map links in two different classes, those that we have called “ontological links” and those that we have named “usage links”
APA, Harvard, Vancouver, ISO, and other styles
17

Montariol, Syrielle. "Models of diachronic semantic change using word embeddings." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG006.

Full text
Abstract:
Dans cette thèse, nous étudions les changements lexico-sémantiques : les variations temporelles dans l'usage et la signification des mots, également appelé extit{diachronie}. Ces changements reflètent l'évolution de divers aspects de la société tels que l'environnement technologique et culturel.Nous explorons et évaluons des méthodes de construction de plongements lexicaux variant dans le temps afin d'analyser l'évolution du language. Nous utilisont notamment des plongements contextualisés à partir de modèles de langue pré-entraînés tels que BERT.Nous proposons plusieurs approches pour extraire et agréger les représentations contextualisées des mots dans le temps, et quantifier leur degré de changement sémantique. En particulier, nous abordons l'aspect pratique de ces systèmes: le passage à l'échelle de nos approches, en vue de les appliquer à de grands corpus ou de larges vocabulaire; leur interprétabilité, en désambiguïsant les différents usages d'un mot au cours du temps; et leur applicabilité à des problématiques concrètes, pour des documents liés au COVID19 et des corpus du domaine financier. Nous évaluons l'efficacité de ces méthodes de manière quantitative, en utilisant plusieurs corpus annotés, et de manière qualitative, en liant les variations détectées dans des corpus avec des événements de la vie réelle et des données numériques.Enfin, nous étendons la tâche de détection de changements sémantiques au-delà de la dimension temporelle. Nous l'adaptons à un cadre bilingue, pour étudier l'évolution conjointe d'un mot et sa traduction dans deux corpus de langues différentes; et à un cadre synchronique, pour détecter des variations sémantiques entre différentes sources ou communautés en plus de la variation temporelle
In this thesis, we study lexical semantic change: temporal variations in the use and meaning of words, also called extit{diachrony}. These changes are carried by the way people use words, and mirror the evolution of various aspects of society such as its technological and cultural environment.We explore, compare and evaluate methods to build time-varying embeddings from a corpus in order to analyse language evolution.We focus on contextualised word embeddings using pre-trained language models such as BERT. We propose several approaches to extract and aggregate the contextualised representations of words over time, and quantify their level of semantic change.In particular, we address the practical aspect of these systems: the scalability of our approaches, with a view to applying them to large corpora or large vocabularies; their interpretability, by disambiguating the different uses of a word over time; and their applicability to concrete issues, for documents related to COVID19We evaluate the efficiency of these methods quantitatively using several annotated corpora, and qualitatively by linking the detected semantic variations with real-life events and numerical data.Finally, we extend the task of semantic change detection beyond the temporal dimension. We adapt it to a bilingual setting, to study the joint evolution of a word and its translation in two corpora of different languages; and to a synchronic frame, to detect semantic variations across different sources or communities on top of the temporal variation
APA, Harvard, Vancouver, ISO, and other styles
18

Moumtzidou, Argyro. "L'éveil aux langues dans la formation des enseignant/es grec/ques : vers un modèle dynamique de formation-action." Thesis, Le Mans, 2011. http://www.theses.fr/2011LEMA3013/document.

Full text
Abstract:
L'éducation interculturelle dans la formation des enseignants ne se limite pas à l'idée de la tolérance et de l'acceptation de l'autre. elle comporte trois principes cohérents : l'éveil et le renforcement de la réflexion critique chez l'enseignant, son intérêt et sa flexibilité à gérer des innovations dans l'éducation, la construction d'une conception plus globale et d'une gestion plus efficace de la complexité sociale et humaine. notre travail présente une recherche-action qui a duré deux ans et qui a visé à la formation (longue durée) des enseignants grecs. elle s'est basée sur l'hypothèse générale que l'éveil aux langues est susceptible de créer chez les enseignants des savoirs, des attitudes et des aptitudes qui leur permettent de mieux valoriser le capital linguistique et culturel de leurs élèves ainsi que de leur donner un ensemble de pratiques et une typologie de compétences qui leur permettraient de faire des choses avec les langues dans tous les domaines disciplinaires. de plus nous considérons qu'une formation de type recherche-action sur l'innovation éveil aux langues est susceptible d'aider les enseignants à mieux valoriser le capital linguistique et culturel de leurs élèves, à développer l'interculturalité sous ses divers aspects dans leurs pratiques éducatives ainsi que de mener à bien une éducation langagière en fonction des besoins et des capacités de petits locuteurs de langues variées et sur le plan d'une sensibilisation systématique aux compétences métalinguistiques, métacognitives et interculturelles
Intercultural Training in teacher education is not limited to the idea of tolerance and acceptance of others. It consists of three integrated principles: the awakening and strengthening of critical thinking among the teacher, his interest in the implementation of educational innovation and the ability to build a more holistic view and more effective management of human and social complexity. Our work presents an action-research project that lasted two years and was aimed at training (long-term) of the Greek teachers. The final sample who participated in our research is 10 persons, all early childhood, primary and high school teachers who are working in multilingual classes. The training model called "Evolutionary training model" is based on the general assumption that the innovation of the Awakening to Languages, when en-golfed by teachers education, may create among teachers knowledge, attitudes and skills that enable them to make better use of the linguistic and cultural capital of their students and provide them a set of practices and a typology of skills that can facilitate them to work with languages throughout the curriculum. To test our hypothesis we chose a triangular approach. Research tools in part have been developed by us, in part from comparable research. These are two types of questionnaires, group interviews recorded and transcribed. In addition, we have based on our own observations as well as the experiment conducted by teachers in multilingual early childhood and primary school classes. In our participatory and action-oriented training, a second set of assumptions has emerged : our long group discussions, individual interviews, our observations have led us to ask whether a dynamic and systemic approach to the type of action-research training, as has been the training at the Awakening Languages, may create the necessary conditions, intra psychic and intra groupal so that the teachers develop a reflexive attitude towards their own, representations, manage their own social and professional problems in a dynamic way and stop feeling professional isolation. The main conclusion is that before talking about an effective intercultural education, we need to modify some elements in the socio-professional and personal identity of the teachers because the innovation of Awakening to Languages can help teachers realize their own representations of linguistic and cultural diversity in the classroorn, as well as their teaching practices and renegotiate with them
APA, Harvard, Vancouver, ISO, and other styles
19

Tiryakioglu, Gulay. "EFL learners' writing processes : the relationship between linguistic knowledge, composing processes and text quality." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSE2047.

Full text
Abstract:
L'écriture est un processus complexe à la fois dans la langue première (L1) et dans une langue étrangère ou seconde (L2). Les recherches sur les processus d'écriture en langue seconde et en langue étrangère se multiplient, grâce à l'existence d'outils de recherche qui nous permettent d'examiner de plus près ce que les apprenants font réellement dans leurs langues lorsqu'ils écrivent (Hyland, 2016; Van Waes et al., 2012; Wengelin et al., 2019) ; les recherches sur les comportements d'écriture plurilingue restent cependant rares. Cette étude examine la relation entre la connaissance de la langue, les compétences en dactylographie, les processus d'écriture (fluidité d'écriture, pauses et révisions) et la qualité des textes écrits par 30 collégiens français (14-15 ans), lors de l'écriture dans leur premier (français) et deuxième (anglais) langues. Dans la seconde étude, nous avons examiné cette relation complexe au sein d'un sous-groupe de 15 élèves bilingue turcophone (14-15 ans, résidant en France) lors de l'écriture dans leur langue d'origine (turc), langue scolaire (français) et l'anglais (une langue étrangère, également apprise à l'école). La troisième étude explore cetterelation complexe entre le sous-groupe de 17 apprenants bilingues (15 apprenants turcophone et 2 apprenants arabe-français) et 13 apprenants monolingues français.Nous avons utilisé un plan d'étude à méthode mixte: une combinaison d'enregistrement des touches tapées au clavier, de questionnaires avant et après l'écriture, de textes écrits par les élèves et d'entretiens de rappel stimulé. Nos participants ont effectué trois tâches d'écriture (une tâche de copie, une tâche descriptive et une tâche narrative) dans chaque langue à l'ordinateur à l'aide de l'outil d'enregistrement des touches tapées au clavier, Inputlog (Leijten & Van Waes, 2013). L'enregistrement des touches tapées au clavier (possibilité de mesurer avec précision le comportement de frappe), qui s'est développée au cours des deux dernières décennies, permet une investigation empirique des comportements de frappe lors de l'écriture à l'ordinateur. Les données relatives aux processus d'écriture ont été analysées à partir de ces données d'Inputlog: la fluidité d'écriture a été mesurée en caractères par minute, mots par minute et la moyenne des caractères entre deux pause en rafales de pause (de 2000 millisecondes); les hésitations ont été mesurées par le nombre de pauses, la durée des pauses et leur emplacement (à l'intérieur ou entre les mots); les révisions ont été mesurées en nombre de suppressions et d'ajouts, et en rafales de révision (le nombre moyenne d’ajouts et suppressions entre deux longues pauses de 2000 millisecondes). La vitesse de frappe a été mesurée avec une tâche de copie dans chaque langue du projet; cette tâche de copie est corrigée automatiquement par Inputlog ; nous avons développé cette tâche en turc pour notre étude, et elle a été normalisée et figure maintenant comme partie intégrante du logiciel, pour d’autres utilisateurs. Pour évaluer la qualité des textes écrits par nos apprenants, une équipe d'évaluateurs a utilisé une échelle d'évaluation holistique et analytique pour juger du contenu, de l'organisation et de l'utilisation de lalangue dans les textes en L1, L2 et L3 ; nous avons ensuite comparé cette évaluation qualitative aux mesures quantitatives obtenus dans Inputlog. Nous avons également recueilli des données avec un protocole de rappel stimulé auprès d'un sous-groupe de sept scripteurs, pendant qu'ils regardaient les données enregistrées sur Inputlog se dérouler à l’écran (avec la fonction Replay); ce processus fascinant nous a permis d’obtenir des informations liées aux pensées des écrivains lors des pauses et révisions longues. Enfin, nous avons obtenu d’autres informations sur les comportements d’écriture des participants en dehors de la classe à l’aide d’un questionnaire
Writing is a complex process both in the first language (L1) and in a foreign or second language (L2). Researchon second- and foreign-language writing processes is increasing, thanks to the existence of research tools thatenable us to look more closely at what language learners actually do as they write (Hyland, 2016; Van Waes etal., 2012; Wengelin et al., 2019); research on plurilingual writing behaviour remains, however, scarce. Thisstudy looks at the relationship between knowledge of language, typing skills, writing processes (writing fluency,pauses and revisions) and the quality of texts written by 30 middle school French students (14-15 years old),during writing in their first (French), and second (English) languages. In the second study, we looked at thiscomplex relationship among a sub-group of 15 middle school French-Turkish bilingual students (14-15 yearsold, residing in France) during writing in their home language (Turkish), school language (French), and English(a foreign language, also learned at school). The third study explores this complex relationship between thesubgroup of 17 bilingual learners (15 Turkish-French bilinguals and 2 Arabic-French bilinguals) and 13 Frenchmonolingual learners.We used a mixed-method study design: a combination of keystroke loggings, pre- and post-writingquestionnaires, students' written texts and stimulated recall interviews. Our participants performed three writingtasks (a copy task, a descriptive and a narrative task) in each language on the computer using the keystrokeloggingtool Inputlog (Leijten & Van Waes, 2013). Keystroke logging (the possibility of measuring precisetyping behaviour), which has developed over the past two decades, enables empirical investigation of typingbehaviour during writing. Data related to writing processes were analyzed from this Inputlog data: writingfluency was measured as characters per minute, words per minute, and mean pause-bursts (text producedbetween two pauses of 2000 milliseconds); pausing was measured as numbers of pauses, pause length, andlocation (within and between words); and revisions were measured as numbers of deletions and additions, andrevision-bursts (additions and deletions between two long pauses of 2000 milliseconds). Typing speed wasmeasured with the Inputlog copy task tool in three languages; we developed the Turkish copy task for our study,and it has been standardized and added to the Inputlog software. To assess text quality, a team of evaluatorsused both a holistic and an analytical rating scale to judge content, organization and language use in the L1, L2and L3 texts, and this qualitative assessment is compared with the quantitative Inputlog measures. We alsocollected stimulated recall protocol data from a focus group of seven writers, as they watched the keystrokelogged data unfold; this fascinating process enabled us to obtain information related to the writers’ thoughtsduring long pauses and revisions. Finally, we obtained background data on the participants’ writing behaviorsoutside the classroom with a questionnaire.Analyses of the keystroke logging data reveal important differences between L1 and L2 as well as between L1,L2 and L3 writing processes, which appear to be linked to our bilingual subjects’ linguistic backgrounds, andespecially their contact with written Turkish (Akinci, 2016). Writing processes were more fluent in French, withlonger pause-bursts, fewer pauses and revisions than writing in English and Turkish. Post-hoc comparisons ofwriting processes in the three project languages show that although there are significant differences betweenFrench and Turkish/English writing processes, English and Turkish writing processes are similar, with,however, significant fluency differences
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography