Log in

Relevant bibliographies by topics / Modélisation multilingue

Contents

Journal articles
Dissertations / Theses

Academic literature on the topic 'Modélisation multilingue'

Author: Grafiati

Published: 1 February 2025

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Modélisation multilingue.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Modélisation multilingue"

1

Carsenty, Stéphane. "Quel rôle pour le corpus dans la modélisation ontoterminologique multilingue : l’exemple de la balance des paiements." Studia Romanica Posnaniensia 49, no. 4 (January 9, 2023): 9–25. http://dx.doi.org/10.14746/strop.2022.494.001.

Full text

Abstract:

This paper presents the role a specialised corpus can play in the ontoterminological modelling (Roche 2007b) of the balance of payments (IMF, 2009). It presents the domain of the balance of payments and the characteristics of a corpus of texts produced in English, in French and in German by thirteen central banks and statistics offices, which will be used for terminological work. The analysis leads to a typology of the texts grouped in the corpus. Far from only providing examples for knowledge collected from experts, this corpus will be analysed from the very stage of elaborating the concept system.

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Modélisation multilingue"

1

Tan, Tien Ping. "Reconnaissance automatique de la parole non-native." Grenoble 1, 2008. http://www.theses.fr/2008GRE10096.

Full text

Abstract:

Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d’enregistrements en grande quantité de parole non native est souvent difficile et peu réaliste pour représenter toutes les origines des locuteurs. Dans cette thèse, nous proposons des approches pour adapter les modèles acoustiques et de prononciation sous différentes conditions de ressource pour les locuteurs non natifs. Un travail préliminaire sur l’identification d’accent a également proposé. Ce travail de thèse repose sur le concept de modélisation acoustique translingue qui permet de représenter les locuteurs non natifs dans un espace multilingue sans utiliser (ou en utilisant très peu) de parole non native. Une approche hybride d’interpolation et de fusion est proposée pour l’adaptation des modèles en langue cible en utilisant une collection de modèles acoustiques multilingues. L’approche proposée est également utile pour la modélisation du contexte de prononciation. Si, en revanche, des corpus multilingues sont disponibles, des méthodes d’interpolation peuvent être utilisées pour l’adaptation à la parole non native. Deux d'entre elles sont proposées pour une adaptation supervisée et peuvent être employées avec seulement quelques phrases non natives. En ce qui concerne la modélisation de la prononciation, deux approches existantes (l’une fondée sur la modification du dictionnaire de prononciation, l’autre fondée sur la définition d’un score de prononciation utilisé dans une phase de re-scoring) sont revisitées dans cette thèse et adaptées pour fonctionner sur une quantité de données limitée. Une nouvelle approche de groupement de locuteurs selon leurs habitudes de prononciation, est également présentée : nous l’appelons « analyse de prononciation latente ». Cette approche se révèle également utile pour améliorer le modèle de prononciation pour la reconnaissance automatique de la parole non native. Enfin, une méthode d’identification d’accent est proposée. Elle nécessite une petite quantité de parole non native pour créer les modèles d’accents. Ceci est rendu possible en utilisant la capacité de généralisation des arbres de décision et en utilisant des ressources multilingues pour augmenter la performance du modèle d’accent
Automatic speech recognition technology has achieved maturity, where it has been widely integrated into many systems. However, speech recognition system for non-native speakers still suffers from high error rate, which is due to the mismatch between the non-native speech and the trained models. Recording sufficient non-native speech for training is time consuming and often difficult. In this thesis, we propose approaches to adapt acoustic and pronunciation model under different resource constraints for non-native speakers. A preliminary work on accent identification has also been carried out. Multilingual acoustic modeling has been proposed for modeling cross-lingual transfer of non-native speakers to overcome the difficulty in obtaining non-native speech. In cases where multilingual acoustic models are available, a hybrid approach of acoustic interpolation and merging has been proposed for adapting the target acoustic model. The proposed approach has also proven to be useful for context modeling. However, if multilingual corpora are available instead, a class of three interpolation methods has equally been introduced for adaptation. Two of them are supervised speaker adaptation methods, which can be carried out with only few non-native utterances. In term of pronunciation modeling, two existing approaches which model pronunciation variants, one at the pronunciation dictionary and another at the rescoring module have been revisited, so that they can work under limited amount of non-native speech. We have also proposed a speaker clustering approach called “latent pronunciation analysis” for clustering non-native speakers based on pronunciation habits. This approach can also be used for pronunciation adaptation. Finally, a text dependent accent identification method has been proposed. The approach can work with little amount of non-native speech for creating robust accent models. This is made possible with the generalizability of the decision trees and the usage of multilingual resources to increase the performance of the accent models

APA, Harvard, Vancouver, ISO, and other styles

2

Zhu, Dong. "Modélisation acoustique multilingue pour l'identification automatique de la langue et la transcription de la parole." Paris 11, 2007. http://www.theses.fr/2007PA112132.

Full text

Abstract:

An automatic language identification system (LID) aims at identifying the identity of a spoken language using a short speech sample of an unknown speaker. The LID problem can be viewed as a stochastic process of language generation. An adaption to the LID problem, of the source-channel model commonly used for automatic language transcription is proposed. An important challenge, for the researchers in LID, consist in developing approaches and methods which make limited use of explicit knowledge concerning the languages to be processed. In order to guarantee an easy extension to additional languages, multilingual << phonemic>> symbol sets have been designed and multilingual or language-independent acoustic models have been estimated and experimented with using a restricted number of languages. The challenge is have them cover the acoustic space corresponding to the capacities of the human vocal apparatus. The definition and the use of multilingual phonemic inventories for acoustic modeling are major issues of our research. Within the framework of the phonotactic approaches to LID, the decision of the spoken language identity depends on an automatically decoded multilingual phoneme flow. To optimize the quality of this phoneme flow, two methods are explored: 1) increase the acoustic model accuracy by taking into account multilingual triphone contexts; 2) widen the scope of the units by considering a multilingual syllabic unit. Syllables are longer units and hence less subject to coarticulation effects than phonemes at the acoustic level. We validated our work by experiments of language identification, automatic transcription and by a detailed acoustic analysis of the vowels in eight languages (French, American English, German, Italian , Spanish, Portuguese, Arabic and Chinese Mandarin).

APA, Harvard, Vancouver, ISO, and other styles

3

Bella, Gábor. "Modélisation de texte numérique multilingue : vers un modèle général et extensible fondé sur le concept de textème." Télécom Bretagne, 2008. http://www.theses.fr/2008TELB0067.

Full text

Abstract:

Cette thèse s'intéresse aux modèles de texte numériques, plus précisément à la définition même des éléments textuels atomiques et à la manière dont le texte se compose à partir de ceux-ci. En réponse aux besoins d'internationalisation des systèmes informatiques, les modèles de texte historiques, basés sur l'idée de la table de codage, ont été enrichis par des connaissances semi-formelles liées aux systèmes d'écriture, connaissances qui sont désormais essentielles pour l'exécution de la moindre opération textuelle. Ainsi sont nés le codage de caractères Unicode et les formats de fonte dits " intelligents ". Par la réalisation que cet enrichissement ne représente que le début d'une convergence vers des modèles fondés sur des principes de la représentation des connaissances, nous proposons une approche alternative à la modélisation de texte, selon laquelle l'élément textuel se définit non comme une entrée d'une table mais par les propriétés qui le décrivent. Le formalisme que nous établissons - initialement développé dans le cadre de la représentation des connaissances - nous fournit une méthodologie pour définir, pour la première fois de manière précise, des notions telles que caractère, glyphe ou usage, mais aussi de concevoir l'élément textuel généralisé que nous appelons textème et qui devient l'atome d'une famille de nouveaux modèles de texte. L'étude de ces modèles nous amène ensuite à comprendre et à formaliser, du moins en partie, des phénomènes tels que la contextualité ou la dépendance entre éléments textuels, phénomènes qui sont également présents, même si parfois de manière cachée, dans les modèles actuels. Dans la thèse nous analysons également les enjeux liés à l'implémentation des modèles proposés
This thesis is concerned with the modelling of electronic text. This modelling involves the definition both of the atomic text elements and of the way these elements join together to form textual structures. In response to the growing need for internationalisation of information systems, historical models of text, based on the concept of code tables, have been extended by semi-formalised knowledge related to the writing system so that, by now, such knowledge is essential to text processing of even the simplest kind. Thus were born the Unicode character encoding and the so-called 'intelligent' font formats. Realising that this phenomenon marks only the beginning of a convergence towards models based on the principles of knowledge representation, we here propose an alternative approach to text modelling that defines a text element not as a table entry but through the properties that describe the element. The formal framework that we establish, initially developed for the purposes of knowledge representation, provides us with a method by which precise formal definitions can be given to much-used but ill-defined notions such as character, glyph, or usage. The same framework allows us to define a generalised text element that we call a texteme, the atomic element on which a whole family of new text models is based. The study of these models then leads us to the understanding

APA, Harvard, Vancouver, ISO, and other styles

4

Haton, Sébastien. "Analyse et modélisation de la polysémie verbale dans une perspective multilingue : le dictionnaire bilingue vu dans un miroir." Nancy 2, 2006. http://www.theses.fr/2006NAN21016.

Full text

Abstract:

On observe dans les dictionnaires bilingues une forte asymétrie entre les deux parties d'un même dictionnaire et l'existence de traductions et d'informations "cachées", i. E. Pas directement visibles à l'entrée du mot à traduire. L'objectif de cette thèse est de proposer une méthodologie de récupération des données cachées ainsi que la "symétrisation" du dictionnaire grâce au TAL. L'étude d'un certain nombre de verbes et de leurs traductions en plusieurs langues a conduit à l'intégration de toutes les données, visibles ou cachées, au sein d'une base de données unique et multilingue. La réflexion est enrichie par une étude du comportement de certains verbes en contexte. L'objectif est d'enrichir les données lexicographiques par les données attestées sans remettre en cause les premières. Enfin, l'exploitation de la base de données a été rendue possible par l'écriture d'un algorithme de création de graphe synonymique qui lie dans un même espace les mots de langues différentes
Lexical asymmetry and hidden data, i. E. Not directly visible into one lexical entry, are phenomena peculiar to most of the bilingual dictionaries. Our purpose is to establish a methodology to highlight both phenomena by extracting hidden data from the dictionary and by re-establishing symmetry between its two parts. So we studied a large number of verbs and integrated them into a unique multilingual database. In order to offset some lacks of the lexicography, we also studied verb occurrences from a literary database. The purpose is to expand dictionaires' data without criticizing these ones. At last, our database is turned into a "multilexical" graph thanks to an algorithm, which is binding words from different languages into the same semantic space

APA, Harvard, Vancouver, ISO, and other styles

5

Lam-Yee-Mui, Léa-Marie. "Modélisations pour la reconnaissance de la parole à données contraintes." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG075.

Full text

Abstract:

Cette thèse s'inscrit dans le cadre du développement de systèmes de reconnaissance de la parole à données contraintes. Depuis une dizaine d'années, les réseaux de neurones profonds ont permis d'améliorer grandement la performance des systèmes de reconnaissance de la parole. Le succès de l'apprentissage profond va de pair avec l'utilisation de milliers d'heures de parole transcrite manuellement et avec l'augmentation du nombre de paramètres des modèles. Cependant, la constitution de corpus de parole annotée est le résultat d'un processus long et coûteux ce qui limite les quantités disponibles pour certaines conditions. Pour cette raison, nous nous intéressons au développement de systèmes avec très peu de données (quelques heures), en particulier pour traiter la parole conversationnelle. Les travaux actuels à l'état de l'art montrent qu'en dessous de quelques dizaines d'heures de données d'apprentissage de parole, les systèmes hybrides avec modélisation acoustique et linguistique séparées sont plus efficaces que les systèmes neuronaux de bout-en-bout. Nous privilégions donc ces approches en nous intéressant en particulier à la modélisation acoustique multilingue avec la mutualisation de données issues de sources différentes. Pour les modèles multilingues, nous analysons la répartition des données à adopter entre différentes sources selon la proximité des langues d'apprentissage et des langues cibles. De plus, nous évaluons l'utilisation directe des modèles acoustiques multilingues sans adaptation et une adaptation par transfert de connaissance vers une nouvelle langue sur quatre langues cibles (amharique, assamais, géorgien et kurmandji) du programme iARPA Babel. Ces langues présentent des caractéristiques linguistiques différentes et choisies pour couvrir plusieurs familles de langue. Un apprentissage adaptatif est aussi proposé par le biais de l'ajout d'une représentation vectorielle de la langue dans le modèle acoustique. Nous utilisons les différents modèles multilingues obtenus pour décoder la parole ou pour extraire dse paramètres acoustiques multilingues. Cette dernière approche est également évaluée sur le corpus sud-africain Soap Operas, comportant de l'alternance codique. Ensuite, nous comparons nos modèles hybrides et des modèles multilingues pré-entraînés par auto-supervision sur des corpus de très grande taille et provenant de domaines variés. Quelle que soit la méthode d'apprentissage et la langue de test, nous montrons que les systèmes hybrides multilingues restent compétitifs et robustes pour les données sous contraintes et qu'ils présentent l'avantage d'être industrialisables, car plus légers et plus facilement embarquables. Enfin, nous montrons l'apport de la modélisation acoustique multilingue sur une tâche de détection de mots-clés lorsque peu de données monolingues sont disponibles
This thesis explores the development of speech recognition systems in the context of low-resource conditions. Over the last decade, advances with deep neural networks have led to large improvements in the performance of speech-to-text systems. The success of deep learning methods relies on supervised training with very large annotated corpora, typically comprised of thousands of hours of recordings with manual transcriptions, and on increasing the number of trainable parameters in the models. However, sufficient training corpora are not always available due to the lengthy and costly process of data collection and annotation. Our aim is to build systems under low-resource conditions (a few hours) for the transcription of conversational speech. Recent research shows that state-of-the-art hybrid systems with distinct acoustic and linguistic models are more efficient than neuronal end-to-end systems when less than ten hours of annotated speech are available. Therefore, we adopt hybrid models, and investigate multilingual acoustic modeling to mutualize linguistic resources from multiple sources. For the multilingual models, we first investigate the impact of the amount of training data as well the similarity between the training and target languages. The multilingual models are evaluation both without adaptation and after fine-tuning via transfer learning on conversational telephone speech data in four languages (Amharic, Assamese, Georgian, and Kurmandji) collected as part of the iARPA Babel program. These languages are linguistically varied and were chosen to cover several language families. Next, we study language adaptive training in which the acoustic feature vector is augmented with a language embedding when training the multilingual acoustic model. Our multilingual models can be used to decode speech or to extract multilingual features. These features are evaluated on both the Babal corpus and on the South African corpus Soap Operas, composed of code-switched speech. We compare our hybrid models with multilingual self-supervised publicly available pretrained models, trained with a large amount of data from various domains. For every proposed method and for all target languages, we show that hybrid multilingual systems remain competitive and robust under low resource conditions, while having the advantage of being industrializable with low computational resource requirements. Lastly, we show the usefulness of multilingual acoustic modeling on keyword spotting when only a few hours of monolingual data are available

APA, Harvard, Vancouver, ISO, and other styles

6

Morin, Emmanuel. "Synergie des approches et des ressources déployées pour le traitement de l'écrit." Habilitation à diriger des recherches, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00482893.

Full text

Abstract:

Les travaux présentés dans le cadre de cette Habilitation à Diriger des Recherches, qui se situent au carrefour de l'informatique et de la linguistique, s'intéressent au traitement de l'écrit. Ils s'articulent autour de deux axes de recherche, celui de la fouille terminologique multilingue et celui de la reconnaissance de l'écriture manuscrite en ligne. Dans un premier temps, notre étude est consacrée à la fouille terminologique multilingue. Nous commençons par rappeler les fondements théoriques en acquisition lexicale multilingue, qui s'inscrivent dans l'héritage de la sémantique distributionnelle de Harris. Nous présentons ensuite les travaux réalisés en acquisition de lexiques bilingues à partir de corpus comparables. Nous décrivons notamment la méthode par similarité interlangue proposée pour l'alignement de termes complexes et la plate-forme informatique associée. À la lumière des nombreux résultats que nous avons engrangés dans ce champ de recherche, nous précisons les apports et limites des différentes approches utilisées. Dans un deuxième temps, nous présentons les différentes facettes de la reconnaissance de l'écriture manuscrite en ligne auxquelles nous nous sommes intéressés et les modèles développés. Ces travaux, qui se situent au niveau de la modélisation du langage naturel, visent à concevoir des modèles de langage adaptés à la reconnaissance de documents dénotant un « écrit standard » (où un stylo numérique vient remplacer la saisie sur un clavier numérique) ou un « écrit déviant » (où un stylo numérique s'offre comme une nouvelle alternative pour l'écriture de SMS). Nous présentons les modèles développés et les résultats obtenus. Nous revenons aussi sur l'importance et la difficulté de concevoir des ressources adaptées à la prise en compte de ces différents écrits. Dans un dernier temps, qui constitue le trait d'union entre nos deux axes de recherche, nous indiquons la synergie possible entre les approches et ressources déployées. En particulier, nous montrons que les méthodes probabilistes ne sont plus une alternative aux systèmes à base de règles, mais bien complémentaires et que les ressources exploitées doivent être adaptées à la tâche visée.

APA, Harvard, Vancouver, ISO, and other styles

7

Denoual, Etienne. "Méthodes en caractères pour le traitement automatique des langues." Phd thesis, Université Joseph Fourier (Grenoble), 2006. http://tel.archives-ouvertes.fr/tel-00107056.

Full text

Abstract:

Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues.
Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais.

Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU.
Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots.
Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique.
Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.

APA, Harvard, Vancouver, ISO, and other styles

8

Schleider, Thomas. "Knowledge Modeling and Multilingual Information Extraction for the Understanding of the Cultural Heritage of Silk." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS280.

Full text

Abstract:

La modélisation de tout type de connaissance humaine est un effort complexe qui doit prendre en compte toutes les spécificités de son domaine, y compris le vocabulaire de niche. Cette thèse se concentre sur un tel effort pour la connaissance de la production européenne d’objets en soie, qui peut être considérée comme obscure et donc en danger. Cependant, le fait que ces données du patrimoine culturel soient hétérogènes, réparties dans de nombreux musées à travers le monde, éparses et multilingues, pose des défis particuliers pour lesquels les graphes de connaissances sont devenus de plus en plus populaires ces dernières années. Notre objectif principal n’est pas seulement d’étudier les représentations des connaissances, mais aussi de voir comment un tel processus d’intégration peut être accompagné d’enrichissements, tels que la réconciliation des informations par le biais d’ontologies et de vocabulaires, ainsi que la prédiction de métadonnées pour combler les lacunes des données. Nous proposerons d’abord un flux de travail pour la gestion de l’intégration des données sur les artefacts de la soie, puis nous présenterons différentes approches de classification, en mettant l’accent sur les méthodes non supervisées et les méthodes de type "zero-shot". Enfin, nous étudions les moyens de rendre l’exploration de ces métadonnées et des images par la suite aussi facile que possible
Modeling any type of human knowledge is a complex effort and needs to consider all specificities of its domain including niche vocabulary. This thesis focuses on such an endeavour for the knowledge about the European silk object production, which can be considered obscure and therefore endangered. However, the fact that such Cultural Heritage data is heterogenous, spread across many museums worldwide, sparse and multilingual poses particular challenges for which knowledge graphs have become more and more popular in recent years. Our main goal is not only into investigating knowledge representations, but also in which ways such an integration process can be accompanied through enrichments, such as information reconciliation through ontologies and vocabularies, as well as metadata predictions to fill gaps in the data. We will first propose a workflow for the management for the integration of data about silk artifacts and afterwards present different classification approaches, with a special focus on unsupervised and zero-shot methods. Finally, we study ways of making exploration of such metadata and images afterwards as easy as possible

APA, Harvard, Vancouver, ISO, and other styles

9

Grosjean, Julien. "Modélisation, réalisation et évaluation d'un portail multi-terminologique multi-discipline, multi-lingue (3M) dans le cadre de la Plateforme d'Indexation Régionale (PlaIR)." Rouen, 2014. http://www.theses.fr/2014ROUES028.

Full text

APA, Harvard, Vancouver, ISO, and other styles

10

Cossu, Jean-Valère. "Analyse de l’image de marque sur le Web 2.0." Thesis, Avignon, 2015. http://www.theses.fr/2015AVIG0207/document.

Full text

Abstract:

Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’être un moyen d’accès à la connaissance, Internet est devenu en quelques années un lieu privilégié pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (réseaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variés que l’actualité, la politique, les résultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomération de ces avis publiés sur une entité (qu’il s’agisse d’un produit, une entreprise ou une personnalité publique)donnent naissance à l’image de marque de cette entité.L’image d’une entité est ici comprise comme l’idée qu’une personne ou qu’un groupe de personnes se fait de cette entité. Cette idée porte a priori sur un sujet particulier et n’est valable que dans un contexte, à un instant donné.Cette image perçue est par nature différente de celle que l’entité souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la réalité, il existe au final plusieurs images qui cohabitent en parallèle sur le réseau, chacune propre à une communauté et toutes évoluant différemment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposés). Enfin, en plus des polémiques volontairement provoquées par le comportement de certaines entités en vue d’attirer l’attention sur elles (pensons aux tenues ou déclarations choquantes), il arrive également que la diffusion d’une image dépasse le cadre qui la régissait et même parfois se retourne contre l’entité (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimées constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à présent confié à des spécialistes de l’e-communication qui monnaient leur subjectivité. Ces derniers ne peuvent considérer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thèse, nous proposons d’utiliser différentes méthodes automatiques, statistiques, supervisées et d’une faible complexité permettant d’analyser et représenter l’image de marque d’entité à partir de contenus textuels les mentionnant. Plus spécifiquement, nous cherchons à identifier les contenus(ainsi que leurs auteurs) qui sont les plus préjudiciables à l’image de marque d’une entité. Nous introduisons un processus d’optimisation automatique de ces méthodes automatiques permettant d’enrichir les données en utilisant un retour de pertinence simulé (sans qu’aucune action de la part de l’entité concernée ne soit nécessaire). Nous comparer également plusieurs approches de contextualisation de messages courts à partir de méthodes de recherche d’information et de résumé automatique. Nous tirons également parti d’algorithmes de modélisation(tels que la Régression des moindres carrés partiels), dans le cadre d’une modélisation conceptuelle de l’image de marque, pour améliorer nos systèmes automatiques de catégorisation de documents textuels. Ces méthodes de modélisation et notamment les représentations des corrélations entre les différents concepts que nous manipulons nous permettent de représenter d’une part, le contexte thématique d’une requête de l’entité et d’autre, le contexte général de son image de marque. Nous expérimentons l’utilisation et la combinaison de différentes sources d’information générales représentant les grands types d’information auxquels nous sommes confrontés sur internet : de long les contenus objectifs rédigés à des informatives, les contenus brefs générés par les utilisateurs visant à partager des opinions. Nous évaluons nos approches en utilisant deux collections de données, la première est celle constituée dans le cadre du projet Imagiweb, la seconde est la collection de référence sur le sujet : CLEFRepLab
Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!