Índice

  1. Tesis

Literatura académica sobre el tema "Extraction d'informations multilingues"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte las listas temáticas de artículos, libros, tesis, actas de conferencias y otras fuentes académicas sobre el tema "Extraction d'informations multilingues".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Tesis sobre el tema "Extraction d'informations multilingues"

1

Yeh, Hui-Syuan. "Prompt-based Relation Extraction for Pharmacovigilance". Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG097.

Texto completo
Resumen
L'extraction de connaissances à jour à partir de sources textuelles diverses est importante pour la santé publique. Alors que les sources professionnelles, notamment les revues scientifiques et les notes cliniques, fournissent les connaissances les plus fiables, les observations apportées dans les forums de patients et les médias sociaux permettent d'obtenir des informations complémentaires pour certains thèmes. Détecter les entités et leurs relations dans ces sources variées est particulièrement précieux. Nous nous concentrons sur l'extraction de relations dans le domaine médical. Nous commençons par souligner l'incohérence de la terminologie utilisée dans la communauté et clarifions les configurations distinctes employées pour la construction et l'évaluation d'un système d'extraction de relations. Pour obtenir une comparaison fiable, nous comparons les systèmes en utilisant la même configuration. Nous effectuons également une série d'évaluations stratifiées afin d'étudier plus en détail les propriétés des données qui affectent les performances des modèles. Nous montrons que la performance des modèles tend à diminuer avec la densité des relations, la diversité des relations et la distance entre les entités. Par la suite, ce travail explore un nouveau paradigme d'entraînement pour l'extraction de relations biomédicales : les méthodes à base de prompt avec des modèles de langue masqués. Dans ce contexte, les performances dépendent de la qualité de la conception des prompts. Cela nécessite des efforts manuels et une connaissance du domaine, notamment dans la conception des mots étiquettes qui relient les prédictions du modèle aux classes de relations. Pour surmonter ce problème, nous introduisons une technique de génération automatique de mots étiquettes qui s'appuie sur un analyseur en dépendance et les données d'entraînement. Cette approche minimise l'intervention manuelle et améliore l'efficacité des modèles avec moins de paramètres à affiner. Notre approche a des performances similaires aux autres méthodes de verbalisation sans nécessiter d'entraînement supplémentaire. Ensuite, ce travail traite de l'extraction d'informations à partir de textes écrits par des auteurs non spécialistes sur les effets indésirables des médicaments. À cette fin, dans le cadre d'un effort conjoint, nous avons constitué un corpus trilingue en allemand, français et japonais collecté à partir de forums de patients et de plates-formes de médias sociaux. Le défi et les applications potentielles du corpus sont discutés. Nous présentons des expériences initiales sur le corpus en mettant en avant trois points : l'efficacité d'un modèle multilingue dans un contexte translingue, une préparation d'exemples négatifs pour l'extraction de relations qui tient compte de la coréférence et de la distance entre les entités, et des méthodes pour traiter la distribution hautement déséquilibrée des relations. Enfin, nous intégrons des informations provenant d'une base de connaissances médicales dans une approche à base de prompt avec des modèles de langue autorégressifs pour l'extraction de relations biomédicales. Notre objectif est d'utiliser des connaissances factuelles externes pour enrichir le contexte des entités impliquées dans la relation à classifier. Nous constatons que les modèles généraux bénéficient particulièrement des connaissances externes. Notre dispositif expérimental révèle que différents marqueurs d'entités sont efficaces dans différents corpus. Nous montrons que les connaissances pertinentes sont utiles, mais que le format du prompt a un impact plus important sur les performances que les informations supplémentaires elles-mêmes
Extracting and maintaining up-to-date knowledge from diverse linguistic sources is imperative for the benefit of public health. While professional sources, including scientific journals and clinical notes, provide the most reliable knowledge, observations reported in patient forums and social media can bring complementary information for certain themes. Spotting entities and their relationships in these varied sources is particularly valuable. We focus on relation extraction in the medical domain. At the outset, we highlight the inconsistent terminology in the community and clarify the diverse setups used to build and evaluate relation extraction systems. To obtain reliable comparisons, we compare systems using the same setup. Additionally, we conduct a series of stratified evaluations to further investigate which data properties affect the models' performance. We show that model performance tends to decrease with relation density, relation diversity, and entity distance. Subsequently, this work explores a new training paradigm for biomedical relation extraction: prompt-based methods with masked language models. In this context, performance depends on the quality of prompt design. This requires manual efforts and domain knowledge, especially when designing the label words that link model predictions to relation classes. To overcome this overhead, we introduce an automated label word generation technique leveraging a dependency parser and training data. This approach minimizes manual intervention and enhances model performance with fewer parameters to be fine-tuned. Our approach performs on par with other verbalizer methods without additional training. Then, this work addresses information extraction from text written by laypeople about adverse drug reactions. To this end, as part of a joint effort, we have curated a tri-lingual corpus in German, French, and Japanese collected from patient forums and social media platforms. The challenge and the potential applications of the corpus are discussed. We present baseline experiments on the corpus that highlight three points: the effectiveness of a multilingual model in the cross-lingual setting, preparing negative samples for relation extraction by considering the co-reference and the distance between entities, and methods to address the highly imbalanced distribution of relations. Lastly, we integrate information from a medical knowledge base into the prompt-based approach with autoregressive language models for biomedical relation extraction. Our goal is to use external factual knowledge to enrich the context of the entities involved in the relation to be classified. We find that general models particularly benefit from external knowledge. Our experimental setup reveals that different entity markers are effective across different corpora. We show that the relevant knowledge helps, though the format of the prompt has a greater impact on performance than the additional information itself
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

Hanoka-Maitenaz, Valérie. "Extraction et complétion de terminologies multilingues". Sorbonne Paris Cité, 2015. https://hal.science/tel-01257201.

Texto completo
Resumen
Les processus d'extraction terminologique automatique ont été jusqu'ici majoritairement conçus pour être appliqués à de corpus monolingues et dans des registres de langue uniformes. Cette thèse propose une séquence de traitements pour l'extraction automatique de « termes de terrain » qui soit faiblement dépendante de la langue, du registre de langue ou du domaine. Suivant une réflexion fondée sur différents aspects de typologie linguistique appliquée à sept langues, nous proposons des prétraitements textuels préliminaires au calcul de traits numériques pour l'entraînement de modèles statistiques de type CRF. Un ensemble de modèles sont sélectionnés grâce à une évaluation automatisée pour chaque langue. Une seconde série d'évaluations est ensuite réalisée pour étudier l'exploitabilité de ces modèles pour d'autres langues que celles sur lesquelles ils ont été entraînés. Il ressort de ces expériences que cette méthode aboutit à une extraction de termes de terrain de qualité satisfaisante. Les meilleurs scores obtenus (pour une évaluation monolingue des modèles) atteignent 0, 9 de f-score. La seconde partie de notre travail présente nos travaux relatifs à la complétion automatique de terminologies structurées multilingues. Nous avons proposé 2 algorithmes de complétion qui prennent en entrée un graphe de traduction multilingue (construit à partir de ressources libres) et une terminologie multilingue structurée. Ils proposent alors de nouveaux candidats termes pour cette dernière. Notre approche permet de compléter la terminologie structurée dans une langue qu'elle couvre déjà, mais également d'étendre sa couverture à de nouvelles langue
This work focuses on the analysis of verbatim produced in the context of employee surveys carried out within multinational companies and processed by the Verbatim Analysis - VERA company. It involves the design and development of a processing pi¬peline for automatically extracting terminologies in a virtually language-independent, register-independent and domain-independent way
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Nguyen, Tuan Dang. "Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles". Phd thesis, Université de Caen, 2006. http://tel.archives-ouvertes.fr/tel-00258948.

Texto completo
Resumen
Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. Dans cette thèse, nous abordons l'aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances expérimentales portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d'information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques.
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Nguyen, Dang Tuan. "Extraction d'information à partir de documents Web multilingues : une approche d'analyses structurelles". Caen, 2006. http://www.theses.fr/2006CAEN2023.

Texto completo
Resumen
Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. L'ignorance des structures multilingues pourrait être à l’origine de divers problèmes de performance tels que : i) la redondance, si le site propose simultanément des traductions en plusieurs langues, ii) les parcours bruités lors d’un passage d’une langue à une autre via les vignettes (génération de graphes, conceptuellement, non signifiant), iii) la perte de l’information par la négligence de la spécificité structurelle (même implicite) de chaque langue. Le cadre de cette thèse s’insère dans le cadre des travaux de recherche sur l'extraction semi-automatique (interactive) d'information à partir d’un grand nombre de documents électroniques (essentiellement des documents web) hétérogènes structurées ou semi-structurées. Extraire une information dans ce contexte est défini comme un processus de repérage, formalisation et de traitements des structures de données pouvant comporter d’information pertinente. Dans notre approche nous observons que la structure d’un document Web incorpore des informations qui sont indispensables pour toute démarche d’optimisation de la recherche d’information ou des fouilles de sites web. Pour expérimenter et valider notre propos nous avons développé une méthode d’analyses structurelles concrétisée par le réalisation du système Hyperling. L’objectif direct de ce dernier étant de déterminer, sans aucune connaissance linguistique préalable et explicite, les langues dominantes sur un site Web multilingues. Dans cette thèse, nous abordons l’aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances « expérimentales » - issues des travaux de développement et d’expérimentation - portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d’information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques
Multilingual Web Document (MWD) processing has become one of the major interests of research and development in the area of information retrieval. Therefore, we observed that the structure of the multilingual resources has not been enough explored in most of the research works in this area. We consider that links structure embed crucial information for both hyperdocument retrieving and mining process. Discarding the multilingual information structures could affect the processing performance and generate various problems : i)°Redundancy : if the site proposes simultaneously translations in several languages, ii)° Noisy information: by using labels to shift from language to another, iii)° Loosing information: if the process does not consider the structure specificity of each language. In this context, we wonder to remind that each Web site is considered as a hyper-document that contains a set of Web documents (pages, screen, messages) which can be explored through the links paths. Therefore, detecting the dominant languages, in a Web Site, could be done in a different ways. The framework of this experimental research thesis is structures analysis for information extraction from a great number of heterogeneous structured or semi-structured electronic documents (essentially the Web document). It covers the following aspects : Enumerating the dominants languages, Setting-up (virtual) frontiers between those languages, enabling further processing, Recognizing the dominants languages. To experiment and validate our aim we have developed Hyperling which is a formal, language independent, system dealing with Web Documents. Hyperling proposes a Multilingual Structural Analysis approach to cluster and retrieve Web Document. Hyperling’s fundamental hypothesis is based on the notion of relation-density : The Monolingual relation density: i. E. Links between Web Documents written in the same language, The Interlingual relation density: i. E. Links between Web Documents written in different languages. In a Web document representation we can encounter a high level of monolingual relation density and low level of inter-lingual relation density. Therefore, we can consider a MWD to be represented by a set of clusters. Regarding the density level of each cluster, it may represent a dominant language. This hypothesis has been the core of Hyperling and has been experimented and approved on a real multilingual web documents (IMF, UNDP, UNFPA, UNICEF, WTO)
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Charton, Eric. "Génération de phrases multilingues par apprentissage automatique de modèles de phrases". Phd thesis, Université d'Avignon, 2010. http://tel.archives-ouvertes.fr/tel-00622561.

Texto completo
Resumen
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d'attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d'exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l'implémentation d'un système de GAT en plusieurs langues et améliore les capacités d'adaptations d'un système de génération à un domaine sémantique particulier. La production, d'après un corpus d'apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l'extraction d'information et de la classification. Nous décrivons le système d'étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d'information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l'intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d'investigations prometteuses sur la nature du processus de formation de phrases
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Rouquet, David. "Multilinguisation d'ontologies dans le cadre de la recherche d'information translingue dans des collections d'images accompagnées de textes spontanés". Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00743652.

Texto completo
Resumen
Le Web est une source proliférante d'objets multimédia, décrits dans différentes langues natu- relles. Afin d'utiliser les techniques du Web sémantique pour la recherche de tels objets (images, vidéos, etc.), nous proposons une méthode d'extraction de contenu dans des collections de textes multilingues, paramétrée par une ou plusieurs ontologies. Le processus d'extraction est utilisé pour indexer les objets multimédia à partir de leur contenu textuel, ainsi que pour construire des requêtes formelles à partir d'énoncés spontanés. Il est basé sur une annotation interlingue des textes, conservant les ambiguïtés de segmentation et la polysémie dans des graphes. Cette première étape permet l'utilisation de processus de désambiguïsation "factorisés" au niveau d'un lexique pivot (de lexèmes interlingues). Le passage d'une ontologie en paramètre du système se fait en l'alignant de façon automatique avec le lexique interlingue. Il est ainsi possible d'utiliser des ontologies qui n'ont pas été conçues pour une utilisation multilingue, et aussi d'ajouter ou d'étendre l'ensemble des langues et leurs couvertures lexicales sans modifier les ontologies. Un démonstrateur pour la recherche multilingue d'images, développé pour le projet ANR OMNIA, a permis de concrétiser les approches proposées. Le passage à l'échelle et la qualité des annotations produites ont ainsi pu être évalués.
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Korenchuk, Yuliya. "Méthode d'enrichissement et d'élargissement d'une ontologie à partir de corpus de spécialité multilingues". Thesis, Strasbourg, 2017. http://www.theses.fr/2017STRAC014/document.

Texto completo
Resumen
Cette thèse propose une méthode pour alimenter une ontologie, une structure de concepts liés par des relations sémantiques, par des termes français, anglais et allemands à partir de corpus spécialisés comparables. Son apport principal est le développement des méthodes d'extraction utilisant des ressources endogènes apprises à partir de corpus et d'ontologie. Exploitant des n-grammes de caractères, elles sont disponibles et indépendantes vis-à-vis de la langue et du domaine. La première contribution porte sur l'utilisation des ressources morphologiques et morphosyntaxiques endogènes pour extraire des termes mono- et polylexicaux à partir de corpus. La deuxième contribution vise à exploiter des ressources endogènes pour identifier leurs traductions. La troisième contribution concerne la construction des familles morphologiques endogènes servant à alimenter l'ontologie
This thesis proposes a method of enrichment and population of an ontology, a structure of concepts linked by semantic relations, by terms in French, English and German from comparable domain-specific corpora. Our main contribution is the development of extraction methods based on endogenous resources, learned from the corpus and the ontology being analyzed. Using caracter n-grams, these resources are available and independent of a particular language or domain. The first contribution concerns the use of endogenous morphological and morphosyntactic resources for mono- and polylexical terms extraction from the corpus. The second contribution aims to use endogenous resources to identify translations for these terms. The third contribution concerns the construction of endogenous morphological families designed to enrich and populate the ontology
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Doucet, Antoine. "Extraction, Exploitation and Evaluation of Document-based Knowledge". Habilitation à diriger des recherches, Université de Caen, 2012. http://tel.archives-ouvertes.fr/tel-01070505.

Texto completo
Resumen
Les travaux présentés dans ce mémoire gravitent autour du document numérique : Extraction de connaissances, utilisation de connaissances et évaluation des connaissances extraites, d'un point de vue théorique aussi bien qu'expérimental. Le fil directeur de mes travaux de recherche est la généricité des méthodes produites, avec une attention particulière apportée à la question du passage à l'échelle. Ceci implique que les algorithmes, principalement appliqués au texte dans ce mémoire, fonctionnent en réalité pour tout type de donnée séquentielle. Sur le matériau textuel, la généricité et la robustesse algorithmique des méthodes permettent d'obtenir des approches endogènes, fonctionnant pour toute langue, pour tout genre et pour tout type de document (et de collection de documents). Le matériau expérimental couvre ainsi des langues utilisant différents alphabets, et des langues appartenant à différentes familles linguistiques. Les traitements peuvent d'ailleurs être appliqués de la même manière au grain phrase, mot, ou même caractère. Les collections traitées vont des dépêches d'agence de presse aux ouvrages numérisés, en passant par les articles scientifiques. Ce mémoire présente mes travaux en fonction des différentes étapes du pipeline de traitement des documents, de leur appréhension à l'évaluation applicative. Le document est ainsi organisé en trois parties décrivant des contributions en : extraction de connaissances (fouille de données séquentielle et veille multilingue) ; exploitation des connaissances acquises, par des applications en recherche d'information, classification et détection de synonymes via un algorithme efficace d'alignement de paraphrases ; méthodologie d'évaluation des systèmes d'information dans un contexte de données massives, notamment l'évaluation des performances des systèmes de recherche d'information sur des bibliothèques numérisées.
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Schleider, Thomas. "Knowledge Modeling and Multilingual Information Extraction for the Understanding of the Cultural Heritage of Silk". Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS280.

Texto completo
Resumen
La modélisation de tout type de connaissance humaine est un effort complexe qui doit prendre en compte toutes les spécificités de son domaine, y compris le vocabulaire de niche. Cette thèse se concentre sur un tel effort pour la connaissance de la production européenne d’objets en soie, qui peut être considérée comme obscure et donc en danger. Cependant, le fait que ces données du patrimoine culturel soient hétérogènes, réparties dans de nombreux musées à travers le monde, éparses et multilingues, pose des défis particuliers pour lesquels les graphes de connaissances sont devenus de plus en plus populaires ces dernières années. Notre objectif principal n’est pas seulement d’étudier les représentations des connaissances, mais aussi de voir comment un tel processus d’intégration peut être accompagné d’enrichissements, tels que la réconciliation des informations par le biais d’ontologies et de vocabulaires, ainsi que la prédiction de métadonnées pour combler les lacunes des données. Nous proposerons d’abord un flux de travail pour la gestion de l’intégration des données sur les artefacts de la soie, puis nous présenterons différentes approches de classification, en mettant l’accent sur les méthodes non supervisées et les méthodes de type "zero-shot". Enfin, nous étudions les moyens de rendre l’exploration de ces métadonnées et des images par la suite aussi facile que possible
Modeling any type of human knowledge is a complex effort and needs to consider all specificities of its domain including niche vocabulary. This thesis focuses on such an endeavour for the knowledge about the European silk object production, which can be considered obscure and therefore endangered. However, the fact that such Cultural Heritage data is heterogenous, spread across many museums worldwide, sparse and multilingual poses particular challenges for which knowledge graphs have become more and more popular in recent years. Our main goal is not only into investigating knowledge representations, but also in which ways such an integration process can be accompanied through enrichments, such as information reconciliation through ontologies and vocabularies, as well as metadata predictions to fill gaps in the data. We will first propose a workflow for the management for the integration of data about silk artifacts and afterwards present different classification approaches, with a special focus on unsupervised and zero-shot methods. Finally, we study ways of making exploration of such metadata and images afterwards as easy as possible
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Guénec, Nadège. "Méthodologies pour la création de connaissances relatives au marché chinois dans une démarche d'Intelligence Économique : application dans le domaine des biotechnologies agricoles". Phd thesis, Université Paris-Est, 2009. http://tel.archives-ouvertes.fr/tel-00554743.

Texto completo
Resumen
Le décloisonnement des économies et l'accélération mondiale des échanges commerciaux ont, en une décennie à peine, transformés l'environnement concurrentiel des entreprises. La zone d'activités s'est élargie en ouvrant des nouveaux marchés à potentiels très attrayants. Ainsi en est-il des BRIC (Brésil, Russie, Inde et Chine). De ces quatre pays, impressionnants par la superficie, la population et le potentiel économique qu'ils représentent, la Chine est le moins accessible et le plus hermétique à notre compréhension de par un système linguistique distinct des langues indo-européennes d'une part et du fait d'une culture et d'un système de pensée aux antipodes de ceux de l'occident d'autre part. Pourtant, pour une entreprise de taille internationale, qui souhaite étendre son influence ou simplement conserver sa position sur son propre marché, il est aujourd'hui absolument indispensable d'être présent sur le marché chinois. Comment une entreprise occidentale aborde-t-elle un marché qui de par son altérité, apparaît tout d'abord comme complexe et foncièrement énigmatique ? Six années d'observation en Chine, nous ont permis de constater les écueils dans l'accès à l'information concernant le marché chinois. Comme sur de nombreux marchés extérieurs, nos entreprises sont soumises à des déstabilisations parfois inimaginables. L'incapacité à " lire " la Chine et à comprendre les enjeux qui s'y déroulent malgré des effets soutenus, les erreurs tactiques qui découlent d'une mauvaise appréciation du marché ou d'une compréhension biaisée des jeux d'acteurs nous ont incités à réfléchir à une méthodologie de décryptage plus fine de l'environnement d'affaire qui puisse offrir aux entreprises françaises une approche de la Chine en tant que marché. Les méthodes de l'Intelligence Economique (IE) se sont alors imposées comme étant les plus propices pour plusieurs raisons : le but de l'IE est de trouver l'action juste à mener, la spécificité du contexte dans lequel évolue l'organisation est prise en compte et l'analyse se fait en temps réel. Si une approche culturelle est faite d'interactions humaines et de subtilités, une approche " marché " est dorénavant possible par le traitement automatique de l'information et de la modélisation qui s'en suit. En effet, dans toute démarche d'Intelligence Economique accompagnant l'implantation d'une activité à l'étranger, une grande part de l'information à portée stratégique vient de l'analyse du jeu des acteurs opérants dans le même secteur d'activité. Une telle automatisation de la création de connaissance constitue, en sus de l'approche humaine " sur le terrain ", une réelle valeur ajoutée pour la compréhension des interactions entre les acteurs car elle apporte un ensemble de connaissances qui, prenant en compte des entités plus larges, revêtent un caractère global, insaisissable par ailleurs. La Chine ayant fortement développé les technologies liées à l'économie de la connaissance, il est dorénavant possible d'explorer les sources d'information scientifiques et techniques chinoises. Nous sommes en outre convaincus que l'information chinoise prendra au fil du temps une importance de plus en plus cruciale. Il devient donc urgent pour les organisations de se doter de dispositifs permettant non seulement d'accéder à cette information mais également d'être en mesure de traiter les masses d'informations issues de ces sources. Notre travail consiste principalement à adapter les outils et méthodes issues de la recherche française à l'analyse de l'information chinoise en vue de la création de connaissances élaborées. L'outil MATHEO, apportera par des traitements bibliométriques une vision mondiale de la stratégie chinoise. TETRALOGIE, outil dédié au data-mining, sera adapté à l'environnement linguistique et structurel des bases de données scientifiques chinoises. En outre, nous participons au développement d'un outil d'information retreival (MEVA) qui intègre les données récentes des sciences cognitives et oeuvrons à son application dans la recherche de l'information chinoise, pertinente et adéquate. Cette thèse étant réalisée dans le cadre d'un contrat CIFRE avec le Groupe Limagrain, une application contextualisée de notre démarche sera mise en œuvre dans le domaine des biotechnologies agricoles et plus particulièrement autour des enjeux actuels de la recherche sur les techniques d'hybridation du blé. L'analyse de ce secteur de pointe, qui est à la fois une domaine de recherche fondamentale, expérimentale et appliquée donne actuellement lieu à des prises de brevets et à la mise sur le marché de produits commerciaux et représente donc une thématique très actuelle. La Chine est-elle réellement, comme nous le supposons, un nouveau territoire mondial de la recherche scientifique du 21e siècle ? Les méthodes de l'IE peuvent-elles s'adapter au marché chinois ? Après avoir fourni les éléments de réponses à ces questions dans es deux premières parties de notre étude, nous poserons en troisième partie, le contexte des biotechnologies agricoles et les enjeux mondiaux en terme de puissance économico-financière mais également géopolitique de la recherche sur l'hybridation du blé. Puis nous verrons en dernière partie comment mettre en œuvre une recherche d'information sur le marché chinois ainsi que l'intérêt majeur en terme de valeur ajoutée que représente l'analyse de l'information chinoise
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía