Bibliografías: "Extraction d'informations multilingues"

1

Yeh, Hui-Syuan. "Prompt-based Relation Extraction for Pharmacovigilance". Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG097.

Texto completo

Resumen

L'extraction de connaissances à jour à partir de sources textuelles diverses est importante pour la santé publique. Alors que les sources professionnelles, notamment les revues scientifiques et les notes cliniques, fournissent les connaissances les plus fiables, les observations apportées dans les forums de patients et les médias sociaux permettent d'obtenir des informations complémentaires pour certains thèmes. Détecter les entités et leurs relations dans ces sources variées est particulièrement précieux. Nous nous concentrons sur l'extraction de relations dans le domaine médical. Nous commençons par souligner l'incohérence de la terminologie utilisée dans la communauté et clarifions les configurations distinctes employées pour la construction et l'évaluation d'un système d'extraction de relations. Pour obtenir une comparaison fiable, nous comparons les systèmes en utilisant la même configuration. Nous effectuons également une série d'évaluations stratifiées afin d'étudier plus en détail les propriétés des données qui affectent les performances des modèles. Nous montrons que la performance des modèles tend à diminuer avec la densité des relations, la diversité des relations et la distance entre les entités. Par la suite, ce travail explore un nouveau paradigme d'entraînement pour l'extraction de relations biomédicales : les méthodes à base de prompt avec des modèles de langue masqués. Dans ce contexte, les performances dépendent de la qualité de la conception des prompts. Cela nécessite des efforts manuels et une connaissance du domaine, notamment dans la conception des mots étiquettes qui relient les prédictions du modèle aux classes de relations. Pour surmonter ce problème, nous introduisons une technique de génération automatique de mots étiquettes qui s'appuie sur un analyseur en dépendance et les données d'entraînement. Cette approche minimise l'intervention manuelle et améliore l'efficacité des modèles avec moins de paramètres à affiner. Notre approche a des performances similaires aux autres méthodes de verbalisation sans nécessiter d'entraînement supplémentaire. Ensuite, ce travail traite de l'extraction d'informations à partir de textes écrits par des auteurs non spécialistes sur les effets indésirables des médicaments. À cette fin, dans le cadre d'un effort conjoint, nous avons constitué un corpus trilingue en allemand, français et japonais collecté à partir de forums de patients et de plates-formes de médias sociaux. Le défi et les applications potentielles du corpus sont discutés. Nous présentons des expériences initiales sur le corpus en mettant en avant trois points : l'efficacité d'un modèle multilingue dans un contexte translingue, une préparation d'exemples négatifs pour l'extraction de relations qui tient compte de la coréférence et de la distance entre les entités, et des méthodes pour traiter la distribution hautement déséquilibrée des relations. Enfin, nous intégrons des informations provenant d'une base de connaissances médicales dans une approche à base de prompt avec des modèles de langue autorégressifs pour l'extraction de relations biomédicales. Notre objectif est d'utiliser des connaissances factuelles externes pour enrichir le contexte des entités impliquées dans la relation à classifier. Nous constatons que les modèles généraux bénéficient particulièrement des connaissances externes. Notre dispositif expérimental révèle que différents marqueurs d'entités sont efficaces dans différents corpus. Nous montrons que les connaissances pertinentes sont utiles, mais que le format du prompt a un impact plus important sur les performances que les informations supplémentaires elles-mêmes
Extracting and maintaining up-to-date knowledge from diverse linguistic sources is imperative for the benefit of public health. While professional sources, including scientific journals and clinical notes, provide the most reliable knowledge, observations reported in patient forums and social media can bring complementary information for certain themes. Spotting entities and their relationships in these varied sources is particularly valuable. We focus on relation extraction in the medical domain. At the outset, we highlight the inconsistent terminology in the community and clarify the diverse setups used to build and evaluate relation extraction systems. To obtain reliable comparisons, we compare systems using the same setup. Additionally, we conduct a series of stratified evaluations to further investigate which data properties affect the models' performance. We show that model performance tends to decrease with relation density, relation diversity, and entity distance. Subsequently, this work explores a new training paradigm for biomedical relation extraction: prompt-based methods with masked language models. In this context, performance depends on the quality of prompt design. This requires manual efforts and domain knowledge, especially when designing the label words that link model predictions to relation classes. To overcome this overhead, we introduce an automated label word generation technique leveraging a dependency parser and training data. This approach minimizes manual intervention and enhances model performance with fewer parameters to be fine-tuned. Our approach performs on par with other verbalizer methods without additional training. Then, this work addresses information extraction from text written by laypeople about adverse drug reactions. To this end, as part of a joint effort, we have curated a tri-lingual corpus in German, French, and Japanese collected from patient forums and social media platforms. The challenge and the potential applications of the corpus are discussed. We present baseline experiments on the corpus that highlight three points: the effectiveness of a multilingual model in the cross-lingual setting, preparing negative samples for relation extraction by considering the co-reference and the distance between entities, and methods to address the highly imbalanced distribution of relations. Lastly, we integrate information from a medical knowledge base into the prompt-based approach with autoregressive language models for biomedical relation extraction. Our goal is to use external factual knowledge to enrich the context of the entities involved in the relation to be classified. We find that general models particularly benefit from external knowledge. Our experimental setup reveals that different entity markers are effective across different corpora. We show that the relevant knowledge helps, though the format of the prompt has a greater impact on performance than the additional information itself