Rozprawy doktorskie: „Raffinement des graphes de connaissances”

1

Khajeh, Nassiri Armita. "Expressive Rule Discovery for Knowledge Graph Refinement". Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG045.

Pełny tekst źródła

Streszczenie:

Les graphes de connaissances (KG) sont des structures de graphes hétérogènes représentant des faits dans un format lisible par une machine. Ils trouvent des applications dans des tâches telles que la réponse automatique aux questions, la désambiguïsation et liaison d'entités. Cependant, les graphes de connaissances sont intrinsèquement incomplets et il est essentiel de les raffiner pour améliorer leur qualité. Pour compléter le graphe de connaissances, il est possible de prédire les liens manquants dans un graphe de connaissances ou d'intégrer des sources externes. En extrayant des règles du graphe de connaissances, nous pouvons les exploiter pour compléter le graphe tout en fournissant des explications. Plusieurs approches ont été proposées pour extraire efficacement des règles. Or, la littérature manque de méthodes efficaces pour incorporer des prédicats numériques dans les règles. Pour répondre à cette lacune, nous proposons REGNUM, qui permet d'extraire des règles numériques avec des contraintes d'intervalle. REGNUM s'appuie sur les règles générées par un système d'extraction de règles existant et les enrichit en incorporant des prédicats numériques guidés par des mesures de qualité. En outre, la nature interconnectée des données web offre un potentiel significatif pour compléter et raffiner les KG, par exemple, par le liage des données, qui consiste à trouver des liens d'identité entre des entités de KG différents. Nous présentons RE-miner, une approche qui extrait des expressions référentielles (RE) pour une classe dans un graphe de connaissances.Les REs sont des règles qui ne s'appliquent qu'à une seule entité. Elles facilitent la découverte de connaissances et permettent de lier les données de manière explicable. De plus, nous visons à explorer les avantages et les opportunités de l'affinage des modèles linguistiques pour combler le fossé entre les KG et les données textuelles. Nous présentons GilBERT, qui exploite le fine-tuning sur des modèles linguistiques tels que BERT en optimisant une fonction de coût par triplet pour les tâches de prédiction de relation et de classification de triple. En prenant en compte ces défis et en proposant des approches novatrices, cette thèse contribue au raffinement des KG, en mettant particulièrement l'accent sur l'explicabilité et la découverte de connaissances. Les résultats de cette recherche ouvrent la voie à de nouvelles questions de recherche qui font progresser vers des KG de meilleure qualité
Knowledge graphs (KGs) are heterogeneous graph structures representing facts in a machine-readable format. They find applications in tasks such as question answering, disambiguation, and entity linking. However, KGs are inherently incomplete, and refining them is crucial to improve their effectiveness in downstream tasks. It's possible to complete the KGs by predicting missing links within a knowledge graph or integrating external sources and KGs. By extracting rules from the KG, we can leverage them to complete the graph while providing explainability. Various approaches have been proposed to mine rules efficiently. Yet, the literature lacks effective methods for effectively incorporating numerical predicates in rules. To address this gap, we propose REGNUM, which mines numerical rules with interval constraints. REGNUM builds upon the rules generated by an existing rule mining system and enriches them by incorporating numerical predicates guided by quality measures. Additionally, the interconnected nature of web data offers significant potential for completing and refining KGs, for instance, by data linking, which is the task of finding sameAs links between entities of different KGs. We introduce RE-miner, an approach that mines referring expressions (REs) for a class in a knowledge graph and uses them for data linking. REs are rules that are only applied to one entity. They support knowledge discovery and serve as an explainable way to link data. We employ pruning strategies to explore the search space efficiently, and we define characteristics to generate REs that are more relevant for data linking. Furthermore, we aim to explore the advantages and opportunities of fine-tuning language models to bridge the gap between KGs and textual data. We propose GilBERT, which leverages fine-tuning techniques on language models like BERT using a triplet loss. GilBERT demonstrates promising results for refinement tasks of relation prediction and triple classification tasks. By considering these challenges and proposing novel approaches, this thesis contributes to KG refinement, particularly emphasizing explainability and knowledge discovery. The outcomes of this research open doors to more research questions and pave the way for advancing towards more accurate and comprehensive KGs