Dissertations / Theses: 'Graphes linguistiques'

1

Archer, Vincent. "Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations." Phd thesis, Université Joseph Fourier (Grenoble ; 1971-2015), 2009. http://www.theses.fr/2009GRE10127.

Full text

Abstract:

Pour modéliser au mieux les phénomènes linguistiques dans les systèmes de traitement automatique des langues (traduction, analyse, etc. ), il faut disposer de ressources de qualité. Or, les ressources existantes sont souvent incomplètes et ne permettent pas de traiter correctement les données. Cette thèse s'intéresse à l'acquisition de connaissances linguistiques, plus précisément à leur extraction à partir de corpus. Nous étudions en particulier le problème des collocations, ces couples de termes dont l'un est choisi en fonction de l'autre pour exprimer un sens particulier (comme « pluie battante » où « pluie » exprime l'intensification). Pour permettre l'acquisition de données à grande échelle, il faut la rendre facile à réaliser de manière automatique, et simple à paramétrer par des linguistes aux connaissances limitées en programmation ; cela nécessite une modélisation adaptée et précise des données et des processus. Nous avons réalisé et décrivons MuLLinG, modèle de graphes linguistiques multiniveau, où chaque niveau représente l'information d'une manière différente,et les opérations de manipulation de ces graphes. Ce modèle permet de représenter et traiter divers types de ressources. En effet, les opérations associées ont été écrites pour être les plus génériques possibles : elles sont indépendantes de ce que peuvent représenter les nœuds et les arcs du graphe, et de la tâche à réaliser. Cela permet à notre modèle, mis en œuvre et utilisé pour plusieurs expérimentations (entre autres l'extraction de collocations), de voir un processus parfois complexe d'extraction de connaissances linguistiques comme une succession d'opérations simples de manipulation de graphes
In order to model at best linguistic phenomena, natural language processing systems need to have quality ressources at their disposal, yet existing ressources are most often incomplete and do not allow to treat data in an adequate manner in process like translation, analysis, etc. This thesis is about acquisition of linguistic knowledge, and more precisely about the extraction of that knowledge from corpora where it appears. We study especially the problem of the collocations, these couple of terms where one term is chosen in function of the other one to express a particular meaning (as « driving rain », where « driving » is used to express the intensification). To allow large-scale data acquisition, it is necessary to make it easy to realize in an automatic manner, and simple to configure by linguists with limited knowledge in computer programming. For that reason, we have to rely on a precise and suitable model for data and process. We describe MuLLinG, the multilevel linguistic graph we realized, where each level represents information in a different manner, and operations for the manipulation of these graphs. That model, based on a simple structure (the graph one), allows to represent, treat, and manage diverse kinds of ressources. Indeed, associated operations were written in order to be as most generic as possible, which means that they are independent of what nodes and edges represents, and of the task to realize. That enables our model, which has been implemented and used for several experiments, some concerning collocation extraction, to view a process (sometimes complex) of linguistic knowledge extraction, as a succession of small graph manipulation operations