Dissertations / Theses on the topic 'Graphes linguistiques'

To see the other types of publications on this topic, follow the link: Graphes linguistiques.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 42 dissertations / theses for your research on the topic 'Graphes linguistiques.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Archer, Vincent. "Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations." Phd thesis, Université Joseph Fourier (Grenoble ; 1971-2015), 2009. http://www.theses.fr/2009GRE10127.

Full text
Abstract:
Pour modéliser au mieux les phénomènes linguistiques dans les systèmes de traitement automatique des langues (traduction, analyse, etc. ), il faut disposer de ressources de qualité. Or, les ressources existantes sont souvent incomplètes et ne permettent pas de traiter correctement les données. Cette thèse s'intéresse à l'acquisition de connaissances linguistiques, plus précisément à leur extraction à partir de corpus. Nous étudions en particulier le problème des collocations, ces couples de termes dont l'un est choisi en fonction de l'autre pour exprimer un sens particulier (comme « pluie battante » où « pluie » exprime l'intensification). Pour permettre l'acquisition de données à grande échelle, il faut la rendre facile à réaliser de manière automatique, et simple à paramétrer par des linguistes aux connaissances limitées en programmation ; cela nécessite une modélisation adaptée et précise des données et des processus. Nous avons réalisé et décrivons MuLLinG, modèle de graphes linguistiques multiniveau, où chaque niveau représente l'information d'une manière différente,et les opérations de manipulation de ces graphes. Ce modèle permet de représenter et traiter divers types de ressources. En effet, les opérations associées ont été écrites pour être les plus génériques possibles : elles sont indépendantes de ce que peuvent représenter les nœuds et les arcs du graphe, et de la tâche à réaliser. Cela permet à notre modèle, mis en œuvre et utilisé pour plusieurs expérimentations (entre autres l'extraction de collocations), de voir un processus parfois complexe d'extraction de connaissances linguistiques comme une succession d'opérations simples de manipulation de graphes
In order to model at best linguistic phenomena, natural language processing systems need to have quality ressources at their disposal, yet existing ressources are most often incomplete and do not allow to treat data in an adequate manner in process like translation, analysis, etc. This thesis is about acquisition of linguistic knowledge, and more precisely about the extraction of that knowledge from corpora where it appears. We study especially the problem of the collocations, these couple of terms where one term is chosen in function of the other one to express a particular meaning (as « driving rain », where « driving » is used to express the intensification). To allow large-scale data acquisition, it is necessary to make it easy to realize in an automatic manner, and simple to configure by linguists with limited knowledge in computer programming. For that reason, we have to rely on a precise and suitable model for data and process. We describe MuLLinG, the multilevel linguistic graph we realized, where each level represents information in a different manner, and operations for the manipulation of these graphs. That model, based on a simple structure (the graph one), allows to represent, treat, and manage diverse kinds of ressources. Indeed, associated operations were written in order to be as most generic as possible, which means that they are independent of what nodes and edges represents, and of the task to realize. That enables our model, which has been implemented and used for several experiments, some concerning collocation extraction, to view a process (sometimes complex) of linguistic knowledge extraction, as a succession of small graph manipulation operations
APA, Harvard, Vancouver, ISO, and other styles
2

Quiniou, Solen. "Intégration de connaissances linguistiques pour la reconnaissance de textes manuscrits en-ligne." Phd thesis, INSA de Rennes, 2007. http://tel.archives-ouvertes.fr/tel-00580623.

Full text
Abstract:
L'objectif de ces travaux de thèse est de construire un système de reconnaissance de phrases, en se basant sur un système de reconnaissance de mots existant. Pour cela, deux axes de recherche sont abordés : la segmentation des phrases en mots ainsi que l'intégration de connaissances linguistiques pour prendre en compte le contexte des phrases. Nous avons étudié plusieurs types de modèles de langage statistiques, en comparant leurs impacts respectifs sur les performances du système de reconnaissance. Nous avons également recherché la meilleure stratégie pour les intégrer efficacement dans le système de reconnaissance global. Une des orginalités de cette étude est l'ajout d'une représentation des différentes hypothèses de phrases sous forme d'un réseau de confusion, afin de pouvoir détecter et corriger les erreurs de reconnaissance restantes. L'utilisation des technique présentées permet de réduire de façon importante le nombre d'erreurs de reconnaissance, parmi les mots des phrases.
APA, Harvard, Vancouver, ISO, and other styles
3

Abbaci, Katia. "Contribution à l'interrogation flexible et personnalisée d'objets complexes modélisés par des graphes." Thesis, Rennes 1, 2013. http://www.theses.fr/2013REN1S105/document.

Full text
Abstract:
Plusieurs domaines d'application traitent des objets et des données complexes dont la structure et la sémantique de leurs composants sont des informations importantes pour leur manipulation et leur exploitation. La structure de graphe a été bien souvent adoptée, comme modèles de représentation, dans ces domaines. Elle permet de véhiculer un maximum d'informations, liées à la structure, la sémantique et au comportement de ces objets, nécessaires pour assurer une meilleure représentation et une manipulation efficace. Ainsi, lors d'une comparaison entre deux objets complexes, l'opération d'appariement est appliquée entre les graphes les modélisant. Nous nous sommes intéressés dans cette thèse à l'appariement approximatif qui permet de sélectionner les graphes les plus similaires au graphe d'une requête. L'objectif de notre travail est de contribuer à l'interrogation flexible et personnalisée d'objets complexes modélisés sous forme de graphes pour identifier les graphes les plus pertinents aux besoins de l'utilisateur, exprimés d'une manière partielle ou imprécise. Dans un premier temps, nous avons proposé un cadre de sélection de services Web modélisés sous forme de graphes qui permet (i) d'améliorer le processus d'appariement en intégrant les préférences des utilisateurs et l'aspect structurel des graphes comparés, et (ii) de retourner les services les plus pertinents. Une deuxième méthode d'évaluation de requêtes de recherche de graphes par similarité a également été présentée pour calculer le skyline de graphes d'une requête utilisateur en tenant compte de plusieurs mesures de distance de graphes. Enfin, des approches de raffinement ont été définies pour réduire la taille, souvent importante, du skyline. Elles ont pour but d'identifier et d'ordonner les points skyline qui répondent le mieux à la requête de l'utilisateur
Several application domains deal with complex objects whose structure and semantics of their components are crucial for their handling. For this, graph structure has been adopted, as a model of representation, in these areas to capture a maximum of information, related to the structure, semantics and behavior of such objects, necessary for effective representation and processing. Thus, when comparing two complex objects, a matching technique is applied between their graph structures. In this thesis, we are interested in approximate matching techniques which constitute suitable tools to automatically find and select the most similar graphs to user graph query. The aim of our work is to develop methods to personalized and flexible querying of repositories of complex objects modeled thanks to graphs and then to return the graphs results that fit best the users ’needs, often expressed partially and in an imprecise way. In a first time, we propose a flexible approach for Web service retrieval that relies both on preference satisfiability and structural similarity between process model graphs. This approach allows (i) to improve the matching process by integrating user preferences and the graph structural aspect, and (ii) to return the most relevant services. A second method for evaluating graph similarity queries is also presented. It retrieves graph similarity skyline of a user query by considering a vector of several graph distance measures instead of a single measure. Thus, graphs which are maximally similar to graph query are returned in an ordered way. Finally, refinement methods have been developed to reduce the size of the skyline when it is of a significant size. They aim to identify and order skyline points that match best the user query
APA, Harvard, Vancouver, ISO, and other styles
4

Benchouk, Ouahiba. "Un composant linguistique de production de phrases basé sur le formalisme des graphes conceptuels." Aix-Marseille 2, 1994. http://www.theses.fr/1994AIX22004.

Full text
Abstract:
Le travail que nous presentons dans cette these entre dans le cadre de la generation automatique de textes et plus exactement dans la phase generation de surface. Nous proposons un outil generique, base sur un formalisme de representation des connaissances connu et bien defini, celui des graphes conceptuels de sowa. Ce formalisme est tres approprie pour le traitement de la langue naturelle et repond bien a nos exigences; les methodes et les algorithmes que nous developpons y sont tres lies. La premiere tache du composant linguistique est le choix des mots qui expriment le contenu de la representation semantique. L'algorithme que nous proposons est base sur la generalisation, la projection et la contraction de type. Les contraintes syntaxiques qui sont attachees aux descriptions semantiques des mots evitent la production de nombreuses incoherence syntaxiques mais n'assurent pas la production de structure de surface syntaxiquement correctes. Pour verifier l'ensemble des contraintes syntaxiques, les completer par un traitement des mots de la classe fermee (article, auxiliaire, preposition) et effectuer les accords, il est necessaire de produire une structure d'arbre qui sera l'entree de la grammaire. Pour eliminer les concepts redondants et eviter de produire des phrases contenant des repetitions, nous proposons un algorithme de pronominalisation qui combine les criteres suivants: distance, morpho-syntaxe, conceptuel, contraintes intra-phrase
APA, Harvard, Vancouver, ISO, and other styles
5

Constant, Matthieu. "Grammaires locales pour l'analyse automatique de textes : méthodes de construction et outils de gestion." Phd thesis, Université Paris-Est, 2003. http://tel.archives-ouvertes.fr/tel-00626252.

Full text
Abstract:
L'explosion du nombre de documents disponibles (notamment sur Internet) a rendu le domaine du Traitement Automatique des Langues (TAL) et ses outils incontournables. De nombreux chercheurs marquent l'importance de la linguistique dans ce domaine. Ils préconisent la construction de larges bases de descriptions linguistiques, composées de lexiques et de grammaires. Cette démarche a un gros inconvénient : elle nécessite un investissement lourd qui s'inscrit sur le long terme. Pour palier à ce problème, il est nécessaire de mettre au point des méthodes et des outils informatiques d'aide à la construction de composants linguistiques fins et directement applicables à des textes. Nous nous sommes penché sur le problème des grammaires locales qui décrivent des contraintes précises et locales sous la forme de graphes. Deux questions fondamentales se posent : - Comment construire efficacement des grammaires précises, complètes et applicables à des textes ? - Comment gérer leur nombre et leur éparpillement ? Comme solution au premier problème, nous avons proposé un ensemble de méthodes simples et empiriques. Nous avons exposé des processus d'analyse linguistique et de représentation à travers deux phénomènes : les expressions de mesure (un immeuble d'une hauteur de 20 mètres) et les adverbes de lieu contenant un nom propre locatif (à l'île de la Réunion), deux points critiques du TAL. Sur la base de M. Gross (1975), nous avons ramené chaque phénomène à une phrase élémentaire. Ceci nous a permis de classer sémantiquement certains phénomènes au moyen de critères formels. Nous avons systématiquement étudié le comportement de ces phrases selon les valeurs lexicales de ses éléments. Les faits observés ont ensuite été représentés formellement soit directement dans des graphes à l'aide d'un éditeur, soit par l'intermédiaire de tables syntaxiques ensuite converties semiautomatiquement en graphes. Au cours de notre travail, nous avons été confronté à des systèmes relationnels de tables syntaxiques pour lesquels la méthode standard de conversion due à E. Roche (1993) ne fonctionnait plus. Nous avons donc élaboré une nouvelle méthode adaptée avec des formalismes et des algorithmes permettant de gérer le cas où les informations sur les graphes à construire se trouvent dans plusieurs tables. En ce qui concerne le deuxième problème, nous avons proposé et implanté un prototype de système de gestion de grammaires locales : une bibliothèque en-ligne de graphes. Le but à terme est de centraliser et de diffuser les grammaires locales construites au sein du réseau RELEX. Nous avons conçu un ensemble d'outils permettant à la fois de stocker de nouveaux graphes et de rechercher des graphes suivant différents critères. L'implémentation d'un moteur de recherche de grammaires nous a également permis de nous pencher sur un nouveau champ d'investigation dans le domaine de la recherche d'information : la recherche d'informations linguistiques dans des grammaires locales.
APA, Harvard, Vancouver, ISO, and other styles
6

Nogier, Jean-François. "Un système de production de langage fondé sur le modèles des graphes conceptuels." Paris 7, 1990. http://www.theses.fr/1990PA077157.

Full text
Abstract:
Cette thèse porte sur la conception d'une architecture de production de langage, c'est-à-dire la mise en oeuvre informatique de la traduction des idées en mots (comment le dire ?). L'accent a été mis sur deux aspects du problème : le choix des mots et la linéarisation en phrase des représentations syntaxiques intermédiaires. Le modèle de représentation des connaissances : les graphes conceptuels, est unique tout au long du processus. En effet, il permet de modéliser à la fois la structure manipulée par le programme (aux stades conceptuels et syntaxiques) et les connaissances déclaratives nécessaires (définitions sémantiques des mots, propriétés syntaxiques. . . ). Le système sélectionne simultanément les mots et les structures syntaxiques. Bénéficiant d'une même modélisation pour la signification d'un mot ou d'une phrase (le graphe conceptuel), un mot est choisi parce qu'il y a recouvrement en son graphe conceptuel (définition sémantique du mot) et le graphe conceptuel initial représentant la sémantique de la phrase à engendrer. Plusieurs mots peuvent être candidats. Le système peut revenir sur ses choix, sélectionner un des autres mots possibles et ainsi paraphraser (paraphrase sémantique) la phrase précédente. La génération de paraphrases se fait donc automatiquement par retour en arrière. Le graphe syntaxique obtenu après le choix des mots et une représentation syntaxique de la phrase à engendrer. Il est transmis au composant syntaxique. La linéarisation en phrase suit trois étapes : 1) Construction progressive de l'arbre syntaxique ; 2) Transformations de l'arbre ; 3) Déclinaison. Chaque étape de la linéarisation tient compte des propriétés syntaxiques des mots en présence. A ce stade, il est également possible d'obtenir des paraphrases par retour en arrière
APA, Harvard, Vancouver, ISO, and other styles
7

Belkaroui, Rami. "Vers un contextualisation des tweets basée sur une analyse des graphes des conversation." Thesis, Nantes, 2018. http://www.theses.fr/2018NANT4013/document.

Full text
Abstract:
Même avec le récent passage à 280 caractères, les messages de Twitter considérés dans leur singularité, sans information additionnelle exogène, peuvent confronter leurs lecteurs à des difficultés d’interprétation. L’ajout d’une contextualisation à ces messages s’avère donc une voie de recherche prometteuse pour faciliter l’accès à leur contenu informationnel. Dans la dernière décennie, la majorité des travaux se sont concentrés sur la construction de résumés à partir de sources d’information complémentaires telles que Wikipédia. Nous avons choisi dans cette thèse une voie complémentaire différente qui s’appuie sur l’analyse des conversations sur Twitter afin d’extraire des informations utiles à la contextualisation d’un tweet. Ces informations ont été intégrées dans un prototype qui, pour un tweet donné, propose une visualisation d’un sous-graphe du graphe de conversation associé au tweet. Ce sous-graphe extrait automatiquement à partir de l’analyse des distributions des indicateurs structurels, permet de mettre en évidence notamment des individus qui jouent un rôle majeur dans la conversation et des tweets qui ont contribué à la dynamique des échanges. Ce prototype a été testé sur un panel d’utilisateurs, pour valider son apport et ouvrir des perspectives d’amélioration
Even with the recent switch to 280 characters, Twitter messages considered in their singularity, without any additional exogenous information, can confront their readers with difficulties of interpretation. The integration of contextualization on these messages is therefore a promising avenue of research to facilitate access to their information content. In the last decade, most works have focused on building summaries from complementary sources of information such as Wikipedia. In this thesis, we choose a different complementary path that relies on the analysis of conversations on Twitter in order to extract useful information for the contextualization of a tweet. These information were integrated in a prototype which, for a given tweet, offers a visualization of a subgraph of the conversation graph associated with the tweet. This subgraph, automatically extracted from the analysis of structural indicators distributions, allows to highlight particular individuals who play a major role in the conversation and tweets that have contributed to the dynamics of exchanges. This prototype was tested on a panel of users to validate its efficiency and open up prospects for improvement
APA, Harvard, Vancouver, ISO, and other styles
8

Barbar, Kablan. "Grammaires d'arbres attribuées : méthodes de vérification des propriétés de graphes engendrés." Bordeaux 1, 1988. http://www.theses.fr/1988BOR10595.

Full text
Abstract:
Presentation d'une methode de recherche d'algorithmes de test des proprietes de graphes d'attributs engendres. Sont decrits, sous forme de point fixe d'un systeme regulier, des algorithmes iteratifs pour les tests de non-circularite, d'existence d'attributs inutiles et d'existence de chemins hamiltoniens dans les graphes engendres
APA, Harvard, Vancouver, ISO, and other styles
9

Barakat-Barbieri, Bruno. "Vers une construction automatique de graphes de concepts." Châtenay-Malabry, Ecole centrale de Paris, 1992. http://www.theses.fr/1992ECAP0416.

Full text
Abstract:
Ce travail propose une méthode de construction automatique de graphes de concepts à partir d'une base de données en texte intégral. La terminologie significative est extraite et normalisée à l'aide d'un traitement linguistique automatique. Le graphe de concepts ainsi construit est un arbre dont les nœuds sont les termes retenus. Les relations sont de nature générique-spécifique. Dans un premier temps, après une étude de la détermination de l'unité sémantique optimale, on introduit la notion de champ sémantique fondée sur la notion de concurrence de termes au sein de cette unité. Puis, après avoir mis en évidence les inconvénients de cette première approche, une nouvelle notion est présentée: les ensembles sémantiques. Ceux-ci sont moins dépendants de la répartition par thèmes des documents. L'étude du recouvrement de ces ensembles sémantiques nous permet de mettre en évidence les liens unissant les concepts entre eux. Une solution pour l'identification des polysèmes est également proposée. Enfin, l'auteur présente une discussion sur la qualité des résultats et les limites de cette approche
APA, Harvard, Vancouver, ISO, and other styles
10

Mourad, Ghassan. "Analyse informatique des signes typographiques pour la segmentation de textes et l'extraction automatique de citations : réalisation des applications informatiques : SegATex et CitaRE." Paris 4, 2001. http://www.theses.fr/2001PA040100.

Full text
Abstract:
Ce travail s'inscrit dans le cadre d'un projet mené au sein de l'équipe LaLIC (Langage, Logique, Informatique et Cognition). Il est opérationnel d'un point de vue informatique et a pour objectif de définir le besoin en terme de segmentation de texte, et d'interprétation sémantique de marqueurs typographiques, pour le filtrage d'information. Il a abouti à la réalisation de deux applications SegATex et CitaRE. Nous avons défini les valeurs des signes de ponctuation, et nous nous sommes intéressé à l'étude historique de la ponctuation en particulier à l'origine de la forme graphique de la virgule et son éventuelle relation avec une autre particule (le waw) dans la langue arabe. L'application SegATex (Segmentation Automatique de Textes) est destinée en tant que module informatique à préparer (baliser) le texte pour un traitement automatique de langue. Parmi ces traitements, figurent la segmentation de textes en sections, sous-sections, paragraphes, phrases, titres et énumérations. La troisième partie de cette thèse traite de " l'extraction automatique de la citation " qui a abouti à la réalisation du système CitaRE (Citation : Repérage et Extraction). Afin de répondre aux besoins de filtrage et d'extraction de connaissances (la citation), nous avons adopté la méthode d'exploration contextuelle
The present work comes within the scope of a project carried out by the LaLIC research team (Langage, Logique, Informatique et Cognition). From a computer perspective this work is of an operational value and it aims at defining the requirements in terms of text segmentation and semantic interpretation of typographic marks for filtering information. The final outcome of this work are the SegATex and CitaRE applications. We proceeded in defining the value of punctuation marks and followed with a historical study of punctuation. We took special interest in the origins of the graphical form of the comma and its eventual relation with the waw, a particle in Arabic language. The SegATex application (Automatic Segmentation of Texts), as a computer module, is intended to prepare (to tag) a text for an automatic language processing which includes text segmentation in sections, sub sections, paragraphs, sentences, titles and enumeration. In the third part of the thesis we treat the "automatic extraction of quotations". The outcome of this part is the CitaRE system (Citation : Repérage et Extraction). We have followed the method of contextual exploration in order to comply with the requirements for filtering and extracting knowledge (the quotation)
APA, Harvard, Vancouver, ISO, and other styles
11

Ribeyre, Corentin. "Méthodes d’analyse supervisée pour l’interface syntaxe-sémantique : de la réécriture de graphes à l’analyse par transitions." Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCC119.

Full text
Abstract:
Aujourd'hui, le volume de données textuelles disponibles est colossal. Ces données représentent des informations inestimables impossibles à traiter manuellement. De fait, il est essentiel d'utiliser des techniques de Traitement Automatique des Langues pour extraire les informations saillantes et comprendre le sens sous-jacent. Cette thèse s'inscrit dans cette perspective et proposent des ressources, des modèles et des méthodes pour permettre : (i) l'annotation automatique de corpus à l'interface entre la syntaxe et la sémantique afin d'en extraire la structure argumentale (ii) l'exploitation des ressources par des méthodes efficaces. Nous proposons d’abord un système de réécriture de graphes et un ensemble de règles de réécriture manuellement écrites permettant l'annotation automatique de la syntaxe profonde du français. Grâce à cette approche, deux corpus ont vu le jour : le DeepSequoia, version profonde du corpus Séquoia et le DeepFTB, version profonde du French Treebank en dépendances. Ensuite, nous proposons deux extensions d'analyseurs par transitions et les adaptons à l'analyse de graphes. Nous développons aussi un ensemble de traits riches issus d'analyses syntaxiques. L'idée est d'apporter des informations topologiquement variées donnant à nos analyseurs les indices nécessaires pour une prédiction performante de la structure argumentale. Couplé à un analyseur par factorisation d'arcs, cet ensemble de traits permet d'établir l'état de l'art sur le français et de dépasser celui établi pour les corpus DM et PAS sur l'anglais. Enfin, nous explorons succinctement une méthode d'induction pour le passage d'un arbre vers un graphe
Nowadays, the amount of textual data has become so gigantic, that it is not possible to deal with it manually. In fact, it is now necessary to use Natural Language Processing techniques to extract useful information from these data and understand their underlying meaning. In this thesis, we offer resources, models and methods to allow: (i) the automatic annotation of deep syntactic corpora to extract argument structure that links (verbal) predicates to their arguments (ii) the use of these resources with the help of efficient methods. First, we develop a graph rewriting system and a set of manually-designed rewriting rules to automatically annotate deep syntax in French. Thanks to this approach, two corpora were created: the DeepSequoia, a deep syntactic version of the Séquoia corpus and the DeepFTB, a deep syntactic version of the dependency version of the French Treebank. Next, we extend two transition-based parsers and adapt them to be able to deal with graph structures. We also develop a set of rich linguistic features extracted from various syntactic trees. We think they are useful to bring different kind of topological information to accurately predict predicat-argument structures. Used in an arc-factored second-order parsing model, this set of features gives the first state-of-the-art results on French and outperforms the one established on the DM and PAS corpora for English. Finally, we briefly explore a method to automatically induce the transformation between a tree and a graph. This completes our set of coherent resources and models to automatically analyze the syntax-semantics interface on French and English
APA, Harvard, Vancouver, ISO, and other styles
12

Anfosso, Jean-Pierre. "Contribution à une modélisation statistique du langage et à sa mise en oeuvre informatique." Nice, 2002. http://www.theses.fr/2002NICE2034.

Full text
Abstract:
Automates finis, analyseurs lexicaux, choix d'une structure d'index ouvert, relevé des formes et des références en une seule passe, tri linéaire combinant tri par base et par dénombrement. Indexation et recherche de n-grammes, méthode de Rabin-Karp. Problèmes algébriques posés par des textes naturels (déchiffrabilité, charades). Utilisation de propriétés statistiques des textes pour la compression, le décryptement. Modélisation markovienne du langage et théorie des graphes. Simulation de chaînes. Estimateurs, ajustement d'un modèle sur une séquence de texte, test d'adéquation et choix d'un ensemble d'états. Transposition de méthodes utilisées par la génomique, pour attribuer une séquence textuelle à un type d'écriture (corpus, auteur), et pour découper un corpus en zones homogènes (recherche d'interpolation, de scripteurs différents). Implantation de modèles de Markov cachés, adaptation des algorithmes (Viterbi, forward, backward, Baum-Welch) à des modèles M1-Mk
Indexes dynamic building for texts, linear sorting and n-grams retrieval. Using algebraic and statistical properties, for compression, deciphering, etc. Language Markov modelling and graphical representation. Estimation, testing hypothesis, homogeneity problem. Applying biological sequence analysis methods to discrimination between text sequences from different corpora, and to decode the underlying structure of an inhomogeneous text (e. G. With interpolations or written by several authors). Implementation of an hidden Markov model adapting Viterbi, forward, backward and Baum-Welch algorithms, to higher order variety
APA, Harvard, Vancouver, ISO, and other styles
13

Azémard, Frédéric. "Des références dans le dialogue homme-machine multimodal. Une approche adaptée du formalisme des graphes conceptuels." Toulouse 3, 1995. http://www.theses.fr/1995TOU30031.

Full text
Abstract:
Le travail, situe dans le domaine des interfaces homme-ordinateur, porte sur le developpement de l'aspect comprehension a l'intersection de quatre axes de recherche: le dialogue, le langage naturel, la multimodalite et les representations cognitives. Comprendre consiste a construire et completer la representation d'un enonce. Cette derniere est un graphe dit de comprehension, dont la forme s'inspire des graphes conceptuel de sowa. L'etude, limitee au dialogue oriente par l'action, a pour cadre experimental la realisation d'une interface multimodale associant langage et graphisme. Une premiere contribution, engageant l'aspect multimodal, montre que la fusion des evenements doit etre realisee pendant l'interpretation, a partir d'une representation conceptuelle, et sur les bases d'indices linguistiques. Puis, concernant le langage et les representations cognitives, une seconde contribution consiste en une adaptation de la theorie des graphes conceptuels. Aux mots du langage sont associees des formes stables par categories syntaxiques. Le graphe de comprehension est ensuite le resultat de l'enrichissement de la representation conceptuelle du verbe de l'enonce. L'elaboration de ce graphe s'opere au sein d'un analyseur syntaxico-semantique grace a l'operation de jointure. Cette operation est dirigee par la syntaxe et repose sur des traitements generalises qui portent sur la forme des graphes et non sur leur contenu. Lorsqu'une jointure est irrealisable, le dialogue est relance sur la base de diagnostics d'echecs. Enfin, la derniere contribution est un processus d'interpretation qui s'appuie sur un ensemble de mecanismes participant a la resolution d'ambiguites referentielles. Il se distingue des methodes existantes car la recherche des referents a plusieurs orientations en fonction des marqueurs linguistiques et selon les habitudes referentielles observees chez l'utilisateur
APA, Harvard, Vancouver, ISO, and other styles
14

Lapitre, Arnault. "Procédures de réduction pour les systèmes à base d'automates communicants : formalisation et mise en oeuvre." Paris 11, 2002. http://www.theses.fr/2002PA112313.

Full text
Abstract:
Ce travail porte sur la formalisation de l'exécution symbolique de systèmes à base d'automates communicants et sa mise en oeuvre algorithmique en proposant des méthodes de réduction de l'espace des états atteignables préservant les équivalences usuelles. Nous avons proposé une formalisation des systèmes communicants dans un cadre très général inspiré par les graphes de transitions symboliques avec affectations (ou STGA). Nous en avons isolé une sous-classe particulière de ces derniers, que nous avons appelé STGA paramétrés (ou P-STGA) et établi en théorème de représentation de tout graphe dans cette sous classe via une relation de bisimulation forte. La démonstration de ce théorème nous a permis d'introduire l'exécution symbolique comme étant un moyen permettant de construire un représentant d'un STGA donné dans la classe des P-STGA qui sont des modèles du graphe de ses états atteignables. Lors de la mise en oeuvre algorithmique de l'exécution symbolique, pour faire face au problème d'explosion combinatoire de l'espace des états atteignables nous avons proposé des méthodes de réduction préservant les relations de bisimulation forte ou simple entre le STGA et son représentant dans la classe des P-STGA. Ses méthodes ont été implémentées avec succès dans le cadre d'une plate-forme de génération automatique de tests pour des spécifications formelles
This work deals with formalization of symbolic execution of systems based on concurrency automaton and his algorithmic implementation while proposing reduction methods for the graph of reachable states preserving the ordinary equivalences. We proposed a formalization of the communicating systems in a very general framework inspired by the symbolic transition graph with assignment, denoted by STGA. We some isolated an special part of the class of STGAs that we called parameterize STGA or P-STGA, and established a representative theorem of all graphs in this under classifies using a strong bisimulation relation. The proof of this theorem allowed us to introduce the symbolic execution as being a means building a representative of a given STGA in the class of the P-STGA which were models for his graph of reachable states. At the time of the algorithmic implementation of symbolic execution, reduction methods preserving the relations of strong or simple bisimulation between the STGA and his representative in the class of P-STGAs were proposed to limit the growth of the space of reachable states. Its methods were implemented with successes in an automatic tests generation tool for formals specifications
APA, Harvard, Vancouver, ISO, and other styles
15

Merkoulova, Inna. "Graphie et énonciation : les signes périphériques de la ponctuation dans la prose française contemporaine." Limoges, 2001. http://www.theses.fr/2001LIMO2002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

Dinh, Trong Hiêu. "Grammaires de graphes et langages formels." Phd thesis, Université Paris-Est, 2011. http://tel.archives-ouvertes.fr/tel-00665732.

Full text
Abstract:
Cette thèse apporte plusieurs contributions dans le domaine des langages formels. Notre premier travail a été de montrer la pertinence des grammaires de graphes comme outil de démonstration de résultats fondamentaux sur les langages algébriques. Nous avons ainsi reformulé avec un point de vue géométrique les démonstrations du lemme des paires itérantes et du lemme de Parikh. Nous avons ensuite étendu aux graphes réguliers des algorithmes de base sur les graphes finis, notamment pour calculer des problèmes de plus court chemin. Ces extensions ont été faites par calcul de plus petits points fixes sur les grammaires de graphes. Enfin, nous avons caractérisé des familles générales de systèmes de récriture de mots dont la dérivation préserve la régularité ou l'algébricité. Ces familles ont été obtenues par décomposition de la dérivation en une substitution régulière suivie de la dérivation du système de Dyck
APA, Harvard, Vancouver, ISO, and other styles
17

Skaf, Bariaa. "Variantes graphiques numériques dans le contexte libanais : Description sociolinguistique des pratiques et des représentations." Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAL006/document.

Full text
Abstract:
Les technologies numériques et multimédia favorisent, dans divers contextes sociolinguistiques, l’apparition de modes de communication écrite présentant des spécificités linguistiques et graphiques (Crystal, 2001) que nous nommons, dans le cadre de notre recherche, variantes graphiques numériques (VGN). Les échanges écrits électroniques que nous analysons ont été menés par des préadolescents (8 à 11 ans), des adolescents (14 à 16 ans), de jeunes adultes qui poursuivent leurs études universitaires (18 à 26 ans) et des adultes (28 à 63 ans). Tous ces scripteurs utilisent majoritairement le dialecte libanais, le translittèrent au moyen de graphèmes latins et complètent ces derniers par des chiffres pour représenter les phonèmes qui n’ont pas de correspondance dans ce système graphique. Ils enrichissent leur messagerie instantanée multilingue en recourant à des abréviations, des sigles, des rébus basés sur une écriture phonétique et à bien d'autres procédés graphiques qui miment l’oralité. Ils partagent un même code, celui de l’écrit, mais leurs échanges électroniques se font dans une forme qui rappelle l'oral spontané, comme le montrait déjà Anis (1999). Ils se servent de divers moyens pour rendre compte de la multimodalité inhérente aux échanges verbaux en face-à-face et constitutive de l’interaction.En raison du trilinguisme du contexte libanais de notre étude, ces usages numériques sont associés également à des pratiques plurilingues (Lüdi et Py 2002,) ou translanguaging (Garcia, 2009). Nous analysons également les implications et les modalités de contact entre l’arabe, le français et l’anglais.Parallèlement à ces descriptions formelles, nous documentons la diversité des contextes et des modalités d’usage des VGN au nord Liban. Cette étude permet de montrer la distribution des VGN et des formes de contacts dans différents types d’écrits comme les messages numériques et non numériques, privés et publics, synchrones et asynchrones, formels et informels sur Facebook. Nous complétons ces analyses d’échanges par des écrits d’élèves, recueillis auprès de 13 étudiant.e.s fréquentant des écoles et des universités privées et publiques. Ces derniers écrits montrent la diffusion des VGN de la communication électronique dans les écrits papier à usage privé.Notre corpus contient enfin des enseignes et des menus de restaurants et de cafés-trottoirs, des publicités, des captures d'écran, des titres de chansons de chanteurs libanais, des programmes télévisés de chaines libanaises, des manuels de parler libanais, un roman, des articles de presse et aussi des photos prises dans un jardin publique et dans une école publique. Notre thèse démontre que les VGN ont acquis une visibilité importante dans la société libanaise, devenant selon la formule d’Henri Boyer « un objet linguistique médiatiquement identifié » (Boyer, 1997) et qu’elles se diffusent maintenant indépendamment des supports. Ces VGN témoignent d'un mode d’écrit vernaculaire reconnu et utilisé par la société libanaise dans des contextes autres que numériques. Ainsi, notre enquête montre que les VGN ne sont plus limitées aux adolescents et à la jeunesse qui les ont véhiculées au départ mais concernent toutes les tranches d'âge. Elles sont désormais un moyen de communication recherché pour atteindre un public de plus en plus large.Nous avons également mené une enquête par questionnaire auprès des scripteurs qui ont fourni des messages numériques et/ou non numériques, et d’enseignants et de professeurs des secteurs publique et privé confrontés aux VGN. Ces questionnaires ont été complétés par des entretiens réalisés avec 11 scripteurs appartenant aux différentes catégories d'âge considérées. Cette enquête nous a permis d'étudier les représentations des scripteurs, utilisateurs ou non des outils numériques, usagers ou non des VGN. Elle révèle l'importance de la variation interindividuelle et situationnelle et les représentations ambivalentes que les Libanais ont de ces VGN
The digital and multimedia technologies favor, in various sociolinguistic contexts, the emergency of written communication modes presenting linguistic and graphic specificities (Crystal, 2001) that we name, in our research, digital graphic variants (VGN). The electronic written exchanges that we are studying were conducted by writers from different age groups (pre-teens, adolescents, young adults students, and adults from 28 to 63 years old). All these writers mainly use the Lebanese dialect; they transliterate it through the means of Latin graphemes and add numbers to transcribe Arabic phonemes that have no match in this writing system. They enrich their instant multilingual messages by using abbreviations, acronyms, phonetic-based rebuses and many other graphic process that mimic orals. They share the same code, that of written, but their electronic exchanges are conducted in a form that evokes the spontaneous oral, as it has already been shown by Anis (1999). They use different means to compensate the lack of multimodality, which is known to be so relevant for face-to-face interaction.Due to the trilingualism of the Lebanese context, these digital usages are also associated with multilingual practices (Lüdi and Py 2002,) or translanguaging (Garcia, 2009). We also analyze the implications and modalities of contact between Arabic, French and English.In parallel with these formal descriptions, we are provide new descriptions of wide range of contexts and modalities of the use of VGN in the north of Lebanon. This study shows the distribution of VGN and forms of contact in different types of writing such as digital and non-digital messages, private and public, synchronous and asynchronous, formal and informal on Facebook. We complete these exchange analyzes with student writings, done by 13 students attending private and public schools and universities. These last writings show the diffusion of the VGN from the electronic communication towards the paper writings for private use.Our open corpus finally includes different kinds of public writing as signs and menus of restaurants and sidewalk cafes, commercials, screen shots, Lebanese singers' song titles, Lebanese channel television programs, Lebanese textbooks, a novel, press articles and also photos taken in a public garden and in a public school. Our dissertation demonstrates that VGN have gained significant visibility in Lebanese society, becoming, as Henri Boyer (1997) writes, “a linguistic object under the scope of the media”, and that they are now widespread regardless of the media. These VGN testify a mode of vernacular writing recognized and used by the Lebanese society in contexts other than digital. Thus, our survey shows that VGN are no longer limited to adolescents and youth who initially used them, but include all age groups. They are now a means of communication sought to reach a wider audience.We also conducted a questionnaire survey of script writers who provided digital and / or non-digital messages, and teachers and professors from the public and private sectors facing VGN. These questionnaires were supplemented by interviews with 11 writers belonging to different age group. This survey allowed us to study the representations and attitudes of the writers, users or not of the digital tools, users or not VGN. This reveals the importance of the interindividual and situational variation and the ambivalent representations that the Lebanese have of these VGN
APA, Harvard, Vancouver, ISO, and other styles
18

Roussel, David. "Intégration de prédictions linguistiques issues d'applications à partir d'une grammaire d'arbres hors-contexte : contribution à l'analyse de la parole." Grenoble 1, 1999. http://www.theses.fr/1999GRE10209.

Full text
Abstract:
L'etude porte sur le couplage robuste de l'analyse et de la reconnaissance automatique de la parole dans le cadre d'interactions homme-machine en langage naturel. Notre strategie repose sur differentes etapes d'analyse qui exploitent de facon complementaire une variante hors contexte des grammaire d'arbres adjoints baptisee tree furcating grammar. Afin de privilegier les contraintes issues d'un cadre applicatif, nous synchronisons les operations de composition des arbres avec des mecanismes de contraintes et de propagation sur des traits semantiques (semes) definis differentiellement. Chaque etape d'analyse est alors prevue pour mettre en concurrence des hypotheses de reconnaissance de la parole. La premiere etape mobilise la partie la plus fiable de la grammaire - la description des segments minimaux (chunks) - et peut reposer sur un superetiquetage (supertagging). Les interdependances entre chunks sont a prendre en compte de facon heuristique ou par une analyse complete. Cette analyse est consideree dans une deuxieme phase. En cas d'echec et d'analyses partielles, une derniere etape detecte localement certaines extragrammaticalites ou erreurs de reconnaissances, et poursuit l'analyse par des adaptations locales et des operations de composition dediees. Pour selectionner les analyses qui minimisent les risques d'incommunicabilite, nous mobilisons les resultats des trois phases d'analyse, ainsi que des predictions sur les actes de dialogue et sur les processus referentiels. Les arbres elementaires sont alors exploites en tant que marques syntaxiques d'actes de dialogue. Les semes associes aux arbres elementaires dans le lexique sont exploites, quant a eux, pour associer un score de discrimination referentiel aux expressions referentielles minimales. Pour valider notre approche, ces propositions sont evaluees sur une application d'amenagement d'interieurs et une application de consultation de programmes televises.
APA, Harvard, Vancouver, ISO, and other styles
19

Martin, Philippe. "Exploitation de graphes conceptuels et de documents structurés et hypertextes pour l'acquisition de connaissances et la recherche d'informations." Nice, 1996. http://www.theses.fr/1996NICE4992.

Full text
Abstract:
Des taches courantes lors de la realisation d'un systeme a base de connaissances, sont la recherche et la representation d'informations contenues dans des documents (e. G. Des retranscriptions d'interviews d'experts), la creation et la manipulation de documents (e. G. Documentation technique), la recherche et la manipulation de connaissances dans une base de connaissances (e. G. Pour les valider). Afin de faciliter l'execution de telles taches par un cogniticien, nous avons cree un outil logiciel permettant l'utilisation combinee a) des techniques avancees de structuration et de gestion de documents offertes par l'editeur de documents structures et hypertextes thot, et b) de techniques avancees de representation et d'organisation de connaissances permises par le formalisme des graphes conceptuels. Des representations de connaissances peuvent ainsi a) etre stockees, recherchees et gerees dans des documents via l'editeur thot, et b) etre exploitees pour permettre la recherche des informations qu'elles indexent dans des documents. De telles recherches peuvent s'effectuer par navigation ou par requete et permettre la generation de documents qui sont des vues sur des parties de documents ou de la base selectionnees sur des criteres conceptuels. De plus, afin de guider et faciliter le travail du cogniticien dans la representation et la recherche de connaissances et d'informations, nous avons constitue une ontologie comprenant a) des types de relations elementaires usuelles (relations rhetoriques, mereologiques, spatiales, temporelles, mathematiques, etc. ), et b) des types de concepts generaux que nous avons specialises par les 90. 000 types de concepts de la base generale de connaissances terminologique wordnet. Nous montrons comment l'exploitation de cette ontologie par des cogniticiens permet d'ameliorer la coherence, l'extensibilite et la reutilisabilite de leurs representations de connaissances
APA, Harvard, Vancouver, ISO, and other styles
20

Goudin, Yoann. "L'intercompréhension en langues sinogrammiques : théories, représentations, enjeux, et modalités d'une didactique de la variation." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCF035.

Full text
Abstract:
Cette thèse traite des fondements et modalités d'une didactique de l'intercompréhension entre les langues qui, au cours de leur histoire, ont été en contact avec la langue et l'écriture chinoises, et dont les lexiques contemporains conservent une trace profonde. Cette étude explore dans quelle mesure il est possible de concevoir un enseignement-apprentissage qui tiendrait compte des acquis d'une première expérience d'apprentissage d'une de ces langues pour en apprendre une autre. La thèse défendue repose sur une refondation didactique du sinogramme au moyen d'une réévaluation non plus seulement graphique mais surtout phonologique afin d'entraîner les apprenants à émettre des hypothèses quant à la réalisation de ces sinogrammes dans la langue-cible. Il y a trois parties. Premièrement, il s'agit d'une discussion épistémologique sur la connaissance de l'écriture chinoise en Europe, la réduction de ce système à sa seule dimension graphique - voire idéographique - et l'incapacité des savants européens à intégrer la culture phonologique très développée qui constitue selon cette thèse la matrice sur laquelle fonder l'intercompréhension entre les langues d'Asie Orientale à l'instar de la grammaire contrastive pour les langues romanes. Ensuite, après une recontextualisation des différentes approches didactique des sinogrammes, sont traitées les modalités mises en œuvre pour préparer à l'intercompréhension : tout d'abord, une refondation de l'enseignement-apprentissage du système sinogrammique non plus au moyen de la programmation des types les plus fréquents dans les lexiques contemporains, mais à travers une approche globale incluant la compréhension des principes de toute l'économie du système graphique . Enfin, il est procédé à la présentation de la transposition sinogrammique, ultime contribution de cette thèse et opération qui permet à l'apprenant de passer de la lecture d'un sinogramme dans une langue-pont à celle dans une langue-cible
This doctoral thesis analyzes the current teaching and learning models among languages that were, and still are, in contact with the Chinese script, and that retain this influence in their modern lexicon : the sinogramic languages. This thesis asserts that such a course can be designed through a complete didactic reformulation of how to teach sinograms, not only in their graphic dimension, but also their phonological identity, in order for the student to imagine pronouncing a sinogram in the target-language according to his/her understanding of an already acquired 'bridge-language'. The thesis is divided into three parts. First, there is an epistemological discussion of the European approach to Chinese language and script, with the sole graphic - «ideographic» - focus, which shadowed traditional phonological practices. Next, the design of an alternative approach is proposed in which sinogram-based learning is not rooted in the so called concentrated approach, according to which sinogram types are selected in order of their frequency and adaptability within the contemporary lexicon. This alternative approach is discussed based on the training of the sinogramic system as a whole: the global approach. Finally, the main process for mutual understanding, which is called sinogramic transposition, is introduced to show how students can be trained to understand and produce readings of sinograms in the target-language
APA, Harvard, Vancouver, ISO, and other styles
21

Besombes, Jérôme. "Un modèle algorithmique de la généralisation de structures dans le processus d'acquisition du langage." Nancy 1, 2003. http://www.theses.fr/2003NAN10156.

Full text
Abstract:
Le sujet de notre étude est l'apprentissage des langages réguliers d'arbres pour la modélisation algorithmique de l'acquisition du langage. L'hypothèse émise est celle d'une structuration arborescente des données mises à disposition de l'apprenti ; ces données sont des phrases correctes entendues et l'apprentissage est effectif dès lors qu'une représentation du langage auquel appartiennent ces phrases est construite. Cette représentation doit permettre de générer de nouvelles phrases compatibles avec le langage et non présentées en exemples. Considérant que le signal perçu (une phrase entendue) est traduit sous forme d'arbre, il apparaît que la généralisation de ces structures arborescente est un élément constitutif de l'apprentissage. Nous avons développé plusieurs modèles pour cette généralisation sous forme d'algorithmes prenant en compte différents types de structures en entrée et différents niveaux d'apport d'information. Ces nouveaux modèles offrent l'avantage d'unifier des résultats majeurs dans la théorie de l'inférence grammaticale, et d'étendre ces résultats, en particulier par la considération de structures nouvelles non étudiées précédemment pour l'apprentissage
The subject of our study is the learning of regular tree languages for an algorithmic modeling of language acquisition. For this, we suppose that data are structured; these data are heard correct sentences and the learning is effective since a representation of the language to which these sentences belong is built. From this representation the learner is able to generate new sentences compatible with the language and not presented as examples. Considering that heard sentences are translated into trees, it appears that the generalization of these tree structures is a component of the learning. We developed several models for this generalization in the form of algorithms taking into account various types of structures as input and various levels of contribution of information. These new models offer the advantage of unifying major results in the theory of the grammatical inference, and of extending these results, in particular by the consideration of new structures not studied previously in the learnability point of view
APA, Harvard, Vancouver, ISO, and other styles
22

Blin, Laurent. "Apprentissage de structures d'arbres à partir d'exemples ; application à la prosodie pour la synthèse de la parole." Rennes 1, 2002. http://www.theses.fr/2002REN10117.

Full text
Abstract:
Cette thèse présente une approche de génération de la prosodie pour la synthèse de la parole, via la définition de représentations arborescentes des énoncés et l'utilisation de mesures de similarité entre ces structures. La prosodie d'un nouvel énoncé est générée par un apprentissage par plus proche voisin. Ces travaux se sont intéressés à la prédiction d'étiquettes ToBI sur des énoncés en anglais américain. Cette these a étudié plusieurs configurations expérimentales. Deux types de structures arborescentes ont été utilisées : une représentation syntaxique classique et une représentation par structure de performance,divisant un énoncé en groupes accentuels et intonatifs. L'influence d'une construction automatique de ces structures a en outre été testée. Deux algorithmes de calcul de distance entre arbres ont également été employés, fondés sur des opérateurs d'édition entre noeuds. Les bases d'une génération de la prosodie par analogie ont également été posées.
APA, Harvard, Vancouver, ISO, and other styles
23

Pugeault, Florence. "Extraction dans les textes de connaissances structurées : une méthode fondée sur la sémantique lexicale linguistique." Toulouse 3, 1995. http://www.theses.fr/1995TOU30164.

Full text
Abstract:
Cette these presente des travaux qui s'inscrivent dans le cadre de l'informatique linguistique et plus precisement dans le domaine de l'extraction de connaissances a partir de textes. Notre but est d'aller au-dela de l'indexation classique par mots-cles en representant l'information retenue comme pertinente sous une forme structuree. Ce projet a fait l'objet d'une collaboration avec la direction des etudes et des recherches d'edf. Pour representer le contenu semantique de textes rediges sans contrainte d'expression, nous avons distingue trois niveaux d'analyse: le niveau pragmatique, le niveau linguistique et le niveau conceptuel. Le niveau pragmatique permet le decoupage d'un texte selon ses parties rhetoriques qui correspondent a des articulations. Le niveau linguistique consiste a structurer les fragments de phrases pertinents pour chaque articulation sous la forme de structures predicatives etiquetees par des roles thematiques precis. Enfin, le niveau conceptuel vise a ameliorer la qualite d'exploitation des resultats du niveau linguistique, notamment en vue de l'interrogation de bases documentaires. Apres analyse de differentes approches, nous avons retenu la lcs (structure lexicale conceptuelle), theorie de jackendoff, pour representer conceptuellement les predicats consideres. Notre contribution sur le plan linguistique a consiste en un travail en profondeur sur la definition de l'ensemble des ressources linguistiques necessaires aux differentes etapes d'analyse que nous avons identifiees. Nous avons notamment defini un ensemble de roles thematiques qio ont une dimension cognitive et un certain nombre de donnees supplementaires en relation avec la lcs (primitives, etc. ). Nous avons aussi caracterise des elements de methode pour la definition de ressources lcs specifiques a un corpus donne. Nos analyses ont ete validees par la mise en uvre du prototype papins (prototype d'analyse pour la production d'index semantiques) que nous avons developpe en prolog
APA, Harvard, Vancouver, ISO, and other styles
24

Ollinger, Sandrine. "Le raisonnement analogique en lexicographie, son informatisation et son application au Réseau Lexical du Français." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0330/document.

Full text
Abstract:
La lexicographie contemporaine met à disposition des ressources offrant de multiples possibilités d’exploitation automatique. Ainsi, le Réseau Lexical du Français, en cours d’élaboration, est un graphe monolingue, constitué de sommets, entre lesquels sont encodées des relations syntaxico-sémantiques. Cette thèse s’intéresse à son exploration par raisonnement analogique. Elle débute par une revue de la formalisation et de l’informatisation de l’analogie pour l’étude du lexique, qui définit les principes de l’exploration : les sommets sont des objets disposant d’Attributs, les arcs représentent des Relations. Une réflexion est menée sur la nature de ces éléments et les rapports qu’ils entretiennent, réalisée en tenant compte leur évolution dans le temps et de la topologie du graphe. Deux séries d’expériences viennent ensuite. La première montre que la formalisation de la ressource permet de détecter des analogies conformes à l’intuition, que différents types d’exploration sont possibles et que l’approche permet de vérifier la cohérence du réseau et de faire émerger des règles lexicales. La seconde série porte sur la notion de configurations de dérivations lexicales. Elle montre que le regroupement de sous-graphes analogues fait émerger des connexions récurrentes. L’état d’avancement du réseau ne permet pas d’obtenir des règles et des modèles aboutis, mais les résultats sont encourageants. L’analogie est alors considérée comme un guide pour s’assurer de la qualité de la représentation du lexique proposée et acquérir des connaissances sur son organisation. Elle permet d’identifier des phénomènes linguistiques et d’instrumenter l’activité lexicologique
Contemporary lexicography provide ressources offering many opportunities for natural language processing tasks. Thus, the French Lexical Network, presently under development, is a graph of lexical units connected by a rich set of lexical relations. This PhD thesis lays the groundwork for an exploration of this ressource by analogical reasonning. It begins with a selective overview of formalisation and computerisation for study of lexicon, wich defines the principle of exploration : the nodes are similar to objects, which have some attributes and edges represent relations. A reflection is conducted on the nature of this constituents and the relations between them. It takes into account the time axis and the topology of the network. Then two sets of exploratory experiments are conducted. The first one shows that the resource formalisation makes it possible to detect automatically analogies consistent with intuition, that several kind of analogical explorations are possible and that the approach allows to check the consistency of the resource and to bring out lexical rules. The second one is focused around the concept of lexical derivation configurations. It shows how grouping of analogous subgraphs reveals recurrent connections. The progress status of the resource doesn't enable us to obtain successfully completed rules and models, but results are nontheless encouraging. Analogy can already be considered as a guide to ensure the quality of lexical resources. It also allows for the acquisition of knowledge about its organisation. Such knowledge can be used to identify linguitic phenomena and to design instruments to support lexicographic activity
APA, Harvard, Vancouver, ISO, and other styles
25

Goudet, Laura Renée Gabrielle. "Dialectologie grapho-phonématique de deux communautés virtuelles : pour une approche discursive des communaulectes." Thesis, Paris 13, 2014. http://www.theses.fr/2014PA131018/document.

Full text
Abstract:
— Ce travail portera sur le cas de l’adaptation de deux sociolectes, l’anglais standard d’Écosse (« Standard Scottish English »), des dialectes écossais régionaux, ainsi que de l’anglais afro- américain sur l’Internet dans des communautés virtuelles. Ces parlers sont représentés sur ce média, dans des discussions asynchrones entre leurs locuteurs, ou sur des sites de découverte de ces sociolectes. On se demandera dans quelle mesure les locuteurs de ces variétés de l’anglais l’utilisent pour communiquer par écrit, ce qu’ils perçoivent de leur idiolecte, et comment ils adaptent un parler, pour lequel les connaissances sont souvent orales, en un moyen de communication écrit. En effet, il existe une différence entre l’écrit et l’oral, et la « conversion » du parler est un des sujets les plus importants: existe-t-il une règle phonographématique qui sous-tend les transformations, commune aux formes de l’anglais étudiées ? Est-ce que le discours ainsi produit est intelligible pour les locuteurs d’autres formes d’anglais ? Est-ce que l’âge et l’utilisation du dialecte à l’oral ont un rapport avec la propension à utiliser une forme dialectale de l’anglais sur Internet ? La phonologie de l’afro-américain et de l’anglais d’Écosse seront donc étudiées pour vérifier les hypothèses mises en jeu par ce travail : d’abord, le profil moyen des utilisateurs sera dégagé, et les productions écrites seront comparées avec leurs productions orales. Ensuite, les systèmes phonographématiques et grammaticaux de ces formes de l’anglais, telles qu’elles sont décrites dans des ouvrages de référence, seront mis en parallèle avec les exemples du corpus afin de voir si les dialectes ont évolué grâce à l’oral, ou grâce à l’utilisation du média internet. Enfin, des extraits des corpus seront présentés à des locuteurs d’anglais tandard, pour estimer le degré d’opacité de ces dialectes pour les non-locuteurs et déterminer si la forme écrite est plus intelligible forme orale
This dissertation deals with two minority languages spoken in English-speaking countries, Scots and African American vernacular, used on two niche forums whose population is interested in Scottish culture for the former, Scotster, or mainly African American for the latter, Black Planet. The two linguistic domains which will be summoned are phonology dealing with minority languages and English, because both are discernible within alternative spellings ; as well as discourse analysis, because these asynchronous discourses allow unique data mining and insights into the creation of new lexical or graphic forms, which are more common on online communities they appear on. Thanks to a contrastive corpus made of works of fiction produced by native speakers, the grapho-phonemic traits of the two minority languages can be predicted on internet forums. The use of billboards also allows to study discursive phenomena which are specific to their ecology.The two languages practiced there are not used the same way : the users of Scots tend to teach it to others, while speakers of African American use it as a socio-cultural marker. This dissertation’s intent is to show that discourse practices on a forum create a platform-specific lect, called a communaulect. It is partly noticeable through alternative spellings. These are harbored by a will to lessen the difference between spelling and sound, and are even more detectable because members of BP and SC use a minority language they are mostly exposed to orally, hence twisting words more dramatically
APA, Harvard, Vancouver, ISO, and other styles
26

Venant, Fabienne. "Représentation et calcul dynamique du sens : exploration du lexique adjectival du français." Phd thesis, Ecole des Hautes Etudes en Sciences Sociales (EHESS), 2006. http://tel.archives-ouvertes.fr/tel-00067902.

Full text
Abstract:
Ce travail de thèse présente un modèle de construction du sens d'un genre nouveau, défini dans le cadre des mathématiques du continu. Le langage y est vu comme un système morphodynamique, obéissant aux principes de base de la Gestalttheorie. Les unités linguistiques découpent leur sens dans un espace sémantique possédant une structure de variété différentiable. Nous avons implémenté ce modèle et l'avons testé sur le lexique adjectival français. Une méthode de construction automatique des espaces sémantiques, reposant sur l'analyse d'un graphe de synonymie, permet d'explorer le lexique adjectival dans son ensemble, ou de construire des espaces locaux. Les espaces sémantiques locaux servent de base à une méthode dynamique de calcul du sens, permettant de prendre en compte les différents facteurs de polysémie adjectivale. L'utilisation des espaces sémantiques globaux ouvre de belles perspectives, tant dans le domaine du calcul du sens que celui de l'exploration de graphes petit monde.
APA, Harvard, Vancouver, ISO, and other styles
27

Gesche, Samuel. "Confrontation enrichissante de points de vue-opinion." Lyon, INSA, 2008. http://theses.insa-lyon.fr/publication/2008ISAL0114/these.pdf.

Full text
Abstract:
Cette thèse se concentre sur l’aspect enrichissant de la confrontation entre des positions d’experts. La diversité de ces positions génère une hétérogénéité qui est fondamentalement bonne et génératrice de créativité et d’avancées. Afin de mener une confrontation de points de vue qui soit enrichissante, nous avons choisi d’outiller plus particulièrement la recherche de cette diversité. Mais parmi toutes les formes d’hétérogénéité que l’on peut trouver, la divergence de point de vue est la plus difficile à localiser. Elle est à la fois similarité, parce que l’on parle de la même chose, et différence, parce que l’on n’a pas le même avis dessus. Nous présentons donc une méthode qui s’appuie beaucoup sur l’expert lui-même, qui est plus apte à mener ce « jeu des différences » que n’importe quel algorithme. Nous attachons une grande importance à ce que l’expert retire de la confrontation, plus qu’au résultat lui-même : nous n’essayons pas au premier chef d’intégrer des connaissances. Nous appréhendons la confrontation de points de vue dans un contexte indépendant du corpus, et autant que faire se peut, du formalisme dans lequel le point de vue est exprimé. Notre approche tire principalement parti de l’alignement d’ontologies, dont les lacunes sont complétées par le paradigme d’assistance par ordinateur, l’exploitation de graphes peu formalisés et la communication homme-machine
This thesis deals with the issue of enrichment while confronting expert viewpoints. These viewpoints bring much diversity, which is basically good for generating creativity and advances in Science. Ln order for the confrontation of viewpoints to enrich the expert, we chose to focus our research on the search for this diversity. Indeed, among all forms of heterogeneity that are part of viewpoint matching, locating difference of opinion is one of the toughest tasks. It cornes from the fact that difference of opinion is a difference on the one hand (since the expert have different theories), and a similarity on the other hand (since they talk about the sa me subject). We present here a method for taking advantage of the knowledge of the expert, which is the best "tool" we could find for dealing with this "find the difference game", way better than any algorithm, especially since we focus more on the benefit the expert gains in confrontation than in the result itself: our aim is not to integrale knowledge. Our approach of confrontation does not depend on the documents used, or to a certain extent on the formalism used to express it. We base it on ontology matching methods, using other paradigms to overcome the intrinsic limits of ontology matching. Such paradigms include the computer-aided paradigm, the use of poorly formalized graph languages and human/computer communication
APA, Harvard, Vancouver, ISO, and other styles
28

Demko, Christophe. "Contribution à la gestion du contexte pour un système de compréhension automatique de la langue." Compiègne, 1992. http://www.theses.fr/1992COMPD542.

Full text
Abstract:
La polysémie est peut-être l'un des plus sérieux problèmes auxquels sont confrontés les chercheurs en traitement automatique de la langue. Lors de la compréhension d'un texte, il est nécessaire de disposer d'informations extra-textuelles. Ces informations se rapprochent des données encyclopédiques et représentent les connaissances globales d'un individu sur le monde. De nombreuses théories ont proposé des structures de données permettant de les représenter formellement. La théorie des graphes conceptuels unifie et généralise un nombre important des méthodes utilisées pour représenter le sens. L'objet du travail a donc été de rendre opérationnelle cette théorie et de l'utiliser pour la levée d'ambiguïté. Nous avons introduit pour cela une représentation des connaissances sous la forme d'hypergraphes. Nous montrons que les opérations de base sur les graphes conceptuels découlent d'une opération d'intersection maximale entre deux hypergraphes. Aussi nous sommes nous attachés à définir un algorithme optimisé pour la calculer. Dans notre méthode de levée d'ambiguïté, les sens du texte à analyser, ainsi que les contextes liés au domaine, sont représentés sous la forme d'hypergraphes conceptuels. La levée d'ambiguïté consiste à trouver la paire sens-contexte pour laquelle un coefficient de recouvrement, que nous avons défini, est optimal. Nous proposons également un apprentissage automatique de contextes à l'aide de l'analyse de plusieurs textes. L'apprentissage procède en généralisant et en vérifiant les connaissances contenues dans les différents contextes. Les méthodes présentées sont encourageantes et laissent entrevoir de nombreuses applications quant à la reconnaissance des formes en général et à la levée d'ambiguïté en particulier. En effet, la plupart des représentations choisies à l'heure actuelle pour représenter les connaissances sont essentiellement basées sur la théorie des graphes. Nos algorithmes, bien que développés pour les graphes conceptuels, peuvent aussi s'appliquer à des domaines beaucoup plus variés et restent assez généraux pour permettre de résoudre d'autres problèmes.
APA, Harvard, Vancouver, ISO, and other styles
29

Lauf, Aurélien. "Propagation du buzz sur Internet -- Identification, analyse, modélisation et représentation dans un contexte de veille." Thesis, Paris, INALCO, 2014. http://www.theses.fr/2014INAL0019/document.

Full text
Abstract:
S’inscrivant dans un contexte de veille et d’intelligence d’entreprise sur Internet, l’objectif de cette thèse est d’élaborer des outils et des méthodes permettant d’identifier, analyser, modéliser et représenter le cheminement des buzz sur Internet. Tout buzz a un ou plusieurs points d’origine : les sources primaires. L’information est ensuite relayée par des sources secondaires qui vont accélérer ou non la propagation en fonction de leur degré d’influence. Tout au long du cycle de vie du buzz, le contenu sémantique est amené à évoluer. La compréhension d’un buzz sur Internet passe ainsi par l’analyse de ce qui se dit et la qualification des émetteurs. Nos travaux s’axeront donc autour de deux types d’analyses complémentaires : une analyse topologique des sources (théorie des graphes et des réseaux) et une analyse du contenu textuel (linguistique de corpus)
This thesis is in the context of strategic and competitive intelligence. Its goal is to develop tools and methods to identify, analyze, model and represent how buzz spread on the Internet. Any buzz has one or more starting point(s), i.e. primary source(s). The information is then passed on by secondary sources which may speed or slow down its spreading depending on their influence. Throughout the buzz lifecycle, the semantic content can evolve. To understand a buzz on the Internet, one needs to analyze what is said and qualify who speaks. This thesis will focus on two main points : a topological analysis of the sources (graph theory and networks), and an analysis of the textual content (corpus linguistics)
APA, Harvard, Vancouver, ISO, and other styles
30

Godde, Erika. "De l'automaticité à l'expressivité et à la compréhension en lecture : Évaluation et développement de la prosodie en lecture chez le jeune lecteur A review of reading prosody acquisition and development Échelle Multi-Dimensionnelle de Fluence : nouvel outil d'évaluation de la fluence en lecture prenant en compte la prosodie, étalonné du CE1 à la 5ème Pausing and Breathing while Reading Aloud : Development from 2nd to 7th grade." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALS009.

Full text
Abstract:
La lecture est un des savoirs fondamentaux acquis à l’école primaire. D’abord centré sur le décodage dans les premières années, l’enseignement se focalise ensuite essentiellement sur la compréhension et l’automatisation de la lecture. Cette automatisation, souvent désignée abusivement par le terme de fluence, est très fréquemment évaluée via une mesure du nombre de mots correctement lus par minute. Or, cette mesure se résume à évaluer le décodage et l’automatisation. Mais a lecture fluente du lecteur expert ne se résume pas seulement à une vitesse de lecture élevée, elle se caractérise également par une prosodie adaptée au texte, notamment en termes de phrasé et d’expressivité. En omettant l’aspect prosodique de la fluence, on tend à entretenir une confusion entre fluence et vitesse de lecture. Les dimensions prosodiques de la fluence ont longtemps été négligées dans l’étude du développement de la lecture. Seules quelques études récentes se sont intéressées à leur développement dans diverses langues, mais il n’en existe aucune en français. Ces études ont pu montrer, d’une part un développement long qui se poursuit au-delà de l’enseignement primaire et d’autre part un lien bidirectionnel entre prosodie en lecture et compréhension écrite. La dimension prosodique de la fluence mérite d’être plus largement étudiée, notamment chez l’apprenti lecteur, et c’est l’objectif de cette thèse.Dans ce travail de thèse, nous avons étudié les étapes de l’acquisition de la prosodie en lecture, ainsi que le lien entre prosodie en lecture et compréhension écrite, chez de jeunes lecteurs français du début de l’école primaire au début de l’enseignement secondaire. Nous abordons ces questions en utilisant trois types de mesures complémentaires de la prosodie : une mesure subjective à l’aide d’une échelle multidimensionnelle et deux mesures objectives que sont les marqueurs acoustiques de phrasé et d’expressivité et une méthode d’évaluation automatique basé sur l’analyse des signaux de parole.Les lectures de 323 enfants du CE1 à la 5ème et d’une vingtaine d’adultes ont été enregistrées, 60 enfants ont été également été suivis du CE1 au CM1. Dans un premier temps, nous avons abordé le développement des compétences prosodiques en lecture d’un point de vue subjectif, en adaptant une échelle anglophone d’évaluation de la prosodie au français. Ces données subjectives ont permis de retrouver le lien prosodie-compréhension en français déjà mis en évidence dans d’autres langues.Dans un deuxième temps, ces données ont été analysées acoustiquement, afin de déterminer les étapes d’acquisition de la planification des pauses et de la respiration, marquant le phrasé pendant la lecture. L’étude des corrélations entre scores subjectifs et marqueurs acoustiques a permis de mettre en évidence les marqueurs affectant le jugement de l’auditeur. Les données acoustiques ont ensuite été utilisées pour mieux comprendre le lien entre prosodie et compréhension.Finalement, nous utilisons un outil de prédiction automatique des scores à l’échelle subjective, utilisant paramètres acoustiques et références multiples. Cet outil est utilisé pour analyser les données longitudinales recueillies auprès de 67 enfants du CE1 au CM1. Ces données ont permis de proposer un modèle de croissance pour chaque dimension de la fluence et étudier les liens de causalité entre automaticité, prosodie et compréhension.Les connaissances acquises dans cette thèse sur le développement de la prosodie en lecture et son lien avec la compréhension écrite chez l’enfant français nous permettent de proposer de nouveaux outils d’évaluation de la fluence incluant la prosodie, et d’envisager le développement d’outils d’entrainement à la lecture prosodique. Ces outils offrent de nouvelles perspectives pour l’enseignement de la lecture ainsi que pour le diagnostic etla prise en charge des enfants en difficulté d’apprentissage de la lecture
Reading is a crucial learning in primary school. Initially focused on decoding and accuracy during the first years, reading teaching is then based on automaticity and comprehension. Automaticity, often abusively called fluency, is usually assessed by measuring the number of words correctly read in a minute. However this method gives only an assessment of accuracy and automaticity skills, while flluency includes also the abilility to read with apropriate phrasing and expressivity, that means to read with a prosody adapted to the text. Omitting the prosodic dimensions of fluency results in confusion between speed and fluency. Prosodic dimensions of reading have long been neglected in reading studies. Only recently, a few new studies have been interested in reading prosody development in various langages, but not in French. This studies showed a long term development, continuing after primary grades. Moreover several studies also showed a bidirectionnal link between prosodic reading and written comprehension. That’s why the prosodic dimensions of fluency deserve more interest, especially while developping in young readers, to better understand its connection with written comprehension. That is the aim of the present thesis.In our work, we studied the acquisition stages for reading prosody and the link between reading prosody and written comprehension in young readers, from primary to secondary school. For this purpose, we used three complementary assessment methods for reading prosody : a subjective assessment, using a multidimensionnal scale, and two objective assessments : one using acoustic markers and another one, automatic, based on raw speech signal analyses.We recorded 323 children from grade 2 to 7 and 20 adults while reading.Firstly these readings were assessed using a multidimensionnal fluency scale, translated and adapted from English. These scores enabled us to characterize subjectively reading prosody development and to highlight, in French, the link between reading prosody and comprehension, mentionned in various studies.Secondly the readings were analyzed using acoustic markers of prosody. The aim was to determine acquisition stages for pauses and breathing planning while reading. Pauses planification is indeed essential to appropriate phrasing. These data were then used to explore the link between acoustic markers and subjective scoring and have cues of which acoustic markers have an influence on our perception of readings. Then we used the pausing and breathing data to characterize the link between reading prosody and comprehension.Finally we used an automatic scoring tool, based on acoustic markers of prosody and multiple expert standards, to assess longitudinal data from 67 children from grade 2 to 4. Using these data, we built growth model for each dimension of reading fluency and studied the causal link between automaticity, prosody and comprehension.The work presented here, on the development of reading prosody and its link to comprehension in French speaking children, enables us to promote new fluency assessment tools including reading prosody and to consider how to develop training tools. It also gives us new prospect on reading teaching and on identifying and helping children who need reading intervention
APA, Harvard, Vancouver, ISO, and other styles
31

Moreau, Gaëtan. "Le langage du Conseil de Sécurité de l'ONU : analyse de discours des résolutions en français et en anglais depuis 1946." Thesis, Sorbonne Paris Cité, 2019. http://www.theses.fr/2019USPCA021/document.

Full text
Abstract:
Cette thèse se propose de souligner la proximité et la complémentarité des méthodes d'analyse de texte en droit international et en sciences du langage, particulièrement en traductologie, pour produire une analyse de discours du Conseil de sécurité de l'ONU dans ses résolutions de 1946 à 2015 inclus, qui soit pertinente dans les deux domaines et de ce fait, interdisciplinaire. Une telle analyse de corpus, utilisant des outils textométriques sur le texte mais également sur les données contextuelles des résolutions, nous permet de produire des résultats exploitables dans ces deux champs scientifiques, ce qui est un des buts des humanités numériques. Nous montrons ainsi le sens ordinaire de la version anglaise de la résolution 242 (1967) en établissant, dans notre corpus, les fréquences des différentes traductions en français du déterminant zéro pluriel anglais pour établir son sens le plus commun. Ce faisant, nous aidons à résoudre un vieux problème d'interprétation de droit international, et nous modélisons par ailleurs l'usage de ce déterminant en anglais. Par ailleurs, nous montrons comment une modélisation de la traduction permet de faire émerger l'extension sémantique de certains termes et comment une analyse juridique des résolutions du Conseil de sécurité peut être modélisée en bonne approximation à partir d'un algorithme se basant sur des données purement linguistiques. Les données sont disponibles en ligne : https://hdl.handle.net/11403/csonu
This thesis tries to first show how close text analysis methods in International Law and in Language Sciences are, and how well they complement each other, particularly in the field of Translation studies, to produce a discourse analysis of the UN Security Council resolutions from 1946 to 2015 included, that is relevant in both fields, and as such, truly interdisciplinary. Such corpus analysis using textometric tools onto the text itself as well as on various contextual data allows us to produce actionable results in both scientific fields, which is a stated goal of Digital Humanities.We show one such result by establishing the ordinary meaning of the English version of Resolution 242 (1967) by figuring out for our corpus the translation frequency into French of the English plural zero determiner in order to determine its ordinary meaning. By doing so, we help resolving a long-standing issue of interpretation in International Law, as well as produce a model of the usage of this determiner in English. Furthermore, we show how translation characteristics can reveal semantic extension of certain words and how a legal analysis of the UN Security Council resolutions can be approximated with an algorithm based on purely linguistic features. Online data : https://hdl.handle.net/11403/csonu
APA, Harvard, Vancouver, ISO, and other styles
32

François, Hélène. "Synthèse de la parole par concaténation d'unités acoustiques : construction et exploitation d'une base de parole continue." Rennes 1, 2002. http://www.theses.fr/2002REN10127.

Full text
Abstract:
Ces travaux s'inscrivent dans le cadre de la synthèse de la parole par concaténation d'unités acoustiques de taille variable multi-représentées. Pour remédier à l'hétérogénéité de la qualité et de l'intelligibilité des voix synthétiques, nous utilisons une base de parole continue riche au niveau linguistique, ici un jeu de phrases naturelles. Sa construction est vue comme un problème NP-complet de recouvrement minimal d'ensemble. Les méthodes gloutonne, cracheuse et d'échange par paire condensent ainsi des corpus de 100000 à 5000 phrases. Ensuite nous cherchons dans un corpus spécifique l'ensemble des séquences d'unités acoustiques permettant la synthèse de 10 phrases tests. Pour chaque séquence trouvée ses unités sont concaténées, puis sa qualité est évaluée de façon objective en mesurant sa distance acoustique à une référence naturelle. Cela permet de spécifier et de caractériser des bases "génératives", de développer et d'évaluer de nouvelles méthodes de sélection d'unités.
APA, Harvard, Vancouver, ISO, and other styles
33

Negre, Stéphane. "Optimisation de la méthode multifrontale en vue de sa parallélisation." Compiègne, 1997. http://www.theses.fr/1997COMP1045.

Full text
Abstract:
Cette thèse parie sur l'optimisation du traitement parallèle de calcul par éléments finis en utilisant une méthode de résolution par sous-structure particulière appelée méthode multifrontale. L'objectif était de construire un ensemble de méthodes et d'outils pour permettre une parallélisation efficace de cette méthode de résolution. La problématique revêt plusieurs aspects liés à l'optimisation combinatoire et aux graphes. En effet, un maillage par éléments finis peut être vu comme un graphe. Or le temps de calcul pour résoudre le problème dépend directement de la numérotation des éléments finis et donc du graphe associé. La qualité d'une solution doit pouvoir être mesurée. Nous avons donc mis au point des estimateurs de temps de calcul précis pour mesurer les solutions calculées. Nous comparons différentes méthodes heuristiques de la littérature. Nous en proposons plusieurs améliorations performantes et développons deux nouvelles méthodes. La première est une méthode qui hybride plusieurs heuristiques gloutonnes de la littérature. La seconde est basée sur la métaheuristique Tabou. Une autre partie du problème concerne le découpage du maillage en sous-domaines, ce qui revient à réaliser le partitionnement d'un graphe en considérant plusieurs critères. Nous comparons différentes méthodes de la littérature et proposons une nouvelle méthode de découpage. Cette méthode améliore itérativement un découpage initial du maillage par des échanges d'éléments finis entre les sous-domaines. La méthode vise à équilibrer la charge de travail des processeurs en estimant le temps de calcul de chaque sous-domaine. Le temps de calcul d'un sous-domaine dépend lui aussi de la numérotation des éléments finis du sous-domaine correspondant. Cependant, il faut en plus tenir compte des noeuds interfaces entre les sous-domaines. Nous proposons donc des méthodes de numérotation particulières pour pouvoir prendre en compte ce problème supplémentaire. Enfin, quand on effectue un calcul parallèle, il est important de plannifier l'affectation des tâches aux processeurs. Nous avons donc construit et étudié un modèle plus formel en émettant des hypothèses sur les temps de calcul et les temps de fusion des données et nous avons montré qu'une stratégie d'affectation des tâches aux processeurs en domine une autre, communément utilisée dans la communauté de la mécanique numérique. Les résultats de tous les algorithmes exposés sont comparés sur la collection Everstine composée de trente maillages considérés comme représentatifs. Ces résultats montrent la pertinence de nos algorithmes
This work is concerned with the optimization of the parallelization of a particular finite element resolution method based on a substructuring principle and called the multifrontal method. Our aim was to build a set of methods and tools in order to parallelize this method efficiently. The problem is concerned with combinatorial optimization and graph theory. Indeed a finite element mesh can be modelized as a graph. The computing times spent to solve the problem directly depend on the reordering of an associated graph. Because the quality of a solution has to be measured, we propose accurate computing times estimators to measure our solutions. We compare different heuristics we have found in the litterature. We propose efficient improvements of these heuristics and two original reordering methods. The first one is an hybrid method which interleaves greedy algorithms. The second one is based on the tabu search method which is a metaheuristic. Another problem we are concerned with is the mesh decomposition into substructures. Different methods are compared and a new one is proposed. This method iteratively improves initial mesh decomposition by applying an exchanging principle of the finite elements between substructures. In this way we aim to optimize the load balancing on the processors by estimating the computing times of each substructure. The computing times of a substructure also depend on the finite element reordering of the corresponding substructure. However we have to take into account in addition the boundary nodes between the substructures. We then propose particular reordering methods which take into account this additional problem. When a parallel treatment is performed, it is important to schedule the tasks on the processors. We have proposed and studied a theoretical model assuming some assumptions concerning the computing times (the communications delays and the merging tasks). We have shown that a scheduling strategy dominates another one, widely used in the mechanical and numerical community. The results are compared on the thirty meshes of the Everstine's collection and show the efficiency of our algorithms
APA, Harvard, Vancouver, ISO, and other styles
34

Guiga, Ahlem. "Étude comparative, diachronique et synchronique du futur en italien, napolitain et français." Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM3117.

Full text
Abstract:
Notre recherche porte sur la compréhension approfondie de la chronogenèse italienne et, en son sein, de l'expression du futur, selon les principes théoriques et méthodologiques guillaumiens. Notre étude comparative associe les approches diachronique et synchronique. Nous étudions l'évolution de l'expression du futur de l'ancien italien à l'italien contemporain écrits grâce à un 1er corpus construit à partir du texte original du Decamerone de G. Boccaccio, de sa traduction en italien contemporain proposée par A. Busi et de sa traduction en français par J. Bourciez. Nous comparons l'expression du futur dans trois romans graphiques rédigés en italien (par des auteurs originaires de Vénétie et de Sicile) et en français, à l'aide d'une 2e série de corpus extrapolée à partir des transcriptions de ces BD. Nous observons, d'une part, les différences entre le français et l'italien standards contemporains, d'autre part, les réalisations de l'italien standard selon l'influence des substrats régionaux. Grâce à un 3e corpus, nous étudions l'expression du futur en napolitain en comparant les textes de chansons napolitaines du XIXe au XXIe, avec leurs traductions en italien et français standards. Notre confrontation des diverses solutions pour le futur couvre d'Ouest en Est la Romania occidentale (français standard, italien régional de Vénétie), la position centrale qu'occupe l'italien standard issu du florentin littéraire, la Romania orientale (italien régional de Sicile, napolitain). Nous étudions la distribution des formes morphologiques du futur (synthétiques, analytiques), leurs emplois (temporels, modaux) ainsi que les solutions alternatives d'expression du futur (autres temps, CC de temps). Nous discutons les concepts d'aspect, d'accompli et d'inaccompli, de perfectif et d'imperfectif et étudions leur distribution dans les formes morphosyntaxiques de l'expression du futur
Our research focuses on the deep understanding of the Italian chronogenesis, and within it, of the expression of future, based on the theoretical and methodological principles of G. Guillaume. Our comparative study combines diachronic and synchronic approaches. We study the evolution of the expression of future from former Italian to contemporary Italian literature through a first corpus built from the original text of the Decameron of G. Boccaccio, its contemporary translation proposed by A. Busi and its French translation by J. Bourciez. We compare the expression of future in three Italian (by authors from the Veneto and Sicily) and French graphic novels, with a second series of corpus extrapolated from the transcripts of these comics. We observe, on one hand, the differences between French and Italian contemporary standards, and on the other hand, the achievements of the Italian standard according to its substrates' regional influence. With a third corpus, we study the expression of future by comparing Neapolitan songs texts from the XIXth to the XXth century, with their translations in Italian and French. Our comparison of the various solutions for future covers, from West to East, the western Romania (standard French, Veneto regional Italian), and the central position of the Italian literary standard from Florentine, Eastern Romania (Sicilian regional Italian, Neapolitan). We study the distribution of future's morphological forms (synthetic, analytic), uses (temporal, modal) and alternative expression of future (other times, adverbial phrase of time). We discuss the concepts of aspect, accomplished and unaccomplished, perfective and imperfective and study their distribution in the morphosyntactic forms of future's expression
APA, Harvard, Vancouver, ISO, and other styles
35

Nakamura-Delloye, Yayoi. "Alignement automatique de textes parallèles Français-Japonais." Phd thesis, Université Paris-Diderot - Paris VII, 2007. http://tel.archives-ouvertes.fr/tel-00266261.

Full text
Abstract:
L'alignement automatique consiste à trouver une correspondance entre des unités de textes parallèles. Nous nous intéressons plus particulièrement à la réalisation d'un système qui procède à l'alignement au niveau des propositions, unités profitables dans beaucoup d'applications.
La présente thèse est constituée de deux types de travaux : les travaux introducteurs et ceux constituant le noyau central. Ce dernier s'articule autour de la notion de proposition syntaxique.
Les travaux introducteurs comprennent l'étude des généralités sur l'alignement ainsi que des travaux consacrés à l'alignement des phrases. Ces travaux ont conduit à la réalisation d'un système d'alignement des phrases adapté au traitement des textes français et japonais.
Le noyau de la thèse est composé de deux types de travaux, études linguistiques et réalisations informatiques. Les études linguistiques se divisent elles-mêmes en deux sujets : la proposition en français et la proposition en japonais. Le but de nos études sur la proposition française est de définir une grammaire pour la détection des propositions. Pour cet effet, nous avons cherché à définir une typologie des propositions, basée sur des critères uniquement formels. Dans les études sur le japonais, nous définissons d'abord la phrase japonaise sur la base de l'opposition thème-rhème. Nous tentons ensuite d'élucider la notion de proposition.
Les réalisations informatiques comportent trois tâches composant ensemble au final l'opération d'alignement des propositions, incarnées par trois systèmes informatiques distincts : deux détecteurs de propositions (un pour le français et un pour le japonais), ainsi qu'un système d'alignement des propositions.
APA, Harvard, Vancouver, ISO, and other styles
36

Balon, Laurent. "Transcription de Garin de Monglane à partir du manuscrit du XIVe siècle Royal 20 DXI de la British Library : description méthodique et analyses linguistiques (volume I) ; transcription des 12590 vers de la copie de Londres (volume II) ; notes, glossaire, table des noms propres (volume III)." Paris 3, 2008. http://www.theses.fr/2008PA030093.

Full text
Abstract:
L’objectif de cette étude est double : faire connaître un texte encore non édité à partir de la transcription la plus fidèle possible d’un manuscrit sélectionné comme un témoin historique authentique au plan de l’histoire littéraire mais aussi d’un état de langue donné. La transcription méthodique du texte sert donc à mettre au jour certaines pratiques linguistiques du copiste. On y observe des usages graphiques qui dépassent la fonction phonogrammique, reconnue comme primordiale à l’origine, pour atteindre à un usage morphogrammique mis en valeur par des graphies spécifiques faisant apparaître la récurrence de morphèmes grammaticaux et lexicaux ; d’autre part, des micro-systèmes apparaissent à travers l’emploi original des séquences et des segmentations graphiques qui, dans ce manuscrit, procèdent bien souvent d’un geste réflexif. Ces observations conduisent à penser qu’une « grammaire » du français remonte au-delà du XVe siècle. On décèlerait ainsi chez ce copiste une amorce de réflexion grammaticale sur la procédure de « mise en texte » de son manuscrit qui annoncerait la « mise en théorie » du français, caractéristique du XVe et surtout du XVIe siècles. Alors qu’il se situe bien antérieurement à toute forme de norme prescriptive, ce manuscrit, qui à côté d’usages linguistiques plus traditionnels (XIIe-XIIIe siècles) met en place un certain nombre de micro-systèmes tant dans le fonctionnement des graphies que dans celui des séquences graphiques, n’en annonce pas moins quelques uns des principes qui conduiront à la codification standardisée du français. De ce point de vue, il permet de déceler l’existence d’un continuum dans l’histoire des pratiques manuscrites du français, inscrivant cette étude dans les perspectives de la recherche contemporaine sur la Diachronie du français
The aim of this study is double: bringing to know a not yet edited text and this through the most faithful possible transcription of a manuscript selected as an authentic historic witness to the plan of the literary history but also the given state of language. The systematic transcription of the text thus serves to bring to light certain linguistic practices of the scribe. On the one hand; we observe graphic uses which exceed the phonogrammic function, recognized originally as essential, to achieve a morphogrammic use emphasized by specific written forms which crea the recurrence of grammatical and lexical morphemes ; on the other hand, micro-systems appear through the original use of sequences and graphic segmentations which, in this manuscript, proceed very often from a reflexive movement. These observations are leading to think that a "grammar" of French goes back up beyond the XVth century. We would thus reveal in the case of this scribe an onset of grammatical reflection on the “writing procedures” of his manuscript which would announce the “theorization of French”, characteristic of the XVth and especially of XVIth centuries. While it is situated well before any form of standard prescriptive, this manuscript, which beside more traditional linguistic practices (XIIth-XIIIth centuries) sets up a certain number of micro-systems in the functioning of written forms as well as in that of the " graphic sequences ", announces nevertheless some of the principles which will lead to the normed codification of French. From this point of view, this manuscript allows to reveal the existence of a continuum in the history of the handwritten practices of French, registering this study in the perspectives of contemporary research on the French Diachrony
APA, Harvard, Vancouver, ISO, and other styles
37

Retoré, Christian. "Logique linéaire et syntaxe des langues." Habilitation à diriger des recherches, Université de Nantes, 2002. http://tel.archives-ouvertes.fr/tel-00354041.

Full text
Abstract:
Une bonne partie des résultats contenus dans ce travail portent sur les réseaux de démonstration de la logique linéaire ainsi que sur la sémantique des espaces cohérents. Ces résultats concernent plus particulièrement les variantes non commutatives de la logique linéaire que ce soit à la Lambek-Abrusci ou dans le calcul ordonné de l'auteur. Ils sont ensuite appliqués à la syntaxe du langage naturel, modélisée bien évidemment par les grammaires catégorielles, les TAGS, mais aussi par les grammaires minimalistes de Stabler que l'on peut aussi simuler en logique linéaire. Pour tous ces systèmes grammaticaux, le calcul de représentations sémantiques est explicité.
APA, Harvard, Vancouver, ISO, and other styles
38

Puget, Dominique. "Aspects sémantiques dans les Systèmes de Recherche d'Informations." Toulouse 3, 1993. http://www.theses.fr/1993TOU30139.

Full text
Abstract:
Les travaux de recherche exposes dans ce memoire relevent du domaine de l'informatique documentaire, et se situent plus particulierement parmi les travaux sur les systemes intelligents en recherche d'informations. Notre etude s'inscrit dans le prolongement du projet infodiab, qui est un systeme de recherche d'informations utilisant le langage courant comme source d'informations et comme moyen d'interrogation. Ce systeme est destine a faciliter la prise en charge d'une maladie grave et contraignante: le diabete. Notre premiere contribution a permis le couplage de infodiab avec le systeme dialog (une messagerie et un forum) que nous avons developpe dans le but de favoriser le dialogue entre les patients diabetiques et leur medecin generaliste, mais egalement afin de pouvoir mettre a jour le fonds documentaire du systeme de recherche d'informations, et ceci principalement en fonction des besoins en informations des utilisateurs. Notre deuxieme contribution a pour but la realisation d'un systeme de recherche d'informations base sur un modele de representation qui s'inspire de la theorie des graphes conceptuels en reprenant les grands principes. La structure utilisee pour representer la connaissance est un graphe oriente assimilable a un graphe conceptuel que nous avons appele graphe syntaxique. L'interet de notre approche est de gerer la syntaxe et la semantique utiles et representatives dans le domaine de l'application pour la representation des documents et l'evaluation des requetes, et ceci afin d'obtenir un modele de representation suffisamment simple pour permettre une manipulation efficace. Par rapport aux systemes de recherche classiques, notre systeme offre tout d'abord une meilleure comprehension des documents et des requetes. Ceci se traduit par une reconnaissance des relations syntaxiques et semantiques entre les termes d'un document ou d'une requete. De plus, notre systeme permet une comparaison intelligente entre un document et une requete, ce qui signifie en fait l'utilisation des connaissances syntaxiques et semantiques entre les differents termes durant l'evaluation d'une requete. Ainsi, cela contribue a ameliorer le taux de rappel et le taux de precision du systeme
APA, Harvard, Vancouver, ISO, and other styles
39

Pardo, Vincenzo. "La physionomie acoustique de la parole : le cas des démonstratifs latins et leurs issues en Italien." Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM3111/document.

Full text
Abstract:
Pourquoi le locuteur italien a-t-il assimilé la structure phonique calidus comme caldo ? Quels mécanismes sont intervenus dans le processus d’apprentissage de cette phonie d’une langue à l’autre ? Notre réflexion nous a conduit sur le terrain de la nature du langage et des lois qui en règlent le psychisme de formation. Nous montrons que les mots sont des totalités phoniques composés de parties articulées générées par des voix significatives κατὰ συνθήκην (katá synthêkên), « par composition » et non pas « par convention ». Si on considère le langage comme un instrument de représentation indirecte guidant le locuteur, par les signes, jusqu’à la connaissance directe (la représentation) d’un savoir immédiat, dans un rapport direct au monde, et si on accepte le fait que nous percevons de façon gestaltique le signifiant linguistique dans un acte de parole, et non pas sa représentation phénoménique, c’est-à-dire que l’acte de parole est une structure bien organisée dont la perception procède du tout vers les parties, alors le processus de la composition devient l’instrument par lequel les mots se transforment en structures à arbitraire limité. Nous fondons notre travail sur les mécanismes guillaumiens que la pensée réalise afin de saisir elle-même et dont la langue offre une fidèle reproduction : le mouvement de généralisation et de particularisation, ou, au sens de Bühler, le mot considéré comme un visage phonique, avec sa physionomie acoustique. Devant l’impossibilité d’identifier les limitations de l’arbitraire dans un paradigme purement formel, il devient nécessaire de considérer le signe linguistique dans la réalité psychophysique des locuteurs
Why the Italian speaker did assimilate the phonic structure calidus like caldo? Which mechanisms intervened in the process of training of this phone from one language to another? Our reflection led us on the ground of the nature of the language and the laws which regulate the psychism of formation of it. We show that the words are phonic totalities composed of articulated parts generated by significant voices κατὰ συνθήκην (katá synthêkên), “by composition” and not “by convention”. If it's considered the language as an instrument of indirect representation guiding the speaker, by the signs, until the direct knowledge (the representation) of an immediate knowledge, in a direct report in the world, and if the fact is accepted that we perceive in a gestaltic way meaning it linguistic in a his phenomenic representation and act of speech, not, i.e. the act of speech is a well organized structure whose perception proceeds of the whole towards the parts, then the process of the composition becomes the instrument by which the words change of structures with arbitrary limited. We base our work on the mechanisms guillaumiens that the thought realizes in order to seize itself and whose language offers a faithful reproduction: the movement of generalization and particularization, or, within the meaning of Bühler, the word considered as a phonic face, with its acoustic aspect. In front of impossibility of identifying the limitations of arbitrary in a purely formal paradigm, it becomes necessary to consider the linguistic sign in the psychophysical reality of the speakers
APA, Harvard, Vancouver, ISO, and other styles
40

Emmanuel, Desmontils. "Le projet CordiFormes : une plate-forme pour la construction de modeleurs déclaratifs." Phd thesis, Université de Nantes, 1998. http://tel.archives-ouvertes.fr/tel-00816786.

Full text
Abstract:
Les travaux en modélisation déclarative sont assez nombreux. Il est désormais nécessaire de mettre en place des méthodes générales basées sur celles déjà étudiées et de proposer des outils pour le développement de modeleurs déclaratifs. Nous proposons un nouveau formalisme basé sur les ensembles flous. Ce formalisme apparaît d'une part comme une synthèse et une unification des travaux existants et d'autre part apporte des éléments nouveaux comme la logique floue, la gestion linguistique de la négation. Nous étudions particulièrement le type de propriété le plus simple : la propriété élémentaire. A partir d'une propriété de base, d'un opérateur flou et d'un modificateur, nous mettons en place une méthode pour déterminer la sémantique d'une propriété élémentaire. Nous proposons aussi un traitement original de sa négation. Plutôt que d'utiliser la négation logique habituelle, nous nous intéressons à une gestion se basant sur des notions linguistiques. Enfin, nous présentons des solutions de traitement pour les autres propriétés. Cependant, ces solutions ne sont pas encore vraiment satisfaisantes. La plupart des projets en modélisation déclarative mettent en oeuvre des techniques similaires. A partir de ces travaux et du formalisme flou, nous développons le projet CordiFormes, une plate-forme de programmation visant à faciliter la mise en oeuvre de futurs modeleurs déclaratifs. Ses caractéristiques sont la simplicité, la souplesse de programmation, l'efficacité, l'extensibilité, la réutilisabilité et le prototypage rapide du modeleur. CordiFormes propose des outils sur trois niveaux : le noyau comportant toutes les structures et algorithmes de base, la couche interface proposant dialogues et composants d'interface et, enfin, la couche application pour produire rapidement un premier modeleur. Trois applications permettent de valider le formalisme et les outils de la plate-forme.
APA, Harvard, Vancouver, ISO, and other styles
41

Archer, Vincent. "Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations." Phd thesis, 2009. http://tel.archives-ouvertes.fr/tel-00426517.

Full text
Abstract:
Pour modéliser au mieux les phénomènes linguistiques dans les systèmes de traitement automatique des langues (traduction, analyse, etc.), il faut disposer de ressources de qualité. Or, les ressources existantes sont souvent incomplètes et ne permettent pas de traiter correctement les données. Cette thèse s'intéresse à l'acquisition de connaissances linguistiques, plus précisément à leur extraction à partir de corpus. Nous étudions en particulier le problème des collocations, ces couples de termes dont l'un est choisi en fonction de l'autre pour exprimer un sens particulier (comme " pluie battante " où " pluie " exprime l'intensification). Pour permettre l'acquisition de données à grande échelle, il faut la rendre facile à réaliser de manière automatique, et simple à paramétrer par des linguistes aux connaissances limitées en programmation ; cela nécessite une modélisation adaptée et précise des données et des processus. Nous avons réalisé et décrivons MuLLinG, modèle de graphes linguistiques multiniveau, où chaque niveau représente l'information d'une manière différente,et les opérations de manipulation de ces graphes. Ce modèle permet de représenter et traiter divers types de ressources. En effet, les opérations associées ont été écrites pour être les plus génériques possibles : elles sont indépendantes de ce que peuvent représenter les nœuds et les arcs du graphe, et de la tâche à réaliser. Cela permet à notre modèle, mis en œuvre et utilisé pour plusieurs expérimentations (entre autres l'extraction de collocations), de voir un processus parfois complexe d'extraction de connaissances linguistiques comme une succession d'opérations simples de manipulation de graphes.
APA, Harvard, Vancouver, ISO, and other styles
42

Richard, Simon. "Un outil pour développer et tester les grammaires d’unification polarisées." Thèse, 2016. http://hdl.handle.net/1866/18772.

Full text
Abstract:
Ce mémoire présente un outil informatique pour développer et tester des grammaires d’unification polarisées, conçu entre autres pour faciliter la validation expérimentale du formalisme de la grammaire d’unification Sens-Texte (GUST) de Kahane & Lareau. Les fondements théoriques du formalisme GUP sont d’abord expliqués, puis nous décrivons la conception du module et l’évaluons avec un fragment de la grammaire GUST.
This thesis presents a computer tool to develop and test polarized unification grammars that was built, namely, to help validate experimentally Kahane & Lareau’s Meaning-Text Unification Grammar (MTUG) formalism. We first describe the theory behind the PUG formalism, then we explain how the module was developed and we test it using a fragment of the MTUG grammar.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography