Thèses sur le sujet « Traitement de la parole et du langage »

Pour voir les autres types de publications sur ce sujet consultez le lien suivant : Traitement de la parole et du langage.

Créez une référence correcte selon les styles APA, MLA, Chicago, Harvard et plusieurs autres

Choisissez une source :

Consultez les 50 meilleures thèses pour votre recherche sur le sujet « Traitement de la parole et du langage ».

À côté de chaque source dans la liste de références il y a un bouton « Ajouter à la bibliographie ». Cliquez sur ce bouton, et nous générerons automatiquement la référence bibliographique pour la source choisie selon votre style de citation préféré : APA, MLA, Harvard, Vancouver, Chicago, etc.

Vous pouvez aussi télécharger le texte intégral de la publication scolaire au format pdf et consulter son résumé en ligne lorsque ces informations sont inclues dans les métadonnées.

Parcourez les thèses sur diverses disciplines et organisez correctement votre bibliographie.

1

Meunier, Fanny. « Morphologie et traitement du langage parlé ». Paris 5, 1997. http://www.theses.fr/1997PA05H084.

Texte intégral
Résumé :
Mes recherches s'inscrivent dans le cadre des études sur l'accès au lexique en présentation auditive. Elles visent à établir le statut, au sein de ce lexique, des mots morphologiquement complexes, ainsi que la nature de traitement qui leur est applique pendant les procédures d'accès. Les mots morphologiquement complexes (ex : re-coudre, lait-age. . . ) Posent des problèmes de leur représentation (sous quelle forme ces mots sont-ils représentes dans le lexique mental ?). Dans les recherches réalisées dans le cadre du doctorat nous avons abordé ces deux points. Nos expériences ont mis en évidence des différences de traitement entre les deux types de mots dérivés : les mots préfixes et les mots suffixes. Dans un premier temps nous avons établi que les mots préfixes étaient traites de façon continue de gauche à droite comme des mots monomorphémiques, sans subir une décomposition prélexicale. Nous avons également montré que les membres suffixes d'une même famille morphologique (mots partageant une racine comme "laitier", "laitage". . . ) Partagent une même entrée lexicale et sont organisés sur la base de leur fréquence relative. La reconnaissance d'un membre suffixe d'une famille morphologique est donc fonction de sa "place" dans la hiérarchie de sa famille. Ces expériences ont été réalisées en utilisant une tache de décision lexicale avec présentation auditive des mots. Dans un second temps, et afin d'établir les liens existant entre les différents membres d'une famille morphologique, nous avons utilisé un paradigme d'amorçage intermodal avec présentation auditive de l'amorce et une décision lexicale sur la cible présentée visuellement. Nous avons ainsi établi l'existence de liens entre les différents membres d'une même famille (racine - préfixe - suffixe). L'ensemble de ce travail nous permet d'apporter des informations concernant le traitement et le type de représentation lies aux mots morphologiquement complexes. Dans la dernière partie de la thèse, nous proposons un modèle interprétatif permettant de rendre compte de l'ensemble de nos résultats. Nous soumettons également des expériences à réaliser afin de préciser cette interprétation
A major issue in the study of human language concerns the way the stored representations of words are accessed during speech processing. The research work i have carried out so far approaches this question through the special case of morphologically complex words (e. G. , 'undo', 'asymmetry'). Because of their structure, these words allow clearer insight than the monomorphemic ones into the nature of representation and retrieval processes within the 'mental lexicon'. More specifically, we raised two critical questions: (a) how is morphological structure represented mentally? And (b) how are polymorphemic words accessed during spoken language recognition? The experiments i conducted within my ph d have shown that there are both representational and processing differences between derivationally prefixed (e. G. , distrust) and suffixed forms (e. G. , trustful) the first series of experiments used a lexical decision task, performed on auditorily presented words. Our results clearly suggests that prefixed words, just like monomorphemic items, are processed in a temporally continuous way ('from left to right'), that is, without prelexical decomposition (i. E. , without words being broken down into their constituent morphemes prior to lexical access). The processing of suffixed words, on the other hand, is influenced by the rest of their 'morphological family'. All suffixed relatives of a stem are listed fully within their stem's lexical entry, and the place they occupy within this list depends on their frequency (the most frequent ones coming 'on top'). Thus, the speed with which a suffixed form is accessed will depend on its 'place' within its family. A second series of experiments used a cross-modal priming paradigm (an auditory prime was immediately followed by the presentation of a visual target, on which subjects performed a lexical decision). These experiments showed that there exists between all three member types (stem, suffixed and prefixed forms) links of a purely morphological nature (that is, other than purely semantic or formal). All these experiments give keys concerning the way morphological complex words are treated and concerning their representations format. In the last part of our work, we proposed a model that take all our results into account
Styles APA, Harvard, Vancouver, ISO, etc.
2

Nazzi, Thierry. « Du rythme dans l'acquisition et le traitement de la parole ». Paris, EHESS, 1997. http://www.theses.fr/1997EHES0004.

Texte intégral
Résumé :
Des donnees recentes suggerent que certaines des procedures utilisees par les adultes dans le traitement de la parole dependent du type de rythme de leur langue maternelle. Cherchant a determiner comment ces procedures sont acquises, nous avons propose, et commence a explorer, l'hypothese selon laquelle les enfants pourraient s'appuyer sur les proprietes rythmiques des enonces entendus pour specifier les procedures adaptees a leur traitement. Dans cette optique, nous avons, dans un premier temps, mis en evidence l'existence de differences acoustiques portant sur des proprietes de duree liees aux voyelles, entre trois langues (le francais, l'anglais et le japonais) representant trois classes de rythme, respectivement, les classes syllabique, a "stress" et moraique. Dans un deuxieme temps, nous avons etabli que les nouveau-nes discriminent des enonces issus de differentes langues uniquement lorsque ces langues sont de rythme different, et aussi qu'ils categorisent les langues en fonction de leur rythme. Ces resultats suggerent que les enonces de differents types rythmiques sont representes differemment par les nouveau-nes. Toutefois, nous avons montre que ces differentes representations ne sont pas liees a l'utilisation de differentes unites rythmiques, ce qui suggere l'existence d'un format de representation identique a tous les enonces. Nous avons alors propose que les nouveau-nes pourraient etre dotes d'un filtre rythmique qui leur permettrait de preciser le type de rythme de la langue parlee dans leur entourage et, de la, de specifier les procedures adaptees au traitement de cette langue. Ce filtre rythmique reposerait sur une representation du signal de parole qui consisterait en la specification de la sequence de voyelles de ce signal.
Styles APA, Harvard, Vancouver, ISO, etc.
3

Eshkol, Iris. « Typologie sémantique des prédicats de parole ». Paris 13, 2002. http://www.theses.fr/2002PA131013.

Texte intégral
Résumé :
On constate actuellement un engouement général pour la recherche d'informations dans les textes, dû sans doute à la disponibilité d'une masse considérable d'informations sur le réseau internet. Ces sources textuelles sous forme éléctronique nécessitent de nouveaux outils capables d'analyser et de structurer des documents en vue de permettre à des utilisateurs non-experts de les consulter et/ou de les évaluer. Cet objectif requiert la confection de bases terminologiques ou de thésaurus construits par le linguiste. Cette thèse s'inscrit dans le cadre du traitement automatique du langage (TALN). Le lexique y joue un rôle central. En dehors des traditionnelles approches lexicographiques destinées au grand public, la plupart des applications en traitement automatique reposent sur les informations syntaxiques qu'on peut extraire du lexique, comme par exemple les dictionnaires électroniques du LADL. Ces travaux constituent une approche fructueuse pour le traitement automatique mais insuffisante quand il s'agit de prendre en compte les interrogations de nature sémantique, comme, par exemple la polysémie des prédicats. D'où la nécessité des dictionnaires reliant étroitement sémantique et syntaxe. L'objet de cette thèse est de mettre au point théoriquement et de décrire des classes sémantiques des prédicats, plus particulièrement des prédicats de parole. Ils'agit des verbes, des noms et des adjectifs qui impliquent un "dire" et dont nous avons fait le recensement le plus exhaustif possible. Le but de la typology est de présenter les données de sorte que l'on puisse analyser ou générer automatiquement toutes les phrases possibles construites autour d'un prédicat donné. La méthode adoptée allie la sémantique et la syntaxe. Les structures syntaxiques sont determinées par le contenu sémantique des prédicats, de sorte qu'il est patent que ces deux niveaux sont étroitement imbriqués. Les prédicats de parole sont d'une extrême diversité sémantique (prédicat d'ordre, d'information, de rappel, d'expression de sentiment, d'erreurs de prononciation, etc. ). Ces classes cependant déterminent une structure argumentale qui leur est propre. Chacune d'entre elles est décrite en extension, de sorte que nous établissons des listes sémantiquement homogènes avec des schémas d'arguments identiques
With the enormous amount of electronically avaible information on the internet, the development of information extraction technology becomes and more important. It requires new tools to structure and analyse textual data that help users in accessing and evaluating the information they are looking for. It is the linguist' task to create terminological databases and thesauri for this application. The research presented in this thesis is situated in the domain of Natural Language Processing (NLP), in which the lexicon plays a central role. Apart from traditional lexicographical approaches, the majority of NLP applications relies on syntactic information encoded in the lexicon, as for example in the LADL electronic dictionaries. Although this is an appropriate approach it is to some extent insufficient because it does not take into account the semantic of words and their ambiguity. For this, one needs to build dictionaries that relate syntax and semantics. .
Styles APA, Harvard, Vancouver, ISO, etc.
4

Regnault, Pascaline. « Musique et chant : approche comportementale et électrophysiologique du traitement de la musique et du langage ». Aix-Marseille 1, 2001. http://www.theses.fr/2001AIX11020.

Texte intégral
Résumé :
Le but de ce travail de thèse est de mieux comprendre les processus impliqués dans la perception de la musique, en particulier ceux qui constituent les pierres angulaires de la musique tonale occidentale : la consonance sensorielle et la fonction harmonique des accords. L'originalité de ce travail est double, d'une part à cause du cadre théorique dans lequel il s'insère, et d'autre part du fait des méthodes utilisées pour réaliser les expériences. D'un point de vue théorique, nous faisons l'hypothèse qu'une meilleure compréhension des processus qui président à la perception de la musique permettra d'éclairer les connaissances que nous avons des processus impliqués dans la perception du langage. D'un point de vue méthodologique, il s'agit d'utiliser à la fois le temps de réaction, le pourcentage de réponses correctes, et les potentiels évoqués. Le but de la première série expérimentale est d'étudier la consonance sensorielle de deux notes présentées simultanément ou successivement à des musiciens et à des non musiciens. Les résultats révèlent que l'expertise musicale conduit à l'élaboration d'une représentation mentale de la consonance qui joue un rôle au moins aussi important dans le jugement des caractéristiques esthétiques des intervalles que les propriétés acoustiques des sons. Le but de la seconde partie expérimentale est de dissocier le rôle de deux facteurs, souvent confondus dans les expériences visant à étudier l'attente harmonique : la consonance sensorielle et la fonction harmonique des accords. Les résultats montrent clairement que les effets de ces deux facteurs sont distincts et indépendants. Enfin, le but de la troisième série expérimentale est de tester l'influence des processus attentionnels sur le traitement des aspects sémantiques et mélodiques du chant. Les résultats montrent que le traitement mélodique est privilégié pour les musiciens, et que le traitement sémantique exerce une influence prépondérante pour les non musiciens.
Styles APA, Harvard, Vancouver, ISO, etc.
5

Deligne, Sabine. « Modeles de sequences de longueurs variables : application au traitement du langage ecrit et de la parole ». Paris, ENST, 1996. http://www.theses.fr/1996ENST0029.

Texte intégral
Résumé :
L'efficacité des algorithmes utilises pour le traitement automatique de la parole et du langage naturel dépend de la bonne définition des formes supposées structurer le matériau linguistique. En règle générale, cette structure sous-jacente n'est pas connue, de sorte qu'elle doit être définie a priori, ou alors inférée à partir de grosses bases de données. Le modele multi gramme relevé de cette dernière approche : il constitue un outil statistique permettant de détecter des motifs récurrents dans des suites d'observations. Il est particulièrement bien approprié pour la description des phénomènes linguistiques, ou les processus de redondance mis en œuvre se traduisent par l'utilisation de séquences de tailles variables, aussi bien au niveau acoustique, phonétique que syntaxique. La bonne détection de ces séquences devrait pouvoir servir avantageusement certaines applications relevant du traitement automatique du langage et de la parole. Les travaux présentes dans cette thèse permettent d'explorer les possibilités offertes par l'approche multi gramme pour la modélisation statistique du langage, pour la recherche d'un jeu minimal d'unités formelles de synthèse, pour la transcription orthographique-phonétique, et pour la définition d'unités acoustiques utilisables en reconnaissance de la parole continue.
Styles APA, Harvard, Vancouver, ISO, etc.
6

Deligne, Sabine. « Modèle de séquences de longueurs variables : application au traitement du langage écrit et de la parole / ». Paris : École nationale supérieure des télécommunications, 1996. http://catalogue.bnf.fr/ark:/12148/cb36162106f.

Texte intégral
Styles APA, Harvard, Vancouver, ISO, etc.
7

Pouchot, Stéphanie. « L'analyse de corpus et la génération automatique de texte : méthodes et usages ». Grenoble 3, 2003. http://www.theses.fr/2003GRE39006.

Texte intégral
Résumé :
La communication entre une machine et un individu peut prendre différentes formes (icônes, sons, textes. . . ). Le but de la génération automatique de textes est la production informatisée de messages en langue naturelle destinés à des lecteurs humains. Le résultat doit être compréhensible, adapté et, idéalement, se rapprocher des productions humaines. Cette thèse présente un travail de recherche consacré à l'amélioration des performances d'un processus de génération automatique du français écrit. Basée sur l'étude d'un ensemble de textes réels, cette recherche a consisté en l'identification et l'étude de caractéristiques propres à la langue naturelle (mise en forme, vocabulaire. . . ) à re-produire de manière automatique. Nous présentons ces critères, la manière dont ils sont compatibles entre eux et nous proposons une nouvelle architecture pour le système de génération permettant de les intégrer au processus.
Styles APA, Harvard, Vancouver, ISO, etc.
8

Laurent, Antoine. « Auto-adaptation et reconnaissance automatique de la parole ». Le Mans, 2010. http://cyberdoc.univ-lemans.fr/theses/2010/2010LEMA1009.pdf.

Texte intégral
Résumé :
La première partie de cette thèse présente une méthode d’assistance à la transcription automatique de la parole. Le transcripteur humain dispose de la meilleure hypothèse fournie par le SRAP, et, à chaque correction de sa part, le système propose une nouvelle hypothèse prenant en compte cette correction. Cette dernière est obtenue à partir d’une réévaluation des réseaux de confusion générés par le SRAP. L’utilisation de la méthode de réordonnancement permet d’observer un gain absolu de 3,4% (19,2% à 15,8%) en terme de nombre de mots à corriger (WSR) sur le corpus ESTER 2. Afin de diminuer le taux d’erreur sur les noms propres, une méthode de phonétisation itérative utilisant les données acoustiques à disposition est proposée dans ce manuscrit. L’utilisation de SMT [Laurent 2009] couplée avec la méthode de phonétisation proposée permet d'observer des gains en terme de taux d'erreur mot (WER) et en terme de taux d'erreur noms propres (PNER)
The first part of this thesis presents a computer assisted transcription of speech method. Every time the user corrects a word in the automatic transcription, this correction is immediately taken into account to re-evaluate the transcription of the words following it. The latter is obtained from a reordering of the confusion networks hypothesis generated by the ASR. The use of the reordering method allows an absolute gain of 3. 4 points (19. 2% to 15. 8%) in term of word stroke ratio (WSR) on the ESTER 2 corpus. In order to decrease the proper nouns error rate, an acoustic-based phonetic transcription method is proposed in this manuscript. The use of SMT [Laurent 2009] associated with the proposed method allows a significant reduce in term of word error rate (WER) and in term of proper nouns error rate (PNER)
Styles APA, Harvard, Vancouver, ISO, etc.
9

Tran, Ngoc Anaïs. « Perception de la parole sifflée : étude de la capacité de traitement langagier des musiciens ». Electronic Thesis or Diss., Université Côte d'Azur, 2023. http://www.theses.fr/2023COAZ2052.

Texte intégral
Résumé :
La perception de la parole est un processus qui doit s'adapter à un grand nombre de facteurs de variabilité. Ces variations, qui modifient le signal sonore, incluent des spécificités de production chez les locuteurs. En utilisant un signal de parole modifiée de manière expérimentale, nous pouvons cibler certains aspects du signal, pour mieux comprendre leurs rôles dans les processus perceptifs. Dans cette thèse, nous traitons une forme de parole naturellement modifiée, appelée « parole sifflée », pour explorer le rôle que jouent les indices acoustiques des phonèmes lors de la perception de la parole. Cependant, ces facteurs de variabilité concernent également la réception du signal, où l'écoute est influencée par l'expérience de chacun. Nous nous intéressons ici à l'effet de la pratique musicale classique sur la perception de la parole sifflée. La parole sifflée augmente le signal de la parole modale vers le registre de fréquences le mieux perçu par l'oreille humaine. Dans notre corpus, les voyelles se réduisent à des fréquences sifflées dans un registre propre à chaque voyelle, et les consonnes modifient ces fréquences selon leur articulation. Dans un premier temps, nous avons considéré la manière dont la parole sifflée est traitée par des personnes n'ayant jamais entendu ce mode de parole auparavant (écouteurs naïfs). Nous avons considéré quatre voyelles et quatre consonnes cible : /i,e,a,o/ et /k,p,s,t/, analysées dans un contexte isolé et dans la forme VCV, ainsi que dans des mots sifflés (choisis pour intégrer ces mêmes phonèmes). Nous avions ensuite considéré l'effet de la pratique musicale sur la perception de la parole sifflée, en nous intéressant également à différentes façades de l'impact de la pratique musicale : le type de traitement, le transfert de connaissance et l'effet du niveau et de l'instrument d'apprentissage.Les résultats montrent que tous les écouteurs catégorisent les phonèmes et les mots bien au-dessus du hasard, avec une préférence pour certaines caractéristiques acoustiques, soit des phonèmes (consonnes ou voyelles) ayant des contrastes de fréquence. Cette facilité est néanmoins affectée par le contexte du phonème (notamment dans le mot). Nous observons dans un second temps un effet de pratique musicale continue selon la quantité d'expérience, mais qui est d'autant plus marqué pour des personnes avec un haut niveau de pratique. Nous attribuons cet « avantage » musical à une meilleure exploitation d'indices acoustiques, permettant un transfert de connaissances musicales vers la parole sifflée, bien que l'effet de transfert reste inférieur à une expérience de pratique sifflée. Cette exploitation acoustique est spécifique à l'instrument pratiqué, avec un avantage marqué pour les flûtistes, surtout dans le traitement des consonnes. Ainsi, l'effet d'un entraînement, tel que la musique, améliore la performance selon la similarité du signal sonore d'un point de vue acoustique et articulatoire
Speech perception is a process that must adapt to a large amount of variability. These variations, including differences in production that depend on the speaker, modify the speech signal. By then using this modified speech signal in experimental studies, we can target certain aspects of speech and their role in the perceptive process. In this thesis, I considered a form of naturally modified speech known as “whistled speech” to further explore the role of acoustic phonological cues in the speech perception process. Variation, however, is not unique to speech production: it is also present among those perceiving speech and varies according to individual experience. Here, I analyzed the effect of classical music expertise on whistled speech perception. Whistled speech augments the modal spoken speech signal into higher frequencies corresponding to a register best perceived by human hearing. In our corpus, vowels are reduced to high whistled frequencies, in a pitch range specific to each vowel, and consonants modify these frequencies according to their articulation. First, we considered how naive listeners (who have never heard whistled speech before) perceive whistled speech. We targeted four vowels and four consonants: /i,e,a,o/ and /k,p,s,t/, which we considered in isolation or a VCV form, and in whistled words (chosen to incorporate the target phonemes). We then considered the effect of musical experience on these categorization tasks, also taking an interest in the transfer of knowledge and the effect of instrument expertise. In these studies, we observed that naive listeners categorize whistled phonemes and whistled words well over chance, with a preference for acoustic cues that characterize consonants and vowels with contrasting pitches. This preference is nonetheless affected by the context in which the phoneme is heard (especially in the word). We also observed an effect of musical expertise on categorization, which improved with more experience and was strongest for high-level classical musicians. We attributed these differences to better use of acoustic cues, allowing for a transfer of skills between musical knowledge and whistled speech perception, though performances due to musical experience are much lower than participants with a knowledge of whistled speech. These acoustic skills were also found to be specific to the instrument played, where flute players outperformed the other instrumentalists, particularly on consonant tasks. Thus, we suggest that the effect of training, such as music, improves one's performance on whistled speech perception according to the similarities between the sound signals, both in terms of acoustics and articulation
Styles APA, Harvard, Vancouver, ISO, etc.
10

Guilleminot, Christian. « Décomposition adaptative du signal de parole appliquée au cas de l'arabe standard et dialectal ». Besançon, 2008. http://www.theses.fr/2008BESA1030.

Texte intégral
Résumé :
Le présent travail introduit en phonétique la décomposition atomique du signal, appelée aussi Matching Pursuit, traite les fichiers d'atomes par compression sans perte et enfin mesure la distance des fichiers comprimés par des algorithmes de Kolmogorov. L’étalonnage est basé sur une première analyse classique de la coarticulation de séquences sonores VCV et CV, (ou V ∈ {[i] [u] [a]} et C ∈ {[t] [d] [s] [δ]}∪{[tʕ] [dʕ] [sʕ [δʕ]}, extraites d’un corpus issu de quatre régions arabophones. L’équation de locus de CV vs CʕV, permet de différencier les variétés de langue. La deuxième analyse applique un algorithme de décomposition atomique adaptative ou Matching Pursuit sur des séquences VCV et VCʕV du même corpus. Les séquences atomiques représentant VCV et VCʕV sont ensuite compressées sans perte et la distance entre elles est recherchée par des algorithmes de Kolmogorov. La classification des productions phonétiques et des régions arabophones obtenue est équivalente à celle de la première méthode. Ce travail montre l’intérêt de l’introduction de Matching Pursuit en phonétique, la grande robustesse des algorithmes utilisés et suggère d’importantes possibilités d’automatisation des processus mis en oeuvre, tout en ouvrant de nouvelles directions d’investigation
The present work introduces in phonetics, the atomic decomposition of the signal also known as the Matching Pursuit and treats a group of atoms by compression without losses and finally measures the distance of the list of atoms compressed using the Kolmogorov's algorithms. The calibration is based on an initial classical analysis of the co-articulation of sound sequences of VCV and CV, or V ∈ {[i] [u] [a]} and C ∈ {[t] [d] [s] [δ]}∪ [tʕ] [dʕ] [sʕ [δʕ]} the excerpts culled from a corpus made up of four arabic speaking areas. The locus equation of CV vs CʕV, makes it possible to differentiate the varieties of the language. In the second analysis, an algorithm of atomic adaptative decomposition or Matching Pursuit is applied to the sequences VCV and VCʕV still on the same corpus. The atomic sequences representing VCV et VCʕV are then compressed without losses and the distances between them are searched for by Kolmogorov's algorithms. The classification of phonetic recordings obtained from these arabic speaking areas is equivalent to that of the first method. The findings of the study show how the introduction of Matching Pursuit's in phonetics works, the great robustness of the use of algorithms and suggesting important possibilities of automation of processes put in place, while opening new grounds for further investigations
Styles APA, Harvard, Vancouver, ISO, etc.
11

Bigi, Brigitte. « Contribution à la modélisation du langage pour des applications de recherche documentaire et de traitement de la parole ». Avignon, 2000. http://www.theses.fr/2000AVIG0125.

Texte intégral
Résumé :
En classification thématique, l'objectif est d'assigner un label thématique à un segment de texte parmi un ensemble de labels possibles. Le modèle proposé repose sur la comparaison entre la distribution statique des mots clés de chaque thème et la distribution statistique des mots contenus dans la mémoire cache d'un texte à un instant donné. Cette évaluation évolue dans le temps avec la prise en compte de nouveaux mots dans le cache. Appliqué à des textes dictés, ce modèle permet une reconnaissance rapide des thèmes. Nous montrons également que l'utilisation d'une combinaison linéaire d'un modèle bigramme général avec des modèles thématiques apporte un gain substantiel de perplexite. En segmentation thematique, on cherche à déterminer les frontières entre paragraphes de thèmes différents. Pour repérer les changements de thème, on utilise le modèle à base de mémoire cache developpé pour la classification thématique, associé à une programmation dynamique. D'autres nouvelles méthodes ont également été testées afin que la segmentation ne nécessite pas de connaissances préalables sur les thèmes. Pour ce faire, on donne de nouvelles représentations de l'histoire d'un mot. L'ensemble des résultats ainsi obtenus montre que différentes stratégies doivent être utilisées selon les valeurs de rappel et de précision que l'on souhaite. Le but en expansion de requête est d'ajouter de nouveaux termes pertinents à la requête d'un utilisateur, afin de rendre plus précise les reponses du système de recherche documentaire. Notre modèle évalue une mesure de divergence entre la distribution de probabilités des termes représentatifs des documents fournis par le systeme avec la requête initiale, et la distribution de ces mêmes termes dans la collection entière. Ceci permet d'attribuer un score à des termes candidats qui formeront la requête étendue
Styles APA, Harvard, Vancouver, ISO, etc.
12

Frath, Pierre. « Semantique, reference et acquisition automatique de connaissances a partir de textes ». Strasbourg 2, 1997. http://www.theses.fr/1997STR20079.

Texte intégral
Résumé :
L'acquisition automatique de connaissances a partir de textes consiste, idealement, a generer une representation structuree d'un corpus fourni en entree a un systeme informatique. Cette representation doit pouvoir etre interrogee par un humain ou par une machine. La conception et la realisation d'un tel systeme soulevent des difficultes considerables, tant sur le plan theorique que technique. Ce travail a pour but d'examiner ces deux aspects du probleme. Une premiere partie est consacree a une analyse de l'etat de l'art. Elle consiste en une vue structuree des deux grandes familles d'approches du probleme de l'acquisition de connaissances : l'extraction automatique de terminologie, et l'acquisition de connaissances par projection de modeles conceptuels. Une seconde partie etudie les fondement souvent implicites du traitement automatique des langues, c'est-a-dire le positivisme logique et la semantique lexicale componentielle. En guise d'alternative a la componentialite, nous proposons une semantique du signe, de l'usage et de la reference inspiree de charles sanders peirce, de ludwig wittgenstein et de georges kleiber. Dans la troisieme partie, il est procede a l'analyse semantique referentielle d'un corpus de textes medicaux. Nous y definissons deux types de reference : la denomination et la denotation. La premiere consiste en une reference arbitraire, preconstruite, et opaque; la seconde, en une reference discursive, construite, et transparente. Dans la quatrieme partie, nous construisons manuellement une representation detaillee d'un fragment du corpus afin d'examiner la pertinence pratique de l'analyse theorique, et de fixer des objectifs precis au systeme. Enfin, la cinquieme partie est consacree a la construction aussi automatisee que possible d'une base de connaissances terminologiques capable de representer un corpus de textes techniques ou scientifiques, et qui soit suffisamment structuree pour permettre des usages applicatifs par exemple en terminologie ou en modelisation de domaines. En somme, ce travail examine le probleme de l'acquisition automatique de connaissances en liant intimement la theorie et la pratique, la finalite technologique donnant une ligne directrice aux discussions theoriques
Automatic knowledge acquisition from text ideally consists in generating a structured representation of a corpus, which a human or a machine should be able to query. Designing and realising such a system raises a number of difficulties, both theoretical and practical, which we intend to look into. The first part of this dissertation studies the two main approaches to the problem : automatic terminology retrieval, and model driven knowledge acquisition. The second part studies the mostly implicit theoretical foundations of natural language processing i. E. Logical positivism and componential lexical semantics. We offer an alternative inspired from the work of charles sanders peirce, ludwig wittgenstein and georges kleiber, i. E. A semantics based on the notions of sign, usage and reference. The third part is devoted to a detailed semantic analysis of a medical corpus. Reference is studied through two notions, denomination and denotation. Denominations allow for arbitrary, preconstructed and opaque reference; denotations, for discursive, constructed and transparent reference. In the fourth part, we manually construct a detailed representation of a fragment of the corpus. The aim is to study the relevance of the theoretical analysis and to set precise objectives to the system. The fifth part focuses on implementation. It is devoted to the construction of a terminological knowledge base capable of representing a domain corpus, and sufficiently structured for use by applications in terminology or domain modelling for example. In a nutshell, this dissertation examines automatic knowledge acquisition from text from a theoretical and technical point of view, with the technology setting the guidelines for the theoretical discussions
Styles APA, Harvard, Vancouver, ISO, etc.
13

Huet, Stéphane Sébillot Pascale. « Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole ». [S.l.] : [s.n.], 2007. ftp://ftp.irisa.fr/techreports/theses/2007/huet-hyperref.pdf.

Texte intégral
Styles APA, Harvard, Vancouver, ISO, etc.
14

Dutrey, Camille. « Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle ». Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112415/document.

Texte intégral
Résumé :
Extraire de l'information de données langagières est un sujet de plus en plus d'actualité compte tenude la quantité toujours croissante d'information qui doit être régulièrement traitée et analysée, etnous assistons depuis les années 90 à l'essor des recherches sur des données de parole également. Laparole pose des problèmes supplémentaires par rapport à l'écrit, notamment du fait de la présence dephénomènes propres à l'oral (hésitations, reprises, corrections) mais aussi parce que les donnéesorales sont traitées par un système de reconnaissance automatique de la parole qui génèrepotentiellement des erreurs. Ainsi, extraire de l'information de données audio implique d'extraire del'information tout en tenant compte du « bruit » intrinsèque à l'oral ou généré par le système dereconnaissance de la parole. Il ne peut donc s'agir d'une simple application de méthodes qui ont faitleurs preuves sur de l'écrit. L'utilisation de techniques adaptées au traitement des données issues del'oral et prenant en compte à la fois leurs spécificités liées au signal de parole et à la transcription –manuelle comme automatique – de ce dernier représente un thème de recherche en pleindéveloppement et qui soulève de nouveaux défis scientifiques. Ces défis sont liés à la gestion de lavariabilité dans la parole et des modes d'expressions spontanés. Par ailleurs, l'analyse robuste deconversations téléphoniques a également fait l'objet d'un certain nombre de travaux dans lacontinuité desquels s'inscrivent ces travaux de thèse.Cette thèse porte plus spécifiquement sur l'analyse des disfluences et de leur réalisation dans desdonnées conversationnelles issues des centres d'appels EDF, à partir du signal de parole et destranscriptions manuelle et automatique de ce dernier. Ce travail convoque différents domaines, del'analyse robuste de données issues de la parole à l'analyse et la gestion des aspects liés àl'expression orale. L'objectif de la thèse est de proposer des méthodes adaptées à ces données, quipermettent d'améliorer les analyses de fouille de texte réalisées sur les transcriptions (traitement desdisfluences). Pour répondre à ces problématiques, nous avons analysé finement le comportement dephénomènes caractéristiques de l'oral spontané (disfluences) dans des données oralesconversationnelles issues de centres d'appels EDF, et nous avons mis au point une méthodeautomatique pour leur détection, en utilisant des indices linguistiques, acoustico-prosodiques,discursifs et para-linguistiques.Les apports de cette thèse s'articulent donc selon trois axes de recherche. Premièrement, nousproposons une caractérisation des conversations en centres d'appels du point de vue de l'oralspontané et des phénomènes qui le caractérisent. Deuxièmement, nous avons mis au point (i) unechaîne d'enrichissement et de traitement des données orales effective sur plusieurs plans d'analyse(linguistique, prosodique, discursif, para-linguistique) ; (ii) un système de détection automatique desdisfluences d'édition adapté aux données orales conversationnelles, utilisant le signal et lestranscriptions (manuelles ou automatiques). Troisièmement, d'un point de vue « ressource », nousavons produit un corpus de transcriptions automatiques de conversations issues de centres d'appelsannoté en disfluences d'édition (méthode semi-automatique)
Extracting information from linguistic data has gain more and more attention in the last decades inrelation with the increasing amount of information that has to be processed on a daily basis in the world. Since the 90’s, this interest for information extraction has converged to the development of researches on speech data. In fact, speech data involves extra problems to those encountered on written data. In particular, due to many phenomena specific to human speech (e.g. hesitations, corrections, etc.). But also, because automatic speech recognition systems applied on speech signal potentially generates errors. Thus, extracting information from audio data requires to extract information by taking into account the "noise" inherent to audio data and output of automatic systems. Thus, extracting information from speech data cannot be as simple as a combination of methods that have proven themselves to solve the extraction information task on written data. It comes that, the use of technics dedicated for speech/audio data processing is mandatory, and epsecially technics which take into account the specificites of such data in relation with the corresponding signal and transcriptions (manual and automatic). This problem has given birth to a new area of research and raised new scientific challenges related to the management of the variability of speech and its spontaneous modes of expressions. Furthermore, robust analysis of phone conversations is subject to a large number of works this thesis is in the continuity.More specifically, this thesis focuses on edit disfluencies analysis and their realisation in conversational data from EDF call centres, using speech signal and both manual and automatic transcriptions. This work is linked to numerous domains, from robust analysis of speech data to analysis and management of aspects related to speech expression. The aim of the thesis is to propose appropriate methods to deal with speech data to improve text mining analyses of speech transcriptions (treatment of disfluencies). To address these issues, we have finely analysed the characteristic phenomena and behavior of spontaneous speech (disfluencies) in conversational data from EDF call centres and developed an automatic method for their detection using linguistic, prosodic, discursive and para-linguistic features.The contributions of this thesis are structured in three areas of research. First, we proposed a specification of call centre conversations from the prespective of the spontaneous speech and from the phenomena that specify it. Second, we developed (i) an enrichment chain and effective processings of speech data on several levels of analysis (linguistic, acoustic-prosodic, discursive and para-linguistic) ; (ii) an system which detect automaticcaly the edit disfluencies suitable for conversational data and based on the speech signal and transcriptions (manual or automatic). Third, from a "resource" point of view, we produced a corpus of automatic transcriptions of conversations taken from call centres which has been annotated in edition disfluencies (using a semi-automatic method)
Styles APA, Harvard, Vancouver, ISO, etc.
15

Milhorat, Pierrick. « Une plate-forme ouverte pour la conception et l'implémentation de systèmes de dialogue vocaux en langage naturel ». Electronic Thesis or Diss., Paris, ENST, 2014. http://www.theses.fr/2014ENST0087.

Texte intégral
Résumé :
L'interaction vocale avec des systèmes automatiques connaît, depuis quelques années, un accroissement dans l'intérêt que lui porte tant le grand public que la communauté de la recherche. Cette thèse s'inscrit dans ce cadre pour aborder le sujet depuis deux points de vue complémentaires. D'une part, celui apparent de la fiabilité, de l'efficacité et de l'utilisabilité de ces interfaces. D'autre part, les aspects de conception et d'implémentation sont étudiés pour apporter des outils de développement aux concepteurs plus ou moins initiés de tels systèmes. A partir des outils et des évolutions dans le domaine, une plate-forme modulaire de dialogue vocal a été agrégée. L'interaction continue, basée sur une "écoute" permanente du système pose des problèmes de segmentation, de débruitage, de capture de son, de sélection des segments adressés au système, etc... Une méthode simple, basée sur la comparaison des résultats de traitements parallèles a prouvé son efficacité, tout comme ses limites pour une interaction continue avec l'utilisateur. Les modules de compréhension du langage forment un sous-système interconnecté au sein de la plate-forme. Ils sont les adaptations d'algorithmes de l'état de l'art comme des idées originales. Le choix de la gestion du dialogue basé sur des modèles de tâches hiérarchiques, comme c'est la cas pour la plate-forme, est argumenté. Ce formalisme est basé sur une construction humaine et présente, de fait, des obstacles pour concevoir, implémenter, maintenir et faire évoluer les modèles. Pour parer à ceux-ci, un nouveau formalisme est proposé qui se transforme en hiérarchie de tâches grâce aux outils associés
Recently, global tech companies released so-called virtual intelligent personal assistants.This thesis has a bi-directional approach to the domain of spoken dialog systems. On the one hand, parts of the work emphasize on increasing the reliability and the intuitiveness of such interfaces. On the other hand, it also focuses on the design and development side, providing a platform made of independent specialized modules and tools to support the implementation and the test of prototypical spoken dialog systems technologies. The topics covered by this thesis are centered around an open-source framework for supporting the design and implementation of natural-language spoken dialog systems. Continuous listening, where users are not required to signal their intent prior to speak, has been and is still an active research area. Two methods are proposed here, analyzed and compared. According to the two directions taken in this work, the natural language understanding subsystem of the platform has been thought to be intuitive to use, allowing a natural language interaction. Finally, on the dialog management side, this thesis argue in favor of the deterministic modeling of dialogs. However, such an approach requires intense human labor, is prone to error and does not ease the maintenance, the update or the modification of the models. A new paradigm, the linked-form filling language, offers to facilitate the design and the maintenance tasks by shifting the modeling to an application specification formalism
Styles APA, Harvard, Vancouver, ISO, etc.
16

Grisvard, Olivier. « Modélisation et gestion du dialogue oral homme-machine de commande ». Nancy 1, 2000. http://www.theses.fr/2000NAN10011.

Texte intégral
Résumé :
La conception et la réalisation d'un système de dialogue oral homme-machine de commande accessible au plus grand nombre, c'est-à-dire à des utilisateurs non spécialistes du dialogue avec une machine, nécessite la prise en compte de certaines caractéristiques de la conversation humaine en général, pour permettre une interaction langagière la plus naturelle possible entre le système et l'utilisateur, et le respect de contraintes propres au dialogue finalisé, c'est-à-dire dédié à la gestion d'une tâche informatique précise. Dans ce contexte, nous proposons un modèle pour ce type de dialogue, destiné in fine à être implanté dans un système de commande opérationnel, mais dont la définition repose sur une étude approfondie des principes et mécanismes du dialogue homme-homme. Plus précisément, notre modélisation du dialogue se compose d'un formalisme de représentation structurée des données du dialogue et de la tâche, fondé sur la notion d'éventualité, et d'une procédure de gestion du dialogue qui comprend l'analyse pragmatique des énoncés de l'utilisateur, la gestion effective de la représentation événementielle du dialogue, la gestion de l'application sous-jacente, et la production des énoncés du système. Notre modèle se veut générique vis-à-vis de l'application à piloter
To design a spoken man-machine command dialogue system to be used by the largest number of people, that is even people who are not specialists of interacting with computers, is not an easy task. On the one hand, it requires to take into account sorne characteristics of human conversation in general, in order to provide the system with natural means of interacting with the user. On the other hand, it implies to respect constraints specifie to task-based dialogue, that is dialogue used to manage a definite computer task. Given such a framework, we propose a model for this class of dialogues. Although the model's main purpose is to be implemented in a real command system, its definition is based on an in-depth study of princip les and mecanisms of man-man dialogue. More precisely, our dialogue model comprises a structured representation formalism for task and dialogue data, which is based on the notion of eventuality, as well as a dialogue management procedure. This procedure includes pragmatic analysis of user utterances, effective management of the event-based dialogue representation, application management, and system utterance production. The model we propose is intended to be generic enough in order to be independent of the application
Styles APA, Harvard, Vancouver, ISO, etc.
17

Adda, Gilles. « Reconnaissance de grands vocabulaires : une étude syntaxique et lexicale ». Paris 11, 1987. http://www.theses.fr/1987PA112386.

Texte intégral
Résumé :
Nous présentons dans cette thèse un certain nombre d'expériences menées dans le cadre d'un projet à long terme de dictée vocale. Ces expériences portent sur l'utilisation de grands vocabulaires (contenant entre 10000 et 300000 mots), et de langage aussi bien syntaxiquement que sémantiquement naturel. On a tout d'abord étudié, en utilisant comme support une maquette de transcription sténotypes/graphèmes destinée au sous-titrage d'émissions télévisées, le modèle syntaxique à développer afin de rendre compte des particularités du langage parlé. Ce modèle repose sur des grammaires stochastiques de successions binaires et ternaires. Nous avons ensuite construit un logiciel d'accès à un lexique de très grande taille (270000 mots), à l'aide d'un treillis phonétique erroné. Les résultats ayant montré les limites d'une telle approche, nous avons étudié la possibilité d'une préclasssification du vocabulaire. Nous avons mené une étude lexicale de l'utilisation de traits robustes, en utilisant différents types de préclassification.
Styles APA, Harvard, Vancouver, ISO, etc.
18

Huet, Stéphane. « Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole ». Phd thesis, Rennes 1, 2007. ftp://ftp.irisa.fr/techreports/theses/2007/huet-hyperref.pdf.

Texte intégral
Résumé :
Nos travaux visent à améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) en employant davantage de connaissances linguistiques. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur catégoriel puis réordonnons ces listes en modifiant le score global du système de RAP. Des expériences menées sur le corpus ESTER montrent des améliorations du taux d’erreur de mots et des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML). Nous découpons tout d'abord le document étudié en sections thématiquement homogènes, en proposant un nouveau cadre probabiliste pour intégrer différentes modalités. Nous construisons ensuite des corpus d'adaptation à partir du Web et modifions enfin le ML avec ces corpus spécifiques
Our research aims at improving outputs produced by automatic speech recognition (ASR) systems by integrating additional linguistic knowledge. In the first part, we propose a new mode of integration of parts of speech in a post-processing stage of speech decoding. To do this, we tag N-best sentence hypothesis lists with a morpho-syntactic tagger and then reorder these lists by modifying the score computed by ASR systems at the sentence level. Experiments done on French-speaking broadcast news exhibit an improvement of the word error rate and of confidence measures. In the second more exploratory part, we are interested in thematically adapting the language model (LM) of an ASR system. We first segment the studied document into thematically homogeneous sections, by proposing a new probabilistic framework to integrate different modalities. We then build adaptation corpora retrieved from the Web and finally modify the LM with these specific corpora
Styles APA, Harvard, Vancouver, ISO, etc.
19

Huet, Stéphane. « Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole ». Phd thesis, Université Rennes 1, 2007. http://tel.archives-ouvertes.fr/tel-00524245.

Texte intégral
Résumé :
Une des voies pour améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) consiste à employer davantage de connaissances linguistiques. Nous nous plaçons dans ce cadre en axant nos travaux sur deux aspects : les informations morpho-syntaxiques et l'adaptation thématique. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur morpho-syntaxique développé pour tenir compte des spé- cificités des transcriptions. Nous réordonnons ces listes en modifiant le score global employé par un système de RAP pour reconnaître un groupe de souffle, de manière à inclure les informations morpho-syntaxiques. Une diminution significative du taux d'erreur de mots est obtenue lors d'expériences menées sur des émissions d'information francophones (corpus Ester). Nous établissons en outre l'intérêt des informations morpho-syntaxiques pour améliorer des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML) d'un système de RAP. Nous proposons à cette fin une chaîne de traitements originale qui nous permet de spécialiser de manière ne et non supervisée le ML. Nous découpons tout d'abord une première transcription du document étudié en sections thématiquement homogènes. Pour cela, nous développons un nouveau cadre probabiliste pour prendre en compte dfférentes modalités (cohérence lexicale, indices acoustiques et marqueurs linguistiques) et montrons son intérêt pour améliorer la qualité de la segmentation. Nous construisons ensuite des corpus d'adaptation à partir du Web en utilisant une procédure novatrice. Nous modifions enfin le ML avec ces corpus spécifiques et montrons que, sur des sections thématiques sélectionnées manuellement, cette méthode permet d'améliorer significativement la modélisation du ML, même si le gain constaté au niveau de la qualité de la transcription est léger.
Styles APA, Harvard, Vancouver, ISO, etc.
20

Milhorat, Pierrick. « Une plate-forme ouverte pour la conception et l'implémentation de systèmes de dialogue vocaux en langage naturel ». Thesis, Paris, ENST, 2014. http://www.theses.fr/2014ENST0087/document.

Texte intégral
Résumé :
L'interaction vocale avec des systèmes automatiques connaît, depuis quelques années, un accroissement dans l'intérêt que lui porte tant le grand public que la communauté de la recherche. Cette thèse s'inscrit dans ce cadre pour aborder le sujet depuis deux points de vue complémentaires. D'une part, celui apparent de la fiabilité, de l'efficacité et de l'utilisabilité de ces interfaces. D'autre part, les aspects de conception et d'implémentation sont étudiés pour apporter des outils de développement aux concepteurs plus ou moins initiés de tels systèmes. A partir des outils et des évolutions dans le domaine, une plate-forme modulaire de dialogue vocal a été agrégée. L'interaction continue, basée sur une "écoute" permanente du système pose des problèmes de segmentation, de débruitage, de capture de son, de sélection des segments adressés au système, etc... Une méthode simple, basée sur la comparaison des résultats de traitements parallèles a prouvé son efficacité, tout comme ses limites pour une interaction continue avec l'utilisateur. Les modules de compréhension du langage forment un sous-système interconnecté au sein de la plate-forme. Ils sont les adaptations d'algorithmes de l'état de l'art comme des idées originales. Le choix de la gestion du dialogue basé sur des modèles de tâches hiérarchiques, comme c'est la cas pour la plate-forme, est argumenté. Ce formalisme est basé sur une construction humaine et présente, de fait, des obstacles pour concevoir, implémenter, maintenir et faire évoluer les modèles. Pour parer à ceux-ci, un nouveau formalisme est proposé qui se transforme en hiérarchie de tâches grâce aux outils associés
Recently, global tech companies released so-called virtual intelligent personal assistants.This thesis has a bi-directional approach to the domain of spoken dialog systems. On the one hand, parts of the work emphasize on increasing the reliability and the intuitiveness of such interfaces. On the other hand, it also focuses on the design and development side, providing a platform made of independent specialized modules and tools to support the implementation and the test of prototypical spoken dialog systems technologies. The topics covered by this thesis are centered around an open-source framework for supporting the design and implementation of natural-language spoken dialog systems. Continuous listening, where users are not required to signal their intent prior to speak, has been and is still an active research area. Two methods are proposed here, analyzed and compared. According to the two directions taken in this work, the natural language understanding subsystem of the platform has been thought to be intuitive to use, allowing a natural language interaction. Finally, on the dialog management side, this thesis argue in favor of the deterministic modeling of dialogs. However, such an approach requires intense human labor, is prone to error and does not ease the maintenance, the update or the modification of the models. A new paradigm, the linked-form filling language, offers to facilitate the design and the maintenance tasks by shifting the modeling to an application specification formalism
Styles APA, Harvard, Vancouver, ISO, etc.
21

Al, Thonaiyan Abdullah. « Espaces de parole et stratégies d'individuation : repérage et analyse des mécanismes d'influences dans le traitement des évènements rapportés des journaux quotidiens français et saoudiens à propos de la guerre d'Irak ». Rouen, 2010. http://www.theses.fr/2010ROUEL022.

Texte intégral
Résumé :
Selon la perspective socio-communicationnelle dans laquelle s'inscrit cette étude du discours d'information de la presse quotidienne, le traitement de l'information repose en grande partie sur des principes de régulation que la situation de communication impose en définissant son enjeu comme un enjeu d'effets à produire sur l'autre. Ce travail porte sur l'étude des processus complexes qui permettent de mettre en place un mécanisme d'influence dans le traitement d'un évènement médiatique par la presse d'information à travers l'étude de quotidiens français et saoudiens. Le but de ce travail est d'établir une distinction caractérisant quatre stratégies discursives à visée communicationnelle des presses écrites propres au genre des évènements rapportés et de cerner certains aspects de variations discursives propres au genre exigé par l'invention et le calcul permanent sur l'autre. La présente étude apporte également des éclairages sur les discours de représentation qui circonscrivent une intentionnalité afin de produire des effets chez le lecteur, mettant en lumière les types d'effets qu'elles sont susceptibles de produire pour l'influencer. Ce travail met en lumière l'importance des procédés communicatifs dans la construction et la présentation des évènements rapportés dans des organes socialement et culturellement différents
This work focus on the study of complex processes that allow establishing a mechanism to influence the treatment of the news media of some French and Saudi newspapers media event. The purpose of this work is to distinguish four strategies of news discourse in the press related to the kind of reported events and to identify certain aspects of variations in discourse according to the type required by the invention and the continuous calculation on the others. It also deals with the discourses that circumscribe an intentionality to produce effects in the reader, highlighting the kinds of effects they are likely to produce for influence. This work highlights the importance of communicative processes in the construction and presentation of events reported in organs socially and culturally different
Styles APA, Harvard, Vancouver, ISO, etc.
22

Woehrling, Cécile. « Accents régionaux en français : perception, analyse et modélisation à partir de grands corpus ». Phd thesis, Université Paris Sud - Paris XI, 2009. http://tel.archives-ouvertes.fr/tel-00617248.

Texte intégral
Résumé :
De grands corpus oraux comprenant des accents régionaux du français deviennent aujourd'hui disponibles : leurs données offrent une bonne base pour entreprendre l'étude des accents. Les outils de traitement automatique de la parole permettent de traiter des quantités de données plus importantes que les échantillons que peuvent examiner les experts linguistes, phonéticiens ou dialectologues. La langue française est parlée dans de nombreux pays à travers le monde. Notre étude porte sur le français d'Europe continentale, excluant ainsi des territoires comme le Québec, l'Afrique francophone ou encore les départements d'Outre-Mer. Nous étudierons des accents régionaux de France, de Belgique et de Suisse romande. Quelles sont les limites géographiques à l'intérieur desquelles il est possible d'affirmer que les locuteurs ont le même accent ? La réponse à cette question n'est pas évidente. Nous avons adopté la terminologie suivante, adaptée à nos données : nous parlerons d'accent lorsque nous ferons référence à une localisation précise telle qu'une ville ou une région donnée ; nous utiliserons le terme variété pour désigner un ensemble plus vaste. Bien que de nombreuses études décrivent les particularités des accents du français, il existe moins de travaux décrivant la variation de la langue dans son ensemble, et encore moins du point de vue du traitement automatique. De nombreuses questions restent ouvertes. Combien d'accents un auditeur natif du français peut-il identifier ? Quelles performances un système automatique pourrait-il atteindre pour une tâche identique? Les indices décrits dans la littérature linguistique comme caractéristiques de certains accents peuvent-ils être mesurés de manière automatique ? Sont-ils pertinents pour différencier des variétés de français ? Découvrirons-nous d'autres indices mesurables sur nos corpus ? Ces indices pourront-ils être mis en relation avec la perception ? Au cours de notre thèse, nous avons abordé l'étude de variétés régionales du français du point de vue de la perception humaine aussi bien que de celui du traitement automatique de la parole. Traditionnellement, nombre d'études en linguistique se focalisent sur l'étude d'un accent précis. Le traitement automatique de la parole permet d'envisager l'étude conjointe de plusieurs variétés de français : nous avons voulu exploiter cette possibilité. Nous pourrons ainsi examiner ce qui diffère d'une variété à une autre, ce qui n'est pas possible lorsqu'une seule variété est décrite. Nous avons la chance d'avoir à notre disposition un système performant d'alignement automatique de la parole. Cet outil, qui permet de segmenter le flux sonore suivant une transcription phonémique, peut se révéler précieux pour l'étude de la variation. Le traitement automatique nous permet de prendre en considération plusieurs styles de parole et de nombreux locuteurs sur des quantités de données importantes par rapport à celles qui ont pu être utilisées dans des études linguistiques menées manuellement. Nous avons automatiquement extrait des caractéristiques du signal par différentes méthodes ; nous avons cherché à valider nos résultats sur deux corpus avec accents. Les paramètres que nous avons retenus ont permis de classifier automatiquement les locuteurs de nos deux corpus.
Styles APA, Harvard, Vancouver, ISO, etc.
23

Roussel, David. « Intégration de prédictions linguistiques issues d'applications à partir d'une grammaire d'arbres hors-contexte : contribution à l'analyse de la parole ». Grenoble 1, 1999. http://www.theses.fr/1999GRE10209.

Texte intégral
Résumé :
L'etude porte sur le couplage robuste de l'analyse et de la reconnaissance automatique de la parole dans le cadre d'interactions homme-machine en langage naturel. Notre strategie repose sur differentes etapes d'analyse qui exploitent de facon complementaire une variante hors contexte des grammaire d'arbres adjoints baptisee tree furcating grammar. Afin de privilegier les contraintes issues d'un cadre applicatif, nous synchronisons les operations de composition des arbres avec des mecanismes de contraintes et de propagation sur des traits semantiques (semes) definis differentiellement. Chaque etape d'analyse est alors prevue pour mettre en concurrence des hypotheses de reconnaissance de la parole. La premiere etape mobilise la partie la plus fiable de la grammaire - la description des segments minimaux (chunks) - et peut reposer sur un superetiquetage (supertagging). Les interdependances entre chunks sont a prendre en compte de facon heuristique ou par une analyse complete. Cette analyse est consideree dans une deuxieme phase. En cas d'echec et d'analyses partielles, une derniere etape detecte localement certaines extragrammaticalites ou erreurs de reconnaissances, et poursuit l'analyse par des adaptations locales et des operations de composition dediees. Pour selectionner les analyses qui minimisent les risques d'incommunicabilite, nous mobilisons les resultats des trois phases d'analyse, ainsi que des predictions sur les actes de dialogue et sur les processus referentiels. Les arbres elementaires sont alors exploites en tant que marques syntaxiques d'actes de dialogue. Les semes associes aux arbres elementaires dans le lexique sont exploites, quant a eux, pour associer un score de discrimination referentiel aux expressions referentielles minimales. Pour valider notre approche, ces propositions sont evaluees sur une application d'amenagement d'interieurs et une application de consultation de programmes televises.
Styles APA, Harvard, Vancouver, ISO, etc.
24

Hamon, Bérengère Beaumont Catherine. « Etude des traitements phonologique et visuo-attentionnel chez des collégiens normo-lecteurs et dyslexiques ». Tours : SCD de l'université de Tours, 2007. http://www.applis.univ-tours.fr/scd/Orthophonie/2007ortho_hamon.pdf.

Texte intégral
Styles APA, Harvard, Vancouver, ISO, etc.
25

Servan, Christophe. « Apprentissage automatique et compréhension dans le cadre d'un dialogue homme-machine téléphonique à initiative mixte ». Phd thesis, Université d'Avignon, 2008. http://tel.archives-ouvertes.fr/tel-00591997.

Texte intégral
Résumé :
Les systèmes de dialogues oraux Homme-Machine sont des interfaces entre un utilisateur et des services. Ces services sont présents sous plusieurs formes : services bancaires, systèmes de réservations (de billets de train, d'avion), etc. Les systèmes de dialogues intègrent de nombreux modules notamment ceux de reconnaissance de la parole, de compréhension, de gestion du dialogue et de synthèse de la parole. Le module qui concerne la problématique de cette thèse est celui de compréhension de la parole. Le processus de compréhension de la parole est généralement séparé du processus de transcription. Il s'agit, d'abord, de trouver la meilleure hypothèse de reconnaissance puis d'appliquer un processus de compréhension. L'approche proposée dans cette thèse est de conserver l'espace de recherche probabiliste tout au long du processus de compréhension en l'enrichissant à chaque étape. Cette approche a été appliquée lors de la campagne d'évaluation MEDIA. Nous montrons l'intérêt de notre approche par rapport à l'approche classique. En utilisant différentes sorties du module de RAP sous forme de graphe de mots, nous montrons que les performances du décodage conceptuel se dégradent linéairement en fonction du taux d'erreurs sur les mots (WER). Cependant nous montrons qu'une approche intégrée, cherchant conjointement la meilleure séquence de mots et de concepts, donne de meilleurs résultats qu'une approche séquentielle. Dans le souci de valider notre approche, nous menons des expériences sur le corpus MEDIA dans les mêmes conditions d'évaluation que lors de la campagne MEDIA. Il s'agit de produire des interprétations sémantiques à partir des transcriptions sans erreur. Les résultats montrent que les performances atteintes par notre modèle sont au niveau des performances des systèmes ayant participé à la campagne d'évaluation. L'étude détaillée des résultats obtenus lors de la campagne MEDIA nous permet de montrer la corrélation entre, d'une part, le taux d'erreur d'interprétation et, d'autre part, le taux d'erreur mots de la reconnaissance de la parole, la taille du corpus d'apprentissage, ainsi que l'ajout de connaissance a priori aux modèles de compréhension. Une analyse d'erreurs montre l'intérêt de modifier les probabilités des treillis de mots avec des triggers, un modèle cache ou d'utiliser des règles arbitraires obligeant le passage dans une partie du graphe et s'appliquant sur la présence d'éléments déclencheurs (mots ou concepts) en fonction de l'historique. On présente les méthodes à base de d'apprentissage automatique comme nécessairement plus gourmandes en terme de corpus d'apprentissage. En modifiant la taille du corpus d'apprentissage, on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l'apprentissage des modèles de langages conceptuels du système de compréhension. Des travaux de recherche menés dans cette thèse visent à déterminer quel est la quantité de corpus nécessaire à l'apprentissage des modèles de langages conceptuels à partir de laquelle les scores d'évaluation sémantiques stagnent. Une corrélation est établie entre la taille de corpus nécessaire pour l'apprentissage et la taille de corpus afin de valider le guide d'annotations. En effet, il semble, dans notre cas de l'évaluation MEDIA, qu'il ait fallu sensiblement le même nombre d'exemple pour, d'une part, valider l'annotation sémantique et, d'autre part, obtenir un modèle stochastique " de qualité " appris sur corpus. De plus, en ajoutant des données a priori à nos modèles stochastiques, nous réduisons de manière significative la taille du corpus d'apprentissage nécessaire pour atteindre les même scores du système entièrement stochastique (près de deux fois moins de corpus à score égal). Cela nous permet de confirmer que l'ajout de règles élémentaires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très encourageants. Ce constat a mené à la réalisation d'un système hybride mêlant des modèles à base de corpus et des modèles à base de connaissance. Dans un second temps, nous nous appliquons à adapter notre système de compréhension à une application de dialogue simple : un système de routage d'appel. La problématique de cette tâche est le manque de données d'apprentissage spécifiques au domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposition. Lors de ce processus, nous conservons les données génériques acquises lors de la campagne MEDIA et nous y intégrons les données spécifiques au domaine. Nous montrons l'intérêt d'intégrer une tâche de classification d'appel dans un processus de compréhension de la parole spontanée. Malheureusement, nous disposons de très peu de données d'apprentissage relatives au domaine de la tâche. En utilisant notre approche intégrée de décodage conceptuel, conjointement à un processus de filtrage, nous proposons une approche sous forme de sac de mots et de concepts. Cette approche exploitée par un classifieur permet d'obtenir des taux de classification d'appels encourageants sur le corpus de test, alors que le WER est assez élevé. L'application des méthodes développées lors de la campagne MEDIA nous permet d'améliorer la robustesse du processus de routage d'appels.
Styles APA, Harvard, Vancouver, ISO, etc.
26

Mesfar, Slim. « Analyse morpho-syntaxique automatique et reconnaissance des entités nommées en arabe standard ». Besançon, 2008. http://www.theses.fr/2008BESA1022.

Texte intégral
Résumé :
La langue arabe, bien que très importante par son nombre de locuteurs, elle présente des phénomènes morpho-syntaxiques très particuliers. Cette particularité est liée principalement à sa morphologie flexionnelle et agglutinante, à l’absence des voyelles dans les textes écrits courants, et à la multiplicité de ses formes, et cela induit une forte ambiguïté lexicale et syntaxique. Il s'ensuit des difficultés de traitement automatique qui sont considérables. Le choix d'un environnement linguistique fournissant des outils puissants et la possibilité d'améliorer les performances selon nos besoins spécifiques nous ont conduit à utiliser la plateforme linguistique NooJ. Nous commençons par une étude suivie d’une formalisation à large couverture du vocabulaire de l’arabe. Le lexique construit, nommé «El-DicAr», permet de rattacher l’ensemble des informations flexionnelles, morphologiques, syntactico-sémantiques à la liste des lemmes. Les routines de flexion et dérivation automatique à partir de cette liste produisent plus de 3 millions de formes fléchies. Nous proposons un nouveau compilateur de machines à états finis en vue de pouvoir stocker la liste générée de façon optimale par le biais d’un algorithme de minimisation séquentielle et d’une routine de compression dynamique des informations stockées. Ce dictionnaire joue le rôle de moteur linguistique pour l’analyseur morpho-syntaxique automatique que nous avons implanté. Cet analyseur inclut un ensemble d’outils: un analyseur morphologique pour le découpage des formes agglutinées en morphèmes à l’aide de grammaires morphologiques à large couverture, un nouvel algorithme de parcours des transducteurs à états finis afin de traiter les textes écrits en arabe indépendamment de leurs états de voyellation, un correcteur des erreurs typographiques les plus fréquentes, un outil de reconnaissance des entités nommées fondé sur une combinaison des résultats de l’analyse morphologique et de règles décrites dans des grammaires locales présentées sous forme de réseaux augmentés de transitions (ATNs), ainsi qu’un annotateur automatique et des outils pour la recherche linguistique et l’exploration contextuelle. Dans le but de mettre notre travail à la disposition de la communauté scientifique, nous avons développé un service de concordances en ligne «NooJ4Web: NooJ pour la Toile» permettant de fournir des résultats instantanés à différents types de requêtes et d’afficher des rapports statistiques ainsi que les histogrammes correspondants. Les services ci-dessus cités sont offerts afin de recueillir les réactions des divers usagers en vue d’une amélioration des performances. Ce système est utilisable aussi bien pour traiter l’arabe, que le français et l’anglais
The Arabic language, although very important by the number of its speakers, it presents special morpho-syntactic phenomena. This particularity is mainly related to the inflectional and agglutinative morphology, the lack of vowels in currents written texts, and the multiplicity of its forms; this induces a high level of lexical and syntactic ambiguity. It follows considerable difficulties for the automatic processing. The selection of a linguistic environment providing powerful tools and the ability to improve performance according to our needs has led us to use the platform language NooJ. We begin with a study followed by a large-coverage formalization of the Arabic lexicon. The built dictionary, baptised "El-DicAr" allows to link all the inflexional, morphological, syntactico-semantic information to the list of lemmas. Automatic inflexional and derivational routines applied to this list produce more than 3 million inflected forms. We propose a new finite state machine compiler that leads to an optimal storage through a combination of a sequential minimization algorithm and a dynamic compression routine for stored information. This dictionary acts as the linguistic engine for the automatic morpho-syntactic analyzer that we have developed. This analyzer includes a set of tools: a morphological analyzer that identifies the component morphemes of agglutinative forms using large coverage morphological grammars, a new algorithm for looking through finite-state transducers in order to deal with texts written in Arabic with regardless of their vocalisation statements, a corrector of the most frequent typographical errors, a named entities recognition tool based on a combination of the morphological analysis results and rules described into local grammar presented as Augmented Transition Networks ( ATNS), an automatic annotator and some tools for linguistic research and contextual exploration. In order to make our work available to the scientific community, we have developed an online concordance service “NooJ4Web: NooJ for the Web”. It provides instant results to different types of queries and displays statistical reports as well as the corresponding histograms. The listed services are offered in order to collect feedbacks and improve performance. This system is used to process Arabic, as well as French and English
Styles APA, Harvard, Vancouver, ISO, etc.
27

Peri, Pauline. « Apprentissage des langues secondes : les processus de perception et de production de la parole : Perspectives phonétique et psycholinguistique ». Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM3074.

Texte intégral
Résumé :
L’objectif de cette thèse est d’étudier l’apprentissage tardif de nouvelles catégories vocaliques, en particulier l’influence de la langue première sur les processus d’acquisition tels qu’ils sont décrits dans les modèles du traitement des phonèmes non natifs. Dans cette étude, deux approches expérimentales ont été adoptées. En premier lieu, les techniques comportementales et électrophysiologiques ont permis d’examiner la perception de contrastes de l’anglais-américain chez des francophones natifs, aux niveaux acoustique, phonologique et lexical, en fonction de l’expérience linguistique. En second lieu, des analyses acoustiques ont été menées sur la perception et la production des voyelles du français et de l’anglais chez des Californiens durant une année d’immersion linguistique en France pour comprendre a) comment ces deux processus évoluent et sont liés aux premiers stades de l’apprentissage en L2 et b) l’influence de la L1 sur la production de mots homophoniques entre les deux langues. Les résultats montrent que la formation tardive de nouvelles catégories vocaliques est possible et que cette distinction est maintenue au niveau lexical. L’expérience linguistique participe à ce changement perceptif mais ne garanti pas un traitement cognitif aussi automatique que pour les auditeurs natifs de la langue. Dans la partie phonétique, les résultats montrent que les distinctions phonétiques peuvent être perçues et produites en fonction des patrons d’assimilation décrits dans les modèles en acquisition et du recouvrement phonologique sur les items lexicaux. Enfin, les distinctions réalisées en perception précèderaient leur réalisation articulatoire comme le postule Flege (1995)
This thesis investigates the formation of L2 vowel category in late learners, regarding particularly the influence of the first language on the acquisition process as described in the theoretical predictions of models of L2 speech sound processing. In this study, two different experimental approaches were conducted. At first, we examined, with electrophysiological and behavioral techniques, the perception of American-English contrasts by French late learners of English at the acoustical, phonological and lexical level as a function of linguistic experience. Second, fine grained acoustical analysis have been run on the perception and production of French vowels by American English late learners with a specific dialect: that from California, in order to a) understand how both processes evolve and are linked during the first stages of learning an L2 in immersion and b) examine the effect of the L1 on the production of L2 speech sounds due to possible lexical competition with homophonic words in French and English. The results show that new L2 vowel categories can be learned and the differences maintained at the lexical level even in late learners. Linguistic experience enables perceptive changes but does not guarantee a cognitive processing as automatic as for native speakers. In the phonetic part of the study, the results show that phonetic differences can be perceived and produced as a function of the pattern of assimilation described in models of L2 acquisition and phonological overlap between French and English words. Finally, it seems that the evolution of perception skills precede production one’s in line with SLM predictions (Flege, 1995)
Styles APA, Harvard, Vancouver, ISO, etc.
28

Rilliard, Albert. « Vers une mesure de l'intelligibilité linguistique de la prosodie : évaluation diagnostique des prosodies synthétique et naturelle ». Grenoble INPG, 2000. http://www.theses.fr/2000INPG0156.

Texte intégral
Résumé :
La prosodie réalise plusieurs fonctions linguistiques, depuis la focalisation d'éléments du discours jusqu'à la segmentation et la hiérarchisation des énoncés. Nous voulons ici établir une mesure de l'intelligibilité prosodique de cette fonction de démarcation, afin (1) de valider un modèle de génération prosodique, et (2) de proposer un protocole d'évaluation appliqué comparativement sur les prosodies naturelles et synthétique. Trois paradigmes différents sont explorés : le premier met en œuvre une comparaison objective des capacités perceptives des sujets et de mesures de paramètres acoustiques des signaux prosodiques ; le second fait varier différents contours prosodiques sur un même support lexical, et propose à des sujets de juger de celui qui leur semble le plus adéquat ; le troisième utilise de la parole délexicalisée pour réaliser une tâche d'association d'une structure syntaxique à une prosodie "pure" – deux versions de ce paradigme sont évaluées. Les résultats de ces expériences mettent en évidence les compétences cognitives du traitement prosodique ainsi que la qualité diagnostique des protocoles pour la caractérisation et l'amélioration des synthétiseur
Styles APA, Harvard, Vancouver, ISO, etc.
29

Nguyen, Tu Anh. « Spoken Language Modeling from Raw Audio ». Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS089.

Texte intégral
Résumé :
La parole a toujours été un mode dominant de connexion sociale et de communication. Cependant, le traitement et la modélisation de la parole sont difficiles en raison de la variabilité le parole. Les technologies classiques de la parole reposent sur une modélisation en cascade, c'est-à-dire la transcription de la parole en texte avec un système de reconnaissance automatique de la parole (ASR), le traitement du texte transcrit à l'aide de méthodes de traitement du langage naturel (NLP) et la conversion du texte en parole avec un modèle de synthèse vocale. Cette méthode élimine la variabilité de la parole mais nécessite beaucoup de jeux de données textuelles, qui ne sont pas toujours disponibles pour toutes les langues. De plus, elle supprime toute l'expressivité contenue dans la parole elle-même.De récentes avancées dans le domaine de l'apprentissage auto-supervisé de la parole (SpeechSSL) ont permis d'apprendre de bonnes représentations discrètes de la parole à partir du signal audio, comblant ainsi le fossé entre les technologies de la parole et du texte. Cela permet d'entraîner des modèles de langue sur des représentations discrètes (unités discrètes ou pseudo-texte) obtenues à partir de la parole et a donné naissance à un nouveau domaine appelé TextlessNLP, où la tâche consiste à apprendre la langue directement sur les signaux audio, sans avoir recours à des systèmes ASR. Les modèles de langue parlé (SpeechLMs) ont été montrés comme faisables et offrent de nouvelles possibilités pour le traitement de la parole par rapport aux systèmes en cascade.L'objectif de cette thèse est donc d'explorer et d'améliorer ce domaine nouvellement formé. Nous allons analyser pourquoi ces représentations discrètes sont efficaces, découvrir de nouvelles applications des SpeechLMs aux dialogues parlés, étendre le TextlessNLP aux paroles plus expressives ainsi qu'améliorer les performances des SpeechLMs pour réduire l'écart entre les SpeechLMs et les TextLMs
Speech has always been a dominant mode of social connection and communication. However, speech processing and modeling have been challenging due to its variability. Classic speech technologies rely on cascade modeling, i.e. transcribing speech to text with an Automatic Speech Recognition (ASR) system, processing transcribed text using Natural Language Processing (NLP) methods, and converting text back to speech with a Speech Synthesis model. This method eliminates speech variability but requires a lot of textual datasets, which are not always available for all languages. In addition, it removes all the expressivity contained in the speech itself.Recent advancements in self-supervised speech learning (SpeechSSL) have enabled the learning of good discrete speech representations from raw audio, bridging the gap between speech and text technologies. This allows to train language models on discrete representations (discrete units, or pseudo-text) obtained from the speech and has given rise to a new domain called TextlessNLP, where the task is to learn the language directly on audio signals, bypassing the need for ASR systems. The so-called Spoken Language Models (Speech Language Models, or SpeechLMs) have been shown to be working and offer new possibilities for speech processing compared to cascade systems.The objective of this thesis is thus to explore and improve this newly-formed domain. We are going to analyze why these discrete representations work, discover new applications of SpeechLMs to spoken dialogues, extend TextlessNLP to more expressive speech as well as improve the performance of SpeechLMs to reduce the gap between SpeechLMs and TextLMs
Styles APA, Harvard, Vancouver, ISO, etc.
30

Vaudable, Christophe. « Analyse et reconnaissance des émotions lors de conversations de centres d'appels ». Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00758650.

Texte intégral
Résumé :
La reconnaissance automatique des émotions dans la parole est un sujet de recherche relativement récent dans le domaine du traitement de la parole, puisqu'il est abordé depuis une dizaine d'années environs. Ce sujet fait de nos jours l'objet d'une grande attention, non seulement dans le monde académique mais aussi dans l'industrie, grâce à l'augmentation des performances et de la fiabilité des systèmes. Les premiers travaux étaient fondés sur des donnés jouées par des acteurs, et donc non spontanées. Même aujourd'hui, la plupart des études exploitent des séquences pré-segmentées d'un locuteur unique et non une communication spontanée entre plusieurs locuteurs. Cette méthodologie rend les travaux effectués difficilement généralisables pour des informations collectées de manière naturelle.Les travaux entrepris dans cette thèse se basent sur des conversations de centre d'appels, enregistrés en grande quantité et mettant en jeu au minimum 2 locuteurs humains (un client et un agent commercial) lors de chaque dialogue. Notre but est la détection, via l'expression émotionnelle, de la satisfaction client. Dans une première partie nous présentons les scores pouvant être obtenus sur nos données à partir de modèles se basant uniquement sur des indices acoustiques ou lexicaux. Nous montrons que pour obtenir des résultats satisfaisants une approche ne prenant en compte qu'un seul de ces types d'indices ne suffit pas. Nous proposons pour palier ce problème une étude sur la fusion d'indices de types acoustiques, lexicaux et syntaxico-sémantiques. Nous montrons que l'emploi de cette combinaison d'indices nous permet d'obtenir des gains par rapport aux modèles acoustiques même dans les cas ou nous nous basons sur une approche sans pré-traitements manuels (segmentation automatique des conversations, utilisation de transcriptions fournies par un système de reconnaissance de la parole). Dans une seconde partie nous remarquons que même si les modèles hybrides acoustiques/linguistiques nous permettent d'obtenir des gains intéressants la quantité de données utilisées dans nos modèles de détection est un problème lorsque nous testons nos méthodes sur des données nouvelles et très variées (49h issus de la base de données de conversations). Pour remédier à ce problème nous proposons une méthode d'enrichissement de notre corpus d'apprentissage. Nous sélectionnons ainsi, de manière automatique, de nouvelles données qui seront intégrées dans notre corpus d'apprentissage. Ces ajouts nous permettent de doubler la taille de notre ensemble d'apprentissage et d'obtenir des gains par rapport aux modèles de départ. Enfin, dans une dernière partie nous choisissons d'évaluées nos méthodes non plus sur des portions de dialogues comme cela est le cas dans la plupart des études, mais sur des conversations complètes. Nous utilisons pour cela les modèles issus des études précédentes (modèles issus de la fusion d'indices, des méthodes d'enrichissement automatique) et ajoutons 2 groupes d'indices supplémentaires : i) Des indices " structurels " prenant en compte des informations comme la durée de la conversation, le temps de parole de chaque type de locuteurs. ii) des indices " dialogiques " comprenant des informations comme le thème de la conversation ainsi qu'un nouveau concept que nous nommons " implication affective ". Celui-ci a pour but de modéliser l'impact de la production émotionnelle du locuteur courant sur le ou les autres participants de la conversation. Nous montrons que lorsque nous combinons l'ensemble de ces informations nous arrivons à obtenir des résultats proches de ceux d'un humain lorsqu'il s'agit de déterminer le caractère positif ou négatif d'une conversation
Styles APA, Harvard, Vancouver, ISO, etc.
31

Carlotti, Lisa Marie. « Traitement des variations phonologiques régionales en anglais britannique chez l'apprenant francophone ». Aix-Marseille 1, 2007. http://www.theses.fr/2007AIX10031.

Texte intégral
Résumé :
L'anglais enseigné en France repose principalement sur la Received Pronunciation (RP), utilisée que par 3 % de la population britannique, le reste étant composé de variétés régionales. Notre but est de caractériser l'impact de ces variétés dans la compréhension de l'anglais parlé chez les apprenants francophones. Nous étudierons le Geordie (Newcastle) dont certaines voyelles sont prononcées différemment de la RP. Nous pensons que ces différences influent sur la façon dont les mots vont être identifiés. La principale différence entre le Nord et le Sud concerne les voyelles /N et /u/. Le Sud applique l'opposition (buck /b^q/-book/buk/) ; le Nord la neutralise, prononçant ces deux mots /buk/. En Geordie, les sons RP /ai/-/au/ correpondent à /ei/-/u:/. /teim/ correspond à "tame" en RP, et "time" en Geordie ; /bu:t/ correspond à "boot" en RP et à "bout" en Geordie ! Notre travail consiste à confronter des sujets français à ces homophones et voir dans quelles mesures ils peuvent identifier ces mots.
Styles APA, Harvard, Vancouver, ISO, etc.
32

Tsai, Chien-Wen. « La compétence commnunicative en didactique des langues : étude des actes de parole rituels en français et en chinois mandarin et traitement en classe ». Paris 3, 2007. http://www.theses.fr/2007PA030156.

Texte intégral
Résumé :
La compétence visée par l’enseignement/apprentissage d’une langue étrangère, est la capacité à communiquer. Depuis trente ans, l’approche communicative ainsi que la notion d’acte de parole occupent une place considérable dans la didactique des langues. Actuellement, les dimensions culturelles de la langue cible mais aussi de la langue source, constituent la problématique principale en la matière. A travers les recherches interactionnistes sur les actes de parole en français et en chinois mandarin, ce travail permet de revisiter ce domaine de recherches et d’apporter une réflexion sur les théories et leurs mises en pratique en classe de langue étrangère
The purpose of foreign language teaching and learning is the development of communicative ability. Communicative approach and speech acts have played an important role in language teaching for thirty years. At present, cultural component of target language, but also of first language, constitute a central issue on the subject. Through the study of speech acts in French and in Mandarin Chinese, this dissertation attempt to reread speech act theories and to offer some applications in foreign language classrooms
Styles APA, Harvard, Vancouver, ISO, etc.
33

Raybaud, Sylvain. « De l'utilisation de mesures de confiance en traduction automatique : évaluation, post-édition et application à la traduction de la parole ». Electronic Thesis or Diss., Université de Lorraine, 2012. http://www.theses.fr/2012LORR0260.

Texte intégral
Résumé :
Cette thèse de doctorat aborde les problématiques de l'estimation de confiance pour la traduction automatique, et de la traduction automatique statistique de la parole spontanée à grand vocabulaire. J'y propose une formalisation du problème d'estimation de confiance, et aborde expérimentalement le problème sous le paradigme de la classification et régression multivariée. Je propose une évaluation des performances des différentes méthodes évoquées, présente les résultats obtenus lors d'une campagne d'évaluation internationale et propose une application à la post-édition par des experts de documents traduits automatiquement. J'aborde ensuite le problème de la traduction automatique de la parole. Après avoir passé en revue les spécificités du medium oral et les défis particuliers qu'il soulève, je propose des méthodes originales pour y répondre, utilisant notamment les réseaux de confusion phonétiques, les mesures de confiances et des techniques de segmentation de la parole. Je montre finalement que le prototype propose rivalise avec des systèmes état de l'art à la conception plus classique
In this thesis I shall deal with the issues of confidence estimation for machine translation and statistical machine translation of large vocabulary spontaneous speech translation. I shall first formalize the problem of confidence estimation. I present experiments under the paradigm of multivariate classification and regression. I review the performances yielded by different techniques, present the results obtained during the WMT2012 internation evaluation campaign and give the details of an application to post edition of automatically translated documents. I then deal with the issue of speech translation. After going into the details of what makes it a very specific and particularly challenging problem, I present original methods to partially solve it, by using phonetic confusion networks, confidence estimation techniques and speech segmentation. I show that the prototype I developped yields performances comparable to state-of-the-art of more standard design
Styles APA, Harvard, Vancouver, ISO, etc.
34

Kulkarni, Ajinkya. « Expressivity transfer in deep learning based text-to-speech synthesis ». Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0122.

Texte intégral
Résumé :
Bien que la synthèse de parole à partir du texte ait connu ces dernières années un immense succès dans le domaine de l'interaction homme-machine, les systèmes actuels sont perçus comme monotones en raison de l'absence d'expressivité. L'expressivité dans la parole réfère généralement aux caractéristiques suprasegmentales représentées par les émotions, les styles d'expression, les gestes et expressions faciales, etc. Une synthèse vocale expressive devrait permettre d'améliorer considérablement l'expérience utilisateur avec les machines. Le développement d'un système de synthèse de parole expressive dépend fortement des données vocales disponibles. Cette thèse vise à développer un système de synthèse de parole expressive dans la voix d'un locuteur pour lequel seules des données vocales neutres sont disponibles. L'objectif principal de la thèse est d'étudier des approches d'apprentissage profond pour explorer le désenchevêtrement des informations locuteur et d'expressivité dans un contexte de synthèse de parole multilocuteur. Le contexte d'application concerne l'expressivité en tant qu'émotion avec des classes d'émotion bien définies. Nous proposons différentes architectures de réseaux neuronaux profonds pour créer des représentations latentes du locuteur et de l'expressivité dans des configurations de synthèse de parole multilocuteurs. Pour le transfert de l'expressivité, les représentations de l'expressivité et du locuteur sont utilisées pour synthétiser la parole expressive dans la voix du locuteur souhaité. Nous utilisons également le critère multiclass N-Pair loss lors de l'apprentissage pour améliorer la représentation latente de l'expressivité (meilleure séparation des émotions dans l'espace latent), ce qui permet d'améliorer le transfert d'expressivité. Nous étudions également les modèles génératifs profonds permettant une modélisation tractable et évolutive de données vocales complexes et hautement dimensionnelles, ces modèles étant reconnus pour une synthèse vocale de haute qualité. Nous avons enrichi ces modèles pour étudier leur capacité de transfert d'expressivité. L'évaluation des systèmes proposés est difficile car aucune donnée de référence de parole expressive n'est disponible dans la voix du locuteur cible. Par conséquent, nous proposons deux mesures d'évaluation subjectives, le MOS expressivité et le MOS locuteur, qui indiquent les performances de transfert de l'expressivité et de rétention de la voix du locuteur cible. Nous proposons également une métrique d'évaluation objective basée sur la similarité en cosinus pour mesurer la pertinence de l'expressivité et de la voix du locuteur. Les résultats obtenus démontrent la capacité des approches proposées à transférer l'expressivité tout en maintenant la qualité globale de la parole expressive synthétisée dans la voix du locuteur cible. Cependant, l'identification des paramètres des réseaux neuronaux représentant explicitement les attributs des caractéristiques du locuteur et de l'expressivité reste difficile. Les caractéristiques d'expressivité et de locuteur sont des aspects conjoints de la prosodie
Recently, text-to-speech (TTS) synthesis has gained immense success in the human-computer interaction domain. Current TTS systems are monotonous due to the absence of expressivity. Expressivity in speech generally refers to suprasegmental speech characteristics represented by emotions, speaking styles, and the relationship between speech and gestures, facial expressions, etc. It seems likely that expressive speech synthesis provides the ability to improve the user experience with machines greatly. The development of an expressive TTS system heavily relies on the speech data used in training the system. The thesis aims at developing an expressive TTS system in a speaker's voice for which only neutral speech data is available. The main focus of the thesis is to investigate deep learning approaches for exploring the disentanglement of speaker information and expressivity in a multispeaker TTS setting. The scope of the work incorporates expressivity as an emotion attribute with well-defined emotion classes. We present various deep neural network architectures to create latent representations of speaker and expressivity in multispeaker TTS settings. During the expressivity transfer phase, representations from expressivity and speaker are used to interpolate for synthesizing expressive speech in desired speaker's voice. We present a deep metric learning framework for improving the latent representation of expressivity in a multispeaker TTS system setting, which results in improved expressivity transfer. The thesis work also investigates the expressivity transfer capability of probability density estimation based on deep generative models. The usage of deep generative models provides scalable modeling of complex, high-dimensional speech data and tractability of the system, resulting in high-quality speech synthesis. The evaluation of the proposed systems is a challenging aspect of the thesis, as no reference expressive speech data was available in the target speaker's voice. Therefore, we propose two subjective evaluation metrics, speaker MOS and expressive MOS, which indicate the performance of the framework to transfer the expressivity and the retention of the target speaker's voice. As it is a time-consuming process to conduct a subjective evaluation each time system is developed, we propose a cosine similarity-based evaluation metric to measure the strength of expressivity and the speaker's voice. The obtained results demonstrate the ability of the proposed work to transfer the expressivity with maintaining the overall quality of synthesized expressive speech in the target speaker's voice. It is hard to identify which neural network parameters represent the attributes of speaker characteristics and expressivity. Moreover, expressivity and speaker characteristics are bounded aspects of prosody parameters
Styles APA, Harvard, Vancouver, ISO, etc.
35

Burfin, Sabine. « L'apport des informations visuelles des gestes oro-faciaux dans le traitement phonologique des phonèmes natifs et non-natifs : approches comportementale, neurophysiologique ». Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GRENS002/document.

Texte intégral
Résumé :
En situation de perception audiovisuelle de la parole, comme lors des conversations face-àface,nous pouvons tirer partie des informations visuelles fournies par les mouvements orofaciauxdu locuteur. Ceci améliore l’intelligibilité du discours. L'objectif de ce travail était dedéterminer si ce « bénéfice audiovisuel » permet de mieux identifier les phonèmes quin’existent pas dans notre langue. Nos résultats révèlent que l’utilisation de l’informationvisuelle permet de surmonter les difficultés posées par la surdité phonologique dont noussommes victimes lors d'une présentation auditive seule (Etude 1). Une étude EEG indique quel’apport des informations visuelles au processus d’identification de phonèmes non natifspourrait être dû à une modulation précoce des traitements effectués par le cortex auditifprimaire (Etude 2). En présentation audiovisuelle les phonèmes non natifs donnent lieu à uneP50, ce qui n’est pas observé pour les phonèmes natifs. Il semblerait également quel'expérience linguistique affecte l'utilisation des informations visuelles puisque des bilinguesprécoces semblent moins aptes à exploiter ces indices pour distinguer des phonèmes qui neleur sont pas familiers (Etude 3). Enfin, l’étude de l’identification de consonnes plosivesnatives avec une tâche de dévoilement progressif nous a permis d’évaluer la contributionconjointe et séparée des informations auditives et visuelles (Etude 4). Nous avons observé quel’apport de la modalité visuelle n’est pas systématique et que la prédictibilité de l’identité duphonème dépend de la saillance visuelle des mouvements articulatoires du locuteur
During audiovisual speech perception, like in face-to-face conversations, we can takeadvantage of the visual information conveyed by the speaker's oro-facial gestures. Thisenhances the intelligibility of the utterance. The aim of this work was to determine whetherthis “audiovisual benefit” can improve the identification of phonemes that do not exist in ourmother tongue. Our results revealed that the visual information contributes to overcome thephonological deafness phenomenon we experience in an audio only situation (Study 1). AnERP study indicates that this benefit could be due to the modulation of early processing in theprimary auditory cortex (Study 2). The audiovisual presentation of non native phonemesgenerates a P50 that is not observed for native phonemes. The linguistic background affectsthe way we use visual information. Early bilinguals take less advantage of the visual cuesduring the processing of unfamiliar phonemes (Study 3). We examined the identificationprocesses of native plosive consonants with a gating paradigm to evaluate the differentialcontribution of auditory and visual cues across time (Study 4). We observed that theaudiovisual benefit is not systematic. Phoneme predictability depends on the visual saliencyof the articulatory movements of the speaker
Styles APA, Harvard, Vancouver, ISO, etc.
36

Jochaut-Roussillon, Delphine. « Analyse comparée de la pathologie du traitement temporel auditif dans les troubles du spectre autistique et la dyslexie ». Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066723/document.

Texte intégral
Résumé :
Cette thèse a eu pour objectif de contribuer à la compréhension de deux troubles du langage: ceux associés aux troubles du spectre autistique et la dyslexie. Les récentes avancées sur les mécanismes neuraux de segmentation acoustique du signal de parole indiquent le rôle majeur des oscillations qui offrent des fenêtres d'intégration temporelle à l'échelle de la syllabe et du phonème, unités linguistiques ayant un sens. À l'aide d'enregistrements simultanés d'EEG et d'IRM fonctionnelle durant la visualisation d'un film et au repos, nous avons étudié les rythmes corticaux auditifs et leur topographie chez des sujets sains, autistes et dyslexiques. Nous avons montré que les sujets dyslexiques et les sujets autistes montrent une sensibilité atypique à la structure syllabique et à la structure phonémique. L'activité gamma et l'activité thêta ne s'engagent pas de façon synergique dans l'autisme. L'activité thêta dans le cortex auditif gauche échoue à suivre les modulations de l'enveloppe temporelle du signal de parole dans l'autisme et à potentialiser l'activité gamma qui encode les détails acoustiques. Les troubles du langage dans l'autisme résultent d'une altération du couplage des oscillations lentes et rapides, perturbant le décodage neural du signal de parole. Dans la dyslexie, l'activité corticale auditive thêta n'est pas altérée, et l'activité de modulation de l'activité gamma par l'activité thêta préservée, rendant possible le décodage phonémique, bien qu'atypique. Dans les deux pathologies, ces altérations de l'activité oscillatoire dans le cortex auditif entraînent une altération de la connectivité fonctionnelle entre le cortex auditif et les autres aires du langage
This research aimed to better understand two language disorders : those associated with autism spectrum disorder and dyslexia. Recent advances indicate how cortical collective neural behaviour intervene in speech segmentation and decoding. Cortical oscillations allow integration temporal windows at syllabic (4-7 Hz) and phonemic (25-35 Hz) time scale, resulting in chunking continuous speech signal into linguistically relevant units. We measured slow fluctuations of rhythmic cortical activity and their topography in healthy subjects, in subjects with autism spectrum disorder and in dyslexic subjects using combined fMRI and EEG. We showed that the sensitivity to syllabic and phonemic density is atypical in dyslexia and in autism. In autism gamma and theta activity do not engage synergistically in response to speech. Theta activity in left auditory cortex fails to track speech modulations and to down-regulate gamma oscillations that encode speech acoustic details. The language disorder in autism results from an altered coupling of slow and fast oscillations that disrupts the temporal organization of the speech neural code. In dyslexia, theta activity is not altered and theta-paced readout of gamma activity is preserved, enabling the phonemic decoding, even atypical (faster). In both pathologies, auditory oscillatory anomalies lead to atypical oscillation-based connectivity between auditory and other language cortices
Styles APA, Harvard, Vancouver, ISO, etc.
37

Minescu, Bogdan. « Construction et stratégie d'exploitation des réseaux de confusion en lien avec le contexte applicatif de la compréhension de la parole ». Phd thesis, Université d'Avignon, 2008. http://tel.archives-ouvertes.fr/tel-00629195.

Texte intégral
Résumé :
Cette thèse s'intéresse aux réseaux de confusion comme représentation compacte et structurée des hypothèses multiples produites par un moteur de reconnaissance de parole et transmises à un module de post-traitement applicatif. Les réseaux de confusion (CN pour Confusion Networks) sont générés à partir des graphes de mots et structurent l'information sous la forme d'une séquence de classes contenant des hypothèses de mots en concurrence. Le cas d'usage étudié dans ces travaux est celui des hypothèses de reconnaissance transmises à un module de compréhension de la parole dans le cadre d'une application de dialogue déployée par France Telecom. Deux problématiques inhérentes à ce contexte applicatif sont soulevées. De façon générale, un système de dialogue doit non seulement reconnaître un énoncé prononcé par un utilisateur, mais aussi l'interpréter afin de déduire sons sens. Du point de vue de l'utilisateur, les performances perçues sont plus proches de celles de la chaîne complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont ces performances que nous cherchons à optimiser. Le cas plus particulier d'une application déployée implique de pouvoir traiter des données réelles et donc très variées. Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert par le modèle sémantique de l'application ou non, etc. Étant donnée cette grande variabilité, nous posons la question de savoir si le fait d'appliquer les mêmes traitements sur l'ensemble des données, comme c'est le cas dans les approches classiques, est une solution adaptée. Avec cette double perspective, cette thèse s'attache à la fois à enrichir l'algorithme de construction des CNs dans le but d'optimiser globalement le processus de compréhension et à proposer une stratégie adéquate d'utilisation des réseaux de confusion dans le contexte d'une application réelle. Après une analyse des propriétés de deux approches de construction des CNs sur un corpus de données réelles, l'algorithme retenu est celui du "pivot". Nous en proposons une version modifiée et adaptée au contexte applicatif en introduisant notamment un traitement différencié des mots du graphe qui privilégie les mots porteurs de sens. En réponse à la grande variabilité des énoncés à traiter dans une application déployée, nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre en compte les spécificités des différents types d'énoncés. Nous montrons notamment qu'il est préférable de n'exploiter la richesse des sorties multiples que sur les énoncés réellement porteurs de sens. Cette stratégie permet à la fois d'optimiser les temps de calcul et d'améliorer globalement les performances du système
Styles APA, Harvard, Vancouver, ISO, etc.
38

Derouault, Anne-Marie. « Modélisation d'une langue naturelle pour la désambiguation des chaînes phonétiques ». Paris 7, 1985. http://www.theses.fr/1985PA077028.

Texte intégral
Résumé :
Etude des problèmes de décodage linguistique à partir d'une entrée phonétique de bonne qualité. Elaboration de modèles généraux. Description des principes de la sténotypie. Etude du dictionnaires stenotypie français sur lequel s'appuie la transcription.
Styles APA, Harvard, Vancouver, ISO, etc.
39

Raybaud, Sylvain. « De l'utilisation de mesures de confiance en traduction automatique : évaluation, post-édition et application à la traduction de la parole ». Thesis, Université de Lorraine, 2012. http://www.theses.fr/2012LORR0260/document.

Texte intégral
Résumé :
Cette thèse de doctorat aborde les problématiques de l'estimation de confiance pour la traduction automatique, et de la traduction automatique statistique de la parole spontanée à grand vocabulaire. J'y propose une formalisation du problème d'estimation de confiance, et aborde expérimentalement le problème sous le paradigme de la classification et régression multivariée. Je propose une évaluation des performances des différentes méthodes évoquées, présente les résultats obtenus lors d'une campagne d'évaluation internationale et propose une application à la post-édition par des experts de documents traduits automatiquement. J'aborde ensuite le problème de la traduction automatique de la parole. Après avoir passé en revue les spécificités du medium oral et les défis particuliers qu'il soulève, je propose des méthodes originales pour y répondre, utilisant notamment les réseaux de confusion phonétiques, les mesures de confiances et des techniques de segmentation de la parole. Je montre finalement que le prototype propose rivalise avec des systèmes état de l'art à la conception plus classique
In this thesis I shall deal with the issues of confidence estimation for machine translation and statistical machine translation of large vocabulary spontaneous speech translation. I shall first formalize the problem of confidence estimation. I present experiments under the paradigm of multivariate classification and regression. I review the performances yielded by different techniques, present the results obtained during the WMT2012 internation evaluation campaign and give the details of an application to post edition of automatically translated documents. I then deal with the issue of speech translation. After going into the details of what makes it a very specific and particularly challenging problem, I present original methods to partially solve it, by using phonetic confusion networks, confidence estimation techniques and speech segmentation. I show that the prototype I developped yields performances comparable to state-of-the-art of more standard design
Styles APA, Harvard, Vancouver, ISO, etc.
40

Doukhan, David. « Synthèse de parole expressive au delà du niveau de la phrase : le cas du conte pour enfant : conception et analyse de corpus de contes pour la synthèse de parole expressive ». Thesis, Paris 11, 2013. http://www.theses.fr/2013PA112165/document.

Texte intégral
Résumé :
L'objectif de la thèse est de proposer des méthodes permettant d'améliorer l'expressivité des systèmes de synthèse de la parole. Une des propositions centrales de ce travail est de définir, utiliser et mesurer l'impact de structures linguistiques opérant au delà du niveau de la phrase, par opposition aux approches opérant sur des phrases isolées de leur contexte. Le cadre de l'étude est restreint au cas de la lecture de contes pour enfants. Les contes ont la particularité d'avoir été l'objet d'un certain nombre d'études visant à en dégager une structure narrative et de faire intervenir une certain nombre de stéréotypes de personnages (héros, méchant, fée) dont le discours est souvent rapporté. Ces caractéristiques particulières sont exploitées pour modéliser les propriétés prosodiques des contes au delà du niveau de la phrase. La transmission orale des contes a souvent été associée à une pratique musicale (chants, instruments) et leur lecture reste associée à des propriétés mélodiques très riches, dont la reproduction reste un défi pour les synthétiseurs de parole modernes. Pour répondre à ces problématiques, un premier corpus de contes écrits est collecté et annoté avec des informations relatives à la structure narrative des contes, l'identification et l'attribution des citations directes, le référencement des mentions des personnages ainsi que des entités nommées et des énumérations étendues. Le corpus analysé est décrit en terme de couverture et d'accord inter-annotateurs. Il est utilisé pour modéliser des systèmes de segmentation des contes en épisode, de détection des citations directes, des actes de dialogue et des modes de communication. Un deuxième corpus de contes lus par un locuteur professionnel est présenté. La parole est alignée avec les transcriptions lexicale et phonétique, les annotations du corpus texte et des méta-informations décrivant les caractéristiques des personnages intervenant dans le conte. Les relations entre les annotations linguistiques et les propriétés prosodiques observées dans le corpus de parole sont décrites et modélisées. Finalement, un prototype de contrôle des paramètres expressifs du synthétiseur par sélection d'unités Acapela est réalisé. Le prototype génère des instructions prosodiques opérant au delà du niveau de la phrase, notamment en utilisant les informations liées à la structure du conte et à la distinction entre discours direct et discours rapporté. La validation du prototype de contrôle est réalisée dans le cadre d'une expérience perceptive, qui montre une amélioration significative de la qualité de la synthèse
The aim of this thesis is to propose ways to improve the expressiveness of speech synthesis systems. One of the central propositions of this work is to define, use and measure the impact of linguistic structures operating beyond the sentence level, as opposed to approaches operating on sentences out of their context. The scope of the study is restricted to the case of storytelling for children. The stories have the distinction of having been the subject of a number of studies in order to highlight a narrative structure and involve a number of stereotypical characters (hero, villain, fairy) whose speech is often reported. These special features are used to model the prosodic properties tales beyond the sentence level. The oral transmission of tales was often associated with musical practice (vocals, instruments) and their reading is associated with rich melodic properties including reproduction remains a challenge for modern speech synthesizers. To address these issues, a first corpus of written tales is collected and annotated with information about the narrative structure of stories, identification and allocation of direct quotations, referencing references to characters as well as named entities and enumerations areas. The corpus analyzed is described in terms of coverage and inter-annotator agreement. It is used to model systems segmentation tales episode, detection of direct quotes, dialogue acts and modes of communication. A second corpus of stories read by a professional speaker is presented. The word is aligned with the lexical and phonetic transcriptions, annotations of the corpus text and meta-information describing the characteristics of the characters involved in the story. The relationship between linguistic annotations and prosodic properties observed in the speech corpus are described and modeled. Finally, a prototype control expressive synthesizer parameters by Acapela unit selection is made. The prototype generates prosodic operating instructions beyond the sentence level, including using the information related to the structure of the story and the distinction between direct speech and reported speech. Prototype validation control is performed through a perceptual experience, which shows a significant improvement in the quality of the synthesis
Styles APA, Harvard, Vancouver, ISO, etc.
41

Hueber, Thomas. « Reconstitution de la parole par imagerie ultrasonore et vidéo de l'appareil vocal : vers une communication parlée silencieuse ». Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://pastel.archives-ouvertes.fr/pastel-00005707.

Texte intégral
Résumé :
L'objectif poursuivi dans ce travail de thèse est la réalisation d'un dispositif capable d'interpréter une parole normalement articulée mais non vocalisée, permettant ainsi la " communication parlée silencieuse ". Destiné, à terme, à être léger et portatif, ce dispositif pourrait être utilisé d'une part, par une personne ayant subi une laryngectomie (ablation du larynx suite à un cancer), et d'autre part, pour toute communication, soit dans un milieu où le silence est requis (transport en commun, opération militaire, etc.), soit dans un environnement extrêmement bruité. Le dispositif proposé combine deux systèmes d'imagerie pour capturer l'activité de l'appareil vocal pendant " l'articulation silencieuse " : l'imagerie ultrasonore, qui donne accès aux articulateurs internes de la cavité buccale (comme la langue), et la vidéo, utilisée pour capturer le mouvement des lèvres. Le problème traité dans cette étude est celui de la synthèse d'un signal de parole " acoustique ", uniquement à partir d'un flux de données " visuelles " (images ultrasonores et vidéo). Cette conversion qualifiée ici de " visuo-acoustique ", s'effectue par apprentissage artificiel et fait intervenir quatre étapes principales : l'acquisition des données audiovisuelles, leur caractérisation, l'inférence d'une cible acoustique à partir de l'observation du geste articulatoire et la synthèse du signal. Dans le cadre de la réalisation du dispositif expérimental d'acquisition des données, un système de positionnement de la sonde ultrasonore par rapport à la tête du locuteur, basé sur l'utilisation combinée de deux capteurs inertiaux a tout d'abord été conçu. Un système permettant l'enregistrement simultané des flux visuels et du flux acoustique, basé sur la synchronisation des capteurs ultrasonore, vidéo et audio par voie logicielle, a ensuite été développé. Deux bases de données associant observations articulatoires et réalisations acoustiques, contenant chacune environ une heure de parole (continue), en langue anglaise, ont été construites. Pour la caractérisation des images ultrasonores et vidéo, deux approches ont été mises en œuvre. La première est basée sur l'utilisation de la transformée en cosinus discrète, la seconde, sur l'analyse en composantes principales (approche EigenTongues/EigenLips). La première approche proposée pour l'inférence des paramètres acoustiques, qualifiée de " directe ", est basée sur la construction d'une " fonction de conversion " à l'aide d'un réseau de neurones et d'un modèle par mélange de gaussiennes. Dans une seconde approche, qualifiée cette fois " d'indirecte ", une étape de décodage des flux visuels au niveau phonétique est introduite en amont du processus de synthèse. Cette étape intermédiaire permet notamment l'introduction de connaissances linguistiques a priori sur la séquence observée. Elle s'appuie sur la modélisation des gestes articulatoires par des modèles de Markov cachés (MMC). Deux méthodes sont enfin proposées pour la synthèse du signal à partir de la suite phonétique décodée. La première est basée sur une approche par concaténation d'unités ; la seconde utilise la technique dite de " synthèse par MMC ". Pour permettre notamment la réalisation d'adaptations prosodiques, ces deux méthodes de synthèse s'appuient sur une description paramétrique du signal de parole du type "Harmonique plus Bruit" (HNM).
Styles APA, Harvard, Vancouver, ISO, etc.
42

Nguyen, Roselyne. « Un système multi-agent pour la machine à dicter vocale MAUD : conception et intégration d'une source de connaissances phonologiques ». Nancy 1, 1996. http://www.theses.fr/1996NAN10321.

Texte intégral
Résumé :
MAUD est un prototype de machine à dicter vocale élaboré au CRIN par l'équipe RFIA. Ce système est destiné à la reconnaissance automatique de la parole continue, multilocuteur, pour un très grand vocabulaire. Pour être un système opérationnel, MAUD doit tenter de faire collaborer toutes les connaissances linguistiques susceptibles d'améliorer la reconnaissance. Notre travail s'inscrit dans cette optique avec un double objectif : - faire évoluer l'architecture de MAUD afin de faciliter la modification des connaissances existantes – ou l'intégration de nouvelles connaissances, - profiter de cette nouvelle architecture pour étudier l'apport de la phonologie à la reconnaissance automatique de la parole. La réalisation de ce double objectif met en oeuvre trois domaines d'application distincts que sont la reconnaissance automatique de la parole, les systèmes multi-agents et la phonologie. Ces trois domaines sont présentés successivement dans la première partie de ce document. La partie suivante est consacrée à l’évolution de l'architecture procédurale de MAUD selon une approche multi agent. Après l'introduction de la version initiale de MAUD et du générateur ATOME qui a été choisi pour restructurer MAUD, nous proposons une nouvelle architecture fondée sur le modèle du tableau noir. Cette architecture multi-agent sert de base aux travaux concernant la phonologie. Le modèle phonologique que nous avons retenu et qui formalise (de manière informatique) les connaissances phonologiques sous la forme de règles en termes de gpm et de gpc, nous a permis de mettre en oeuvre deux réalisations concrètes. Ces travaux ont été menés dans le but d'étudier l'apport de la phonologie à la recherche des mots candidats au niveau lexical de MAUD. La première réalisation consiste à utiliser la partie contextuelle des règles phonologiques pour réduire le nombre trop important de mots candidats proposés par le module lexical. Les règles phonologiques agissent ici en tant que filtre lexico-phonologique. La seconde réalisation s'appuie plus largement sur le modèle phonologique et fait intervenir les règles dans la détermination des frontières de mot, l'un des problèmes majeurs de la reconnaissance de la parole continue. C'est dans cet esprit que le module lexico-phonologique PHONOLEX a été développé. L'ensemble de ces travaux présente les atouts d'une architecture multi-agent pour le système MAUD. De plus, les différentes expérimentations ont montré que les connaissances phonologiques actuelles sont capables de contribuer efficacement au processus global de reconnaissance à condition de les utiliser en complément d'autres connaissances susceptibles de réduire l'arbre de propositions lexicales généré.
Styles APA, Harvard, Vancouver, ISO, etc.
43

Fell, Michael. « Traitement automatique des langues pour la recherche d'information musicale : analyse profonde de la structure et du contenu des paroles de chansons ». Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4017.

Texte intégral
Résumé :
Les applications en Recherche d’Information Musicale et en musicologie computationnelle reposent traditionnellementsur des fonctionnalités extraites du contenu musical sous forme audio, mais ignorent la plupart du temps les paroles des chansons. Plus récemment, des améliorations dans des domaines tels que la recommandation de musique ont été apportées en tenant compte des métadonnées externes liées à la chanson. Dans cette thèse, nous soutenons que l’extraction des connaissances à partir des paroles des chansons est la prochaine étape pour améliorer l’expérience de l’utilisateur lors de l’interaction avec la musique. Pour extraire des connaissances de vastes quantités de paroles de chansons, nous montrons pour différents aspects textuels (leur structure, leur contenu et leur perception) comment les méthodes de Traitement Automatique des Langues peuvent être adaptées et appliquées avec succès aux paroles. Pour l’aspect structurel des paroles, nous en dérivons une description structurelle en introduisant un modèle qui segmente efficacement les paroles en leurs partiescaractéristiques (par exemple, intro, couplet, refrain). Puis, nous représentons le contenu des paroles en résumantles paroles d’une manière qui respecte la structure caractéristique des paroles. Enfin, sur la perception des paroles,nous étudions le problème de la détection de contenu explicite dans un texte de chanson. Cette tâche s’est avèree très difficile et nous montrons que la difficulté provienten partie de la nature subjective de la perception des paroles d’une manière ou d’une autre selon le contexte. De plus, nous abordons un autre problème de perception des paroles en présentant nos résultats préliminaires sur la reconnaissance des émotions. L’un des résultats de cette thèse a été de créer un corpus annoté, le WASABI Song Corpus, un ensemble de données de deux millions de chansons avec des annotations de paroles TAL à différents niveaux
Applications in Music Information Retrieval and Computational Musicology have traditionally relied on features extracted from the music content in the form of audio, but mostly ignored the song lyrics. More recently, improvements in fields such as music recommendation have been made by taking into account external metadata related to the song. In this thesis, we argue that extracting knowledge from the song lyrics is the next step to improve the user’s experience when interacting with music. To extract knowledge from vast amounts of song lyrics, we show for different textual aspects (their structure, content and perception) how Natural Language Processing methods can be adapted and successfully applied to lyrics. For the structuralaspect of lyrics, we derive a structural description of it by introducing a model that efficiently segments the lyricsinto its characteristic parts (e.g. intro, verse, chorus). In a second stage, we represent the content of lyrics by meansof summarizing the lyrics in a way that respects the characteristic lyrics structure. Finally, on the perception of lyricswe investigate the problem of detecting explicit content in a song text. This task proves to be very hard and we showthat the difficulty partially arises from the subjective nature of perceiving lyrics in one way or another depending onthe context. Furthermore, we touch on another problem of lyrics perception by presenting our preliminary resultson Emotion Recognition. As a result, during the course of this thesis we have created the annotated WASABI SongCorpus, a dataset of two million songs with NLP lyrics annotations on various levels
Styles APA, Harvard, Vancouver, ISO, etc.
44

Vaglio, Andrea. « Leveraging lyrics from audio for MIR ». Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT027.

Texte intégral
Résumé :
Les paroles de chansons fournissent un grand nombre d’informations sur la musique car ellescontiennent une grande partie de la sémantique des chansons. Ces informations pourraient aider les utilisateurs à naviguer facilement dans une large collection de chansons et permettre de leur offrir des recommandations personnalisées. Cependant, ces informations ne sont souvent pas disponibles sous leur forme textuelle. Les systèmes de reconnaissance de la voix chantée pourraient être utilisés pour obtenir des transcriptions directement à partir de la source audio. Ces approches sont usuellement adaptées de celles de la reconnaissance vocale. La transcription de la parole est un domaine vieux de plusieurs décennies qui a récemment connu des avancées significatives en raison des derniers développements des techniques d’apprentissage automatique. Cependant, appliqués au chant, ces algorithmes donnent des résultats peu satisfaisants et le processus de transcription des paroles reste difficile avec des complications particulières. Dans cette thèse, nous étudions plusieurs problèmes de ’Music Information Retrieval’ scientifiquement et industriellement complexes en utilisant des informations sur les paroles générées directement à partir de l’audio. L’accent est mis sur la nécessité de rendre les approches aussi pertinentes que possible dans le monde réel. Cela implique par exemple de les tester sur des ensembles de données vastes et diversifiés et d’étudier leur extensibilité. A cette fin, nous utilisons un large ensemble de données publiques possédant des annotations vocales et adaptons avec succès plusieurs des algorithmes de reconnaissance de paroles les plus performants. Nous présentons notamment, pour la première fois, un système qui détecte le contenu explicite directement à partir de l’audio. Les premières recherches sur la création d’un système d’alignement paroles audio multilingue sont également décrites. L’étude de la tâche alignement paroles-audio est complétée de deux expériences quantifiant la perception de la synchronisation de l’audio et des paroles. Une nouvelle approche phonotactique pour l’identification de la langue est également présentée. Enfin, nous proposons le premier algorithme de détection de versions employant explicitement les informations sur les paroles extraites de l’audio
Lyrics provide a lot of information about music since they encapsulate a lot of the semantics of songs. Such information could help users navigate easily through a large collection of songs and to recommend new music to them. However, this information is often unavailable in its textual form. To get around this problem, singing voice recognition systems could be used to obtain transcripts directly from the audio. These approaches are generally adapted from the speech recognition ones. Speech transcription is a decades-old domain that has lately seen significant advancements due to developments in machine learning techniques. When applied to the singing voice, however, these algorithms provide poor results. For a number of reasons, the process of lyrics transcription remains difficult. In this thesis, we investigate several scientifically and industrially difficult ’Music Information Retrieval’ problems by utilizing lyrics information generated straight from audio. The emphasis is on making approaches as relevant in real-world settings as possible. This entails testing them on vast and diverse datasets and investigating their scalability. To do so, a huge publicly available annotated lyrics dataset is used, and several state-of-the-art lyrics recognition algorithms are successfully adapted. We notably present, for the first time, a system that detects explicit content directly from audio. The first research on the creation of a multilingual lyrics-toaudio system are as well described. The lyrics-toaudio alignment task is further studied in two experiments quantifying the perception of audio and lyrics synchronization. A novel phonotactic method for language identification is also presented. Finally, we provide the first cover song detection algorithm that makes explicit use of lyrics information extracted from audio
Styles APA, Harvard, Vancouver, ISO, etc.
45

Mahjoubi, Hanane. « Calcul de la référence dans les dialogues oraux et transfert du français vers l'arabe : modélisatin simplifiée de la théorie du gouvernement et du liage ». Besançon, 2009. http://www.theses.fr/2009BESA1029.

Texte intégral
Résumé :
Notre thèse vise à illustrer la réalisation et l’utilisation d’un formalisme (architecture à plusieurs modules) de traitement de la référence à des fins de recherches en traitement automatique de l’oral. Ce travail s’appuyant largement sur une modélisation de la grammaire standard, s’accompagnent de corpus oraux transcrits manuellement avec la mise en pratique de méthodes et techniques mises au point qui permettent à notre sens un déploiement vers le traitement automatique de l’oral à grande échelle. Nous ne prétendons pas avoir trouvé une solution miracle pour la résolution de la référence. Nous supposons seulement que le traitement des structures coréférentielles orales nécessite la mise en pratique de formalismes standards aussi complexe que la théorie du gouvernement et du liage. Longtemps considérée comme ambiguë, la structure des textes oraux doit être abordée comme un objet d’étude à part entière dans diverses disciplines. La langue orale à sa propre logique mais les formes standards de la langue y apparaissent largement
This thesis aims at illustrating the realization and the use of a model for anaphora resolution in oral dialogs in the field of computational linguistics. This work is mainly based on the theory of government and binding. Moreover, oral corpora transcribed manually are the basis of this work. We don’t pretend having discovered the most successful solution for the problem of anaphora in discourse. However, we propose that the study and analysis of anaphoric structures needs the use of complex formal theories such as government and binding. Since many years the structure of oral discourse is considered as ambiguous and very difficult to study. Oral constructions should be treated just like the written ones. Oral language has it’s own logic, but standard forms of language appears largely in it
Styles APA, Harvard, Vancouver, ISO, etc.
46

Dupuis, Catherine. « Langage et parole chez l’enfant dysphasique ». Paris 7, 1999. http://www.theses.fr/1999PA070042.

Texte intégral
Résumé :
La dysphasie de développement correspond a une atteinte sévère de l'organisation du langage. Dans son acception la plus fréquente elle est considérée comme un trouble isole que ne peut expliquer une atteinte neurologique, psychiatrique, sensorielle ou une carence affective. Toutefois, dans la réalité du travail clinique, ce trouble pose de nombreuses questions transnosographiques et l'investigation psychopathologique engendre l'idée d'un lien étroit entre la dysphasie de développement et les pathologies limites de l'enfance telles qu'elles furent décrites par r. Mises. D'un point de vue méthodologique, la recherche consiste a tester et a discuter cette hypothèse grâce à l'interprétation des protocoles de rorschach d'un groupe de 22 enfants dysphasiques compares a ceux d'un groupe apparie de 22 enfants témoins. Au delà, c'est la distinction entre langage et parole en psychanalyse qui permet de réfléchir a la question de la causalité psychique dans la dysphasie de développement et oriente la discussion vers l'idée d'un trouble fondamental de la représentation comme facteur d'explication de sa genèse. Dans cette perspective, il est possible d'envisager la dysphasie comme l'expression d'une difficulté d'identification au principe paternel, défini comme le pouvoir du père symboliquement contenu dans la parole
Styles APA, Harvard, Vancouver, ISO, etc.
47

Nguyen, Viet Son. « Etude des caractéristiques de la langue vietnamienne en vue de sa synthèse et de sa reconnaissance automatique. Aspects statiques et dynamiques ». Phd thesis, Telecom ParisTech, 2009. http://tel.archives-ouvertes.fr/tel-01064853.

Texte intégral
Résumé :
Le travail présenté dans le cadre de cette thèse vise à étudier de manière approfondie les caractéristiques des voyelles longues et brèves et des consonnes finales du vietnamien, non seulement en statique mais aussi en dynamique, en calculant en particulier les vitesses de transitions formantiques. Deux ensembles consonnes voyelles ont été analysés : (C1)V1C2, avec C2 l'une des trois consonnes finales /p, t, k/ et (C1)V1V2 avec les voyelles longues et brèves correspondantes. L'objectif de l'analyse est de permettre la mise en évidence de caractéristiques spécifiques qui sont alors testées en synthèse. Pour étudier les voyelles longues, les voyelles brèves et les trois consonnes finales /p, t, k/ dans les contextes (C1)V1C2 et (C1)V1V2, nous avons fait deux corpus : un premier corpus avec quatre locuteurs vietnamiens pour étudier la partie centrale de la voyelle (la durée, les formants F1, F2, F3), les transitions V1C2 et V1V2 (durées de transition, pentes des transitions formantiques, valeurs du début de la transition formantique), et la partie finale (durée de la semi-voyelle finale) ; un deuxième corpus avec huit locuteurs (quatre hommes et quatre femmes) nous a permis d'étudier l'équation du locus pour les consonnes finales /p, t, k/. A partir des résultats analysés, nous avons réalisé des tests statistiques et des tests de perception (avec dix auditeurs vietnamiens, cinq hommes et cinq femmes). Les résultats d'analyse, les résultats statistiques et les résultats perceptifs nous permettent de mieux comprendre la production des voyelles vietnamiennes et des trois consonnes finales vietnamiennes /p, t, k/ comme résumés ci-dessous : (1) Dans la langue vietnamienne, il y a trois séries de voyelles longues et brèves /a, ӑ/, /ɤ, ɤ̆/, /ɔ, ɔ̆/ qui sont acoustiquement proches dans le plan F1-F2, mais se distinguent par leur durée, les pentes des formants transitionnels et la durée de la semi-voyelle V2 (dans le contexte des syllabes V1V2). Les durées des transitions V1C2 et V1V2 ne varient pas en fonction de la nature de la voyelle longue ou brève. (2) Les trois consonnes finales /p, t, k/ se terminent par un silence sans burst. Pour les syllabes (C1)V1C2, en comparant les consonnes finales C2 dans un même contexte d'une voyelle précédente V1, bien qu'il n'y a aucune différence de leurs caractéristiques acoustiques statiques (la durée de la transition, et les valeurs au début de la transition formantique), leurs caractéristiques acoustiques dynamiques (la pente des formants transitionnels) sont significativement distinctes et permettent aux vietnamiens de reconnaitre ces trois consonnes finales. (3) Nous avons obtenu les équations du locus avec une linéarité excellente et un bon regroupement des points autour des droites de régression. Les lieux d'articulation des 3 consonnes finales occlusives /p, t, k/ sont bien distincts. On ne trouve aucun effet du ton sur les équations du locus des consonnes finales. Les résultats de ces travaux phonétiques sont ensuite validés à l'aide des systèmes de synthèse (SMART (Synthesis with a Model of Anthropomorphic Region and Tract) et DRM (Distinctive Region Model)).
Styles APA, Harvard, Vancouver, ISO, etc.
48

Wu, Yaru. « Étude de la réduction segmentale en français parlé à travers différents styles : apports des grands corpus et du traitement automatique de la parole à l’étude du schwa, du /ʁ/ et des réductions à segments multiples ». Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCA078.

Texte intégral
Résumé :
Ce travail sur la réduction segmentale (i.e. délétion ou réduction temporelle) en français spontané nous a permis non seulement de proposer deux méthodes de recherche pour les études en linguistique, mais également de nous interroger sur l'influence de différents facteurs de variation sur divers phénomènes de réduction et d'apporter des connaissances sur la propension à la réduction des segments. Nous avons appliqué la méthode descendante qui utilise l'alignement forcé avec variantes lorsqu’il s’agissait de phénomènes de réduction spécifiques. Lorsque ce n'était pas le cas, nous avons utilisé la méthode ascendante qui examine des segments absents et courts. Trois phénomènes de réduction ont été choisis : l'élision du schwa, la chute du /ʁ/ et la propension à la réduction des segments. La méthode descendante a été utilisée pour les deux premiers. Les facteurs en commun étudiés sont le contexte post-lexical, le style, le sexe et la profession. L’élision du schwa en syllabe initiale de mots polysyllabiques et la chute du /ʁ/ post-consonantique en finale de mots ne sont pas toujours influencées par les mêmes facteurs. De même, l’élision du schwa lexical et celle du schwa épenthétique ne sont pas conditionnées par les mêmes facteurs. L’étude sur la propension à la réduction des segments nous a permis d'appliquer la méthode ascendante et d’étudier la réduction des segments de manière générale. Les résultats suggèrent que les liquides et les glides résistent moins à la réduction que les autres consonnes et que les voyelles nasales résistent mieux à la réduction que les voyelles orales. Parmi les voyelles orales, les voyelles hautes arrondies ont tendance à être plus souvent réduites que les autres voyelles orales
This study on segmental reduction (i.e. deletion or temporal reduction) in spontaneous French allows us to propose two research methods for linguistic studies on large corpora, to investigate different factors of variation and to bring new insights on the propensity of segmental reduction. We applied the descendant method using forced alignment with variants when it concerns a specific reduction phenomena. Otherwise, we used the ascendant method using absent and short segments as indicators. Three reduction phenomena are studied: schwa elision, /ʁ/ deletion and the propensity of segmental reduction. The descendant method was used for analyzing schwa elision and /ʁ/ deletion. Common factors used for the two studies are post-lexical context, speech style, sex and profession. Schwas elision at initial syllable position in polysyllabic words and post-consonantal /ʁ/ deletion at word final position are not always conditioned by the same variation factors. Similarly, lexical schwa and epenthetic schwa are not under the influence of the same variation factors. The study on the propensity of segmental reduction allows us to apply the ascendant method and to investigate segmental reduction in general. Results suggest that liquids and glides resist less the reduction procedure than other consonants and nasal vowels resist better reduction procedure than oral vowels. Among oral vowels, high rounded vowels tend to be reduced more often than other oral vowels
Styles APA, Harvard, Vancouver, ISO, etc.
49

Hamdi, Ahmed. « Traitement automatique du dialecte tunisien à l'aide d'outils et de ressources de l'arabe standard : application à l'étiquetage morphosyntaxique ». Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4089/document.

Texte intégral
Résumé :
Le développement d’outils de traitement automatique pour les dialectes de l’arabe se heurte à l’absence de ressources pour ces derniers. Comme conséquence d’une situation de diglossie, il existe une variante de l’arabe, l’arabe moderne standard, pour laquelle de nombreuses ressources ont été développées et ont permis de construire des outils de traitement automatique de la langue. Étant donné la proximité des dialectes de l’arabe, avec l’arabe moderne standard, une voie consiste à réaliser une conversion surfacique du dialecte vers l’arabe mo- derne standard afin de pouvoir utiliser les outils existants pour l’arabe standard. Dans ce travail, nous nous intéressons particulièrement au traitement du dialecte tunisien. Nous proposons un système de conversion du tunisien vers une forme approximative de l’arabe standard pour laquelle l’application des outils conçus pour ce dernier permet d’obtenir de bons résultats. Afin de valider cette approche, nous avons eu recours à un étiqueteur morphosyntaxique conçu pour l’étiquetage de l’arabe standard. Ce dernier permet d’assigner des étiquettes morphosyntaxiques à la sortie de notre système de conver- sion. Ces étiquettes sont finalement projetées sur le tunisien. Notre système atteint une précision de 89% suite à la conversion qui repré- sente une augmentation absolue de ∼20% par rapport à l’étiquetage d’avant la conversion
Developing natural language processing tools usually requires a large number of resources (lexica, annotated corpora, ...), which often do not exist for less- resourced languages. One way to overcome the problem of lack of resources is to devote substantial efforts to build new ones from scratch. Another approach is to exploit existing resources of closely related languages. Taking advantage of the closeness of standard Arabic and its dialects, one way to solve the problem of limited resources, consists in performing a conversion of Arabic dialects into standard Arabic in order to use the tools developed to handle the latter. In this work, we focus especially on processing Tunisian Arabic dialect. We propose a conversion system of Tunisian into a closely form of standard Arabic for which the application of natural language processing tools designed for the latter provides good results. In order to validate our approach, we focused on part-of-speech tagging. Our system achieved an accuracy of 89% which presents ∼20% of absolute improvement over a standard Arabic tagger baseline
Styles APA, Harvard, Vancouver, ISO, etc.
50

Choumane, Ali Siroux Jacques. « Traitement générique des références dans le cadre multimodal parole-image-tactile ». Rennes : [s.n.], 2008. ftp://ftp.irisa.fr/techreports/theses/2008/choumane.pdf.

Texte intégral
Styles APA, Harvard, Vancouver, ISO, etc.
Nous offrons des réductions sur tous les plans premium pour les auteurs dont les œuvres sont incluses dans des sélections littéraires thématiques. Contactez-nous pour obtenir un code promo unique!

Vers la bibliographie