Dissertations / Theses on the topic 'Synthèse de parole à partir du texte'

To see the other types of publications on this topic, follow the link: Synthèse de parole à partir du texte.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 26 dissertations / theses for your research on the topic 'Synthèse de parole à partir du texte.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Pouget, Maël. "Synthèse incrémentale de la parole à partir du texte." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAT008/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail de thèse porte sur un nouveau paradigme pour la synthèse de la parole à partir du texte, à savoir la synthèse incrémentale. L'objectif est de délivrer la parole de synthèse au fur et à mesure de la saisie du texte par l'utilisateur, contrairement aux systèmes classiques pour lesquels la synthèse est déclenchée après la saisie d'une ou plusieurs phrases. L'application principale visée est l'aide aux personnes présentant un trouble sévère de la communication orale, et communiquant principalement à l'aide d'un synthétiseur vocal. Un synthétiseur vocal incrémental permettrait de fluidifier une conversation en limitant le temps que passe l'interlocuteur à attendre la fin de la saisie de la phrase à synthétiser. Un des défi que pose ce paradigme est la synthèse d'un mot ou d'un groupe de mot avec une qualité segmentale et prosodique acceptable alors que la phrase qui le contient n'est que partiellement connue au moment de la synthèse. Pour ce faire, nous proposons différentes adaptations des deux principaux modules d'un système de synthèse de parole à partir du texte : le module de traitement automatique de la langue naturelle (TAL) et le module de synthèse sonore. Pour le TAL en synthèse incrémentale, nous nous sommes intéressé à l'analyse morpho-syntaxique, qui est une étape décisive pour la phonétisation et la détermination de la prosodie cible. Nous décrivons un algorithme d'analyse morpho-syntaxique dit "à latence adaptative". Ce dernier estime en ligne si une classe lexicale (estimée à l'aide d'un analyseur morpho-syntaxique standard basé sur l'approche n-gram), est susceptible de changer après l'ajout par l'utilisateur d'un ou plusieurs mots. Si la classe est jugée instable, alors la synthèse sonore est retardée, dans le cas contraire, elle peut s'effectuer sans risque a priori de dégrader de la qualité segmentale et suprasegmentale. Cet algorithme exploite une ensemble d'arbre de décisions binaires dont les paramètres sont estimés par apprentissage automatique sur un large corpus de texte. Cette méthode nous permet de réaliser un étiquetage morpho-syntaxique en contexte incrémental avec une précision de 92,5% pour une latence moyenne de 1,4 mots. Pour la synthèse sonore, nous nous plaçons dans le cadre de la synthèse paramétrique statistique, basée sur les modèles de Markov cachés (Hidden Markov Models, HMM). Nous proposons une méthode de construction de la voix de synthèse (estimation des paramètres de modèles HMM) prenant en compte une éventuelle incertitude sur la valeur de certains descripteurs contextuels qui ne peuvent pas être calculés en synthèse incrémentale (c'est-à-dire ceux qui portent sur les mots qui ne sont pas encore saisis au moment de la synthèse).Nous comparons la méthode proposée à deux autres stratégies décrites dans la littérature. Les résultats des évaluations objectives et perceptives montrent l’intérêt de la méthode proposée pour la langue française. Enfin, nous décrivons un prototype complet qui combine les deux méthodes proposées pour le TAL et la synthèse par HMM incrémentale. Une évaluation perceptive de la pertinence et de la qualité des groupes de mots synthétisés au fur et à mesure de la saisie montre que notre système réalise un compromis acceptable entre réactivité (minimisation du temps entre la saisie d'un mot et sa synthèse) et qualité (segmentale et prosodique) de la parole de synthèse
In this thesis, we investigate a new paradigm for text-to-speech synthesis (TTS) allowing to deliver synthetic speech while the text is being inputted : incremental text-to-speech synthesis. Contrary to conventional TTS systems, that trigger the synthesis after a whole sentence has been typed down, incremental TTS devices deliver speech in a ``piece-meal'' fashion (i.e. word after word) while aiming at preserving the speech quality achievable by conventional TTS systems.By reducing the waiting time between two speech outputs while maintaining a good speech quality, such a system should improve the quality of the interaction for speech-impaired people using TTS devices to express themselves.The main challenge brought by incremental TTS is the synthesis of a word, or of a group of words, with the same segmental and supra-segmental quality as conventional TTS, but without knowing the end of the sentence to be synthesized. In this thesis, we propose to adapt the two main modules (natural language processing and speech synthesis) of a TTS system to the incremental paradigm.For the natural language processing module, we focused on part-of-speech tagging, which is a key step for phonetization and prosody generation. We propose an ``adaptive latency algorithm'' for part-of-speech tagging, that estimates if the inferred part-of-speech for a given word (based on the n-gram approach) is likely to change when adding one or several words. If the Part-of-speech is considered as likely to change, the synthesis of the word is delayed. In the other case, the word may be synthesized without risking to alter the segmental or supra-segmental quality of the synthetic speech. The proposed method is based on a set of binary decision trees trained over a large corpus of text. We achieve 92.5% precision for the incremental part-of-speech tagging task and a mean delay of 1.4 words.For the speech synthesis module, in the context of HMM-based speech synthesis, we propose a training method that takes into account the uncertainty about contextual features that cannot be computed at synthesis time (namely, contextual features related to the following words). We compare the proposed method to other strategies (baselines) described in the literature. Objective and subjective evaluation show that the proposed method outperforms the baselines for French.Finally, we describe a prototype developed during this thesis implementing the proposed solution for incremental part-of-speech tagging and speech synthesis. A perceptive evaluation of the word grouping derived from the proposed adaptive latency algorithm as well as the segmental quality of the synthetic speech tends to show that our system reaches a good trade-off between reactivity (minimizing the waiting time between the input and the synthesis of a word) and speech quality (both at segmental and supra-segmental levels)
2

Tran, Do Dat. "Synthèse de la parole à partir du texte en langue vietnamienne." Grenoble INPG, 2007. http://www.theses.fr/2007INPG0181.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'élaboration d'un système de synthèse de la parole de haute qualité représente un travail considérable. Elle nécessite des connaissances principalement dans deux domaines: la linguistique et le traitement du signal. A cause de la diversité intrinsèque des langues, concevoir pour les systèmes de synthèse une structure universelle commune à toutes les langues semble encore illusoire. Les travaux de cette thèse non seulement choisissent, appliquent et évaluent des techniques et des théories développées par ailleurs pour d'autres langues, mais encore contribuent à compléter et à parfaire ces techniques et théories pour les adapter à la langue vietnamienne. Cette thèse se focalise également sur l'amélioration de la qualité du signal synthétique spécifiquement pour le vietnamien par le biais d'une modélisation des paramètres acoustiques et temporels de la prosodie de cette langue asiatique tonale, modélisation qui à notre connaissance n'a pas encore été mise en oeuvre
The development of a high quality speech synthesis system represents a considerable workload. Tt requires mainly the knowledge of two domains: linguistics and signal processing. Because of the intrinsic diversity of languages, designing a common universal structure for speech synthesis systems for ail languages still seems elusive. The work of this thesis not only chooses, implements and assesses techniques and theories already developed for other languages, but also contributes to complete and to perfect these techniques and theories to adapt them to Vietnamese language. This thesis also focuses on improving the quality of the synthetic signal specifically for Vietnamese by modeling the acoustic and temporal parameters of prosody of this tonal Asian language, a task not yet undertaken, to our knowledge
3

Le, Faucheur Laurent. "Traitement du signal de parole pour la synthèse à partir du texte." Brest, 1991. http://www.theses.fr/1991BRES2008.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette these est composee de trois parties. La premiere partie situe le travail dans le contexte de la synthese a partir du texte. On y decrit les limites du modele de production de parole choisi (concatenation de diphones) et les perspectives d'amelioration. La deuxieme partie detaille les fondements theoriques de la technique psola de concatenation et de modification prosodique. La troisieme partie donne des elements de choix pour un codage optimal des unites acoustiques, au sens de l'efficacite d'une implantation sur un serveur de messagerie. Deux codeurs sont decrits: un codeur predictif du type mplpc et un codeur dpcm
4

Evrard, Marc. "Synthèse de parole expressive à partir du texte : Des phonostyles au contrôle gestuel pour la synthèse paramétrique statistique." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112202.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’objectif de cette thèse est l’étude et la conception d’une plateforme de synthèse de parole expressive.Le système de synthèse — LIPS3, développé dans le cadre de ce travail, incorpore deux éléments : un module linguistique et un module de synthèse paramétrique par apprentissage statistique (construit à l’aide de HTS et de STRAIGHT). Le système s’appuie sur un corpus monolocuteur conçu, enregistréet étiqueté à cette occasion.Une première étude, sur l’influence de la qualité de l’étiquetage du corpus d’apprentissage, indique que la synthèse paramétrique statistique est robuste aux erreurs de labels et d’alignement. Cela répond au problème de la variation des réalisations phonétiques en parole expressive.Une seconde étude, sur l’analyse acoustico-phonétique du corpus permet la caractérisation de l’espace expressif utilisé par la locutrice pour réaliser les consignes expressives qui lui ont été fournies. Les paramètres de source et les paramètres articulatoires sont analysés suivant les classes phonétiques, ce qui permet une caractérisation fine des phonostyles.Une troisième étude porte sur l’intonation et le rythme. Calliphony 2.0 est une interface de contrôlechironomique temps-réel permettant la modification de paramètres prosodiques (f0 et tempo) des signaux de synthèse sans perte de qualité, via une manipulation directe de ces paramètres. Une étude sur la stylisation de l’intonation et du rythme par contrôle gestuel montre que cette interface permet l’amélioration, non-seulement de la qualité expressive de la parole synthétisée, mais aussi de la qualité globale perçue en comparaison avec la modélisation statistique de la prosodie.Ces études montrent que la synthèse paramétrique, combinée à une interface chironomique, offre une solution performante pour la synthèse de la parole expressive, ainsi qu’un outil d’expérimentation puissant pour l’étude de la prosodie
The subject of this thesis was the study and conception of a platform for expressive speech synthesis.The LIPS3 Text-to-Speech system — developed in the context of this thesis — includes a linguistic module and a parametric statistical module (built upon HTS and STRAIGHT). The system was based on a new single-speaker corpus, designed, recorded and annotated.The first study analyzed the influence of the precision of the training corpus phonetic labeling on the synthesis quality. It showed that statistical parametric synthesis is robust to labeling and alignment errors. This addresses the issue of variation in phonetic realizations for expressive speech.The second study presents an acoustico-phonetic analysis of the corpus, characterizing the expressive space used by the speaker to instantiate the instructions that described the different expressive conditions. Voice source parameters and articulatory settings were analyzed according to their phonetic classes, which allowed for a fine phonostylistic characterization.The third study focused on intonation and rhythm. Calliphony 2.0 is a real-time chironomic interface that controls the f0 and rhythmic parameters of prosody, using drawing/writing hand gestures with a stylus and a graphic tablet. These hand-controlled modulations are used to enhance the TTS output, producing speech that is more realistic, without degradation as it is directly applied to the vocoder parameters. Intonation and rhythm stylization using this interface brings significant improvement to the prototypicality of expressivity, as well as to the general quality of synthetic speech.These studies show that parametric statistical synthesis, combined with a chironomic interface, offers an efficient solution for expressive speech synthesis, as well as a powerful tool for the study of prosody
5

Baloul, Sofiane. "Développement d'un système automatique de synthèse de la parole à partir du texte arabe standard voyellé." Le Mans, 2003. http://cyberdoc.univ-lemans.fr/theses/2003/2003LEMA1015.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le travail de cette thèse est une contribution à l'étude et au développement d'un système de synthèse de la parole à partir du texte arabe standard voyellé basé sur le diphone. Cette contribution intervient à différents niveaux de ce système : construction de la base acoustique, analyse syntaxique, conversion graphème-phonème et génération de la prosodie. L'analyse morpho-syntaxique implémentée repose sur l'utilisation d'un lexique partiel, l'étiquetage par défaut et la propagation de déductions contextuelles. Elle permet le découpage du texte en tronçons (intermédiaires entre le mot et la phrase) non récursifs. L'interface syntaxe-prosodie permet ensuite de distribuer les pauses et de générer les paramètres prosodiques de hauteur et de durée. L'ensemble de ces traitements est intégré dans le système multilingue de synthèse de la parole à partir du texte de la société Elan Speech
The work of this thesis is a contribution to the study and development of a voweled standard Arabic text-to-speech system based on the diphone. This contribution takes place at various levels of this system: construction of the acoustical database, syntax analysis, grapheme-phoneme conversion and generation of the prosody. The morpho-syntactic analysis implemented is based on a partial lexicon, the default tagging and the propagation of contextual deductions. It enables the segmentation of the text into non recursive chunks (intermediaries between the word and the sentence). The syntax-prosody interface enables the allocation of pauses and the generation of the prosodic parameters of pitch and duration. The whole treatments are integrated into the multilingual system of the Elan Speech Company
6

Zaki, Ahmed. "Modélisation de la prosodie pour la synthèse de la parole arabe standard à partir du texte." Bordeaux 1, 2004. http://www.theses.fr/2004BOR12913.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans ce mémoire, nous proposons d'aborder le traitement de la prosodie afin d'améliorer le naturel d'un système de synthèse de la parole arabe standard à partir du texte. D'une manière générale, la qualité de synthèse est principalement mesurée par l'intelligibilité et le naturel de la parole. L'intelligibilité dépend essentiellement de la technique et de la méthode de synthèse utilisées. Le naturel est quant à lui il est associé en grande partie à l'aspect prosodique de la langue étudiée. De point de vue acoustique, la prosodie est définie par les variations de la fréquence fondamentale (intonation), la durée segmentale (rythme) et l'intensité. Ce mémoire traite de la modélisation des variations de la fréquence fondamentale et de la durée segmentale de la langue arabe standard. Nous avons proposé deux approches différentes pour la génération automatique de la prosodie. La première approche consistait en l'utilisation des réseaux de neurones pour l'apprentissage automatique. Deux modèles ont ainsi été élaborés. Le premier est dédié à la synthèse des contours intonatifs. Le deuxième est consacré à la prédiction de la durée segmentale. D'après les résultats expérimentaux, l'approche neuronale s'avère plus adaptée à la modélisation de la durée segmentale. C'est ainsi que nous avons proposé l'étude d'une autre approche pour la génération automatique des variations de la fréquence fondamentale. La deuxième approche proposée dans ce mémoire s'est articulée autour du développement d'un modèle intonatif fondé sur l'approche phonologique. Cette dernière permet la compréhension du mécanisme de génération de la prosodie à partir d'une représentation symbolique. Cette compréhension se manifeste par les règles employées sur le plan phonologique et sur le plan phonétique. Les règles utilisées dans le module phonologique sont fondées essentiellement sur un algorithme d'accentuation "standard". Ce dernier représente le noyau des règles tonales qui sont employées dans le module phonétique. Malgré l'aspect approximatif du modèle phonétique, les phrases de synthèse générées avec les contours intonatifs du modèle proposé ont été jugées perceptivement équivalentes aux phrases générées avec les contours intonatifs estimés de la parole naturelle.
7

Boula, de Mareüil Philippe. "Etude linguistique appliquee a la synthese de la parole a partir du texte." Paris 11, 1997. http://www.theses.fr/1997PA112371.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette these est consacree a une etude linguistique appliquee a la synthese de la parole a partir du texte. Elle se divise en deux volets : la conversion grapheme-phoneme et l'analyse syntaxique, notamment pour la generation automatique de la prosodie. La conversion grapheme-phoneme, dans des langues comme le francais, est hautement dependante du contexte : l'accent a ici ete mis sur les ambiguites morpho-phonologiques, les glides et le schwa, les liaisons et les noms propres. Les nombres et les abreviations, problemes qui peuvent etre qualifies d'extra-lexicaux, sont pretraites en amont. Un systeme de synthese vocale a partir du texte necessitant une analyse syntaxique, une grammaire en troncons a ete developpee, qui segmente la phrase en sequences non recursives. Celles-ci permettent de definir des frontieres prosodiques potentielles (mineures, majeures ou majeures intermediaires). Nous nous sommes efforces de proceder par intention : conversion grapheme-phoneme par regles plutot qu'a base de lexique d'exceptions (jusque dans le traitement des sigles) et etiquetage en parties du discours non lexicaliste. L'approche structurelle a egalement ete preferee aux modeles probabilistes, pour l'oralisation des noms propres et la resolution des ambiguites de l'orthographe francaise (ou un critere de regle plus generale a ete mis en evidence), comme pour l'etiquetage et le parenthesage morpho-syntaxiques (ou un principe d'ensemble de categories possibles a ete applique). Ce traitement automatique (pretraitement, conversion grapheme-phoneme, analyse syntaxique et regles syntactico-prosodiques) a ete integre dans un systeme de synthese de la parole a partir du texte. Il a ete abondamment evalue, et les resultats sont tres positifs.
8

Le, Maguer Sébastien. "Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française." Phd thesis, Université Rennes 1, 2013. http://tel.archives-ouvertes.fr/tel-00934060.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux présentés dans cette thèse se situent dans le cadre de la synthèse de la parole à partir du texte et, plus précisément, dans le cadre de la synthèse paramétrique utilisant des règles statistiques. Nous nous intéressons à l'influence des descripteurs linguistiques utilisés pour caractériser un signal de parole sur la modélisation effectuée dans le système de synthèse statistique HTS. Pour cela, deux méthodologies d'évaluation objective sont présentées. La première repose sur une modélisation de l'espace acoustique, généré par HTS par des mélanges gaussiens (GMM). En utilisant ensuite un ensemble de signaux de parole de référence, il est possible de comparer les GMM entre eux et ainsi les espaces acoustiques générés par les différentes configurations de HTS. La seconde méthodologie proposée repose sur le calcul de distances entre trames acoustiques appariées pour pouvoir évaluer la modélisation effectuée par HTS de manière plus locale. Cette seconde méthodologie permet de compléter les diverses analyses en contrôlant notamment les ensembles de données générées et évaluées. Les résultats obtenus selon ces deux méthodologies, et confirmés par des évaluations subjectives, indiquent que l'utilisation d'un ensemble complexe de descripteurs linguistiques n'aboutit pas nécessairement à une meilleure modélisation et peut s'avérer contre-productif sur la qualité du signal de synthèse produit.
9

Mohamadi, Tayeb. "Synthèse à partir du texte de visages parlants : réalisation d'un prototype et mesures d'intelligibilité bimodale." Grenoble INPG, 1993. http://www.theses.fr/1993INPG0010.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le but de cette etude est l'analyse geometrique des differentes formes de levres en francais, leur intelligibilite audiovisuelle et la realisation d'un prototype de synthetiseur de visage parlant francais. Dans ce manuscrit, nous retracons d'abord le role des levres dans la production de la parole, et l'apport de leur vision a l'intelligibilite de la parole degradee (une analyse phonetique des confusions des voyelles et des consonnes choisies, a ete faite en parallele), nous presentons les resultats d'une etude de leur geometrie et de leur mouvement qui a permis d'identifier une vingtaine de formes labiales de base appelees visemes. Ensuite, nous presentons un prototype de synthetiseur audiovisuel a partir du texte realise a partir de ce jeu de visemes et son evaluation en intelligibilite. Enfin, nous evaluons l'apport de l'intelligibilite en parole naturelle degradee de deux modeles de levres synthetiques realises a l'icp, avec une comparaison au cas naturel
10

Gibert, Guillaume. "Conception et évaluation d'un système de synthèse 3D de Langue française Parlée Complétée (LPC) à partir du texte." Phd thesis, Grenoble INPG, 2006. http://tel.archives-ouvertes.fr/tel-00203134.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse traite de la mise en œuvre d'un système de synthèse 3D de parole audiovisuelle capable, a partir d'une simple chaîne phonétique, de générer un signal audio synthétique, les mouvements du visage correspondant ainsi que les mouvements de la main reproduisant les gestes de la Langue française Parlée Complétée (LPC). Nous avons enregistré les mouvements faciaux et manuels d'une codeuse LPC par une technique de motion capture, ainsi que le signal audio correspondant, lors de la production d'un corpus de 238 phrases couvrant l'ensemble des diphones du français. Après traitements et analyses des données, nous avons implémenté un système de synthèse par concaténation d'unités en deux étapes capable de générer de la parole codée. Enfin, nous avons évalué notre système tant au niveau de l'intelligibilité segmentale qu'au niveau de la compréhension. Les résultats sont prometteurs et montrent clairement un apport d'information du code de synthèse.
11

Baloul, Sofiane Baudry Marc. "Développement d'un système automatique de synthèse de la parole à partir du texte arabe standard voyellé." [S.l.] : [s.n.], 2003. http://cyberdoc.univ-lemans.fr/theses/2003/2003LEMA1015.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
12

El, Kafi Jamal. "Contribution à la réalisation d'un système multilingue de synthèse de la parole à partir du texte autour d'un processeur spécialisé le TMS50C42." Bordeaux 1, 1990. http://www.theses.fr/1990BOR10512.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le memoire porte sur l'etude et la realisation d'une carte de synthese de parole multilingue a partir du texte. Cette synthese est basee sur la technique lpc et la concatenation de diphones. Les algorithmes de synthese developpes ont ete masques sur un processeur specialise dedie a la parole: le tms50c42. Le dispositif est constitue de deux dictionnaires de diphones (arabe et francais) stockes dans deux eproms, de programmes de transformations orthographique-phonetique et phonetique-son et integre en outre des elements de prosodie permettant d'ameliorer la qualite de la parole restituee. Ce systeme developpe dans le cadre d'une aide de l'anvar est commercialise depuis peu en france, pour la synthese du francais
13

Kulkarni, Ajinkya. "Expressivity transfer in deep learning based text-to-speech synthesis." Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0122.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Bien que la synthèse de parole à partir du texte ait connu ces dernières années un immense succès dans le domaine de l'interaction homme-machine, les systèmes actuels sont perçus comme monotones en raison de l'absence d'expressivité. L'expressivité dans la parole réfère généralement aux caractéristiques suprasegmentales représentées par les émotions, les styles d'expression, les gestes et expressions faciales, etc. Une synthèse vocale expressive devrait permettre d'améliorer considérablement l'expérience utilisateur avec les machines. Le développement d'un système de synthèse de parole expressive dépend fortement des données vocales disponibles. Cette thèse vise à développer un système de synthèse de parole expressive dans la voix d'un locuteur pour lequel seules des données vocales neutres sont disponibles. L'objectif principal de la thèse est d'étudier des approches d'apprentissage profond pour explorer le désenchevêtrement des informations locuteur et d'expressivité dans un contexte de synthèse de parole multilocuteur. Le contexte d'application concerne l'expressivité en tant qu'émotion avec des classes d'émotion bien définies. Nous proposons différentes architectures de réseaux neuronaux profonds pour créer des représentations latentes du locuteur et de l'expressivité dans des configurations de synthèse de parole multilocuteurs. Pour le transfert de l'expressivité, les représentations de l'expressivité et du locuteur sont utilisées pour synthétiser la parole expressive dans la voix du locuteur souhaité. Nous utilisons également le critère multiclass N-Pair loss lors de l'apprentissage pour améliorer la représentation latente de l'expressivité (meilleure séparation des émotions dans l'espace latent), ce qui permet d'améliorer le transfert d'expressivité. Nous étudions également les modèles génératifs profonds permettant une modélisation tractable et évolutive de données vocales complexes et hautement dimensionnelles, ces modèles étant reconnus pour une synthèse vocale de haute qualité. Nous avons enrichi ces modèles pour étudier leur capacité de transfert d'expressivité. L'évaluation des systèmes proposés est difficile car aucune donnée de référence de parole expressive n'est disponible dans la voix du locuteur cible. Par conséquent, nous proposons deux mesures d'évaluation subjectives, le MOS expressivité et le MOS locuteur, qui indiquent les performances de transfert de l'expressivité et de rétention de la voix du locuteur cible. Nous proposons également une métrique d'évaluation objective basée sur la similarité en cosinus pour mesurer la pertinence de l'expressivité et de la voix du locuteur. Les résultats obtenus démontrent la capacité des approches proposées à transférer l'expressivité tout en maintenant la qualité globale de la parole expressive synthétisée dans la voix du locuteur cible. Cependant, l'identification des paramètres des réseaux neuronaux représentant explicitement les attributs des caractéristiques du locuteur et de l'expressivité reste difficile. Les caractéristiques d'expressivité et de locuteur sont des aspects conjoints de la prosodie
Recently, text-to-speech (TTS) synthesis has gained immense success in the human-computer interaction domain. Current TTS systems are monotonous due to the absence of expressivity. Expressivity in speech generally refers to suprasegmental speech characteristics represented by emotions, speaking styles, and the relationship between speech and gestures, facial expressions, etc. It seems likely that expressive speech synthesis provides the ability to improve the user experience with machines greatly. The development of an expressive TTS system heavily relies on the speech data used in training the system. The thesis aims at developing an expressive TTS system in a speaker's voice for which only neutral speech data is available. The main focus of the thesis is to investigate deep learning approaches for exploring the disentanglement of speaker information and expressivity in a multispeaker TTS setting. The scope of the work incorporates expressivity as an emotion attribute with well-defined emotion classes. We present various deep neural network architectures to create latent representations of speaker and expressivity in multispeaker TTS settings. During the expressivity transfer phase, representations from expressivity and speaker are used to interpolate for synthesizing expressive speech in desired speaker's voice. We present a deep metric learning framework for improving the latent representation of expressivity in a multispeaker TTS system setting, which results in improved expressivity transfer. The thesis work also investigates the expressivity transfer capability of probability density estimation based on deep generative models. The usage of deep generative models provides scalable modeling of complex, high-dimensional speech data and tractability of the system, resulting in high-quality speech synthesis. The evaluation of the proposed systems is a challenging aspect of the thesis, as no reference expressive speech data was available in the target speaker's voice. Therefore, we propose two subjective evaluation metrics, speaker MOS and expressive MOS, which indicate the performance of the framework to transfer the expressivity and the retention of the target speaker's voice. As it is a time-consuming process to conduct a subjective evaluation each time system is developed, we propose a cosine similarity-based evaluation metric to measure the strength of expressivity and the speaker's voice. The obtained results demonstrate the ability of the proposed work to transfer the expressivity with maintaining the overall quality of synthesized expressive speech in the target speaker's voice. It is hard to identify which neural network parameters represent the attributes of speaker characteristics and expressivity. Moreover, expressivity and speaker characteristics are bounded aspects of prosody parameters
14

Maurel, Fabrice. "Transmodalité et multimodalité écrit/oral : modélisation, traitement automatique et évaluation de stratégies de présentation des structures "visuo-architecturale" des textes." Toulouse 3, 2004. http://www.theses.fr/2004TOU30256.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous nous intéressons à l’utilité et l’utilisabilité de la structure visuelle des textes, pour leur transposition à l’oral par des systèmes de synthèse de parole (TTS). Nous proposons la synoptique d’un système qui conduit à une représentation du texte interprétable par un TTS. Nous avons partiellement réalisé le module spécifique aux stratégies d’oralisation, afin de rendre articulables la part signifiante des textes, souvent oubliée. Des spécifications ont été précisées et partiellement intégrées par un partenaire industriel. Des hypothèses prédictives quant à l’impact sur la mémorisation/compréhension de deux stratégies issues de notre Modèle d’Oralisation par Reformulation des Textes Écrits pour être Lus Silencieusement, ont été formulées et testées. Ce travail a montré que des fonctions cognitives étaient perdues. Des prototypes, exploitant la notion d’Image De Page, ont été imaginés à travers des interfaces dans lesquelles la multimodalité a pour rôle de combler cette lacune
We are interested in the utility and, if the need arises, the usability of texts visual structure, within the framework of their oral transposition. We propose the synoptic of an oralisation system who leads to a text representation directly interpretable by Text-To-Speech systems. We partially realized the module specific to the oralisation strategies, in order to render some signifying parts of the text often “forgotten” by synthesis systems. The first results of this study led to specifications in the course of integration by an industrial partner. Predictive hypothesis, related to the impact on memorizing/understanding of two strategies coming from our Reformulation-based Oralisation Model for Texts Written to be Silently Read (MORTELS), have been formulated and tested. This work shows that cognitive functions was lost. Prototypes, exploiting the “Page Reflection” notion, have been conceived through interfaces in which multimodality is used to fill this gaps
15

Le, Goff Bertrand. "Synthèse à partir du texte de visage 3D parlant français." Grenoble INPG, 1997. http://www.theses.fr/1997INPG0140.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les recherches presentees dans cette these sont axees sur la bimodalite de la parole. Afin de disposer d'un outil de recherche sur la parole visuelle, un synthetiseur visuel de parole a ete developpe pour le francais. Il permet de predire les commandes temporelles d'un modele de visage a partir d'une entree phonetique. Dans un premier temps, nous presentons le modele de visage que nous avons adapte afin qu'il puisse etre anime par des parametres directement mesurables sur la face et le profil d'un locuteur de reference. La qualite de la modelisation du visage a ete evaluee par un ensemble de tests de perception. Puis, nous avons dresse une liste des differents modeles permettant de trouver une solution au probleme essentiel de la parole : la coarticulation. L'approche que nous avons choisie s'appuie sur le principe de fonctions de dominance qui reproduisent temporellement l'influence de la production de chaque unite phonetique sur ses voisines. Une methodologie - generalisable a d'autres langues - a ete elaboree afin de determiner automatiquement les coefficients caracteristiques de ces fonctions de dominance a partir des donnees mesurees sur un locuteur de reference. Cette synthese visuelle a ete synchronisee avec un synthetiseur acoustique, permettant ainsi l'animation audiovisuelle du modele de visage a partir d'un texte quelconque en francais. Cette synthese audiovisuelle a ete evaluee a travers plusieurs tests. Une comparaison quantitative des trajectoires des parametres produits par le synthetiseur visuel a ete faite avec les trajectoires observees sur le locuteur de reference. Le synthetiseur visuel a egalement ete evalue en termes d'intelligibilite, et compare a l'intelligibilite du meme modele de visage commande par analyse/synthese. Cette evaluation a montre que l'intelligibilite du modele anime par le synthetiseur visuel est equivalente a celle du modele anime par analyse/synthese.
16

Di, Cristo Philippe. "Génération automatique de la prosodie pour la synthèse à partir du texte." Aix-Marseille 1, 1998. http://www.theses.fr/1998AIX11050.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette these a pour theme la problematique de la synthese vocale et propose de decrire la realisation de deux systemes complets de synthese de la parole a partir du texte. La visee ultime de notre etude est de produire un signal dont le niveau de qualite prosodique puisse etre comparable a celui d'une voix humaine. La qualite de la prosodie est en effet essentielle pour la comprehension, ainsi que pour l'acceptabilite de la synthese, en particulier dans le cas de longs textes lus. Notre objectif est egalement de contribuer a l'elaboration d'un systeme de synthese independant de la langue, bien que notre these soit consacree a la synthese du francais. Nous presentons donc dans cette these l'elaboration de deux systemes complets de generation de la prosodie pour la synthese de la parole. Le premier est base sur une approche probabiliste tandis que le deuxieme s'appuie des representations linguistiques (phonologiques et phonetiques) de l'accentuation, du rythme et de l'intonation. Pour permettre, dans des experimentations futures, l'etude de la complementarite de ces deux methodes, nous nous proposons d'avoir recours a une methode commune de codage de la prosodie, en l'occurrence le systeme intsint. Nous pensons, en effet et bien que cela reste a demontrer, qu'un systeme a base de connaissances linguistiques peut etre applique sur les resultats d'un modele probabiliste (qui necessite pour sa part peu d'informations prosodiques) afin d'ameliorer les performances de la synthese a partir du texte. Nous proposons d'ailleurs en conclusion de ce travail, un prolongement possible qui contribuerait a etendre les possibilites des systemes actuels. Nous presentons egalement un environnement pour le traitement de textes. Il se compose d'un segmenteur (dont le but est de decouper le texte en constituants : mots, phrases, paragraphes), d'un module d'acces lexical (permettant d'acceder aux categories morpho-syntaxique du texte), d'un desambiguisateur morpho-syntaxique (dont le role est de selectionner une categorie parmi le choix possible en fonction du contexte) et d'un module de phonemisation (dont la tache est de transcrire les elements du texte en alphabet phonetique).
17

Nicolas, Pascale. "Contribution de la prosodie à l'amélioration de la parole de synthèse : cas du texte lu en français." Aix-Marseille 1, 1995. http://www.theses.fr/1995AIX10053.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux presentes dans cette etude concernent l'analyse de l'organisation intonative du texte lu en francais. On note la rarete des etudes sur le francais ayant pour objectif la description de l'organisation intonative propre a la lecture de texte. Pourtant on pense qu'il est important de rechercher et de modeliser les effets d'une structure plus importante que la phrase et ceci pour deux raisons : d'une part pour enrichir les connaissances prosodiques concernant la parole continue (a differencier de l'analyse de phrases isolees) et d'autre part pour ameliorer la generation d'une intonation synthetique par les systemes de synthese a partir du texte (ils utilisent generalement un cadre reducteur qui ne depasse pas les limites de la phrase). Dans la premiere partie de ce travail, on donne une definition du concept de "texte", puis on essaie de le replacer dans le monde de la parole en degageant ses specificites prosodiques par rapport aux autres activites langagieres. On commente par la suite l'integration de la composante prosodique dans les systemes de synthese a partir du texte. On aborde egalement les problemes de transcription de l'intonation. Dans la deuxieme partie de ce travail, a partir de l'analyse d'un texte lu par quatre locuteurs, on montre que l'unite la plus importante au niveau de la structuration intonative du texte correspond au paragraphe et non au texte. On propose par la suite, d'adapter le systeme de transcription de l'intonation utilise dans cette etude a la transcription de phenomenes observes. On se penche par la suite sur les aspects temporels pouvant lier les unites segmentales et les evolutions des courbes intonatives, avec l'objectif de chercher la plus simple methode predictive de l'influence de la hauteur de la frequence fondamentale sur les durees vocaliques du texte analyse
In this study, we present an analysis of the intonative organisation of the read text in french. We note the rarity of studies in french which aim at describing the intonative organisation above the sentence in the reading of the text. It is however important to look for and to model the effects for a structure larger than that of the sentence, for two reas ons : firstly to increase the prosodic knowledge for continuous speech as distinct from that for isolated sentences, secondly to improve the generation of a synthetic intonation pattern for text-to-speech system. In the first part of the study, a definition of the concept of "text" is proposed, determining the prosodic specifications of the text with respect to the other linguistic activities, and this concept is applied to the speech domain. The integrationof the prosodic component into different text-to-speech systems is discussed. Finally, the variou s problems concerning the transcription of intonation are reviewed. In the second part of this study, it is shown that the largest unit with regard to the intonative structure of a text coincides with the paragraph rather than with the whole text. The analysis of a text read by for speakers leads to a modification of the transcription system used in this study to account for the observed phenomena. The temporal aspects linking the segmental string tot he intonation curve are also examined in a search for the simplest method to predict the influence of fundamental frequency height on the vocalic duration of the analysed text
18

Cotto, Daniel. "Traitement automatique des textes en vue de la synthèse vocale." Toulouse 3, 1992. http://www.theses.fr/1992TOU30225.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail se situe dans le cadre du traitement automatique du langage naturel. Nous nous interessons plus particulierement a la synthese de texte quelconque. Notre objectif est d'ameliorer la qualite des synthetiseurs vocaux actuellement commercialises pour, d'une part, offrir aux handicapes visuels une interface d'entree-sortie de substitution plus conviviale et, d'autre part, faire en sorte qu'un jour la synthese vocale soit consideree comme une interface complementaire aux entrees-sorties standards. Nous exposons la problematique de la synthese vocale a partir de texte ainsi que diverses methodes permettant d'effectuer une analyse linguistique des textes. Cette etude nous a conduit au developpement de deux outils de pretraitement linguistiques: texor et texorplus. Le developpement de texorplus a ete effectue sous l'environnement de assp egalement realise durant cette these. Texor est un environnement parametrable pour synthetiser des textes quelconques en se fixant comme priorite un temps de reponse reduit. Il se compose d'un module metatextuel et d'un module textuel pour notamment prendre en compte les traits de presentation et les inattendus (sigles, abreviations,. . . ). Texorplus a pour but de prendre en compte les textes quelconques en se fixant comme priorite une prosodie de qualite. Il effectue a l'aide de assp une analyse syntaxique des phrases pour positionner des marqueurs prosodiques. Assp est un analyseur linguistique pouvant prendre en compte certains aspects syntaxiques, semantiques voire pragmatiques du langage. Pour realiser l'analyse, celui-ci combine les formalismes bases sur l'unification aux reseaux de transition augmentes
19

Tournemire, Stéphanie de. "Identification et génération automatique de contours prosodiques pour la synthèse vocale à partir du texte en français." Paris, ENST, 1998. http://www.theses.fr/1998ENST0017.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En français, comme dans la plupart des langues indo-européennes, la prosodie dépend de nombreux facteurs (la syntaxe, la sémantique, la pragmatique, le locuteur) difficiles à modéliser par un seul système de synthèse à partir du texte (tts). Ainsi, généralement, la création d'une nouvelle voix synthétique consiste à modifier les niveaux acoustiques sans introduire de nouvelles caractéristiques prosodiques. Les techniques d'apprentissage automatique permettent d'extraire automatiquement les régularités prosodiques présentes dans un corpus de parole enregistrée. Néanmoins, ces techniques nécessitent la transcription prosodique (souvent) manuelle de corpus importants, créant par là-même un frein à l'acquisition rapide de nouveaux modèles prosodiques. Cette étude propose une solution permettant de capturer automatiquement une nouvelle prosodie à partir d'un corpus de parole enregistrée. La méthodologie de construction du modelé prosodique comporte trois principales étapes : la transcription prosodique semi-automatique d'un corpus enregistre, l'apprentissage automatique d'un modèle de prédiction des contours prosodiques à partir du corpus transcrit et l'intégration de ce modèle dans un système de synthèse de parole à partir du texte. La mise au point de la méthodologie s'appuie sur la réalisation d'un modèle prosodique de f0 et des durées pour le français à partir d'un corpus enregistre. L'erreur objective moyenne produite par le modèle sur la base de test est de 20 hz pour f0 et de 17 ms pour les durées des phonèmes. Les résultats d'un test subjectif ont situé le modèle prosodique développe comme équivalent au système standard de génération des contours prosodiques du cnet (cnetvox). La méthodologie est appliquée à l'acquisition des paramètres prosodiques d'un second locuteur à partir d'un corpus enregistre par ce nouveau locuteur. Les performances du nouveau modèle prosodique permettent de valider la méthodologie.
20

Lescop, Cyrille. "Synthèse d'analogues de nucléosides bicycliques et d'analogues de la 2,4-méthanoproline à partir de cyclobutènes : Texte imprimé." Le Mans, 2000. http://www.theses.fr/2000LEMA1008.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous avons préparé deux nouvelles familles d'analogues de nucléosides bicycliques ainsi que des analogues de la 2,4-méthanoproline à partir d'un précurseur cyclobuténique commun, I'anhydride cis-cyclobut-3-ène-1,2-dicarboxylique. Une nouvelle synthèse de cet anhydride, facile et plus sûre que la méthode traditionnelle, a été mise au point. Elle fait intervenir une cycloaddition [2+2] photochimique entre le trans-1,2-dichloroéthylène et l'anhydride maléique suivie de l'élimination réductrice des atomes de chlore à I'aide du zinc. Des analogues de nucléosides bicycliques formés d'une y-lactone fusionnée à une partie "sucre" modifiée ont été préparés. L'étape clé de la synthèse met en jeu un réarrangement stéréosélectif original de deux époxycyclobutanes, en milieu aqueux, qui conduit à un lactol bicyclique constitué d'un squelette 3-oxo-2,7-oxabicyclo[3. 3. 0]octane. Une seconde famille de nucléosides bicycliques formés d'un cyclopropane fonctionnalisé accollé à une partie "sucre" modifiée a ensuire été préparée à partir d'un hydroxylactol bicyclique. Le motif 3-oxabicyclo[3. 1. 0]hexane est obtenu selon deux voies convergentes à partir de deux régressions de cycle stéréosélectives C4 -->C3, l'une en milieu acide et I'autre en milieu hydrure. Pour ces deux types de composés nucléosidiques, les régio- et stéréosélectivité de la condensation des diverses bases azotées ont été déterminées à l'aide de plusieurs expériences de RMN. Dans le dernier volet de notre travail, trois analogues d'un acide aminé naturel bicyclique, la 2,4-méthanoproline, ont été synthétisés. La préparation de leur squelette original 2-azabicyclo[2. 1. 1]hexane fait intervenir une addition électrophile stéréosélective du bromure de phénylsélényle sur un cyclobutène azoté symétrique suivie d'une substitution nucléophile intramoléculaire. La préparation de ces trois types différents de composés bicycliques à partir de I'anhydride cyclobuténique illustre bien I'intérêt des cyclobutènes en synthèse organique
This work deals with the synthesis of two new types of bicyclic nucleoside analogues and of three analogues of 2,4-methanoproline from a common starting material : cis-cyclobut-3-en-1,2-dicarboxylic anhydride. A new synthesis of this anhydride, easy and safer than the traditional method, is described. This compound is available, in two steps, by photochemical [2+2] cycloaddition between trans 1,2-dichloroethene and maleic anhydride followed by a reductive chlorine elimination with activated zinc. Bicyclic nucleoside analogues with a [3. 3. 0]-fused y-butyrolactone moiety have been prepared. The key step involves a stereoselective rearrangement of two epoxycyclobutanes, in aqueous medium, which leads to a bicyclic lactol wirh a 3-oxo-2,7-dioxabicyclo[3. 3. 0]octane skeleton. A second type of bicyclic nucleosides with a fused cyclopropane ring substituted by a hydroxymethyl group has been synthesised from a bicyclic hydroxylactol. The 3-oxabicyclo[3. 1. 0]hexane structure is obtained from two convergent routes involving two ring contractions, one in acidic medium and the other one in hydride medium. For both categories of nucleosides, regio- and stereochemistry of the nucleobase condensation have been elucidated by NMR studies, using 1D and 2D experiments. Finally, three analogues of a natural bicyclic amino acid, 2,4-methanoproline, have been prepared. The synthesis of the unusual 2-azabicyclo[2. 1. 1]hexane skeleton involves a stereoselective electrophilic addition of phenylselenyl bromide ro a symmetrical cyclobutene with nitrogen substituents followed by an intramolecular nucleophilic substitution. Preparation of these three different types of bicyclic compounds from cis-cyclobut-3-en-1,2-dicarboxylic anhydride shows the importance of cyclobutenes in organic synthesis
21

Blin, Laurent. "Apprentissage de structures d'arbres à partir d'exemples ; application à la prosodie pour la synthèse de la parole." Rennes 1, 2002. http://www.theses.fr/2002REN10117.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse présente une approche de génération de la prosodie pour la synthèse de la parole, via la définition de représentations arborescentes des énoncés et l'utilisation de mesures de similarité entre ces structures. La prosodie d'un nouvel énoncé est générée par un apprentissage par plus proche voisin. Ces travaux se sont intéressés à la prédiction d'étiquettes ToBI sur des énoncés en anglais américain. Cette these a étudié plusieurs configurations expérimentales. Deux types de structures arborescentes ont été utilisées : une représentation syntaxique classique et une représentation par structure de performance,divisant un énoncé en groupes accentuels et intonatifs. L'influence d'une construction automatique de ces structures a en outre été testée. Deux algorithmes de calcul de distance entre arbres ont également été employés, fondés sur des opérateurs d'édition entre noeuds. Les bases d'une génération de la prosodie par analogie ont également été posées.
22

Doukhan, David. "Synthèse de parole expressive au delà du niveau de la phrase : le cas du conte pour enfant : conception et analyse de corpus de contes pour la synthèse de parole expressive." Thesis, Paris 11, 2013. http://www.theses.fr/2013PA112165/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif de la thèse est de proposer des méthodes permettant d'améliorer l'expressivité des systèmes de synthèse de la parole. Une des propositions centrales de ce travail est de définir, utiliser et mesurer l'impact de structures linguistiques opérant au delà du niveau de la phrase, par opposition aux approches opérant sur des phrases isolées de leur contexte. Le cadre de l'étude est restreint au cas de la lecture de contes pour enfants. Les contes ont la particularité d'avoir été l'objet d'un certain nombre d'études visant à en dégager une structure narrative et de faire intervenir une certain nombre de stéréotypes de personnages (héros, méchant, fée) dont le discours est souvent rapporté. Ces caractéristiques particulières sont exploitées pour modéliser les propriétés prosodiques des contes au delà du niveau de la phrase. La transmission orale des contes a souvent été associée à une pratique musicale (chants, instruments) et leur lecture reste associée à des propriétés mélodiques très riches, dont la reproduction reste un défi pour les synthétiseurs de parole modernes. Pour répondre à ces problématiques, un premier corpus de contes écrits est collecté et annoté avec des informations relatives à la structure narrative des contes, l'identification et l'attribution des citations directes, le référencement des mentions des personnages ainsi que des entités nommées et des énumérations étendues. Le corpus analysé est décrit en terme de couverture et d'accord inter-annotateurs. Il est utilisé pour modéliser des systèmes de segmentation des contes en épisode, de détection des citations directes, des actes de dialogue et des modes de communication. Un deuxième corpus de contes lus par un locuteur professionnel est présenté. La parole est alignée avec les transcriptions lexicale et phonétique, les annotations du corpus texte et des méta-informations décrivant les caractéristiques des personnages intervenant dans le conte. Les relations entre les annotations linguistiques et les propriétés prosodiques observées dans le corpus de parole sont décrites et modélisées. Finalement, un prototype de contrôle des paramètres expressifs du synthétiseur par sélection d'unités Acapela est réalisé. Le prototype génère des instructions prosodiques opérant au delà du niveau de la phrase, notamment en utilisant les informations liées à la structure du conte et à la distinction entre discours direct et discours rapporté. La validation du prototype de contrôle est réalisée dans le cadre d'une expérience perceptive, qui montre une amélioration significative de la qualité de la synthèse
The aim of this thesis is to propose ways to improve the expressiveness of speech synthesis systems. One of the central propositions of this work is to define, use and measure the impact of linguistic structures operating beyond the sentence level, as opposed to approaches operating on sentences out of their context. The scope of the study is restricted to the case of storytelling for children. The stories have the distinction of having been the subject of a number of studies in order to highlight a narrative structure and involve a number of stereotypical characters (hero, villain, fairy) whose speech is often reported. These special features are used to model the prosodic properties tales beyond the sentence level. The oral transmission of tales was often associated with musical practice (vocals, instruments) and their reading is associated with rich melodic properties including reproduction remains a challenge for modern speech synthesizers. To address these issues, a first corpus of written tales is collected and annotated with information about the narrative structure of stories, identification and allocation of direct quotations, referencing references to characters as well as named entities and enumerations areas. The corpus analyzed is described in terms of coverage and inter-annotator agreement. It is used to model systems segmentation tales episode, detection of direct quotes, dialogue acts and modes of communication. A second corpus of stories read by a professional speaker is presented. The word is aligned with the lexical and phonetic transcriptions, annotations of the corpus text and meta-information describing the characteristics of the characters involved in the story. The relationship between linguistic annotations and prosodic properties observed in the speech corpus are described and modeled. Finally, a prototype control expressive synthesizer parameters by Acapela unit selection is made. The prototype generates prosodic operating instructions beyond the sentence level, including using the information related to the structure of the story and the distinction between direct speech and reported speech. Prototype validation control is performed through a perceptual experience, which shows a significant improvement in the quality of the synthesis
23

Garnier-Rizet, Martine. "Élaboration d'un module de règles phonético-acoustiques pour un système de synthèse à partir du texte pour le français." Paris 3, 1994. http://www.theses.fr/1994PA030146.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce document presente les travaux qui ont conduit a l'elaboration d'un module de regles phoneticoacoustiques pour un systeme de synthese a partir du texte. La demarche sous-jacente a toutes les methodes de synthese repose sur un aspect fondamental de la parole : celle-ci constitue un continuum sonore qu'on decompose en unites de complexite et de nature differentes selon le niveau de description choisi. L'entree du module segmental est une chaine d'unites linguistiques. Isolement, chaque unite est instanciee dans le conduit vocal par un geste articulatoire qui constitue sa forme canonique et dont le resultat acoustique est une "cible acoustique" de reference. Dans la parole continue, on observe un chevauchement temporel dans la succession des gestes articulatoires qui actualisent les segments. Cette interaction des gestes au plan articulatoire se manifeste au plan acoustique par des modifications spectrales des segments par rapport a leur valeur cible. L'elaboration du module debute par l'analyse d'un large curpus de parole naturelle issu d'un locuteur donne. Cette analyse permet tout d'abord d'extraire les cibles acoustiques propres a ce locuteur puis de modeliser l'incidence des phenomenes de coarticulation au niveau acoustique. Cette etude souligne plusieurs aspects majeurs dudeveloppement d'un systeme de synthese par regles : la validite d'un corpus d'etude avec contraintes ; la recherche d'une interface entre differents niveaux de description ; la validite des traits phonetiques pour l'ecriture des regles ; l'intelligibilite et la qualite de la synthese obtenue. Ce travail a ete effectu dans le cadre du projet esprit 1024 polyglot "a multilingual text-tospeech and speech-to-text system" dont l'objet est la realisation d'un synthetiseur a partir du texte multilingue pour six langues europeennes
The purpose of this work is the elaboration of a rule-based module for a text-to-speech synthesizer for french. Speech synthesis has to deal with one of the main aspects of speech : speech is a continuum that is usually divided into units. The nature and complexity of these units are different depending on the level of description we work at. The input of the segmental module is a stream of phonetic units. When in isolation, the phonetic unit is instanciated in the vocal tract by a phonetic gesture, that is the canonical form. The acoustical result is a "target" with specific spectral values. In continuous speech, there is a temporal overlap in the succession of gestures which instanciate the segments. At the acoustic level, the gesturalinteraction inducts spectral modifications which operate on the target values. The elaboration of the module starts with the analysis of a large natural speech data base from a single speaker. First, the target values are extracted from the data base, for all the phonemes. They characterize the speaker. The coarticulation phenomena are then modeled by bontext-sensitive rules, at the acoustic level. This study is concerned by some major aspects of speech synthesis by rules. For example : the validity of a corpus with constraints ; the search for an interface between different levels of description ; the use of acoustic features for writing rules ; the intelligibility and quality of the synthesis obtained. This study has been carried out within the polyglot, esprit project 1024 "a multilingual text-tospeech and speech-to-text system. The aim of polyglot was to build up a multilingual text-to-speech system for six european languages
24

Essien, Akpan Jimmy. "Contribution à la recherche sur la perception des tons du yoruba : évidences expérimentales à partir des tambours, des signaux de la parole et la synthèse." Paris 3, 2000. http://www.theses.fr/2000PA030077.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Une evaluation quantitative du poids fonctionnel du ton montre l'imperfection du ton a l'egard des contrastes lexicaux. Les tests perceptifs font apparaitre l'ambiguite des mots monosyllabiques et dissyllabiques isoles, malgre les tons. Dans la parole continue, une grande partie des contrastes lexicaux est assuree par le contexte. Ainsi, dans l'analyse de la parole continue, la hauteur peut etre liberee du role lexical pour servir a des fins expressives, sans compromettre l'intelligibilite du message. Un principe d'analyse de la parole en yoruba est presente. La these aborde l'origine du ton du cote de la production mecanique du ton sur des tambours. Les donnees montrent qu'un ton est une realite psychologique qui doit etre acquise pour la reconnaitre. La relation entre la frequence de resonance et le ton est injonctive aussi longtemps qu'un seul parametre du corps sonore est modifie. La relation est disjonctee des que deux parametres sont modifies. Cette donnee mecano-physiologique offre une explication pour les chevauchements des tons intra- et inter-locuteurs. Le ton manifeste une correlation plus etroite avec les parametres mecaniques du corps excite qu'avec les donnees spectrales. Les donnees experimentales montrent que le contour du fo est compense dans la perception du ton. Les mecanismes du contour du fo, de la structure spectrale des signaux, de l'upstep et du downstep sont presentes.
25

Busset, Julie. "Inversion acoustique articulatoire à partir de coefficients cepstraux." Electronic Thesis or Diss., Université de Lorraine, 2013. http://www.theses.fr/2013LORR0027.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'inversion acoustique-articulatoire de la parole consiste à récupérer la forme du conduit vocal à partir d'un signal de parole. Ce problème est abordé à l'aide d'une méthode d'analyse par synthèse reposant sur un modèle physique de production de la parole contrôlé par un petit nombre de paramètres décrivant la forme du conduit vocal : l'ouverture de la mâchoire, la forme et la position de la langue et la position des lèvres et du larynx. Afin de s'approcher de la géométrie de notre locuteur, le modèle articulatoire est construit à l'aide de contours articulatoires issus d'images cinéradiographiques présentant une vue sagittale du conduit vocal. Ce synthétiseur articulatoire nous permet de créer une table formée de couples associant un vecteur articulatoire au vecteur acoustique correspondant. Nous n'utiliserons pas les formants (fréquences de résonance du conduit vocal) comme vecteur acoustique car leur extraction n'est pas toujours fiable provoquant des erreurs lors de l'inversion. Les coefficients cepstraux sont utilisés comme vecteur acoustique. De plus, l'effet de la source et les disparités entre le conduit vocal du locuteur et le modèle articulatoire sont pris en compte explicitement en comparant les spectres naturels à ceux produits par le synthétiseur car nous disposons des deux signaux
The acoustic-to-articulatory inversion of speech consist in the recovery of the vocal tract shape from the speech signal. This problem is tackled with an analysis-by-synthesis method depending on a physical model of speech production controlled by a small number of parameters describing the vocal tract shape: the jaw opening, the shape and the position of the tongue and the position of lips and larynx. In order to approach the geometry of the speaker, the articulatory model is built with articulatory contours from cineradiographic images of the sagittal view of the vocal tract. This articulatory synthesizer allows us to create a table made up with couples associating a articulatory vector with the corresponding acoustic vector. The formants (resonance frequency of the vocal tract shape) are not used as acoustic vector because their extraction is not always reliable causing errors during inversion. The cepstral coefficients are used as acoustic vector. Moreover, the source effect and the mismatch between the speaker vocal tract and the articulatory model are considered explicitly comparing the natural spectrum with those produced by the synthesizer because we have the both signals
26

Busset, Julie. "Inversion acoustique articulatoire à partir de coefficients cepstraux." Phd thesis, Université de Lorraine, 2013. http://tel.archives-ouvertes.fr/tel-00838913.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'inversion acoustique-articulatoire de la parole consiste à récupérer la forme du conduit vocal à partir d'un signal de parole. Ce problème est abordé à l'aide d'une méthode d'analyse par synthèse reposant sur un modèle physique de production de la parole contrôlé par un petit nombre de paramètres décrivant la forme du conduit vocal : l'ouverture de la mâchoire, la forme et la position de la langue et la position des lèvres et du larynx. Afin de s'approcher de la géométrie de notre locuteur, le modèle articulatoire est construit à l'aide de contours articulatoires issus d'images cinéradiographiques présentant une vue sagittale du conduit vocal. Ce synthétiseur articulatoire nous permet de créer une table formée de couples associant un vecteur articulatoire au vecteur acoustique correspondant. Nous n'utiliserons pas les formants (fréquences de résonance du conduit vocal) comme vecteur acoustique car leur extraction n'est pas toujours fiable provoquant des erreurs lors de l'inversion. Les coefficients cepstraux sont utilisés comme vecteur acoustique. De plus, l'effet de la source et les disparités entre le conduit vocal du locuteur et le modèle articulatoire sont pris en compte explicitement en comparant les spectres naturels à ceux produits par le synthétiseur car nous disposons des deux signaux.

To the bibliography