Dissertations / Theses: 'Reconnaissance de la voix chantée'

1

Schaffhauser, Mireille. "La voix chantée : technique, pathologie, prévention." Université Louis Pasteur (Strasbourg) (1971-2008), 1985. http://www.theses.fr/1985STR1M138.

Full text

APA, Harvard, Vancouver, ISO, and other styles

2

Lévêque, Yohana. "Le lien perception-production en voix chantée : place des représentations motrices." Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM3089.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Un nombre croissant d'études révèle combien les processus cérébraux de production et de perception de l'action sont intriqués. En particulier, on sait maintenant que la perception de la parole induit l'activation de représentations motrices articulatoires chez l'auditeur. Dans ce travail, nous explorons la perception de la voix chantée, une action vocale non-linguistique. L'écoute d'une voix chantée provoque-t-elle une activation du système moteur ? Cette activité motrice est-elle plus forte pour la voix que pour un son musical non-biologique ? Ces questions sont abordées en utilisant de façon complémentaire deux protocoles comportementaux, une technique de lésion virtuelle par stimulation magnétique transcrâniale, l'étude des oscillations en EEG et celle de la variabilité métabolique en IRMf. Nos résultats montrent que la perception d'une voix chantée est effectivement associée à une activité du cortex sensorimoteur dans des tâches de répétition et de discrimination. De façon intéressante, les plus mauvais chanteurs ont montré la plus forte résonance motrice. Le système moteur pourrait, par la génération de modèles internes, faciliter le traitement des stimuli ou la préparation de la réponse vocale quand le traitement acoustique seul est insuffisant. L'ensemble des résultats présentés ici suggère que les interactions audiomotrices en perception de la voix humaine sont modulées par la dimension biologique du son et par le niveau d'expertise vocale des auditeurs
A growing body of research reveals that action production and action perception interact. In particular, it has been shown that speech perception entails articulatory motor representations in the listener. In the present work, we investigate the perception of a singing voice, a stimulus that is not primarily linked to articulatory processes. Does listening to a singing voice induce activity in the motor system? Is this motor activity stronger for a voice than for a non-biological musical sound? Two behavioral tasks, a og virtual lesionfg{} paradigm using TMS, the study of brain oscillations with EEG and an fMRI experiment carried out during my PhD have shed some light on these questions. Our results show that the perception of a singing voice is indeed associated with sensorimotor activity in repetition and discrimination tasks. Interestingly, the poorer singers displayed the stronger motor resonance. The motor system could facilitate the processing of sound or the preparation of the vocal response by internal model generation when the acoustic processing is not effective enough. The set of studies presented here thus suggests that audiomotor interactions in human voice perception are modulated by two factors: the biological dimension of sound and the listeners' vocal expertise. These results suggest new perspectives on our understanding of the auditory-vocal loop in speech and of sound perception in general

3

Liu, Ning. "La synthèse de la voix chantée : le cas de la langue chinoise." Paris 8, 2012. http://www.theses.fr/2012PA083495.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif de notre recherche est de développer une synthèse de la voix chantée pour la langue chinoise. La synthèse ainsi présentée doit avoir deux grandes fonctionnalités : d’une part la création de la base de données permettant l’utilisation de la synthèse de la voix chantée en chinois et d’autre part, le développement du contrôle du système. Notre étude nécessite des connaissances et des techniques de divers domaines scientifiques. Nos recherchent portent sur des domaines différents comprenant la phonétique, la musique, la synthèse de la parole et de l’informatique. Nous avons réalisé, dans un premier temps, un aperçu des méthodes de la synthèse vocale, des pratiques musicales dans lesquelles est utilisée la voix artificielle ou la voix traitée en Occident. Des études et analyses théoriques sont proposées dans un deuxième temps. Elles portent notamment sur la phonétique chinoise, les théories de la musique chinoise, des analyses pour la phonétique de la voix parlée et de la voix chantée, des comparaisons entre les théories de la musique chinoise et occidentale. Sur la base des études et analyses théoriques effectuées dans des domaines diversifiés, nous avons procédé aux divers essais expérimentaux. Ils nous permettent de trouver une logique dans le développement du synthétiseur de la voix chantée en chinois. Ces travaux de recherches et d’expérimentations ont porté leur fruit. Ils se présentent suivant deux orientations : la première base de données en chinois pour l’algorithme MBROLA a été créée, puis de surcroît, a été améliorée pour la voix chantée. Au final, un synthétiseur de la voix chantée en chinois et ses applications, basées sur la synthèse concaténative diphonique en temps réel, est développé, offrant de nouvelles perspectives
The objective of our research is to develop a synthesis of the singing voice for the Chinese language. The synthesis presents two main features: first the creation of the database in Chinese to use in the synthesis of the singing voice and second, the development of the control system. Our study requires knowledge and techniques from various scientific fields. We are looking for different fields including phonetics, music, speech synthesis and computer. We realized, at first, an overview of methods for speech synthesis, in which musical practices used artificial voice or the voice treated in the occidental countries. Studies and theoretical analysis are provided in a second time. They include Chinese phonetics, the theories of Chinese music, analysis for the phonetics of the spoken voice and singing voice, as well as the comparisons between the theories of Chinese and occidental music. Based on the studies and theoretical analysis performed in various fields, we realized various experimental trials. They allowed us to find a logical development of the singing voice synthesizer in Chinese. The research and experiments have presented us with good results. . They come in two sections: the first database in Chinese was created for the MBROLA algorithm, and in addition, has been improved to the singing voice. In the end, a singing speech synthesizer in Chinese and its applications, based on concatenative diphonic synthesis in real time is developed, providing new perspectives

4

Feugère, Lionel. "Synthèse par règles de la voix chantée contrôlée par le geste et applications musicales." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00926980.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail de cette thèse porte sur la modélisation de la production et du contrôle de voix chantée synthétique dans la perspective de la lutherie numérique. Nous présentons deux instruments : le Cantor Digitalis, se focalisant sur le contrôle de voyelles chantées et sur l'individualisation des voix ; et le Digitartic, destiné au contrôle de l'articulation de syllabes de type Voyelle-Consonne-Voyelle. Ils permettent, à l'aide de tablettes graphiques augmentées, des applications musicales interactives nécessitant un contrôle temporel fin des paramètres de la production vocale. La pertinence musicale de ces instruments a été établie avec notre ensemble Chorus Digitalis en participant à plusieurs concerts. Nous avons étudié en situation musicale la justesse inter-musiciens et les gestes utilisés pour réaliser les tâches musicales nécessaires à la reproduction d'un large répertoire, constitué de musiques actuelles et traditionnelles (chorale baroque, chant khayal d'Inde du Nord). Notamment, une expérience visant à analyser la faculté à contrôler la fréquence fondamentale du Cantor Digitalis a été entreprise. Les sujets devaient imiter des intervalles et quelques mélodies suivant trois modalités (avec leur propre voix, à la tablette sans et avec retour audio). Les résultats montrent une aptitude plus grande des sujets à jouer de manière précise avec la tablette plutôt qu'avec leur propre voix, tandis que l'apport de l'audio sur le jeu à la tablette est nulle dans ces conditions expérimentales. Les deux instruments sont regroupés dans une application écrite en Max/MSP fournissant également un outil pédagogique audio-visuel et interactif sur le fonctionnement de la voix.

5

Caussade, Diane. "Troubles du langage verbal et non-verbal dans la maladie d'Alzheimer : Effets d'ateliers en voix chantée." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAL019/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Malgré le caractère multimodal du langage, peu de recherches se sont intéressées aux troubles langagiers verbaux et non-verbaux des personnes atteintes de la maladie d’Alzheimer, et encore moins à la prise en charge via la voix chantée de ces troubles. Pourtant, la remédiation de ces troubles langagiers permettrait de ralentir la progression symptomatique des troubles langagiers. Etant donné l’allongement de l’espérance de vie, la prévalence exponentielle des troubles neurocognitifs dès 65 ans – dont la cause la plus fréquente est la maladie d’Alzheimer pour laquelle il n’existe pas à l’heure actuelle de traitement curatif –, l’identification des facteurs pouvant ralentir la progression des symptômes est de première importance. Au vu de ces éléments, cette recherche s’est intéressée aux troubles de la communication verbale et non-verbale dans la maladie d’Alzheimer, ainsi qu’à l’impact de la voix chantée sur ces troubles. Pour ce faire, un protocole original a été mis en place consistant en une tâche de répétition en voix parlée ou voix chantée, avec ou sans gestes manuels communicatifs présentés. Ce protocole a permis d’évaluer les capacités de communication multimodale de personnes atteintes de la maladie d’Alzheimer et de personnes au vieillissement dit ‘normal’. A T0, de nombreux troubles du langage verbal et non-verbal ont été observés. Dès le stade léger de la maladie, les participants du groupe Patient ont produit des erreurs linguistiques et des pause(s) et/ou allongement(s) vocalique(s) de types différents des participants du groupe Contrôle. La capacité de répétition des gestes manuels des participants du groupe Patient semble également impactée, tout comme la qualité de reproduction des gestes iconiques. Dès le stade modéré de la maladie, les participants du groupe Patient ont produit davantage d’erreurs linguistiques (sur des types différents d’unités lexicales), ainsi que plus de gestes co-verbaux spontanés que les participants du groupe Contrôle. Au stade sévère de la maladie, les participants du groupe Patient ont répété moins d’énoncés et produit plus de pause(s) et/ou allongement(s) vocalique(s) que ceux du groupe Contrôle. Un impact de la voix chantée n’a été observé qu’au niveau du taux de répétition d’énoncés, moins élevé en voix chantée qu’en voix parlée pour tous les participants, ce qui pourrait être dû à un effet de double tâche. Les résultats comparatifs des capacités langagières verbales et non-verbales montrent un impact positif des ateliers en voix chantée sur la production d’erreurs linguistiques et de la répétition des gestes manuels des participants du groupe Patient. Nos résultats ont été discutés au vu de la littérature afin de distinguer les troubles langagiers verbaux et non-verbaux liés au vieillissement dit ‘normal’ et ceux symptomatiques de la maladie d’Alzheimer, d’apporter des éléments aux débats sur les diverses origines possibles du langage dans sa multimodalité, ainsi que de proposer des pistes de recherches de l’impact de la voix chantée sur les troubles langagiers des personnes atteintes de la maladie d’Alzheimer
Despite the multimodal character of language, few researches studied the verbal and non-verbal communication abilities of people with Alzheimer’s disease, and even less of remediation via singing voice of those disorders. However their remediation could help to slowing down the symptomatic progression of language disorders. Given life expectancy, the exponential prevalence of neurocognitive disorders from 65 years old – of which most frequent cause is Alzheimer’s disease for which no curative treatment exists at this time –, the identification of factors slowing the symptoms progression is of the utmost importance. In view of those elements, this research focuses on the impact of singing on verbal and non-verbal communication disorders in Alzheimer’s disease. To do so, an original protocol has been set up consisting in a repetition task in singing or in speech, with or without the presentation of communicative manual gestures. This protocol helped evaluating multimodal communication abilities of people with Alzheimer’s disease and with ‘normal’ ageing. At the pre-tests, many verbal and non-verbal language disorders have been found. From the mild stage of the disease, the participants of the Patient group have produced more linguistic errors (of different types) and pauses and/or vocalic lengthenings than Control group participants. The manual gestures repetition ability of the participants of the Patient group also seems impacted, as the quality of iconic gestures production. From the moderate stage of the disease, the participants of the Patient group have produced more linguistic errors and on different types of linguistic unities, as well as more spontaneous co-verbal gestures than Control group participants. From the severe stage of the disease, the participants of the Patient group have repeated less utterances and produced more pauses and/or vocalic lengthenings than Control group participants. An impact of singing voice has only been noted on the utterances’ repetition rate, less high in singing and speech for all participants, which could be cause by a double task effect. The comparative results of verbal and non-verbal linguistic abilities have showed a positive impact of workshops in singing on the production of linguistic errors and the communicative gestures repetition of the participants of the Patient group. Our results have been discussed in the light of literature in order to distinguish verbal and non-verbal language disorders linked to ‘normal’ ageing and those symptomatic of Alzheimer’s disease. These findings enable us to make progress and to bring contribution in the current debate on the diverse possible origins of language in its multimodality, as well as suggest a line of research of the impact of singing voice on language disorders of people with Alzheimer’s disease

6

Cohen-Hadria, Alice. "Estimation de descriptions musicales et sonores par apprentissage profond." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS607.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d'apprentissage automatique deviennent de plus en plus standard. En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones. Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones. Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image. La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l'estimation de structure. La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d'aligner automatiquement des paroles et des pistes audio. La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d'augmentation de données, un moyen d'augmenter considérablement la taille d'un ensemble d'entraînement. Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante
In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely, we will use convolutional neural networks, an image designed class neural networks. The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks. The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI. Singing voice separation is the third task. For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set. Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene

7

Vaglio, Andrea. "Leveraging lyrics from audio for MIR." Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT027.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les paroles de chansons fournissent un grand nombre d’informations sur la musique car ellescontiennent une grande partie de la sémantique des chansons. Ces informations pourraient aider les utilisateurs à naviguer facilement dans une large collection de chansons et permettre de leur offrir des recommandations personnalisées. Cependant, ces informations ne sont souvent pas disponibles sous leur forme textuelle. Les systèmes de reconnaissance de la voix chantée pourraient être utilisés pour obtenir des transcriptions directement à partir de la source audio. Ces approches sont usuellement adaptées de celles de la reconnaissance vocale. La transcription de la parole est un domaine vieux de plusieurs décennies qui a récemment connu des avancées significatives en raison des derniers développements des techniques d’apprentissage automatique. Cependant, appliqués au chant, ces algorithmes donnent des résultats peu satisfaisants et le processus de transcription des paroles reste difficile avec des complications particulières. Dans cette thèse, nous étudions plusieurs problèmes de ’Music Information Retrieval’ scientifiquement et industriellement complexes en utilisant des informations sur les paroles générées directement à partir de l’audio. L’accent est mis sur la nécessité de rendre les approches aussi pertinentes que possible dans le monde réel. Cela implique par exemple de les tester sur des ensembles de données vastes et diversifiés et d’étudier leur extensibilité. A cette fin, nous utilisons un large ensemble de données publiques possédant des annotations vocales et adaptons avec succès plusieurs des algorithmes de reconnaissance de paroles les plus performants. Nous présentons notamment, pour la première fois, un système qui détecte le contenu explicite directement à partir de l’audio. Les premières recherches sur la création d’un système d’alignement paroles audio multilingue sont également décrites. L’étude de la tâche alignement paroles-audio est complétée de deux expériences quantifiant la perception de la synchronisation de l’audio et des paroles. Une nouvelle approche phonotactique pour l’identification de la langue est également présentée. Enfin, nous proposons le premier algorithme de détection de versions employant explicitement les informations sur les paroles extraites de l’audio
Lyrics provide a lot of information about music since they encapsulate a lot of the semantics of songs. Such information could help users navigate easily through a large collection of songs and to recommend new music to them. However, this information is often unavailable in its textual form. To get around this problem, singing voice recognition systems could be used to obtain transcripts directly from the audio. These approaches are generally adapted from the speech recognition ones. Speech transcription is a decades-old domain that has lately seen significant advancements due to developments in machine learning techniques. When applied to the singing voice, however, these algorithms provide poor results. For a number of reasons, the process of lyrics transcription remains difficult. In this thesis, we investigate several scientifically and industrially difficult ’Music Information Retrieval’ problems by utilizing lyrics information generated straight from audio. The emphasis is on making approaches as relevant in real-world settings as possible. This entails testing them on vast and diverse datasets and investigating their scalability. To do so, a huge publicly available annotated lyrics dataset is used, and several state-of-the-art lyrics recognition algorithms are successfully adapted. We notably present, for the first time, a system that detects explicit content directly from audio. The first research on the creation of a multilingual lyrics-toaudio system are as well described. The lyrics-toaudio alignment task is further studied in two experiments quantifying the perception of audio and lyrics synchronization. A novel phonotactic method for language identification is also presented. Finally, we provide the first cover song detection algorithm that makes explicit use of lyrics information extracted from audio

8

Henrich, Nathalie. "Etude de la source glottique en voix parlée et chantée : modélisation et estimation, mesures acoustiques et électroglottographiques, perception." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2001. http://tel.archives-ouvertes.fr/tel-00123133.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les relations entre les paramètres de source glottique et la qualité vocale sont étudiées en voix parlée et chantée, par étude spectrale des modèles de signaux, par mesures acoustiques et électroglottographiques et par détermination des seuils différentiels. Les corrélats spectraux de ces paramètres sont évalués à partir des expressions analytiques temporelles et spectrales des modèles de signaux. Une augmentation de l'amplitude de voisement ou de la vitesse de fermeture entraîne une amplification spectrale globale. Le quotient ouvert et le coefficient d'asymétrie sont corrélés à la fréquence et la largeur de bande du formant glottique, ainsi qu'à l'amplitude de la pente spectrale. Le quotient de phase de retour affecte la pente spectrale en haute fréquence. L'estimation du quotient ouvert à partir de la différence spectrale entre les deux premiers harmoniques, H1-H2, est étudiée de façon théorique et expérimentale. Elle n'est pas adaptée aux signaux de voix chantée, où l'interaction entre source et filtre devient importante. L'utilisation des signaux électroglottographiques dérivés, qui permettent de détecter les instants d'ouverture et de fermeture glottique indépendamment du système supraglottique, est explorée et des méthodes de mesure de la fréquence fondamentale et du quotient ouvert sont proposées. Une base de données a été constituée, par enregistrement simultané des signaux acoustiques et électroglottographiques de 18 chanteurs entraînés sur des voyelles tenues, des sons filés ou des phrases parlées et chantées. Le quotient ouvert est analysé en fonction de l'intensité vocale et de la fréquence fondamentale, dans les deux principaux mécanismes laryngés de production vocale. Il présente des valeurs plus élevées en mécanisme II (0.5 < Oq < 0.95) qu'en mécanisme I (0.3 < Oq < 0.8) et la transition entre mécanismes s'accompagne d'un saut marqué de quotient ouvert. Il est fortement corrélé à l'intensité vocale en mécanisme I et à la fréquence fondamentale en mécanisme II et dépend de l'ouverture de la voyelle émise. Les seuils différentiels associés au quotient ouvert et au coefficient d'asymétrie sont mesurés. Le seuil différentiel relatif DOq/Oq est de l'ordre de 14 % pour 20 sujets non-entraînés et 10 % pour 10 sujets entraînés. Il ne varie pas lors d'un changement de voyelle ou de fréquence fondamentale, mais dépend du paramètre d'amplitude et de la présence ou non d'un vibrato.

9

Lamesch, Sylvain. "Mécanismes laryngés et voyelles en voix chantée : dynamique vocale, phonétogrammes de paramètres glottiques et spectraux, transitions de mécanismes." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00488701.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur l'influence de la voyelle sur les mécanismes laryngés (M1 et M2) en voix chantée. Nous avons observé que les chanteurs associent le /a/ à M1 et le /i/ à M2. Nous avons alors cherché des corrélats physiologiques et acoustiques en étudiant l'influence des voyelles sur les limites phonétographiques, sur plusieurs paramètres de source et spectraux ainsi que sur les transitions des mécanismes. La limite supérieure des phonétogrammes est de 10 dB plus intense pour /a/ que pour /i/ en M1, mais pas en M2. Le phonétogramme de M2 est donc décalé, par rapport à celui de M1, vers les faibles niveaux pour /a/ mais pas pour /i/. Ce décalage est dû en partie à la différence de valeurs de quotient ouvert entre M1 et M2. De plus, l'amplitude du signal électroglottographique augmente avec l'intensité et est plus grande pour /i/ que pour /a/, révélant des différences glottiques de production de voyelles à mêmes hauteur et intensité. Les liens entre les voyelles et la position verticale du larynx dépendent de l'expertise vocale des chanteurs. L'étude de la répartition de l'énergie spectrale est effectuée en calculant le rapport de l'énergie (ER) de la bande du formant du chanteur (FB2) ou des hautes fréquences (FB3) à l'énergie totale. Il est possible d'obtenir un formant du chanteur aussi intense en M2 qu'en M1. ER(FB2) peut saturer à haut niveau, en fonction de la voyelle, du mécanisme et de l'expertise vocale. ER(FB3) est plus faible en M2 qu'en M1. L'intervalle fréquentiel des sauts M1->M2 augmente avec l'intensité mais pas avec la hauteur. Ceci n'est pas observé dans le sens M2->M1. La fréquence de déclenchement de la transition est plus basse pour /i/ que pour /a/.

10

Cornaz, Sandra. "L'apport de la voix chantée pour l'intégration phonético-phonologique d'une langue étrangère : application auprès d'italophones apprenants de FLE." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENL019/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif du didacticien est d’élaborer une méthode performante dont le contenu et les outils d’enseignement-apprentissage améliorent les compétences phonétiques en langue étrangère. Concernant le contenu pédagogique, les travaux ont montré que les sons et les phonèmes d’une langue inconnue sont traités selon l’organisation de l’espace phonétique et phonologique de la langue maternelle. Les recherches mettent en avant l’intérêt de confronter les systèmes linguistiques afin de prédire les difficultés et les facilités auxquelles seront exposés les apprenants de langue. S’agissant des outils de transmission, les études montrent les effets bénéfiques de l’interdisciplinarité et le rôle pertinent de la musique sur le développement cognitif et des apprentissages. Notre objectif de recherche s’inscrit dans ce contexte scientifique. Notre intérêt est double. D’abord, nous avons tenté d’identifier quel paramètre, inhérent à l’émission en voix chantée et la différenciant de la voix parlée, pouvait faciliter la perception de voyelles non-natives. Ensuite, nous avons souhaité comparer les effets sur la compétence de production de voyelles non-natives de deux méthodes de corrections phonétique, l’une des deux exploitant l’outil « voix chantée ». À travers les résultats de ces études, nous avons essayé de saisir le rôle de l’italien langue maternelle sur la perception et la production du français langue cible. Nos travaux n’ont pas mis en évidence d’effet des modalités fréquence fondamentale et allongement de la durée vocalique sur la discrimination perceptive des voyelles non natives /y/ et /ø/, mais ils suggèrent un rôle du contexte prévocalique sur la perception de la voyelle non-native /y/ en contraste /u/. Nous avons trouvé un effet favorable de la méthode de correction phonétique incluant la pratique chantée sur la production du spectre sonore des voyelles fermées du français, mais pas sur l’évolution des catégories phonologiques à l’intérieur de l’espace acoustique vocalique. Les résultats de ces études soutiennent la théorie que l’enseignement-apprentissage de la phonétique a sa place en classe de langue, et suggèrent que la voix chantée serait, sous certaines conditions, un outil pertinent pour faciliter la perception et la production de voyelles non-natives
Specialists in didactics aim to create an efficient method, whose teaching / learning content and tools improve phonetic skills in foreign languages. As for the educational content, research studies have proved that sounds and phonemes of a foreign language are processed according to the structure of the phonetic and phonological space of the native language. Other works point out that it is particularly relevant to compare linguistic systems in order to predict future difficulties and abilities language learners will be confronted with. As for transmission tools, studies have shown the beneficial effects of interdisciplinarity and the pertinent role music plays on cognitive and learning development. Our research objective falls within this scientific context. Our purpose has been two-fold. First, we tried to identify which parameter, related to the production of the singing voice whilst separate from the speaking voice, may facilitate the perception of non-native vowels. Secondly, we aimed at comparing the effects on the ability to produce non-native vowels of two corrective phonetic methods, one of which used the “singing voice” tool. Through the results of these studies, we tried to understand how Italian as a native language interacts with the perception and the production of French as a target language. Our studies have shown that vowel pitch and duration do not impact the discrimination of /y/ and /ø/, and that the consonant sharpness plays a role on the discrimination of /y/ in a CV type syllable. We found a positive effect of the method, which uses singing-voice as a tool, on the production of the sound spectrum of French closed vowels, but not on the evolution of the sounds and phonemes into the acoustic space. Our results support the theory that phonetic teaching and learning is relevant in language classes and suggest that singing-voice may be a useful tool to ease the perception and the production of non-native vowels
L’obiettivo dell’esperto di didattica è di elaborare un metodo efficace, il cui contenuto e gli strumenti d’insegnamento-apprendimento migliorino le competenze fonetiche in lingua straniera. Riguardo al contenuto pedagogico, le nostre ricerche hanno dimostrato che i suoni e i fonemi di una lingua sconosciuta sono trattati secondo l’organizzazione dello spazio fonetico e fonologico della lingua materna. Queste ricerche evidenziano l’utilità di confrontare sistemi linguistici differenti al fine di predire le difficoltà e le agevolazioni a cui sono esposti gli studenti di lingua straniera come lingua seconda (L2). Per quanto concerne gli strumenti d’insegnamento e apprendimento, le nostre ricerche dimostrano gli effetti benefici dell’interdisciplinarità ma anche del ruolo pertinente della musica sullo sviluppo cognitivo e sul piano degli studenti. Il nostro interesse di ricerca è doppio. In primo luogo, abbiamo tentato d’identificare quale parametro, inerente alla produzione in voce cantata e che la distingue della produzione del parlato, potesse agevolare la percezione di vocali assenti dalla lingua materna. In seguito, abbiamo voluto confrontare gli effetti di due metodi di correzione fonetica, uno dei quali sfrutta lo strumento “voce cantata”, sulla competenza di produzione delle vocali del francese /y ø/ non presenti nel sistema vocalico dei locutori di italiano madrelingua. I risultati di questi studi contribuiscono ad individuare l’impatto dell’italiano madrelingua sulla produzione e sulla percezione del francese lingua d’apprendimento. I nostri lavori non hanno evvidenziato un effetto delle modalità pitch e durata d’emissione della vocale /y/ e della vocale /ø/ sulla loro discriminazione, ma suggeriscono un ruolo del contesto pre-vocalico sulla percezione della vocale /y/ in contrasto /u/. Abbiamo scoperto un effetto favorevole del metodo di correzione fonetica includendo la voce cantata sulla produzione dello spettro sonoro delle vocali chiuse del francese, ma non sull’evoluzione delle categorie fonologiche all’interno dello spazio acustico. I risultati di questi studi sostengono la teoria secondo la quale l’insegnamento-apprendimento fonetico ha pienamente ragione di essere in classe di lingua, e suggeriscono che la voce cantata sarebbe, sottommessa ad alcune condizioni, uno strumento che facilita la percezione e la produzione di vocali assenti dalla madrelingua

11

Estienne, Nathalie. "La voix chantée des enseignants d’éducation musicale dans l’enseignement secondaire en France : entre modèles esthétiques et profils éducatifs." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUL023.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’étude a pour objet le chant de l’enseignant en Éducation musicale en France. Elle s’appuie sur la question suivante : Comment l’enseignant doit-il chanter ? Trois grandes parties structurent la démarche. Le premier Livre explore les écrits concernant la voix chantée de l’enseignant, qui, d’un « modèle » vocal légitime problématique dans le contexte de l’enseignement de masse, évolue vers une vocalité se voulant plus adaptée au contexte, mais toujours incertaine. Il conclut à la prégnance des choix esthétiques dans tout ce qui touche à la vocalité en éducation musicale. Le Livre II cherche à expliquer les raisons des paradoxes qui collent au chant de l’enseignant : il dégage les facteurs socio-historiques et didactiques qui font du chanter en éducation musicale une activité spécifique par son ancrage partiel dans les représentations traditionnelles du chant, et dans les grands concepts éducatifs. Le Livre III démontre la réalité des choix esthétiques et ses incidences sur la transposition didactique du chant. Par l’examen des traits stylistiques des répertoires valorisés, et par l’analyse acoustique de voix chantées d’enseignant, il met en évidence le rôle capital de la manière de chanter d’un enseignant dans la notion de vocalité. La démarche de recherche se finalise à travers la proposition d’une élaboration conceptuelle de « profils vocaux éducatifs »
The subject of the study is the singing activity of teachers in French music education. The study poses the following question: how should the teacher sing? Three important subjects inform the answer. The first Book considers literature on the teacher’s singing voice. This voice is in the first place a legitimate vocal model ; but this in itself is problematic in the context of mass education. So the voice strives to take on a vocality better suited to the teaching environment. The conclusion of the first book is that it is aesthetic choices that prevail in everything relating to vocality in music teaching. Book II tries to explain the reasons for the paradoxes which are inherent in the teacher’s singing. It analyses the socio-historical and didactic factors which make music education such a particular activity as it is grounded both in traditional representations of singing and in educational concepts. Book Three shows just how present aesthetic choices are, and how they affect the way teachers adapt them to their teaching purposes. The stylistic features of various repertoires used are studied and the sound of music teachers’ voices is analysed. This enables us to show that the way a teacher sings plays a vital role in their teaching. As a result of this research we have drawn up a conceptual proposal for ‘educational vocal profiles’

12

Jaumard-Hakoun, Aurore. "Modélisation et synthèse de voix chantée à partir de descripteurs visuels extraits d'images échographiques et optiques des articulateurs." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066223/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail présenté dans cette thèse porte principalement sur le développement de méthodes permettant d'extraire des descripteurs pertinents des images acquises des articulateurs dans les chants rares : les polyphonies traditionnelles Corses, Sardes, la musique Byzantine, ainsi que le Human Beat Box. Nous avons collecté des données, et employons des méthodes d'apprentissage statistique pour les modéliser, notamment les méthodes récentes d'apprentissage profond (Deep Learning).Nous avons étudié dans un premier temps des séquences d'images échographiques de la langue apportant des informations sur l'articulation, mais peu lisibles sans connaissance spécialisée en échographie. Nous avons développé des méthodes pour extraire de façon automatique le contour supérieur de la langue montré par les images échographiques. Nos travaux ont donné des résultats d'extraction du contour de la langue comparables à ceux obtenus dans la littérature, ce qui pourrait permettre des applications en pédagogie du chant.Ensuite, nous avons prédit l'évolution des paramètres du filtre qu'est le conduit vocal depuis des séquences d'images de langue et de lèvres, sur des bases de données constituées de voyelles isolées puis de chants traditionnels Corses. L'utilisation des paramètres du filtre du conduit vocal, combinés avec le développement d'un modèle acoustique de source vocale exploitant l'enregistrement électroglottographique, permet de synthétiser des extraits de voix chantée en utilisant les images articulatoires (de la langue et des lèvres)et l'activité glottique, avec des résultats supérieurs à ceux obtenus avec les techniques existant dans la littérature
This thesis reports newly developed methods which can be applied to extract relevant features from articulator images in rare singing: traditional Corsican and Sardinian polyphonies, Byzantine music, as well as Human Beat Box. We collected data, and modeled these using machine learning methods, specifically novel deep learning methods. We first modelled tongue ultrasound image sequences, carrying relevant articulatory information which would otherwise be difficult to interpret without specialized skills in ultrasound imaging. We developed methods to extract automatically the superior contour of the tongue displayed on ultrasound images. Our tongue contour extraction results are comparable with those obtained in the literature, which could lead to applications in singing pedagogy. Afterwards, we predicted the evolution of the vocal tract filter parameters from sequences of tongue and lip images, first on isolated vowel databases then on traditional Corsican singing. Applying the predicted filter parameters, combined with the development of a vocal source acoustic model exploiting electroglottographic recordings, allowed us to synthesize singing voice excerpts using articulatory images (of tongue and lips) and glottal activity, with results superior to those obtained using existing technics reported in the literature

13

Jaumard-Hakoun, Aurore. "Modélisation et synthèse de voix chantée à partir de descripteurs visuels extraits d'images échographiques et optiques des articulateurs." Electronic Thesis or Diss., Paris 6, 2016. http://www.theses.fr/2016PA066223.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail présenté dans cette thèse porte principalement sur le développement de méthodes permettant d'extraire des descripteurs pertinents des images acquises des articulateurs dans les chants rares : les polyphonies traditionnelles Corses, Sardes, la musique Byzantine, ainsi que le Human Beat Box. Nous avons collecté des données, et employons des méthodes d'apprentissage statistique pour les modéliser, notamment les méthodes récentes d'apprentissage profond (Deep Learning).Nous avons étudié dans un premier temps des séquences d'images échographiques de la langue apportant des informations sur l'articulation, mais peu lisibles sans connaissance spécialisée en échographie. Nous avons développé des méthodes pour extraire de façon automatique le contour supérieur de la langue montré par les images échographiques. Nos travaux ont donné des résultats d'extraction du contour de la langue comparables à ceux obtenus dans la littérature, ce qui pourrait permettre des applications en pédagogie du chant.Ensuite, nous avons prédit l'évolution des paramètres du filtre qu'est le conduit vocal depuis des séquences d'images de langue et de lèvres, sur des bases de données constituées de voyelles isolées puis de chants traditionnels Corses. L'utilisation des paramètres du filtre du conduit vocal, combinés avec le développement d'un modèle acoustique de source vocale exploitant l'enregistrement électroglottographique, permet de synthétiser des extraits de voix chantée en utilisant les images articulatoires (de la langue et des lèvres)et l'activité glottique, avec des résultats supérieurs à ceux obtenus avec les techniques existant dans la littérature
This thesis reports newly developed methods which can be applied to extract relevant features from articulator images in rare singing: traditional Corsican and Sardinian polyphonies, Byzantine music, as well as Human Beat Box. We collected data, and modeled these using machine learning methods, specifically novel deep learning methods. We first modelled tongue ultrasound image sequences, carrying relevant articulatory information which would otherwise be difficult to interpret without specialized skills in ultrasound imaging. We developed methods to extract automatically the superior contour of the tongue displayed on ultrasound images. Our tongue contour extraction results are comparable with those obtained in the literature, which could lead to applications in singing pedagogy. Afterwards, we predicted the evolution of the vocal tract filter parameters from sequences of tongue and lip images, first on isolated vowel databases then on traditional Corsican singing. Applying the predicted filter parameters, combined with the development of a vocal source acoustic model exploiting electroglottographic recordings, allowed us to synthesize singing voice excerpts using articulatory images (of tongue and lips) and glottal activity, with results superior to those obtained using existing technics reported in the literature

14

Etienne, Caroline. "Apprentissage profond appliqué à la reconnaissance des émotions dans la voix." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS517.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Mes travaux de thèse s'intéressent à l'utilisation de nouvelles technologies d'intelligence artificielle appliquées à la problématique de la classification automatique des séquences audios selon l'état émotionnel du client au cours d'une conversation avec un téléconseiller. En 2016, l'idée est de se démarquer des prétraitements de données et modèles d'apprentissage automatique existant au sein du laboratoire, et de proposer un modèle qui soit le plus performant possible sur la base de données audios IEMOCAP. Nous nous appuyons sur des travaux existants sur les modèles de réseaux de neurones profonds pour la reconnaissance de la parole, et nous étudions leur extension au cas de la reconnaissance des émotions dans la voix. Nous nous intéressons ainsi à l'architecture neuronale bout-en-bout qui permet d'extraire de manière autonome les caractéristiques acoustiques du signal audio en vue de la tâche de classification à réaliser. Pendant longtemps, le signal audio est prétraité avec des indices paralinguistiques dans le cadre d'une approche experte. Nous choisissons une approche naïve pour le prétraitement des données qui ne fait pas appel à des connaissances paralinguistiques spécialisées afin de comparer avec l'approche experte. Ainsi le signal audio brut est transformé en spectrogramme temps-fréquence à l'aide d'une transformée de Fourier à court-terme. Exploiter un réseau neuronal pour une tâche de prédiction précise implique de devoir s'interroger sur plusieurs aspects. D'une part, il convient de choisir les meilleurs hyperparamètres possibles. D'autre part, il faut minimiser les biais présents dans la base de données (non discrimination) en ajoutant des données par exemple et prendre en compte les caractéristiques de la base de données choisie. Le but est d'optimiser le mieux possible l'algorithme de classification. Nous étudions ces aspects pour une architecture neuronale bout-en-bout qui associe des couches convolutives spécialisées dans le traitement de l'information visuelle, et des couches récurrentes spécialisées dans le traitement de l'information temporelle. Nous proposons un modèle d'apprentissage supervisé profond compétitif avec l'état de l'art sur la base de données IEMOCAP et cela justifie son utilisation pour le reste des expérimentations. Ce modèle de classification est constitué de quatre couches de réseaux de neurones à convolution et un réseau de neurones récurrent bidirectionnel à mémoire court-terme et long-terme (BLSTM). Notre modèle est évalué sur deux bases de données audios anglophones proposées par la communauté scientifique : IEMOCAP et MSP-IMPROV. Une première contribution est de montrer qu'avec un réseau neuronal profond, nous obtenons de hautes performances avec IEMOCAP et que les résultats sont prometteurs avec MSP-IMPROV. Une autre contribution de cette thèse est une étude comparative des valeurs de sortie des couches du module convolutif et du module récurrent selon le prétraitement de la voix opéré en amont : spectrogrammes (approche naïve) ou indices paralinguistiques (approche experte). À l'aide de la distance euclidienne, une mesure de proximité déterministe, nous analysons les données selon l'émotion qui leur est associée. Nous tentons de comprendre les caractéristiques de l'information émotionnelle extraite de manière autonome par le réseau. L'idée est de contribuer à une recherche centrée sur la compréhension des réseaux de neurones profonds utilisés en reconnaissance des émotions dans la voix et d'apporter plus de transparence et d'explicabilité à ces systèmes dont le mécanisme décisionnel est encore largement incompris
This thesis deals with the application of artificial intelligence to the automatic classification of audio sequences according to the emotional state of the customer during a commercial phone call. The goal is to improve on existing data preprocessing and machine learning models, and to suggest a model that is as efficient as possible on the reference IEMOCAP audio dataset. We draw from previous work on deep neural networks for automatic speech recognition, and extend it to the speech emotion recognition task. We are therefore interested in End-to-End neural architectures to perform the classification task including an autonomous extraction of acoustic features from the audio signal. Traditionally, the audio signal is preprocessed using paralinguistic features, as part of an expert approach. We choose a naive approach for data preprocessing that does not rely on specialized paralinguistic knowledge, and compare it with the expert approach. In this approach, the raw audio signal is transformed into a time-frequency spectrogram by using a short-term Fourier transform. In order to apply a neural network to a prediction task, a number of aspects need to be considered. On the one hand, the best possible hyperparameters must be identified. On the other hand, biases present in the database should be minimized (non-discrimination), for example by adding data and taking into account the characteristics of the chosen dataset. We study these aspects in order to develop an End-to-End neural architecture that combines convolutional layers specialized in the modeling of visual information with recurrent layers specialized in the modeling of temporal information. We propose a deep supervised learning model, competitive with the current state-of-the-art when trained on the IEMOCAP dataset, justifying its use for the rest of the experiments. This classification model consists of a four-layer convolutional neural networks and a bidirectional long short-term memory recurrent neural network (BLSTM). Our model is evaluated on two English audio databases proposed by the scientific community: IEMOCAP and MSP-IMPROV. A first contribution is to show that, with a deep neural network, we obtain high performances on IEMOCAP, and that the results are promising on MSP-IMPROV. Another contribution of this thesis is a comparative study of the output values of the layers of the convolutional module and the recurrent module according to the data preprocessing method used: spectrograms (naive approach) or paralinguistic indices (expert approach). We analyze the data according to their emotion class using the Euclidean distance, a deterministic proximity measure. We try to understand the characteristics of the emotional information extracted autonomously by the network. The idea is to contribute to research focused on the understanding of deep neural networks used in speech emotion recognition and to bring more transparency and explainability to these systems, whose decision-making mechanism is still largely misunderstood

15

De, Lepine Philippe. "Détection automatique de la voix criée en vue d'un système d'alarme." Nancy 1, 1992. http://www.theses.fr/1992NAN10410.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans un parking souterrain, une centaine de microphones captent les différents bruits. Une alarme est déclenchée lorsque l'amplitude de ces sons dépasse un certain seuil. Nous proposons d'améliorer ce système en mettant au point un module qui réagirait a une manifestation spontanée lors des agressions : le cri. La détection de cris est une application particulière et originale de la reconnaissance des formes. Cette particularité réside dans le fait qu'il s'agit de reconnaitre des cris parmi d'autres signaux de nature variée, prévisibles ou imprévisibles, et d'occurrences diverses (démarrage, accélération, klaxon, crissements de pneus). A cause de la diversité des sons et de la rareté des cris, dans le contexte réel, nous avons pris le parti de développer une méthode du type template matching privilégiant la connaissance et l'identification des signaux de cris masculins et des cris féminins par rapport aux autres types de bruits mentionnés ci-dessus. La détections de la voix criée parmi les divers sons du parking nous a permis d'aboutir à une procédure de surveillance automatique plus fiable, avec une faible probabilité de fausses alarmes et un fort taux de reconnaissance des cris. Le fait remarquable est la faculté de généralisation du procède, mise en évidence par de forts taux de reconnaissance pour les sons cries absents du corpus d'apprentissage.

16

Mayorga, Ortiz Pedro. "Reconnaissance vocale dans un contexte de voix sur IP : diagnostic et propositions." Grenoble INPG, 2005. http://www.theses.fr/2005INPG0014.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail de thèse a pour but de diagnostiquer les nouveaux défis posés à la reconnaissance vocale dans le contexte récent de la voix sur IP, et de proposer quelques solutions permettant d’y améliorer les performances d’un système de reconnaissance automatique. La première contribution de nos travaux a donc consisté à diagnostiquer le plus précisément possible les problèmes dûs à la compression et à la perte de paquets pour deux tâches de reconnaissance différentes : la reconnaissance automatique de la parole et la reconnaissance automatique du locuteur. A l’issu du diagnostic, nous avons constaté une dégradation plus importante due à la compression sur la tâche de vérification du locuteur. En ce qui concerne la reconnaissance automatique de la parole, la dégradation la plus importante a été provoquée par la perte de paquets. La seconde contribution de cette thèse correspond donc à la proposition de techniques de reconstruction afin d’améliorer la robustesse de systèmes soumis à des conditions de pertes de paquets. Nous proposons aussi d’autres alternatives comme l’adaptation d’un système de reconnaissance automatique de la parole en fonction des pertes de paquets. Les techniques de récupération ont été appliquées sur la base de l’émetteur et sur la base du récepteur. Par ailleurs, nos expérimentations confirment également les avantages d’une « architecture distribuée » où des vecteurs acoustiques transitent sur le réseau depuis le client jusqu’au serveur de reconnaissance, par rapport à une architecture plus classique type « serveur pur » où le signal (ou sa version compressée) transite depuis le terminal client sur le réseau jusqu’à un serveur de reconnaissance
The purpose of This work of thesis is to diagnose the new challenges for the speech recognition in the recent context of the voice over IP, and to propose some solutions making it possible to improve the performances of the automatic recognition systems. The first contribution of our work consequently consisted in diagnosing most precisely possible the problems due to the compression and the packet losses for two different recognition tasks: the automatic speech recognition and automatic speaker recognition. From the diagnosis result, we noted a more important degradation due to the compression on the speaker verification task. With regard to the automatic speech recognition, the most important degradation was caused by the packet losses. The second contribution of this thesis thus corresponds to the proposal for recovering techniques in order to improve the robustness of systems under significant packet losses conditions. The recovery techniques were applied on the basis of transmitter and receiver. The experimental results show that the techniques of interleaving based on the transmitter combined with the interpolation based on the receiver, prove to be the most efficient. In addition, our experiments also confirm the advantages of a "distributed architecture" where acoustic vectors traveling on the network from the client to the recognition server (concept of "distributed speech recognition" proposed by the international organization ETSI), compared to an architecture more traditional type "server pure" where the signal (or its compressed version) travels from the client terminal on the network to the recognition server

17

Pouchoulin, Gilles. "Approche statistique pour l'analyse objective et la caractérisation de la voix dysphonique." Avignon, 2008. http://www.theses.fr/2008AVIG0162.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Toujours à l'heure actuelle, l'évaluation de la qualité de la voix pathologique et des causes de sa dégradation sont la préoccupation clinique principale du corps médical. Face aux limites du jugement auditif du dysfonctionnement vocal, les thérapeutes de la voix ressentent le besoin pressant d’une méthode d’évaluation objective de la qualité de la voix pathologique, complémentaire à l’analyse perceptive. Cette thèse s'inscrit dans ce contexte en s'intéressant à l'adaptation des techniques de Reconnaissance Automatique du Locuteur à la tâche de classification des voix dysphoniques selon le grade de l'échelle GRBAS. Son objectif est d'acquérir une meilleure compréhension des phénomènes acoustiques liés à la dysphonie en assimilant le système de classification automatique à un outil de caractérisation des phénomènes pathologiques dans le signal de parole en vue d'apporter aux experts humains de nouvelles connaissances sur les altérations de la voix. Pour cela, trois axes de recherche sont proposés : (1) une comparaison entre différentes représentations paramétriques du signal de parole (spectrale, cepstrale, prédictive) a montré l'intérêt de l'analyse spectrale dans ce contexte expérimental, ainsi que celui des informations dynamiques. (2) une étude portant sur la manière dont les caractéristiques acoustiques de la dysphonie sont dispersées sur l'ensemble de l'espace fréquentiel a relevé la pertinence de la bande de fréquences [0-3000]Hz. (3) une étude phonétique dont la principale observation concerne la pertinence de la classe des consonnes (notamment des sourdes) exprimant un résultat plutôt inattendu sachant le type de pathologie étudiée. Cette étude a permis au système automatique de remplir pleinement son rôle d'outil caractérisant les phénomènes pathologiques et de mettre en évidence des phénomènes (par exemple le VOT) nécessitant une expertise phonétique et clinique approfondie
Still currently, assessment of the pathological voice quality and the reasons of its deterioration is the main clinical worry of the medical profession. In front of the limits of the auditory judgment of the vocal dysfunction, the voice therapists strongly express the need of an objective method for assessing the quality of the pathological voice, complementary to the perceptual analysis. In this context, this thesis is interested in the adaptation of techniques drawing upon the Automatic Speaker Recognition domain to the dysphonic voice classification task according to the grade of the GRBAS scale. Its objective is to acquire a better understanding of dysphonia by using an automatic classification system as a tool of characterization of associated acoustic phenomena in the speech signal in order to provide experts with novel knowledge on voice degradation. In this way, three research axes are proposed : (1) a comparison between different parametric representations of the speech signal (spectral, cepstral, predictive) showed the interest of the spectral analysis in this experimental context, as well as the relevance of the dynamic information. (2) a study, focusing on the manner in which the acoustic features related to dysphonia are spread on the overall frequency domain, outlined the relevance of the [0-3000]Hz frequency band. (3) a phonetic study which the main observation highlights the relevance of the consonant class (notably of the unvoiced consonants) rather unexpected given the type of studied pathology. This study permitted the automatic system to fulfill its role of a tool characterizing pathological phenomena, and thus putting them in evidence (for example the VOT) for a more extensive phonetic and clinical expertise

18

Ouellet, Simon. "Reconnaissance biométrique de personne utilisant le visage, la voix et la métrologie humaine pour robots mobiles." Mémoire, Université de Sherbrooke, 2016. http://hdl.handle.net/11143/8186.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le but de personnaliser les interactions avec les humains, les robots doivent être capables de reconnaître les personnes avec lesquelles ils interagissent. Que ce soit pour communiquer des informations à une personne spécifique ou seulement pour différencier un homme d’une femme, la reconnaissance de personnes est fondamentale à l’établissement d'une interaction naturelle avec une personne connue ou inconnue. Les différents traits de reconnaissance biométrique, c'est-à-dire l'identification ou l'authentification d'une personne par ses caractéristiques physiques (morphologiques), ont déjà fait leurs preuves dans un environnement contrôlé, comme par exemple par la reconnaissance de visages et de la voix. Avec les avancées technologiques et la venue de caméras RGB-D (e.g., la caméra Microsoft Kinect), il est maintenant possible de détecter la présence de personne à proximité ainsi que les coordonnées des joints de son 'squelette'. Toutes ces capacités ont des limitations qui leur sont propres, et leur complémentarité permet de compenser certaines de ces limitations. Par exemple, la portée limitée de détection pour la reconnaissance de visages et de la voix pourrait par exemple être compensée s'il était possible d'arriver à identifier la présence d'une silhouette humaine. À cette fin, le projet proposé vise à développer un système de reconnaissance biométrique pour un robot mobile afin d'identifier la présence une personne, peu importe son orientation, à partir des mesures métrologiques (e.g., forme corporelle et des mesures anthropomorphiques) du corps. Il serait effectivement possible, à partir de mesures comme la longueur des bras et de la tête, la largeur des épaules et de la tête, etc., de reconnaître un individu. Toutefois, une capacité qui reste à être validée sur un robot mobile est la détection en ligne de silhouettes de personnes à partir d'images 2D. Une des difficultés à résoudre est d'y arriver en un temps de traitement suffisamment court afin de pouvoir dériver cette information lors d'interaction humain-robot. L'approche conçue dans ce mémoire, nommé RHIS pour Real-time Human Identification System, améliore une approche pré-existante qui permet l'extraction de 38 composantes frontales et 22 composantes de côté en 30 sec à partir d'images 2D à une distance de 3 m. Contrairement à cette approche, RHIS permet l'extraction de 45 composantes frontales et 24 composantes de côté en 0.1 sec à des distances variant de 1 m à 6 m. La validation de l'approche se fait en utilisant des fonds de scène uniformes (noir) et réels, à des distances allant de 1 à 6 m. Le système est développé dans l’environnement ROS (Robot Operating System) avec l’utilisation d'une Kinect et d'une caméra haute définition comme source vidéo. Afin de démontrer l'usage de RHIS avec d'autres modalités de reconnaissance biométrique, son intégration avec des modalités de reconnaissance de visages et de la voix est aussi présentée.

19

Kerkeni, Leila. "Analyse acoustique de la voix pour la détection des émotions du locuteur." Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1003.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'objectif de cette thèse est de proposer un système de reconnaissance automatique des émotions (RAE) par analyse de la voix pour une application dans un contexte pédagogique d'orchestration de classe. Ce système s'appuie sur l'extraction de nouvelles caractéristiques, par démodulation en amplitude et en fréquence, de la voix ; considérée comme un signal multi-composantes modulé en amplitude et en fréquence (AM-FM), non-stationnaire et issue d'un système non-linéaire. Cette démodulation est basée sur l’utilisation conjointe de la décomposition en modes empiriques (EMD) et de l’opérateur d’énergie de Teager-Kaiser (TKEO).Dans ce système, le modèle discret (ou catégoriel) a été retenu pour représenter les six émotions de base (la tristesse, la colère, la joie, le dégoût, la peur et la surprise) et l'émotion dite neutre. La reconnaissance automatique a été optimisée par la recherche de la meilleure combinaison de caractéristiques, la sélection des plus pertinentes et par comparaison de différentes approches de classification. Deux bases de données émotionnelles de référence, en allemand et en espagnol, ont servi à entrainer et évaluer ce système. Une nouvelle base de données en Français, plus appropriée pour le contexte pédagogique a été construite, testée et validée
The aim of this thesis is to propose a speech emotion recognition (SER) system for application in classroom. This system has been built up using novel features based on the amplitude and frequency (AM-FM) modulation model of speech signal. This model is based on the joint use of empirical mode decomposition (EMD) and the Teager-Kaiser energy operator (TKEO). In this system, the discrete (or categorical) emotion theory was chosen to represent the six basic emotions (sadness, anger, joy, disgust, fear and surprise) and neutral emotion.Automatic recognition has been optimized by finding the best combination of features, selecting the most relevant ones and comparing different classification approaches. Two reference speech emotional databases, in German and Spanish, were used to train and evaluate this system. A new database in French, more appropriate for the educational context was built, tested andvalidated

20

Luherne, Viviane. "Reconnaissance des visages et des voix émotionnels dans une population adulte avec gliome et après accident vasculaire cérébral." Thesis, Paris 8, 2015. http://www.theses.fr/2015PA080053/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Après avoir longtemps ignoré le domaine des émotions, la neuropsychologie clinique reconnait aujourd’hui son intrication avec le domaine cognitif et son importance dans le suivi des patients cérébrolésés, chez lesquels des difficultés à reconnaître les émotions perturbent la qualité des échanges interpersonnels et la cognition sociale. Cette thèse porte sur la reconnaissance de cinq émotions de base (joie, peur, colère, tristesse, dégoût) et d’une expression neutre dans deux groupes de patients, avec gliome de bas grade et après accident vasculaire cérébral. L’évaluation recourt à deux modalités non verbales visuelles et auditives et une condition intermodale. Pour mieux comprendre le fonctionnement émotionnel des patients avec gliome, nous avons analysé les compétences émotionnelles de trois d’entre eux. Les résultats de nos recherches objectivent des difficultés modérées de reconnaissance des émotions en modalités visuelle et auditive pour les deux populations avec des déficits plus discrets chez les patients avec gliome de bas grade que chez les patients après accident vasculaire cérébral. Ces résultats confirment la pertinence de la théorie d’organisation hodotopique du cerveau pour les processus émotionnels comme pour les autres domaines cognitifs. Le bénéfice comportemental constaté pour les deux groupes en présentation intermodale ne suffit cependant pas toujours à normaliser les résultats, ce qui implique de probables répercussions quotidiennes. Ce travail souligne l’importance de l’évaluation des émotions non seulement reconnues, mais aussi ressenties, dans le suivi des patients cérébrolésés, notamment ceux qui souffrent de tumeurs d’évolution lente
Emotional domain was ignored for a long time, but today clinical neuropsychology acknowledges its overlapping with the cognitive domain and its importance in the follow-up of brain-damage patients, where difficulties in emotion recognition reduce the quality of interpersonal interactions and social cognition. The present thesis focuses on the recognition of five basic emotions (happiness, fear, anger, sadness, disgust) and of a neutral expression in two groups of patients with low-grade gliomas and post-stroke. The experimental protocol, which requires visual and auditory non-verbal processing, also includes a crossmodal condition. Three case studies of patients with gliomas allow us to refine our understanding of their emotional functioning. Our results show moderate visual and auditory difficulties in emotion recognition for both groups, with lower deficits in the glioma group than in the post-stroke group. These results confirm the relevance of a hodotopical view of the brain for emotional processes as in other cognitive domains. However, the behavioral benefit of crossmodal presentation observed in both groups is not sufficient to sustain normal results, which is likely to impact daily life. We highlight the necessity of evaluating emotion recognition as well as emotion experience in brain damage patients, in particular when they suffer from slowly infiltrating tumours

21

Padellini, Marc. "Optimisation d'un schéma de codage de la parole à très bas débit, par indexation d'unités de taille variable." Marne-la-Vallée, 2006. http://www.theses.fr/2006MARN0293.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse a pour but d'étudier un schéma de codage à très bas débit, de l’ordre de 500 bit/s, s’appuyant sur des techniques de reconnaissance et de synthèse vocale. Elle s'inscrit dans la continuité des travaux menés à la fois au cours du projet RNRT SYMPATEX et de la thèse de Cernocky. L’encodeur effectue une reconnaissance d’unités élémentaires de parole à l’aide de modèles de Markov cachés. Le décodeur intègre une approche de synthèse par concaténation d'unités acoustiques. Ce schéma exploite un grand corpus de parole stocké dans le système et organisé en une base de synthèse. L’encodeur y recherche les unités qui représentent au mieux la parole, puis transmet leurs indices ainsi que des paramètres prosodiques. Le décodeur y extrait les unités à concaténer pour restituer la parole. Les problèmes traités au cours de cette thèse portent sur l'amélioration de la qualité générale du schéma de codage. Une approche de sélection dynamique des unités est proposée à cet effet. De plus, le fonctionnement du schéma a été étendu à des conditions réalistes d'utilisation. Ainsi, le schéma est étudié dans plusieurs environnements bruyants et une méthode d’adaptation au bruit est proposée. L’extension au mode indépendant du locuteur est réalisée par un apprentissage conjoint sur un grand nombre de locuteurs, associé à une classification hiérarchique des locuteurs permettant de constituer un jeu de bases de synthèse proche du locuteur à coder. Enfin, la complexité du schéma est analysée et une méthode de compression de la base de synthèse est proposée
This thesis aims at studying a speech coding scheme operating at a very low bit rate, around 500 bits/s, relying on speech recognition and speech synthesis techniques. It follows the work carried out by the RNRT project SYMPATEX and Cernocky’s [1] thesis. On one hand, elementary speech units are recognized by the coder, using Hidden Markov Models. On the other hand, a concatenative speech synthesis is used in the decoder. This system takes advantage of a large speech corpus stored in the system, and organized in a synthesis database. The encoder looks up in the corpus the units that best fit the speech to be encoded, then unit indexes and prosodic parameters are transmitted. The decoder retrieves in the database the units to be concatenated. This thesis deals with issues on the overall speech quality of the encoding scheme. A dynamic unit selection is proposed to this purpose. Furthermore, the scheme has been extended to operate under realistic conditions. Noisy environments have been studied, and a noise adaptation module was created. Extension to speaker independent mode is achieved by training the system on a large number of speakers, and using a hierarchic classification of speakers to create a set of synthesis databases which is close to the test speaker. Finally, complexity of the whole scheme is analyzed, and a method to compress the database is proposed

22

Tahon, Marie. "Analyse acoustique de la voix émotionnelle de locuteurs lors d'une interaction humain-robot." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00780341.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Mes travaux de thèse s'intéressent à la voix émotionnelle dans un contexte d'interaction humain-robot. Dans une interaction réaliste, nous définissons au moins quatre grands types de variabilités : l'environnement (salle, microphone); le locuteur, ses caractéristiques physiques (genre, âge, type de voix) et sa personnalité; ses états émotionnels; et enfin le type d'interaction (jeu, situation d'urgence ou de vie quotidienne). A partir de signaux audio collectés dans différentes conditions, nous avons cherché, grâce à des descripteurs acoustiques, à imbriquer la caractérisation d'un locuteur et de son état émotionnel en prenant en compte ces variabilités.Déterminer quels descripteurs sont essentiels et quels sont ceux à éviter est un défi complexe puisqu'il nécessite de travailler sur un grand nombre de variabilités et donc d'avoir à sa disposition des corpus riches et variés. Les principaux résultats portent à la fois sur la collecte et l'annotation de corpus émotionnels réalistes avec des locuteurs variés (enfants, adultes, personnes âgées), dans plusieurs environnements, et sur la robustesse de descripteurs acoustiques suivant ces quatre variabilités. Deux résultats intéressants découlent de cette analyse acoustique: la caractérisation sonore d'un corpus et l'établissement d'une liste "noire" de descripteurs très variables. Les émotions ne sont qu'une partie des indices paralinguistiques supportés par le signal audio, la personnalité et le stress dans la voix ont également été étudiés. Nous avons également mis en oeuvre un module de reconnaissance automatique des émotions et de caractérisation du locuteur qui a été testé au cours d'interactions humain-robot réalistes. Une réflexion éthique a été menée sur ces travaux.

23

Ardaillon, Luc. "Synthesis and expressive transformation of singing voice." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066511/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le but de cette thèse était de conduire des recherches sur la synthèse et transformation expressive de voix chantée, en vue de pouvoir développer un synthétiseur de haute qualité capable de générer automatiquement un chant naturel et expressif à partir d’une partition et d’un texte donnés. 3 directions de recherches principales peuvent être identifiées: les méthodes de modélisation du signal afin de générer automatiquement une voix intelligible et naturelle à partir d’un texte donné; le contrôle de la synthèse, afin de produire une interprétation d’une partition donnée tout en transmettant une certaine expressivité liée à un style de chant spécifique; la transformation du signal vocal afin de le rendre plus naturel et plus expressif, en faisant varier le timbre en adéquation avec la hauteur, l’intensité et la qualité vocale. Cette thèse apporte diverses contributions dans chacune de ces 3 directions. Tout d’abord, un système de synthèse complet a été développé, basé sur la concaténation de diphones. L’architecture modulaire de ce système permet d’intégrer et de comparer différent modèles de signaux. Ensuite, la question du contrôle est abordée, comprenant la génération automatique de la f0, de l’intensité, et des durées des phonèmes. La modélisation de styles de chant spécifiques a également été abordée par l’apprentissage des variations expressives des paramètres de contrôle modélisés à partir d’enregistrements commerciaux de chanteurs célèbres. Enfin, des investigations sur des transformations expressives du timbre liées à l'intensité et à la raucité vocale ont été menées, en vue d'une intégration future dans notre synthétiseur
This thesis aimed at conducting research on the synthesis and expressive transformations of the singing voice, towards the development of a high-quality synthesizer that can generate a natural and expressive singing voice automatically from a given score and lyrics. Mainly 3 research directions can be identified: the methods for modelling the voice signal to automatically generate an intelligible and natural-sounding voice according to the given lyrics; the control of the synthesis to render an adequate interpretation of a given score while conveying some expressivity related to a specific singing style; the transformation of the voice signal to improve its naturalness and add expressivity by varying the timbre adequately according to the pitch, intensity and voice quality. This thesis provides some contributions in each of those 3 directions. First, a fully-functional synthesis system has been developed, based on diphones concatenations. The modular architecture of this system allows to integrate and compare different signal modeling approaches. Then, the question of the control is addressed, encompassing the automatic generation of the f0, intensity, and phonemes durations. The modeling of specific singing styles has also been addressed by learning the expressive variations of the modeled control parameters on commercial recordings of famous French singers. Finally, some investigations on expressive timbre transformations have been conducted, for a future integration into our synthesizer. This mainly concerns methods related to intensity transformation, considering the effects of both the glottal source and vocal tract, and the modeling of vocal roughness

24

Tahon, Marie. "Analyse acoustique de la voix émotionnelle de locuteurs lors d’une interaction humain-robot." Thesis, Paris 11, 2012. http://www.theses.fr/2012PA112275/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Mes travaux de thèse s'intéressent à la voix émotionnelle dans un contexte d'interaction humain-robot. Dans une interaction réaliste, nous définissons au moins quatre grands types de variabilités : l'environnement (salle, microphone); le locuteur, ses caractéristiques physiques (genre, âge, type de voix) et sa personnalité; ses états émotionnels; et enfin le type d'interaction (jeu, situation d'urgence ou de vie quotidienne). A partir de signaux audio collectés dans différentes conditions, nous avons cherché, grâce à des descripteurs acoustiques, à imbriquer la caractérisation d'un locuteur et de son état émotionnel en prenant en compte ces variabilités.Déterminer quels descripteurs sont essentiels et quels sont ceux à éviter est un défi complexe puisqu'il nécessite de travailler sur un grand nombre de variabilités et donc d'avoir à sa disposition des corpus riches et variés. Les principaux résultats portent à la fois sur la collecte et l'annotation de corpus émotionnels réalistes avec des locuteurs variés (enfants, adultes, personnes âgées), dans plusieurs environnements, et sur la robustesse de descripteurs acoustiques suivant ces quatre variabilités. Deux résultats intéressants découlent de cette analyse acoustique: la caractérisation sonore d'un corpus et l'établissement d'une liste "noire" de descripteurs très variables. Les émotions ne sont qu'une partie des indices paralinguistiques supportés par le signal audio, la personnalité et le stress dans la voix ont également été étudiés. Nous avons également mis en oeuvre un module de reconnaissance automatique des émotions et de caractérisation du locuteur qui a été testé au cours d'interactions humain-robot réalistes. Une réflexion éthique a été menée sur ces travaux
This thesis deals with emotional voices during a human-robot interaction. In a natural interaction, we define at least, four kinds of variabilities: environment (room, microphone); speaker, its physic characteristics (gender, age, voice type) and personality; emotional states; and finally the kind of interaction (game scenario, emergency, everyday life). From audio signals collected in different conditions, we tried to find out, with acoustic features, to overlap speaker and his emotional state characterisation taking into account these variabilities.To find which features are essential and which are to avoid is hard challenge because it needs to work with a high number of variabilities and then to have riche and diverse data to our disposal. The main results are about the collection and the annotation of natural emotional corpora that have been recorded with different kinds of speakers (children, adults, elderly people) in various environments, and about how reliable are acoustic features across the four variabilities. This analysis led to two interesting aspects: the audio characterisation of a corpus and the drawing of a black list of features which vary a lot. Emotions are ust a part of paralinguistic features that are supported by the audio channel, other paralinguistic features have been studied such as personality and stress in the voice. We have also built automatic emotion recognition and speaker characterisation module that we have tested during realistic interactions. An ethic discussion have been driven on our work

25

Aman, Frédéric. "Reconnaissance automatique de la parole de personnes âgées pour les services d'assistance à domicile." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM095/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le contexte du vieillissement de la population, le but de cette thèse est d'inclure au domicile des personnes âgées un système de reconnaissance automatique de la parole (RAP) capable de reconnaître des appels de détresse pour alerter les secours. Les modèles acoustiques des systèmes de RAP sont généralement appris avec de la parole non âgée, prononcé de façon neutre et lue. Or, dans notre contexte, nous sommes loin de ces conditions idéales (voix âgée et émue), et le système doit donc être adapté à la tâche. Notre travail s’appuie sur des corpus de voix âgées et d'appels de détresse que nous avons enregistrés. A partir de ces corpus, une étude sur les différences entre voix jeunes/âgées d'une part, et entre voix neutre/émue d'autre part nous ont permis de développer un système de RAP adapté à la tâche. Celui-ci a ensuite été évalué sur des données issues d'une expérimentation en situation réaliste incluant des chutes jouées
In the context of the aging population, the aim of this thesis is to include in the living environment of the elderly people an automatic speech recognition (ASR) system, which can recognize calls to alert the emergency services. The acoustic models of ASR systems are mostly learned with non-elderly speech, delivered in a neutral way, and read. However, in our context, we are far from these ideal conditions (aging and expressive voice). So, our system must be adapted to the task. For our work, we recorded corpora made of elderly voices and distress calls. From these corpora, a study on the differences between young and old voices, and between neutral and emotional voice permit to develop an ASR system adapted to the task. This system was then evaluated on data recorded during an experiment in realistic situation, including falls played by volunteers

26

Ardaillon, Luc. "Synthesis and expressive transformation of singing voice." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066511.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le but de cette thèse était de conduire des recherches sur la synthèse et transformation expressive de voix chantée, en vue de pouvoir développer un synthétiseur de haute qualité capable de générer automatiquement un chant naturel et expressif à partir d’une partition et d’un texte donnés. 3 directions de recherches principales peuvent être identifiées: les méthodes de modélisation du signal afin de générer automatiquement une voix intelligible et naturelle à partir d’un texte donné; le contrôle de la synthèse, afin de produire une interprétation d’une partition donnée tout en transmettant une certaine expressivité liée à un style de chant spécifique; la transformation du signal vocal afin de le rendre plus naturel et plus expressif, en faisant varier le timbre en adéquation avec la hauteur, l’intensité et la qualité vocale. Cette thèse apporte diverses contributions dans chacune de ces 3 directions. Tout d’abord, un système de synthèse complet a été développé, basé sur la concaténation de diphones. L’architecture modulaire de ce système permet d’intégrer et de comparer différent modèles de signaux. Ensuite, la question du contrôle est abordée, comprenant la génération automatique de la f0, de l’intensité, et des durées des phonèmes. La modélisation de styles de chant spécifiques a également été abordée par l’apprentissage des variations expressives des paramètres de contrôle modélisés à partir d’enregistrements commerciaux de chanteurs célèbres. Enfin, des investigations sur des transformations expressives du timbre liées à l'intensité et à la raucité vocale ont été menées, en vue d'une intégration future dans notre synthétiseur
This thesis aimed at conducting research on the synthesis and expressive transformations of the singing voice, towards the development of a high-quality synthesizer that can generate a natural and expressive singing voice automatically from a given score and lyrics. Mainly 3 research directions can be identified: the methods for modelling the voice signal to automatically generate an intelligible and natural-sounding voice according to the given lyrics; the control of the synthesis to render an adequate interpretation of a given score while conveying some expressivity related to a specific singing style; the transformation of the voice signal to improve its naturalness and add expressivity by varying the timbre adequately according to the pitch, intensity and voice quality. This thesis provides some contributions in each of those 3 directions. First, a fully-functional synthesis system has been developed, based on diphones concatenations. The modular architecture of this system allows to integrate and compare different signal modeling approaches. Then, the question of the control is addressed, encompassing the automatic generation of the f0, intensity, and phonemes durations. The modeling of specific singing styles has also been addressed by learning the expressive variations of the modeled control parameters on commercial recordings of famous French singers. Finally, some investigations on expressive timbre transformations have been conducted, for a future integration into our synthesizer. This mainly concerns methods related to intensity transformation, considering the effects of both the glottal source and vocal tract, and the modeling of vocal roughness

27

Perrotin, Olivier. "Chanter avec les mains : interfaces chironomiques pour les instruments de musique numériques." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112207/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le travail de cette thèse porte sur l'étude du contrôle en temps réel de synthèse de voix chantée par une tablette graphique dans le cadre de l'instrument de musique numérique Cantor Digitalis.La pertinence de l'utilisation d'une telle interface pour le contrôle de l'intonation vocale a été traitée en premier lieu, démontrant que la tablette permet un contrôle de la hauteur mélodique plus précis que la voix réelle en situation expérimentale.Pour étendre la justesse du jeu à toutes situations, une méthode de correction dynamique de l'intonation a été développée, permettant de jouer en dessous du seuil de perception de justesse et préservant en même temps l'expressivité du musicien. Des évaluations objective et perceptive ont permis de valider l'efficacité de cette méthode.L'utilisation de nouvelles interfaces pour la musique pose la question des modalités impliquées dans le jeu de l'instrument. Une troisième étude révèle une prépondérance de la perception visuelle sur la perception auditive pour le contrôle de l'intonation, due à l'introduction d'indices visuels sur la surface de la tablette. Néanmoins, celle-ci est compensée par l'important pouvoir expressif de l'interface.En effet, la maîtrise de l'écriture ou du dessin dès l'enfance permet l'acquisition rapide d'un contrôle expert de l'instrument. Pour formaliser ce contrôle, nous proposons une suite de gestes adaptés à différents effets musicaux rencontrés dans la musique vocale. Enfin, une pratique intensive de l'instrument est réalisée au sein de l'ensemble Chorus Digitalis à des fins de test et de diffusion. Un travail de recherche artistique est conduit tant dans la mise en scène que dans le choix du répertoire musical à associer à l'instrument. De plus, un retour visuel dédié au public a été développé, afin d'aider à la compréhension du maniement de l'instrument
This thesis deals with the real-time control of singing voice synthesis by a graphic tablet, based on the digital musical instrument Cantor Digitalis.The relevance of the graphic tablet for the intonation control is first considered, showing that the tablet provides a more precise pitch control than real voice in experimental conditions.To extend the accuracy of control to any situation, a dynamic pitch warping method for intonation correction is developed. It enables to play under the pitch perception limens preserving at the same time the musician's expressivity. Objective and perceptive evaluations validate the method efficiency.The use of new interfaces for musical expression raises the question of the modalities implied in the playing of the instrument. A third study reveals a preponderance of the visual modality over the auditive perception for the intonation control, due to the introduction of visual clues on the tablet surface. Nevertheless, this is compensated by the expressivity allowed by the interface.The writing or drawing ability acquired since early childhood enables a quick acquisition of an expert control of the instrument. An ensemble of gestures dedicated to the control of different vocal effects is suggested.Finally, an intensive practice of the instrument is made through the Chorus Digitalis ensemble, to test and promote our work. An artistic research has been conducted for the choice of the Cantor Digitalis' musical repertoire. Moreover, a visual feedback dedicated to the audience has been developed, extending the perception of the players' pitch and articulation

28

Péron, Julie. "Rôle du noyau sous-thalamique et de ses connexions cortico-sous-corticales dans la reconnaissance des émotions communiquées par le visage et par la voix." Rennes 1, 2008. http://www.theses.fr/2008REN1B118.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif était d’étudier l’implication du NST dans la reconnaissance des émotions en utilisant le modèle de la stimulation cérébrale profonde (SCP) dans la maladie de Parkinson (MP). Nous avons tout d’abord comparé les capacités de reconnaissance des expressions faciales émotionnelles (EFE) de 24 patients MP avant et après la SCP du NST. Les patients étaient spécifiquement déficitaires pour reconnaître les EFE de peur et de tristesse en condition post-opératoire (étude 1). Nous avons ensuite observé que ces modifications émotionnelles étaient corrélées à des modifications du métabolisme glucidique cérébral (18FDG-TEP) dans l’amygdale et le cortex orbito-frontal (étude 2). Enfin, nous avons montré que les patients présentaient également un biais de traitement émotionnel pour la peur et la tristesse lorsque les émotions étaient véhiculées par la voix humaine (étude 3). Ces résultats supportent l’hypothèse selon laquelle le NST serait une structure clé dans le circuit limbique.

29

Tranquart, Nicolas. "Plateforme de test de qualité vocale et étude de faisabilité de tests subjectifs en dialogue contrôlé avec sujet virtuel." Versailles-St Quentin en Yvelines, 2011. http://www.theses.fr/2011VERS0053.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

De manière générale, le nombre des méthodes d’évaluation de la qualité de parole objective et subjective s’est accru de manière significative durant cette dernière décennie avec l’avènement des réseaux mobiles de 2ième puis 3ième génération, puis de la voix sur IP. Cependant, devant les nombreuses limitations des méthodes objectives actuelles, l’intérêt des tests subjectifs n’est pas remis en cause, d’autant que leurs méthodologies sont maintenant relativement abouties et précises. Malgré tout, leur mise en œuvre reste lourde, coûteuse en temps, et ne permet pas nécessairement de pouvoir discriminer suffisamment les différentes conditions de test. Dans ce contexte, afin de répondre aux besoins de l’industriel, cette thèse porte sur deux axes. D’une part, développer une plateforme de test de qualité vocale objectif et subjectif répondant aux demandes suivantes : 1°) Mise en œuvre de tests subjectifs d’écoute, conversationnel, et en double parole conformes aux recommandations ITU-T respectives, 2°) Faciliter la reproductibilité des tests, par la maîtrise et la répétitivité des conditions de test. 3°) Réduire le temps de réalisation d’une campagne de tests sans pour autant changer la méthodologie. 4°) Augmenter la discrimination entre les différents cas de tests. 5°) Permettre par la réalisation simultanée de tests subjectifs et objectifs, de mieux « benchmarker » et étudier les nouvelles implémentations de méthodes objectives intrusives. D’autre part, étudier la faisabilité de tests subjectifs en dialogue contrôlé avec sujet virtuel, permettant d’offrir une meilleure flexibilité, une seule personne étant nécessaire pour des tests subjectifs conversationnel
Generally speaking, the number of speech quality assessment methods, including objective methods has increased significantly over the past decade with the apparition of 2nd and 3rd generation mobile networks and Voice over IP. However, due to all of these limitations of current objective methods, the interest of subjective tests is not challenged, especially since their methodologies are now relatively successful and accurate Nevertheless, their implementation remains expansive due to a huge time and cost consuming, and can not necessarily be able to discriminate sufficiently different test conditions. In this context, to meet the needs of the industry, this thesis focuses on two axes. First of all, develop a test platform for objective and subjective voice quality meets the following requirements : 1°) Implementation of subjective listening tests, conversational, and double talk in accordance with the corresponding ITU-T recommendations. 2°) Facilitate the reproducibility of tests, for controlling and repeatability of the tests conditions. 3°) Reduce the time for a test campaign without changing the methodology. 4°) Increase the discrimination between the different test cases. 5°) Allow the simultaneous running of subjective and objective tests, to better benchmark and review new implementations of objective intrusive methods. On the other hand, study the feasibility of subjective tests in controlled dialogue with virtual subject, to offer a better flexibility, more than one person being needed for conversational subjective tests

30

Ambert-Dahan, Emmanuèle. "Perception des émotions non verbales dans la musique, les voix et les visages chez les adultes implantés cochléaires présentant une surdité évolutive." Thesis, Lille 3, 2014. http://www.theses.fr/2014LIL30027/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le bénéfice de l’implant cochléaire pour la compréhension de la parole en milieu calme, et même dans certains cas pour des situations auditives complexes telles que les environnements bruyants ou l’écoute de la musique est aujourd’hui connu. Si la compréhension de la parole est nécessaire à la communication, la perception des informations non verbales transmises par la voix de même que des expressions faciales est fondamentale pour interpréter le message d’un interlocuteur. Les capacités de perception des émotions non verbales en cas de surdité neurosensorielle évolutive ont été très peu explorées. Les travaux menés dans cette thèse ont pour objectifs d’évaluer la reconnaissance des émotions non verbales dans les modalités auditive et visuelle afin de mettre en évidence d’éventuelles spécificités chez les adultes présentant une surdité évolutive. Pour cela, nous avons réalisé quatre études comportementales dans lesquelles nous avons comparé leurs performances à celles de sujets contrôles normo-entendants. Nous avons évalué le jugement des émotions portées par la musique, la voix et les visages à partir d’un paradigme expérimental impliquant la reconnaissance de catégories émotionnelles (i.e. joie, peur, tristesse...) et la perception des dimensions de valence et d’éveil de l’émotion exprimée. Les études 1 et 2 ont porté sur la reconnaissance des émotions auditives après implantation cochléaire en examinant tour à tour la reconnaissance des émotions portées par la musique et la reconnaissance de celles portées par la voix. Les études 3 et 4 ont porté sur la reconnaissance des émotions visuelles et, en particulier, des expressions faciales avant et après implantation cochléaire. Les résultats de ces études révèlent l’existence d’un déficit de reconnaissance des émotions plus marqué dans le domaine musical et vocal que facial. Il apparaît aussi une perturbation des jugements d'éveil, les stimuli étant perçus moins excitants par les patients que par les normo-entendants. Toutefois, la reconnaissance des voix et des musiques, bien que limitée, était supérieure au niveau du hasard démontrant les bénéfices de l'implant cochléaire pour le traitement des émotions auditives. En revanche, quelle que soit la modalité étudiée, les jugements de valence n'étaient pas altérés. De manière surprenante, les données de ces recherches suggèrent de plus que, chez une partie des patients testés, la reconnaissance des émotions faciales peut être affectée par la survenue d'une surdité évolutive suggérant les conséquences de la perte auditive sur le traitement des émotions présentées dans une autre modalité. En conclusion, il semblerait que la surdité, de même que l'insuffisance d’informations spectrales transmises par l’implant cochléaire, favorisent l'utilisation de la communication verbale au détriment de la communication non verbale
While cochlear implantation is quite successful in restoring speech comprehension in quiet environments other auditory tasks, such as communication in noisy environments or music perception remain very challenging for cochlear implant (CI) users. Communication involves multimodal perception since information is transmitted by vocal and facial expressions which are crucial to interpret speaker’s emotional state. Indeed, very few studies have examined perception of non verbal emotions in case of progressive neurosensorial hearing loss in adults. The aim of this thesis was to test the influence of rehabilitation by CI after acquired deafness on emotional judgment of musical excerpts and in non verbal voices. We also examined the influence of acquired post-lingual progressive deafness on emotional judgment of faces. For this purpose, we conducted four experimental studies in which performances of deaf and cochlear implanted subjects were compared to those of normal hearing controls. To assess emotional judgment in music, voices and faces, we used a task that consisted of emotional categories identification (happiness, fear, anger or peacefulness for music and neutral) and dimensional judgment of valence and arousal. The first two studies evaluated emotional perception in auditory modality by successively examining recognition of emotions in music and voices. The two following studies focused on emotion recognition in visual modality, particularly on emotional facial expressions before and after cochlear implantation. Results of these studies revealed greater deficits in emotion recognition in the musical and vocal than visual domains as well as a disturbance of arousal judgments, stimuli being perceived less exciting by CI patients as compared to NH subjects. Yet, recognition of emotions in music and voices, although limited, was performed above chance level demonstrating CI benefits for auditory emotions processing. Conversely, valence judgments were not impaired in music, vocal and facial emotional tests. Surprisingly, results of these studies suggest that, at least for a sub-group of patients, recognition of facial emotions is affected by acquired deafness indicating the consequences of progressive hearing loss in processing emotion presented in another modality. Thus, it seems that progressive deafness as well as the lack of spectral cues transmitted by the cochlear implant might foster verbal communication to the detriment of the non verbal emotional communication

31

Ouni, Slim. "Modélisation de l'espace articulatoire par un codebook hypercubique pour l'inversion acoustico-articulatoire." Nancy 1, 2001. http://www.theses.fr/2001NAN10210.

Full text

APA, Harvard, Vancouver, ISO, and other styles

32

Aglieri, Virginia. "Behavioural and neural inter-individual variability in voice perception processes." Thesis, Aix-Marseille, 2018. http://www.theses.fr/2018AIXM0176/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Chez l'homme, la voix facilite les interactions sociales par la transmission d’informations sur l'identité de la personne, ses émotions ou sa personnalité. En particulier, l'identité du locuteur peut être automatiquement extraite même lorsque le message et l'état émotionnel varient, ce qui suggère des mécanismes cognitifs et cérébraux partiellement dissociables pour ces processus. Cependant, la reconnaissance d'une voix familière ou la discrimination entre deux locuteurs sont, pour certains sujets, non seulement non-automatiques, mais même impossibles. Ce déficit, lorsqu'il se manifeste dès la naissance, est appelé phonagnosie du développement et constitue la contrepartie auditive de la prosopagnosie (déficit de reconnaissance des visages). Dans le domaine visuel, il a été proposé que les sujets affectés par la prosopagnosie du développement représentent des cas extrêmes dans la distribution des capacités de reconnaissance de visages. A l’inverse, des "super-reconnaisseurs" des visages se situaient à l’opposé de cette distribution.Comme la distribution des capacités de reconnaissance de la voix dans la population générale était encore inconnue, le premier objectif de cette thèse a été d'en étudier les différences individuelles au moyen d'un court test - le Glasgow Voice Memory Test (GVMT). Les résultats obtenus ont reflété une large variabilité interindividuelle dans les capacités de reconnaissance des voix: parmi une cohorte de 1120 sujets, il y avait à la fois des sujets avec des performances significativement en dessous de la moyenne (potentiels phonagnosiques) et des "super-reconnaisseurs" des voix. Cette variabilité individuelle comportementale semblerait se refléter au niveau cérébral, comme révélés par l'imagerie par résonance magnétique fonctionnelle (IRMf) : en fait, il a été montré précédemment qu'il existait une variabilité interindividuelle considérable dans le signal BOLD (blood-oxygen level dependent) lié à la voix dans les zones temporales de la voix (TVAs). Ces régions sont situées sur le bord supérieur des sulcus/gyrus temporal supérieur (STS/STG) et montrent une activation préférentielle pour les sons vocaux plutôt que non vocaux. Le deuxième objectif de ce travail fut de mieux caractériser le lien entre les mécanismes comportementaux et neuronaux sous-tendant la variabilité interindividuelle dans les processus de reconnaissance des voix. Pour cela, nous avons examiné comment la perception de la voix modulait la connectivité fonctionnelle entre les TVAs, constituant le "noyau" du réseau de perception de la voix, et les régions frontales également sensibles aux voix, constituant une extension de ce réseau. Les résultats ont montré qu'il y avait une connectivité fonctionnelle positive dans l'ensemble du réseau et que la connectivité fonctionnelle fronto-temporelle et fronto-frontale droite augmentait avec les scores obtenus lors du GVMT.Pour compléter ce travail, nous avons réalisé une autre étude IRMf en utilisant des analyses multivariées, afin de clarifier les corrélats neuronaux de la reconnaissance du locuteur mais aussi le lien entre sensibilité cérébrale à la voix et capacités de reconnaissance du locuteur. Pour cela, des sujets ayant des capacités de reconnaissance vocale hétérogènes ont été soumis à la fois à une tâche d'identification du locuteur et à une tâche d'écoute passive de sons vocaux et non vocaux. Les résultats ont confirmé que l’identification du locuteur s’effectuait via un réseau étendu de régions, incluant les TVAs mais aussi des régions frontales. De plus, nous avons observé que le score de classification voix/non-voix dans le STS droit permettait de prédire les capacités d'identification des locuteurs.Dans l'ensemble, ces résultats suggèrent que les capacités de reconnaissance vocale varient considérablement d'un individu à l'autre et que cette variabilité pourrait être le reflet de profils d’activité cérébrale différents au sein du réseau de la perception de la voix
In humans, voice conveys heterogeneous information such as speaker’s identity, which can be automatically extracted even when language content and emotional state vary. We hypothesized that the ability to recognize a speaker considerably varied across the population, as previously observed for face recognition. To test this hypothesis, a short voice recognition test was delivered to 1120 subjects in order to observe how voice recognition abilities were distributed in the general population. Since it has been previously observed that there exists a considerable inter-individual variability in voice-elicited activity in temporal voice areas (TVAs), regions along the superior temporal sulcus/gyrus (STS/STG) that show preferentially activation for voices than other sounds, the second aim of this work was then to better characterize the link between the behavioral and neural mechanisms underlying inter-individual variability in voice recognition processes through functional magnetic resonance imaging (fMRI). The results of a first fMRI study showed that functional connectivity between frontal and temporal voice sensitive regions increased with voice recognition scores obtained at a voice recognition test. Another fMRI study showed that speaker’s identity was treated in an extended network of regions, including TVAs but also frontal regions and that voice/non-voice classification accuracy in right STS increased with speaker identification abilities. Altogether, these results suggest that voice recognition abilities considerably vary across subjects and that this variability can be mirrored by different neural profiles within the voice perception network

33

Sliwa, Julia. "Représentation des individus par le macaque Rhésus : approche neurophysiologique et comportementale." Phd thesis, Université Claude Bernard - Lyon I, 2012. http://tel.archives-ouvertes.fr/tel-00979701.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous possédons la faculté de reconnaître individuellement des centaines d'individus. Ceci nous permet d'évoluer dans une société complexe dont l'organisation est en partie forgée par les relations interindividuelles. La reconnaissance individuelle peut être réalisée par l'identification de divers éléments distincts, comme le visage ou la voix, qui forment chez l'Homme une seule représentation conceptuelle de l'identité de la personne. Nous avons démontré que les singes rhésus, comme les humains, reconnaissent individuellement leurs congénères familiers, mais également les individus humains connus. Ceci montre que la reconnaissance fine est une compétence partagée par un éventail d'espèces de primates pouvant servir de fondement à la vie en réseaux sociaux sophistiqués, et également que le cerveau s'adapte de façon flexible pour reconnaître les individus d'autres espèces lorsque ceux-ci ont une importance socioécologique. Par la suite, au niveau neuronal, ce projet a mis en lumière que les connaissances sociales concernant autrui sont représentées par les neurones hippocampiques ainsi que par les neurones inférotemporaux. Ainsi nous avons observé l'existence de neurones sélectifs aux visages non seulement dans le cortex inferotemporal, comme ceci a été décrit précédemment, mais également dans l'hippocampe. La comparaison des propriétés de ces neurones au sein de ces deux structures, suggère que les deux régions joueraient des rôles complémentaires au cours de la reconnaissance individuelle. Enfin, parce que l'hippocampe est une structure qui a évolué à des degrés divers chez différents mammifères pour soutenir la mémoire autobiographique et les représentations spatiales, la caractérisation des différents types de neurones et de leur connectivité a fourni un cadre commun pour comparer les fonctions de l'hippocampe à travers les espèces

34

Jamet, Éric. "L'organisation des étapes de traitement de l'information pendant la dénomination : apports de l'amorçage phonologique." Rennes 2, 1995. http://www.theses.fr/1995REN20015.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La lecture à voix haute d'un mot nécessite plus de temps que la dénomination d'une image. Des travaux issus d'axes de recherches divers suggèrent que les informations sémantiques et phonologiques seraient disponibles de façon différenciée pour les mots et les dessins. Nous proposons ici une série d'expériences où amorçage phonologique et amorçage sémantique sont utilises. Les données mettent en évidence le fait que l'accès phonologique est réalisé de manière postérieure codage sémantique pour les images, mais que ces deux étapes sont réalisées partiellement en parallèle
Picture naming requires more time than word naming. A number of independant line of research have suggested that semantic and phonological information become avaible differentially for pictures and words. We report here a series of experiments in which semantic and phonological priming were used. The data show that, for pictures, phonological coding is accessible only after semantic processing but that these two codes are realised partially in a parallel way

35

Ajili, Moez. "Reliability of voice comparison for forensic applications." Thesis, Avignon, 2017. http://www.theses.fr/2017AVIG0223/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans les procédures judiciaires, des enregistrements de voix sont de plus en plus fréquemment présentés comme élément de preuve. En général, il est fait appel à un expert scientifique pour établir si l’extrait de voix en question a été prononcé par un suspect donné (prosecution hypothesis) ou non (defence hypothesis). Ce prosessus est connu sous le nom de “Forensic Voice Comparison (FVC)” (comparaison de voix dans le cadre judiciaire). Depuis l’émergence du modèle DNA typing, l’approche Bayesienne est devenue le nouveau “golden standard” en sciences criminalistiques. Dans cette approche, l’expert exprime le résultat de son analyse sous la forme d’un rapport de vraisemblance (LR). Ce rapport ne favorise pas seulement une des hypothèses (“prosecution” ou “defence”) mais il fournit également le poids de cette décision. Bien que le LR soit théoriquement suffisant pour synthétiser le résultat, il est dans la pratique assujetti à certaines limitations en raison de son processus d’estimation. Cela est particulièrement vrai lorsque des systèmes de reconnaissance automatique du locuteur (ASpR) sont utilisés. Ces systèmes produisent un score dans toutes les situations sans prendre en compte les conditions spécifiques au cas étudié. Plusieurs facteurs sont presque toujours ignorés par le processus d’estimation tels que la qualité et la quantité d’information dans les deux enregistrements vocaux, la cohérence de l’information entre les deux enregistrements, leurs contenus phonétiques ou encore les caractéristiques intrinsèques des locuteurs. Tous ces facteurs mettent en question la notion de fiabilité de la comparaison de voix dans le cadre judiciaire. Dans cette thèse, nous voulons adresser cette problématique dans le cadre des systèmes automatiques (ASpR) sur deux points principaux. Le premier consiste à établir une échelle hiérarchique des catégories phonétiques des sons de parole selon la quantité d’information spécifique au locuteur qu’ils contiennent. Cette étude montre l’importance du contenu phonétique: Elle met en évidence des différences intéressantes entre les phonèmes et la forte influence de la variabilité intra-locuteurs. Ces résultats ont été confirmés par une étude complémentaire sur les voyelles orales basée sur les paramètres formantiques, indépendamment de tout système de reconnaissance du locuteur. Le deuxième point consiste à mettre en œuvre une approche afin de prédire la fiabilité du LR à partir des deux enregistrements d’une comparaison de voix sans recours à un ASpR. À cette fin, nous avons défini une mesure d’homogénéité (NHM) capable d’estimer la quantité d’information et l’homogénéité de cette information entre les deux enregistrements considérés. Notre hypothèse ainsi définie est que l’homogénéité soit directement corrélée avec le degré de fiabilité du LR. Les résultats obtenus ont confirmé cette hypothèse avec une mesure NHM fortement corrélée à la mesure de fiabilité du LR. Nos travaux ont également mis en évidence des différences significatives du comportement de NHM entre les comparaisons cibles et les comparaisons imposteurs. Nos travaux ont montré que l’approche “force brute” (reposant sur un grand nombre de comparaisons) ne suffit pas à assurer une bonne évaluation de la fiabilité en FVC. En effet, certains facteurs de variabilité peuvent induire des comportements locaux des systèmes, liés à des situations particulières. Pour une meilleure compréhension de l’approche FVC et/ou d’un système ASpR, il est nécessaire d’explorer le comportement du système à une échelle aussi détaillée que possible (le diable se cache dans les détails)
It is common to see voice recordings being presented as a forensic trace in court. Generally, a forensic expert is asked to analyse both suspect and criminal’s voice samples in order to indicate whether the evidence supports the prosecution (same-speaker) or defence (different-speakers) hypotheses. This process is known as Forensic Voice Comparison (FVC). Since the emergence of the DNA typing model, the likelihood-ratio (LR) framework has become the new “golden standard” in forensic sciences. The LR not only supports one of the hypotheses but also quantifies the strength of its support. However, the LR accepts some practical limitations due to its estimation process itself. It is particularly true when Automatic Speaker Recognition (ASpR) systems are considered as they are outputting a score in all situations regardless of the case specific conditions. Indeed, several factors are not taken into account by the estimation process like the quality and quantity of information in both voice recordings, their phonological content or also the speakers intrinsic characteristics, etc. All these factors put into question the validity and reliability of FVC. In this Thesis, we wish to address these issues. First, we propose to analyse how the phonetic content of a pair of voice recordings affects the FVC accuracy. We show that oral vowels, nasal vowels and nasal consonants bring more speaker-specific information than averaged phonemic content. In contrast, plosive, liquid and fricative do not have a significant impact on the LR accuracy. This investigation demonstrates the importance of the phonemic content and highlights interesting differences between inter-speakers effects and intra-speaker’s ones. A further study is performed in order to study the individual speaker-specific information for each vowel based on formant parameters without any use of ASpR system. This study has revealed interesting differences between vowels in terms of quantity of speaker information. The results show clearly the importance of intra-speaker variability effects in FVC reliability estimation. Second, we investigate an approach to predict the LR reliability based only on the pair of voice recordings. We define a homogeneity criterion (NHM) able to measure the presence of relevant information and the homogeneity of this information between the pair of voice recordings. We are expecting that lowest values of homogeneity are correlated with the lowest LR’s accuracy measures, as well as the opposite behaviour for high values. The results showed the interest of the homogeneity measure for FVC reliability. Our studies reported also large differences of behaviour between FVC genuine and impostor trials. The results confirmed the importance of intra-speaker variability effects in FVC reliability estimation. The main takeaway of this Thesis is that averaging the system behaviour over a high number of factors (speaker, duration, content...) hides potentially many important details. For a better understanding of FVC approach and/or an ASpR system, it is mandatory to explore the behaviour of the system at an as-detailed-as-possible scale (The devil lies in the details)

36

Cheippe, Emmanuelle. "La voie musicale pour remédier aux difficultés de prononciation des voyelles de l'allemand dans des textes lus : expérimentation dans une classe bilingue : analyse acoustique." Phd thesis, Université de Strasbourg, 2012. http://tel.archives-ouvertes.fr/tel-00781335.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans cette étude, nous analysons dans quelle mesure l'exploitation d'un chant populaire, pourrait aider les élèves francophones dans la lecture de textes en allemand. L'exercice musical peut-il contribuer à faciliter la prononciation des voyelles de la langue allemande et ainsi permettre de remédier aux nombreuses difficultés mentionnées dans la littérature et repérées en classe ? L'expérimentation décrite ici a été menée dans une classe bilingue de Strasbourg. Vingt élèves d'une même classe ont été répartis en deux groupes. Le premier groupe avait pour objectif l'apprentissage de la chanson " La Belle au Bois Dormant " tandis que le deuxième s'est focalisé sur la lecture et la compréhension du même texte, sans usage du chant. Les sujets ont été enregistrés pendant la lecture du texte en amont (test T1) et en aval (test T2) de l'expérimentation. Nous avons également examiné l'impact d'un support multimédia élaboré en 2008. Cet outil est supposé pouvoir constituer une aide à l'apprentissage de la lecture par le biais d'exercices adaptés et d'une version chantée dite " karaoké ". La spécificité des résultats des tests T1 et T2 dans chacun des groupes (éléments musicaux, accents d'intensité, premiers et seconds formants) ainsi que la comparaison de deux séquences incluant /a/ d'une part et /a:/ d'autre part, confortent les hypothèses issues de la psycholinguistique, des neurosciences, de la sociolinguistique et de la pédagogie ainsi que d'expériences antérieures : la musique a effectivement un impact sur la qualité vocalique d'une langue accentuelle comme l'allemand.

37

Debladis, Jimmy. "Traitement des signaux de communication dans le syndrome de Prader-Willi : aspects descriptifs, analytiques et évolutifs." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30036.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le syndrome de Prader-Willi (SPW) est un syndrome génétique rare qui touche 1 naissance sur 20 000 en France dont les deux origines génétiques les plus fréquentes sont la délétion de la région 15q11q12 du chromosome 15 paternel et la disomie maternelle. Ce syndrome est marqué par une hypotonie néonatale, puis au cours du développement, apparaissent l'hyperphagie, les troubles de la satiété et des troubles comportementaux. Sur le plan social, ces patients ont des interactions sociales atypiques, faisant référence à celles décrites dans les troubles du spectre de l'autisme (TSA). Dans le SPW, les données concernant les troubles du comportement et les troubles des interactions sociales sont rares. Il est détaillé que ces patients ont des déficits de reconnaissance des émotions et des signatures cérébrales en réponse aux visages atypiques. Néanmoins, beaucoup de processus de traitement des signaux sociaux restent encore inexplorés. Cette thèse permet d'apporter de nouvelles données sur les processus de traitement des voix et des visages qui pourraient être altérés dans le SPW. Nous avons développé un ensemble complet de tests comportementaux simples qui visent à étudier le traitement des voix et des visages. Nous avons démontré que les patients avec un SPW avaient une lenteur motrice et perceptive. De plus, nous relevons un déficit de traitement des visages, mais qui n'est pas généralisable aux voix. Selon nous, les déficits présents sur le traitement des visages, pourraient provenir d'un trouble dans la perception globale et dans l'unification de plusieurs sources d'informations entre elles, faisant référence à la cohérence centrale. Enfin, nous avons montré que globalement, les patients avec une disomie souffrent de troubles sociaux plus sévères que les patients avec une délétion. Par ailleurs, un versant thérapeutique est développé avec l'administration d'ocytocine (OT) chez les enfants et les adultes avec un SPW. L'OT a, au cours des dernières années, fait l'objet d'un vif intérêt pour les populations ayant des troubles des interactions sociales. Ce versant thérapeutique permettra d'étudier les effets à long terme de l'OT sur des enfants et les potentiels bénéfices d'un traitement sur les comportements alimentaires et sociaux
Prader-Willi syndrome (PWS) is a rare genetic syndrome affecting around 1 in 20,000 births in France. The two most frequent genetic origins are either a deletion in the 15q11q12 region on the paternal chromosome 15 or maternal uniparental disomy. This syndrome is easily identified through hypotonia and feeding difficulties observed at birth; then marked by hyperphagia, a constant sensation of hunger and behavioural difficulties that appear in time. From a social point of view, these patients present with atypical social interactions, similar to those reported in autism spectrum disorder (ASD). In PWS, very little research has been done concerning the behavioural and social interaction difficulties observed. Previous research has shown that these patients have deficits in recognizing emotions as well as atypical cortical signatures in response to faces. Nonetheless, an unexplored gap remains regarding how social signals are treated and analyzed. This thesis brings new data on potentially altered vocal and facial treatment processes in PWS. We developed a completed battery of behavioural tests aiming to study how voices and faces are processed. We demonstrated that patients with PWS have slower motor and perceptive skills. Furthermore, we identified a facial processing deficit that is not present for voiced. We suggest that the facial processing deficits observed could originate from a global perception deficit and the unification of several sources of information, thereby relating to the central coherence. Finally, we showed that patients with a materal disomy suffered from more severe social interaction difficulties than patients presenting with a deletion. Additionally, a therapeutic axis will be developed with the administration of oxytocin in children and adults with PWS. Oxytocin, over these past few years, has gained renewed interest for individuals with social interaction deficits. This therapeutic axis will allow us to study the long-term effects of oxytocin on children and the potential benefits of a treatment on the social and feeding behaviours

38

Le, Moine Veillon Clément. "Neural Conversion of Social Attitudes in Speech Signals." Electronic Thesis or Diss., Sorbonne université, 2023. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2023SORUS034.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En tant qu’animaux sociaux, les humains communiquent entre eux en se transmettant divers types d’information sur le monde et sur eux-mêmes. Au cœur de ce processus, la voix permet la transmission de messages linguistiques dénotant un sens strict qui peut être décodé par l’interlocuteur. En transmettant d’autres informations telles que des attitudes ou des émotions qui connotent le sens strict, la voix enrichit et facilite le processus de communication. Au cours des dernières décennies, l’importance des technologies numériques dans nos vies n’a cessé de croître. Dans de nombreuses situations quotidiennes, nous délaissons les claviers, les souris et même les écrans tactiles au profit d’interactions avec des assistants vocaux ou même des agents virtuels qui permettent de communiquer avec les machines comme on le fait avec nos congénères. Avec l’émergence d’un monde hybride où coexistent réalités physique et virtuelle, il devient crucial de permettre aux machines de capter, d’interpréter et de reproduire les émotions et les attitudes véhiculées par la voix humaine. Cette recherche se concentre sur les attitudes sociales de la parole, qui peuvent être définies dans un contexte d’interaction comme des dispositions vocales envers les autres, et vise à développer des algorithmes pour leur conversion. Pour atteindre cet objectif, des données - c’est-à-dire une collection d’enregistrements audio d’énoncés véhiculant diverses attitudes vocales - sont nécessaires. Cette recherche est donc construite à partir de cette étape initiale de collecte d’une matière première, à savoir un jeu de données dédié aux attitudes sociales de la parole. La conception d’algorithmes de conversion des attitudes vocales implique de comprendre ce qui les définit, à la fois en termes de production - comment les individus utilisent-ils leur appareil vocal pour produire des attitudes ? - et de perception - comment décodent-ils ces attitudes dans la parole?. Nous avons donc mené deux études, une première mettant en évidence les stratégies de production des attitudes vocales et une seconde - basée sur une expérience de Best Worst Scaling (BWS) - mettant principalement en évidence les biais impliqués dans la perception de ces attitudes vocales, fournissant ainsi une double compréhension de la manière dont les attitudes vocales sont communiquées par les individus français. Ces résultats nous ont permis de motiver notre choix de représentation du signal vocal ainsi que nos choix d’architecture et d’optimisation pour la conception d’algorithmes de conversion des attitudes vocales. Afin d’étendre à l’ensemble de la base de données les connaissances sur la perception des attitudes vocales recueillies lors de cette seconde étude, nous avons travaillé à l’élaboration d’un BWS-Net permettant la détection des attitudes mal communiquées, fournissant ainsi des données propres pour l’apprentissage de la conversion. Afin d’apprendre à convertir les attitudes vocales, nous avons adopté une approche basée sur un réseau transformer dans un paradigme de conversion many-to-many utilisant le mel-spectrogramme comme représentation du signal de parole. Les premières expériences ayant révélé une perte d’intelligibilité dans les échantillons convertis, nous avons proposé un conditionnement linguistique de l’algorithme de conversion en lui incorporant un module de reconnaissance de parole. Des mesures objectives et subjectives ont montré que l’algorithme résultant obtient de meilleures performances que le transformer de référence aussi bien en termes d’intelligibilité et d’attitude véhiculée
As social animals, humans communicate with each other by transmitting various types of information about the world and about themselves. At the heart of this process, the voice allows the transmission of linguistic messages denoting a strict meaning that can be decoded by the interlocutor. By conveying other information such as attitudes or emotions that connote the strict meaning, the voice enriches and enhances the communication process. In the last few decades, the digital world has become an important part of our lives. In many everyday situations, we are moving away from keyboards, mice and even touch screens to interactions with voice assistants or even virtual agents that enable human-like communication with machines. In the emergence of a hybrid world where physical and virtual reality coexist, it becomes crucial to enable machines to capture, interpret, and replicate the emotions and attitudes conveyed by the human voice.This research focuses on speech social attitudes, which can be defined - in a context of interaction - as speech dispositions towards others and aims to develop algorithms for their conversion. Fulfilling this objective requires data, i.e. a collection of audio recordings of utterances conveying various vocal attitudes. This research is thus built out of this initial step in gathering raw material - a dataset dedicated to speech social attitudes. Designing such algorithms involves a thorough understanding of what these attitudes are both in terms of production - how do individuals use their vocal apparatus to produce attitudes? - and perception - how do they decode those attitudes in speech? We therefore conducted two studies, a first uncovering the production strategies of speech attitudes and a second - based on a Best Worst Scaling (BWS) experiment - mainly hinting at biases involved in the perception such vocal attitudes, thus providing a twofold account for how speech attitudes are communicated by French individuals. These findings were the basis for the choice of speech signal representation as well as the architectural and optimisation choices for the design of a speech attitude conversion algorithm. In order to extend the knowledge on the perception of vocal attitudes gathered during this second study to the whole database, we worked on the elaboration of a BWS-Net allowing the detection of mis-communicated attitudes, and thus provided clean data for conversion learning. In order to learn how to convert vocal attitudes, we adopted a transformer-based approach in a many-to-many conversion paradigm with mel-spectrogram as speech signal representation. Since early experiments revealed a loss of intelligibility in the converted utterances, we proposed a linguistic conditioning of the conversion algorithm through incorporation of a speech-to-text module. Both objective and subjective measures have shown the resulting algorithm achieves better performance than the baseline transformer both in terms of intelligibility and attitude conveyed

39

Regnier, Lise. "Localization, Characterization and Recognition of Singing Voices." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00687475.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

This dissertation is concerned with the problem of describing the singing voice within the audio signal of a song. This work is motivated by the fact that the lead vocal is the element that attracts the attention of most listeners. For this reason it is common for music listeners to organize and browse music collections using information related to the singing voice such as the singer name. Our research concentrates on the three major problems of music information retrieval: the localization of the source to be described (i.e. the recognition of the elements corresponding to the singing voice in the signal of a mixture of instruments), the search of pertinent features to describe the singing voice, and finally the development of pattern recognition methods based on these features to identify the singer. For this purpose we propose a set of novel features computed on the temporal variations of the fundamental frequency of the sung melody. These features, which aim to describe the vibrato and the portamento, are obtained with the aid of a dedicated model. In practice, these features are computed on the time-varying frequency of partials obtained using the sinusoidal model. In the first experiment we show that partials corresponding to the singing voice can be accurately differentiated from the partials produced by other instruments using decisions based on the parameters of the vibrato and the portamento. Once the partials emitted by the singer are identified, the segments of the song containing singing can be directly localized. To improve the recognition of the partials emitted by the singer we propose to group partials that are related harmonically. Partials are clustered according to their degree of similarity. This similarity is computed using a set of CASA cues including their temporal frequency variations (i.e. the vibrato and the portamento). The clusters of harmonically related partials corresponding to the singing voice are identified using the vocal vibrato and the portamento parameters. Groups of vocal partials can then be re-synthesized to isolate the voice. The result of the partial grouping can also be used to transcribe the sung melody. We then propose to go further with these features and study if the vibrato and portamento characteristics can be considered as a part of the singers' signature. Previous works on singer identification describe audio signals using features extracted on the short-term amplitude spectrum. The latter features aim to characterize the timbre of the sound, which, in the case of singing, is related to the vocal tract of the singer. The features we develop in this document capture long-term information related to the intonation of the singer, which is relevant to the style and the technique of the singer. We propose a method to combine these two complementary descriptions of the singing voice to increase the recognition rate of singer identification. In addition we evaluate the robustness of each type of feature against a set of variations. We show the singing voice is a highly variable instrument. To obtain a representative model of a singer's voice it is thus necessary to build models using a large set of examples covering the full tessitura of a singer. In addition, we show that features extracted directly from the partials are more robust to the presence of an instrumental accompaniment than features derived from the amplitude spectrum.

40

Zoghlami, Naouel. "Processus ascendants et descendants en compréhension de l'oral en langue étrangère - Problèmes et retombées didactiques pour la compréhension de l'anglais." Electronic Thesis or Diss., Paris 8, 2015. http://www.theses.fr/2015PA080041.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s’intéresse à la relation complexe entre processus ascendants (bottom-up) et processus descendants (top-down) dans la compréhension de l’oral L2 ; c’est-à-dire entre l’utilisation du signal sonore et de l’input linguistique d’une part, et l’intégration de connaissances diverses (linguistiques, discursives, pragmatiques, générales) d’autre part. Malgré de nombreux travaux en psycholinguistique, en acquisition des langues étrangères (L2) et en didactique (par exemple, Cutler & Clifton, 1999 ; Field, 2008; Rost, 2002 ; Brown, 1990), notre connaissance des processus cognitifs complexes de l’écoute ainsi que l’effet de certains facteurs sur la compréhension de l’oral restent à approfondir. Une appréciation plus fine de ces processus est indispensable aux questions relatives à l’enseignement et à l’apprentissage de la compréhension de l’oral en L2.Partant du principe que l’écoute a la même architecture cognitive en L1 et L2, nous commençons par un résumé – et une synthèse – des modèles psycholinguistiques récents de la compréhension de l’oral en L1. Nous examinons également les principaux facteurs rendant la compréhension difficile. Notre résumé des études en L2 consacrées au rôle de l'information descendante et au comportement stratégique des auditeurs L2 souligne la contribution importante de la métacognition. Nous tenterons donc ici de clarifier un certain flou terminologique qui caractérise ces travaux, et nous proposerons un modèle qui fait part de la métacognition dans la compréhension unidirectionnelle de l’oral en L2. Nous présentons ensuite les résultats d'une étude que nous avons menée pour analyser la contribution exacte de certains facteurs à l'écoute en L2.Les participants à cette étude sont des enseignants (n=23) et surtout des apprenants (n=226) français et tunisiens de l’anglais. En s’appuyant sur des méthodes multiples, à la fois quantitatives (différent tests et questionnaires) et qualitatives (questionnaires, tâches de réflexion à haute voix - Ericsson & Simon, 1993 - et de dévoilement graduel - gating, Grosjean, 1980), nous nous interrogeons: 1) sur les facteurs perçus par les apprenants et les enseignants comme étant déterminants dans la compréhension de l’anglais oral ; 2) sur la contribution relative de la compétence linguistique en L2, la discrimination auditive, la reconnaissance lexicale, et les compétences en méta-compréhension à une compréhension auditive réussie; 3) sur les problèmes que rencontrent nos auditeurs L2 lors de l’écoute, et sur les comportements stratégiques adoptés pour y faire face. Nous regardons plus particulièrement (pour ces différents paramètres) les différents niveaux de compétence en compréhension des sujets (avec une analyse poussée des auditeurs compétents et des auditeurs moins-compétents), ainsi qu’à de possibles influences de deux langues maternelles distinctes (français vs arabe tunisien). Nos analyses montrent : 1) ce que les apprenants et les enseignant perçoivent comme facteurs influant la compréhension de l’oral diffère relativement de ce qui la rend réellement problématique; 2) que la reconnaissance des mots et la connaissance lexicale contribuent significativement à la variation dans la compréhension, avec la reconnaissance des mots étant le prédicteur le plus fort ; 3) que les problèmes rencontrés en temps réel sont principalement de bas-niveau (segmentation de la parole), et que si les stratégies généralement contribuent à la compréhension, elles ne sont pas discriminatoires. Ce qui distingue donc l’auditeur expert du novice est son traitement formel (plus efficace et automatique) et non pas stratégique de l’information orale. Ces résultats sont discutés en rapport avec notre cadre théorique et selon une perspective pédagogique
This thesis focuses on the complex relationship between bottom-up and top-down processes in L2 speech comprehension; i.e. between the use of the signal and the linguistic input on one hand, and the integration of various types of knowledge (linguistic, discourse, pragmatic, general) on the other hand. Despite a large body of research on the cognitive processes underlying listening in psycholinguistics, foreign language (L2) acquisition and teaching (e.g., Cutler & Clifton, 1999; Field, 2008a; Rost, 2002; Brown, 1990), there are still gaps in our understanding of these processes and the impact certain factors have on listening comprehension. Assuming that L1 and L2 listening follow the same cognitive architecture, we first review recent psycholinguistic models of L1 listening. We also examine the main factors constraining L2 listening comprehension. As our summary of the few SLA studies that have investigated the role of bottom-up information and the strategic behavior of L2 listeners points to the important contribution of metacognition, we clarify the terminological fuzziness characterizing this concept, and propose a model of metacognition in real-world unidirectional L2 listening. We then present the results of a study that we conducted to investigate the exact contribution of these different factors to L2 listening. The participants in this study were EFL French and Tunisian teachers (n=23) and learners (n=226). Using mixed quantitative (different tests and questionnaires) and qualitative (protocol analysis and gating experiments - Ericsson & Simon, 1993; Grosjean, 1980) methods, our aim was to investigate: 1) the factors perceived by learners and teachers as influencing L2 listening; 2) the relative contribution of linguistic knowledge, auditory discrimination, spoken word recognition (SWR), and meta-comprehension knowledge to successful L2 listening; 3) on-line listening problems and strategy use. For all of these parameters, we looked more closely at different levels of listening proficiency (various analyses of the performance of skilled and unskilled L2 listeners), as well as the possible influence of the two L1s (French and Tunisian Arabic) involved in the study.Our analyses show that: 1) there is a general discrepancy between what is perceived as making L2 listening difficult and what really renders it problematic; 2) SWR and vocabulary knowledge contribute significantly to the variance in L2 listening, with SWR being a stronger predictor; 3) listening problems encountered on-line are mainly lower-level (segmentation) and, although strategies contribute to speech comprehension, they are not discriminatory. What characterizes a proficient L2 listener seems to be accurate formal processing, not strategic processing of oral input. The findings are discussed from a theoretical and pedagogical perspective. Keywords: listening comprehension, French and Tunisian learners of L2 English, bottom-up and top-down processes, formal processing, integration and situation model, attentional resources, gating, protocol analysis, comparative analysis

41

Zoghlami, Naouel. "Processus ascendants et descendants en compréhension de l'oral en langue étrangère - Problèmes et retombées didactiques pour la compréhension de l'anglais." Thesis, Paris 8, 2015. http://www.theses.fr/2015PA080041.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s’intéresse à la relation complexe entre processus ascendants (bottom-up) et processus descendants (top-down) dans la compréhension de l’oral L2 ; c’est-à-dire entre l’utilisation du signal sonore et de l’input linguistique d’une part, et l’intégration de connaissances diverses (linguistiques, discursives, pragmatiques, générales) d’autre part. Malgré de nombreux travaux en psycholinguistique, en acquisition des langues étrangères (L2) et en didactique (par exemple, Cutler & Clifton, 1999 ; Field, 2008; Rost, 2002 ; Brown, 1990), notre connaissance des processus cognitifs complexes de l’écoute ainsi que l’effet de certains facteurs sur la compréhension de l’oral restent à approfondir. Une appréciation plus fine de ces processus est indispensable aux questions relatives à l’enseignement et à l’apprentissage de la compréhension de l’oral en L2.Partant du principe que l’écoute a la même architecture cognitive en L1 et L2, nous commençons par un résumé – et une synthèse – des modèles psycholinguistiques récents de la compréhension de l’oral en L1. Nous examinons également les principaux facteurs rendant la compréhension difficile. Notre résumé des études en L2 consacrées au rôle de l'information descendante et au comportement stratégique des auditeurs L2 souligne la contribution importante de la métacognition. Nous tenterons donc ici de clarifier un certain flou terminologique qui caractérise ces travaux, et nous proposerons un modèle qui fait part de la métacognition dans la compréhension unidirectionnelle de l’oral en L2. Nous présentons ensuite les résultats d'une étude que nous avons menée pour analyser la contribution exacte de certains facteurs à l'écoute en L2.Les participants à cette étude sont des enseignants (n=23) et surtout des apprenants (n=226) français et tunisiens de l’anglais. En s’appuyant sur des méthodes multiples, à la fois quantitatives (différent tests et questionnaires) et qualitatives (questionnaires, tâches de réflexion à haute voix - Ericsson & Simon, 1993 - et de dévoilement graduel - gating, Grosjean, 1980), nous nous interrogeons: 1) sur les facteurs perçus par les apprenants et les enseignants comme étant déterminants dans la compréhension de l’anglais oral ; 2) sur la contribution relative de la compétence linguistique en L2, la discrimination auditive, la reconnaissance lexicale, et les compétences en méta-compréhension à une compréhension auditive réussie; 3) sur les problèmes que rencontrent nos auditeurs L2 lors de l’écoute, et sur les comportements stratégiques adoptés pour y faire face. Nous regardons plus particulièrement (pour ces différents paramètres) les différents niveaux de compétence en compréhension des sujets (avec une analyse poussée des auditeurs compétents et des auditeurs moins-compétents), ainsi qu’à de possibles influences de deux langues maternelles distinctes (français vs arabe tunisien). Nos analyses montrent : 1) ce que les apprenants et les enseignant perçoivent comme facteurs influant la compréhension de l’oral diffère relativement de ce qui la rend réellement problématique; 2) que la reconnaissance des mots et la connaissance lexicale contribuent significativement à la variation dans la compréhension, avec la reconnaissance des mots étant le prédicteur le plus fort ; 3) que les problèmes rencontrés en temps réel sont principalement de bas-niveau (segmentation de la parole), et que si les stratégies généralement contribuent à la compréhension, elles ne sont pas discriminatoires. Ce qui distingue donc l’auditeur expert du novice est son traitement formel (plus efficace et automatique) et non pas stratégique de l’information orale. Ces résultats sont discutés en rapport avec notre cadre théorique et selon une perspective pédagogique
This thesis focuses on the complex relationship between bottom-up and top-down processes in L2 speech comprehension; i.e. between the use of the signal and the linguistic input on one hand, and the integration of various types of knowledge (linguistic, discourse, pragmatic, general) on the other hand. Despite a large body of research on the cognitive processes underlying listening in psycholinguistics, foreign language (L2) acquisition and teaching (e.g., Cutler & Clifton, 1999; Field, 2008a; Rost, 2002; Brown, 1990), there are still gaps in our understanding of these processes and the impact certain factors have on listening comprehension. Assuming that L1 and L2 listening follow the same cognitive architecture, we first review recent psycholinguistic models of L1 listening. We also examine the main factors constraining L2 listening comprehension. As our summary of the few SLA studies that have investigated the role of bottom-up information and the strategic behavior of L2 listeners points to the important contribution of metacognition, we clarify the terminological fuzziness characterizing this concept, and propose a model of metacognition in real-world unidirectional L2 listening. We then present the results of a study that we conducted to investigate the exact contribution of these different factors to L2 listening. The participants in this study were EFL French and Tunisian teachers (n=23) and learners (n=226). Using mixed quantitative (different tests and questionnaires) and qualitative (protocol analysis and gating experiments - Ericsson & Simon, 1993; Grosjean, 1980) methods, our aim was to investigate: 1) the factors perceived by learners and teachers as influencing L2 listening; 2) the relative contribution of linguistic knowledge, auditory discrimination, spoken word recognition (SWR), and meta-comprehension knowledge to successful L2 listening; 3) on-line listening problems and strategy use. For all of these parameters, we looked more closely at different levels of listening proficiency (various analyses of the performance of skilled and unskilled L2 listeners), as well as the possible influence of the two L1s (French and Tunisian Arabic) involved in the study.Our analyses show that: 1) there is a general discrepancy between what is perceived as making L2 listening difficult and what really renders it problematic; 2) SWR and vocabulary knowledge contribute significantly to the variance in L2 listening, with SWR being a stronger predictor; 3) listening problems encountered on-line are mainly lower-level (segmentation) and, although strategies contribute to speech comprehension, they are not discriminatory. What characterizes a proficient L2 listener seems to be accurate formal processing, not strategic processing of oral input. The findings are discussed from a theoretical and pedagogical perspective. Keywords: listening comprehension, French and Tunisian learners of L2 English, bottom-up and top-down processes, formal processing, integration and situation model, attentional resources, gating, protocol analysis, comparative analysis

42

Mermet, Michel. "Informatique et maîtrise de l'oral en maternelle bilingue breton-français : modèle de l'élève dans le dialogue enfant-ordinateur et ergonomie de la parole." Phd thesis, Université Rennes 2, 2006. http://tel.archives-ouvertes.fr/tel-00199337.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Notre étude vise à construire un "modèle de l'élève bilingue", au sens large, permettant de caractériser une situation d'apprentissage qui a pour fonction la maîtrise de l'oral et pour objet le dialogue enfant-ordinateur. Nous avons analysé, à partir d'un corpus de paroles bilingues breton-français, les conditions d'apprentissage précoce d'une deuxième langue entre deux et quatre ans, auprès d'élèves d'une classe bilingue de petite section de maternelle. Nos objectifs sont de cerner le contexte d'apprentissage du breton à l'école, d'analyser la parole bilingue de l'élève et de construire des outils d'évaluation des interfaces orales. Ceci afin d'évaluer, dans le dialogue oral enfant-ordinateur, les attributs phonétiques et prosodiques (synthèse vocale en breton), la facilité d'apprentissage de l'élève et la qualité de l'apprentissage.

43

Rosa, Christine. "Spécialisation hémisphérique de la reconnaissance de sa propre voix." Thèse, 2008. http://hdl.handle.net/1866/6367.

Full text

APA, Harvard, Vancouver, ISO, and other styles

44

Le, Rolle Katia. "La dramaturgie vocale : approche herméneutique des qualités expressives de la voix chantée. Le cas du metal symphonique." Thèse, 2018. http://hdl.handle.net/1866/21472.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Reconnaissance de la voix chantée'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles