To see the other types of publications on this topic, follow the link: Reconnaissance des émotions vocales.

Dissertations / Theses on the topic 'Reconnaissance des émotions vocales'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Reconnaissance des émotions vocales.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Gharsalli, Sonia. "Reconnaissance des émotions par traitement d’images." Thesis, Orléans, 2016. http://www.theses.fr/2016ORLE2075/document.

Full text
Abstract:
La reconnaissance des émotions est l'un des domaines scientifiques les plus complexes. Ces dernières années, de plus en plus d'applications tentent de l'automatiser. Ces applications innovantes concernent plusieurs domaines comme l'aide aux enfants autistes, les jeux vidéo, l'interaction homme-machine. Les émotions sont véhiculées par plusieurs canaux. Nous traitons dans notre recherche les expressions émotionnelles faciales en s'intéressant spécifiquement aux six émotions de base à savoir la joie, la colère, la peur, le dégoût, la tristesse et la surprise. Une étude comparative de deux méthodes de reconnaissance des émotions l'une basée sur les descripteurs géométriques et l'autre basée sur les descripteurs d'apparence est effectuée sur la base CK+, base d'émotions simulées, et la base FEEDTUM, base d'émotions spontanées. Différentes contraintes telles que le changement de résolution, le nombre limité d'images labélisées dans les bases d'émotions, la reconnaissance de nouveaux sujets non inclus dans la base d'apprentissage sont également prises en compte. Une évaluation de différents schémas de fusion est ensuite réalisée lorsque de nouveaux cas, non inclus dans l'ensemble d'apprentissage, sont considérés. Les résultats obtenus sont prometteurs pour les émotions simulées (ils dépassent 86%), mais restent insuffisant pour les émotions spontanées. Nous avons appliqué également une étude sur des zones locales du visage, ce qui nous a permis de développer des méthodes hybrides par zone. Ces dernières améliorent les taux de reconnaissance des émotions spontanées. Finalement, nous avons développé une méthode de sélection des descripteurs d'apparence basée sur le taux d'importance que nous avons comparée avec d'autres méthodes de sélection. La méthode de sélection proposée permet d'améliorer le taux de reconnaissance par rapport aux résultats obtenus par deux méthodes reprises de la littérature
Emotion recognition is one of the most complex scientific domains. In the last few years, various emotion recognition systems are developed. These innovative applications are applied in different domains such as autistic children, video games, human-machine interaction… Different channels are used to express emotions. We focus on facial emotion recognition specially the six basic emotions namely happiness, anger, fear, disgust, sadness and surprise. A comparative study between geometric method and appearance method is performed on CK+ database as the posed emotion database, and FEEDTUM database as the spontaneous emotion database. We consider different constraints in this study such as different image resolutions, the low number of labelled images in learning step and new subjects. We evaluate afterward various fusion schemes on new subjects, not included in the training set. Good recognition rate is obtained for posed emotions (more than 86%), however it is still low for spontaneous emotions. Based on local feature study, we develop local features fusion methods. These ones increase spontaneous emotions recognition rates. A feature selection method is finally developed based on features importance scores. Compared with two methods, our developed approach increases the recognition rate
APA, Harvard, Vancouver, ISO, and other styles
2

Deschamps-Berger, Théo. "Social Emotion Recognition with multimodal deep learning architecture in emergency call centers." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASG036.

Full text
Abstract:
Cette thèse porte sur les systèmes de reconnaissance automatique des émotions dans la parole, dans un contexte d'urgence médicale. Elle aborde certains des défis rencontrés lors de l'étude des émotions dans les interactions sociales et est ancrée dans les théories modernes des émotions, en particulier celles de Lisa Feldman Barrett sur la construction des émotions. En effet, la manifestation des émotions spontanées dans les interactions humaines est complexe et souvent caractérisée par des nuances, des mélanges et étroitement liée au contexte. Cette étude est fondée sur le corpus CEMO, composé de conversations téléphoniques entre appelants et Agents de Régulation Médicale (ARM) d'un centre d'appels d'urgence français. Ce corpus fournit un ensemble riche de données pour évaluer la capacité des systèmes d'apprentissage profond, tels que les Transformers et les modèles pré-entraînés, à reconnaître les émotions spontanées dans les interactions parlées. Les applications pourraient être de fournir des indices émotionnels susceptibles d'améliorer la gestion des appels et la prise de décision des ARM ou encore de faire des synthèses des appels. Les travaux menés dans ma thèse ont porté sur différentes techniques liées à la reconnaissance des émotions vocales, notamment l'apprentissage par transfert à partir de modèles pré-entraînés, les stratégies de fusion multimodale, l'intégration du contexte dialogique et la détection d'émotions mélangées. Un système acoustique initial basé sur des convolutions temporelles et des réseaux récurrents a été développé et validé sur un corpus émotionnel connu de la communauté affective, appelé IEMOCAP puis sur le corpus CEMO. Des recherches approfondies sur des systèmes multimodaux, pré-entraînés en acoustique et linguistique et adaptés à la reconnaissance des émotions, sont présentées. En outre, l'intégration du contexte dialogique dans la détection des émotions a été explorée, mettant en lumière la dynamique complexe des émotions dans les interactions sociales. Enfin, des travaux ont été initiés sur des systèmes multi-étiquettes multimodaux capables de traiter les subtilités des émotions mélangées dues à l'ambiguïté de la perception des annotateurs et du contexte social. Nos recherches mettent en évidence certaines solutions et défis liés à la reconnaissance des émotions dans des situations "in the wild". Cette thèse est financée par la Chaire CNRS AI HUMAAINE : HUman-MAchine Interaction Affective & Ethique
This thesis explores automatic speech-emotion recognition systems in a medical emergency context. It addresses some of the challenges encountered when studying emotions in social interactions. It is rooted in modern theories of emotions, particularly those of Lisa Feldman Barrett on the construction of emotions. Indeed, the manifestation of emotions in human interactions is complex and often characterized by nuanced, mixed, and is highly linked to the context. This study is based on the CEMO corpus, which is composed of telephone conversations between callers and emergency medical dispatchers (EMD) from a French emergency call center. This corpus provides a rich dataset to explore the capacity of deep learning systems, such as Transformers and pre-trained models, to recognize spontaneous emotions in spoken interactions. The applications could be to provide emotional cues that could improve call handling and decision-making by EMD, or to summarize calls. The work carried out in my thesis focused on different techniques related to speech emotion recognition, including transfer learning from pre-trained models, multimodal fusion strategies, dialogic context integration, and mixed emotion detection. An initial acoustic system based on temporal convolutions and recurrent networks was developed and validated on an emotional corpus widely used by the affective community, called IEMOCAP, and then on the CEMO corpus. Extensive research on multimodal systems, pre-trained in acoustics and linguistics and adapted to emotion recognition, is presented. In addition, the integration of dialog context in emotion recognition was explored, underlining the complex dynamics of emotions in social interactions. Finally, research has been initiated towards developing multi-label, multimodal systems capable of handling the subtleties of mixed emotions, often due to the annotator's perception and social context. Our research highlights some solutions and challenges in recognizing emotions in the wild. The CNRS AI HUMAAINE Chair: HUman-MAchine Affective Interaction & Ethics funded this thesis
APA, Harvard, Vancouver, ISO, and other styles
3

Vazquez, Rodriguez Juan Fernando. "Transformateurs multimodaux pour la reconnaissance des émotions." Electronic Thesis or Diss., Université Grenoble Alpes, 2023. http://www.theses.fr/2023GRALM057.

Full text
Abstract:
La santé mentale et le bien-être émotionnel ont une influence significative sur la santé physique et sont particulièrement importants pour un viellissement en bonne santé. Les avancées continues dans le domaine des capteurs et de la microélectronique en général ont permis l’avènement de nouvelles technologies pouvant être déployées dans les maisons pour surveiller la santé et le bien-être des occupants. Ces technologies de captation peuvent être combinées aux avancées récentes sur l’apprentissage automatique pour proposer des services utiles pour vieillir en bonne santé. Dans ce cadre, un système de reconnaissance automatique d’émotions peut être un outil s’assurant du bien-être de personnes fragiles. Dès lors, il est intéressant de développer un système pouvant déduire des informations sur les émotions humaines à partir de modalités de captation multiples, et pouvant être entrainé sans requérir de larges jeux de données labellisées d’apprentissage.Cette thèse aborde le problème de la reconnaissance d’émotions à partir de différents types de signaux qu’un environnement intelligent peut capter, tels que des signaux visuels, audios, et physiologiques. Pour ce faire, nous développons différents modèles basés sur l’architecture extit{Transformer}, possédant des caractéristiques utiles à nos besoins comme la capacité à modéliser des dépendances longues et à sélectionner les parties importantes des signaux entrants. Nous proposons en premier lieu un modèle pour reconnaitre les émotions à partir de signaux physiologiques individuels. Nous proposons une technique de pré-apprentissage auto-supervisé utilisant des données physiologiques non-labellisées, qui améliore les performances du modèle. Cette approche est ensuite étendue pour exploiter la complémentarité de différents types de signaux physiologiques. Nous développons un modèle qui combine ces différents signaux physiologiques, et qui exploite également le pré-apprentissage auto-supervisé. Nous proposons une méthode de pré-apprentissage qui ne nécessite pas un jeu de données unique contenant tous les types de signaux utilisés, pouvant au contraire être pré-entrainé avec des jeux de données différents pour chaque type de signal.Pour tirer parti des différentes modalités qu’un environnement connecté peut offrir, nous proposons un modèle multimodal exploitant des signaux vidéos, audios, et physiologiques. Ces signaux étant de natures différentes, ils capturent des modes distincts d’expression des émotions, qui peuvent être complémentaires et qu’il est donc intéressant d’exploiter simultanément. Cependant, dans des situations d’usage réelles, il se peut que certaines de ces modalités soient manquantes. Notre modèle est suffisamment flexible pour continuer à fonctionner lorsqu’une modalité est manquante, mais sera moins performant. Nous proposons alors une stratégie d’apprentissage permettant de réduire ces baisses de performances lorsqu’une modalité est manquante.Les méthodes développées dans cette thèse sont évaluées sur plusieurs jeux de données. Les résultats obtenus montrent que nos approches de extit{Transformer} pré-entrainé sont performantes pour reconnaitre les émotions à partir de signaux physiologiques. Nos résultats mettent également en lumière les capacités de notre solution à aggréger différents signaux multimodaux, et à s’adapter à l’absence de l’un d’entre eux. Ces résultats montrent que les approches proposées sont adaptées pour reconnaitre les émotions à partir de multiples capteurs de l’environnement. Nos travaux ouvrent de nouvelles pistes de recherche sur l’utilisation des extit{Transformers} pour traiter les informations de capteurs d’environnements intelligents et sur la reconnaissance d’émotions robuste dans les cas où des modalités sont manquantes. Les résultats de ces travaux peuvent contribuer à améliorer l’attention apportée à la santé mentale des personnes fragiles
Mental health and emotional well-being have significant influence on physical health, and are especially important for healthy aging. Continued progress on sensors and microelectronics has provided a number of new technologies that can be deployed in homes and used to monitor health and well-being. These can be combined with recent advances in machine learning to provide services that enhance the physical and emotional well-being of individuals to promote healthy aging. In this context, an automatic emotion recognition system can provide a tool to help assure the emotional well-being of frail people. Therefore, it is desirable to develop a technology that can draw information about human emotions from multiple sensor modalities and can be trained without the need for large labeled training datasets.This thesis addresses the problem of emotion recognition using the different types of signals that a smart environment may provide, such as visual, audio, and physiological signals. To do this, we develop different models based on the Transformer architecture, which has useful characteristics such as their capacity to model long-range dependencies, as well as their capability to discern the relevant parts of the input. We first propose a model to recognize emotions from individual physiological signals. We propose a self-supervised pre-training technique that uses unlabeled physiological signals, showing that that pre-training technique helps the model to perform better. This approach is then extended to take advantage of the complementarity of information that may exist in different physiological signals. For this, we develop a model that combines different physiological signals and also uses self-supervised pre-training to improve its performance. We propose a method for pre-training that does not require a dataset with the complete set of target signals, but can rather, be trained on individual datasets from each target signal.To further take advantage of the different modalities that a smart environment may provide, we also propose a model that uses as inputs multimodal signals such as video, audio, and physiological signals. Since these signals are of a different nature, they cover different ways in which emotions are expressed, thus they should provide complementary information concerning emotions, and therefore it is appealing to use them together. However, in real-world scenarios, there might be cases where a modality is missing. Our model is flexible enough to continue working when a modality is missing, albeit with a reduction in its performance. To address this problem, we propose a training strategy that reduces the drop in performance when a modality is missing.The methods developed in this thesis are evaluated using several datasets, obtaining results that demonstrate the effectiveness of our approach to pre-train Transformers to recognize emotions from physiological signals. The results also show the efficacy of our Transformer-based solution to aggregate multimodal information, and to accommodate missing modalities. These results demonstrate the feasibility of the proposed approaches to recognizing emotions from multiple environmental sensors. This opens new avenues for deeper exploration of using Transformer-based approaches to process information from environmental sensors and allows the development of emotion recognition technologies robust to missing modalities. The results of this work can contribute to better care for the mental health of frail people
APA, Harvard, Vancouver, ISO, and other styles
4

Bherer, François. "Expressions vocales spontanées et émotion : de l'extériorisation au jugement." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1998. http://www.collectionscanada.ca/obj/s4/f2/dsk3/ftp04/mq33572.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Henry, Mylène. "La reconnaissance des émotions chez des enfants maltraités." Thèse, Université du Québec à Trois-Rivières, 2011. http://depot-e.uqtr.ca/2069/1/030183277.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Aouati, Amar. "Utilisation des technologies vocales dans une application multicanaux." Paris 11, 1985. http://www.theses.fr/1985PA112373.

Full text
Abstract:
Le travail mené vise à réaliser un système, effectivement utilisable, de compréhension du langage employé par les contrôleurs aériens dans les échanges verbaux avec les pilotes. Dans cette optique sont utilisées des méthodes classiques d'intelligence artificielle adaptées à des systèmes de reconnaissance et de synthèse de la parole. Le système vise à interpréter le langage de travail, dont il utilise les contraintes. Le locuteur respecte des contraintes de débit pour la prononciation, et les règles de la "phraséologie" employée pour la formulation des phrases. Le système est entouré de plusieurs outils qui permettent de l'utiliser de façon opérationnelle : aide à la définition du langage de l'application, aide à la construction du vocabulaire de référence. Les options prises pour la réalisation du prototype 0 du terminal vocal intelligent ont permis un dialogue effectif avec un délai de réponse qui autorise le temps réel.
APA, Harvard, Vancouver, ISO, and other styles
7

Attabi, Yazid. "Reconnaissance automatique des émotions à partir du signal acoustique." Mémoire, École de technologie supérieure, 2008. http://espace.etsmtl.ca/168/1/ATTABI_Yazid.pdf.

Full text
Abstract:
Nous nous intéressons à la détection automatique des appels problématiques dans un contexte réel de centres d'appels téléphoniques. Nous utilisons l'information sur l'état émotionnel du locuteur, véhiculée par le signal acoustique, pour détecter les problèmes de compréhension entre un locuteur et un système de dialogue humain-machine. Notre contribution se situe à deux niveaux. Au premier niveau, nous avons développé un système de reconnaissance automatique des émotions (RAE) basé sur les traits de type MFCC, avec la célérité et l'accélération, extraits au niveau d'une trame, analysés à l'échelle d'un énoncé, et modélisés par un mélange de gaussiennes. Nous avons optimisé les performances de ce système en ajustant trois types de paramètres : le nombre de mélanges de gaussiennes, l'utilisation de coefficients MFCC d'ordre supérieur (20 versus 13 coefficients) et l'utilisation d'un modèle du monde (UBM) pour l'entraînement des modèles GMM. Le système a été entraîné et testé pour reconnaître les classes des émotions du corpus de données LDC Emotional Prosody (LDC). D'après les résultats obtenus, nous avons apporté une amélioration de l'ordre de 11% par rapport aux meilleurs résultats de l'état de l'art utilisant le même corpus de données pour l'expérience neutre vs tristesse alors que nous avons reproduit les meilleures performances pour l'expérience neutre vs colère et pour rexpérience avec 15 classes d'émotions. Notre seconde contribution est l'expérimentation d'un nouveau modèle de système de RAE basé sur l'information prosodique à long terme obtenue par une approximation des courbes de l'énergie et de la fréquence fondamentale par des coefficients de polynômes de Legendre sur une échelle d'analyse appelée pseudosyllabe. Afin de mesurer l'efficacité de ce type de trait à long terme et de l'unité d'analyse, nous avons réalisé une comparaison de performance entre ce système et un système exploitant l'information prosodique à court terme (niveau de trame) sur l'échelle d'un énoncé. Les taux de reconnaissance obtenus avec"un système basé sur la pseudosyllabe et les coefficients de polynômes de Legendre et expérimenté avec le corpus LDC, sont nettement supérieurs à ceux d'un système basé sur Vénoncé et l'information à court terme. Le gain relatif réalisé est de l'ordre de 6% pour la reconnaissance des émotions neutre vs colère, tandis que ce gain est de l'ordre 91% pour neutre vs tristesse. Enfin, nous avons obtenu une amélioration de l'ordre de 41% pour la détection de 15 classes d'émotions.
APA, Harvard, Vancouver, ISO, and other styles
8

Paleari, Marco. "Informatique Affective : Affichage, Reconnaissance, et Synthèse par Ordinateur des Émotions." Phd thesis, Télécom ParisTech, 2009. http://pastel.archives-ouvertes.fr/pastel-00005615.

Full text
Abstract:
L'informatique Affective regarde la computation que se rapporte, surgit de, ou influence délibérément les émotions et trouve son domaine d'application naturel dans les interactions homme-machine a haut niveau d'abstraction. L'informatique affective peut être divisée en trois sujets principaux, à savoir: l'affichage,l'identification, et la synthèse. La construction d'une machine intelligente capable dinteragir'de façon naturelle avec son utilisateur passe forcement par ce trois phases. Dans cette thèse nous proposions une architecture basée principalement sur le modèle dite "Multimodal Affective User Interface" de Lisetti et la théorie psychologique des émotions nommé "Component Process Theory" de Scherer. Dans nos travaux nous avons donc recherché des techniques pour l'extraction automatique et en temps-réel des émotions par moyen des expressions faciales et de la prosodie vocale. Nous avons aussi traité les problématiques inhérentes la génération d'expressions sur de différentes plateformes, soit elles des agents virtuel ou robotique. Finalement, nous avons proposé et développé une architecture pour des agents intelligents capable de simuler le processus humaine d'évaluation des émotions comme décrit par Scherer.
APA, Harvard, Vancouver, ISO, and other styles
9

Paleari, Marco. "Computation affective : affichage, reconnaissance et synthèse par ordinateur des émotions." Paris, Télécom ParisTech, 2009. https://pastel.hal.science/pastel-00005615.

Full text
Abstract:
L’informatique Affective regarde la computation que se rapporte, surgit de, ou influence délibérément les émotions et trouve son domaine d’application naturel dans les interactions homme-machine a haut niveau d’abstraction. L’informatique affective peut être divisée en trois sujets principaux, à savoir: l’affichage,l’identification, et la synthèse. La construction d’une machine intelligente capable dinteragir'de façon naturelle avec son utilisateur passe forcement par ce trois phases. Dans cette thèse nous proposions une architecture basée principalement sur le modèle dite “Multimodal Affective User Interface” de Lisetti et la théorie psychologique des émotions nommé “Component Process Theory” de Scherer. Dans nos travaux nous avons donc recherché des techniques pour l’extraction automatique et en temps-réel des émotions par moyen des expressions faciales et de la prosodie vocale. Nous avons aussi traité les problématiques inhérentes la génération d’expressions sur de différentes plateformes, soit elles des agents virtuel ou robotique. Finalement, nous avons proposé et développé une architecture pour des agents intelligents capable de simuler le processus humaine d’évaluation des émotions comme décrit par Scherer
Affective Computing refers to computing that relates to, arises from, or deliberately influences emotions and has is natural application domain in highly abstracted human--computer interactions. Affective computing can be divided into three main parts, namely display, recognition, and synthesis. The design of intelligent machines able to create natural interactions with the users necessarily implies the use of affective computing technologies. We propose a generic architecture based on the framework “Multimodal Affective User Interface” by Lisetti and the psychological “Component Process Theory” by Scherer which puts the user at the center of the loop exploiting these three parts of affective computing. We propose a novel system performing automatic, real-time, emotion recognition through the analysis of human facial expressions and vocal prosody. We also discuss about the generation of believable facial expressions for different platforms and we detail our system based on Scherer theory. Finally we propose an intelligent architecture that we have developed capable of simulating the process of appraisal of emotions as described by Scherer
APA, Harvard, Vancouver, ISO, and other styles
10

Vaudable, Christophe. "Analyse et reconnaissance des émotions lors de conversations de centres d'appels." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00758650.

Full text
Abstract:
La reconnaissance automatique des émotions dans la parole est un sujet de recherche relativement récent dans le domaine du traitement de la parole, puisqu'il est abordé depuis une dizaine d'années environs. Ce sujet fait de nos jours l'objet d'une grande attention, non seulement dans le monde académique mais aussi dans l'industrie, grâce à l'augmentation des performances et de la fiabilité des systèmes. Les premiers travaux étaient fondés sur des donnés jouées par des acteurs, et donc non spontanées. Même aujourd'hui, la plupart des études exploitent des séquences pré-segmentées d'un locuteur unique et non une communication spontanée entre plusieurs locuteurs. Cette méthodologie rend les travaux effectués difficilement généralisables pour des informations collectées de manière naturelle.Les travaux entrepris dans cette thèse se basent sur des conversations de centre d'appels, enregistrés en grande quantité et mettant en jeu au minimum 2 locuteurs humains (un client et un agent commercial) lors de chaque dialogue. Notre but est la détection, via l'expression émotionnelle, de la satisfaction client. Dans une première partie nous présentons les scores pouvant être obtenus sur nos données à partir de modèles se basant uniquement sur des indices acoustiques ou lexicaux. Nous montrons que pour obtenir des résultats satisfaisants une approche ne prenant en compte qu'un seul de ces types d'indices ne suffit pas. Nous proposons pour palier ce problème une étude sur la fusion d'indices de types acoustiques, lexicaux et syntaxico-sémantiques. Nous montrons que l'emploi de cette combinaison d'indices nous permet d'obtenir des gains par rapport aux modèles acoustiques même dans les cas ou nous nous basons sur une approche sans pré-traitements manuels (segmentation automatique des conversations, utilisation de transcriptions fournies par un système de reconnaissance de la parole). Dans une seconde partie nous remarquons que même si les modèles hybrides acoustiques/linguistiques nous permettent d'obtenir des gains intéressants la quantité de données utilisées dans nos modèles de détection est un problème lorsque nous testons nos méthodes sur des données nouvelles et très variées (49h issus de la base de données de conversations). Pour remédier à ce problème nous proposons une méthode d'enrichissement de notre corpus d'apprentissage. Nous sélectionnons ainsi, de manière automatique, de nouvelles données qui seront intégrées dans notre corpus d'apprentissage. Ces ajouts nous permettent de doubler la taille de notre ensemble d'apprentissage et d'obtenir des gains par rapport aux modèles de départ. Enfin, dans une dernière partie nous choisissons d'évaluées nos méthodes non plus sur des portions de dialogues comme cela est le cas dans la plupart des études, mais sur des conversations complètes. Nous utilisons pour cela les modèles issus des études précédentes (modèles issus de la fusion d'indices, des méthodes d'enrichissement automatique) et ajoutons 2 groupes d'indices supplémentaires : i) Des indices " structurels " prenant en compte des informations comme la durée de la conversation, le temps de parole de chaque type de locuteurs. ii) des indices " dialogiques " comprenant des informations comme le thème de la conversation ainsi qu'un nouveau concept que nous nommons " implication affective ". Celui-ci a pour but de modéliser l'impact de la production émotionnelle du locuteur courant sur le ou les autres participants de la conversation. Nous montrons que lorsque nous combinons l'ensemble de ces informations nous arrivons à obtenir des résultats proches de ceux d'un humain lorsqu'il s'agit de déterminer le caractère positif ou négatif d'une conversation
APA, Harvard, Vancouver, ISO, and other styles
11

Tremblay, Marie-Pier. "Le rôle de la mémoire sémantique dans la reconnaissance des émotions." Doctoral thesis, Université Laval, 2017. http://hdl.handle.net/20.500.11794/28013.

Full text
Abstract:
La mémoire sémantique sous-tend plusieurs processus cognitifs et des travaux récents suggèrent qu’elle soit impliquée dans la reconnaissance des émotions. Toutefois, le rôle de la mémoire sémantique dans la reconnaissance de la valence émotionnelle et des émotions de base évoquées par différents stimuli demeure controversé. Par conséquent, l’objectif de cette thèse consiste à clarifier le rôle de la mémoire sémantique dans la reconnaissance des émotions. Pour ce faire, la reconnaissance des émotions est examinée auprès de personnes atteintes de la variante sémantique de l’aphasie primaire progressive (vsAPP), une maladie neurodégénérative caractérisée par une détérioration progressive et isolée de la mémoire sémantique. Dans une première étude, la vsAPP est utilisée comme modèle d’altération de la mémoire sémantique. La performance de personnes atteintes de la vsAPP (n = 10) est comparée à celle de participants sans troubles cognitifs (n = 33) dans trois tâches évaluant la reconnaissance 1) des émotions de base évoquées par des visages expressifs, 2) des extraits prosodiques, et 3) de la valence émotionnelle véhiculée par des photographies de scènes visuelles. Les résultats révèlent que les personnes atteintes de la vsAPP ont des difficultés dans la reconnaissance des émotions de base, à l’exception de la joie et de la surprise évoquées par les visages expressifs, et de la valence émotionnelle. Ces résultats suggèrent que la mémoire sémantique joue un rôle central dans la reconnaissance des émotions de base et de la valence émotionnelle, mais que ce rôle diffère selon le stimulus employé et l’émotion véhiculée. Dans une deuxième étude, les liens formels sont étudiés entre la reconnaissance de la valence émotionnelle et des émotions de base, d’une part, et la mémoire sémantique, d’autre part. Les performances des mêmes participants sont comparées dans deux tâches évaluant la reconnaissance de la valence émotionnelle évoquée par des mots et des émotions de base véhiculées par la musique. De plus, la performance des personnes atteintes de la vsAPP est mise en lien avec la reconnaissance des mots et des extraits musicaux, de même qu’avec la capacité à associer les mots et les extraits musicaux à des concepts. Les résultats révèlent que la reconnaissance de la valence émotionnelle évoquée par des mots et des émotions de base véhiculées par des extraits musicaux dépend de la reconnaissance des mots et des extraits musicaux, mais non de la capacité à associer les mots et les extraits à des concepts. Ces résultats suggèrent que l’activation des représentations sémantiques relatives aux mots et aux extraits musicaux ne joue pas un rôle central dans la reconnaissance des émotions. Dans l’ensemble, les résultats de cette thèse suggèrent que la mémoire sémantique occupe un rôle central dans la reconnaissance de la valence émotionnelle et des émotions de base, mais que l’activation des représentations sémantiques relatives aux stimuli émotionnels n’est pas un prérequis à la reconnaissance des émotions. Ces conclusions contribuent à raffiner les théories actuelles sur le traitement des émotions, des mots et de la musique, ainsi que les modèles de la mémoire sémantique.
Semantic memory underlies several cognitive processes and recent research suggests that it is involved in emotion recognition. Nevertheless, the role of semantic memory in the recognition of emotional valence and basic emotions conveyed by different stimuli remains controversial. Therefore, this thesis aims at investigating the role of semantic memory in emotion recognition. To do so, emotion recognition is examined in people presenting with the semantic variant of primary progressive aphasia (svPPA), a neurodegenerative disorder characterized by a gradual and selective loss of semantic memory. In a first study, svPPA is used as a model of semantic memory impairment. Performances are compared between individuals with svPPA (n = 10) and healthy controls (n = 33) on three tasks assessing the recognition of 1) basic emotions conveyed by facial expressions, 2) prosody scripts, and 3) emotional valence conveyed by photographic scenes. Results reveal that individuals with svPPA show deficits in the recognition of basic emotions, except for happiness and surprise conveyed by facial expressions, and emotional valence. These results suggest that semantic memory has a central role in the recognition of emotional valence and basic emotions, but that its contribution varies according to stimulus and emotion category. In a second study, the formal association between the recognition of emotional valence and basic emotions, on the one hand, and semantic knowledge, on the other hand, is examined. Performances of the same participants are compared in two tasks assessing the recognition of emotional valence conveyed by written words and basic emotions conveyed by musical excerpts. Moreover, performance of individuals with svPPA is associated with the recognition of words and musical excerpts, as well as with the ability to associate words and musical excerpts with concepts. Findings indicate that the recognition of emotional valence conveyed by words and basic emotions conveyed by musical excerpts depends on the recognition of words and music, but not on the ability to associate words and musical excerpts with concepts. These results reveal that the activation of semantic representations related to words and musical excerpts is not required for emotion recognition. Altogether, results from this thesis suggest that semantic memory plays a central role in the recognition of emotional valence and basic emotions, but that the activation of semantic representations related to emotional stimuli is not required for emotion recognition. These conclusions contribute to refining existing models of emotion recognition, word and music processing, as well as models of semantic memory.
APA, Harvard, Vancouver, ISO, and other styles
12

Etienne, Caroline. "Apprentissage profond appliqué à la reconnaissance des émotions dans la voix." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS517.

Full text
Abstract:
Mes travaux de thèse s'intéressent à l'utilisation de nouvelles technologies d'intelligence artificielle appliquées à la problématique de la classification automatique des séquences audios selon l'état émotionnel du client au cours d'une conversation avec un téléconseiller. En 2016, l'idée est de se démarquer des prétraitements de données et modèles d'apprentissage automatique existant au sein du laboratoire, et de proposer un modèle qui soit le plus performant possible sur la base de données audios IEMOCAP. Nous nous appuyons sur des travaux existants sur les modèles de réseaux de neurones profonds pour la reconnaissance de la parole, et nous étudions leur extension au cas de la reconnaissance des émotions dans la voix. Nous nous intéressons ainsi à l'architecture neuronale bout-en-bout qui permet d'extraire de manière autonome les caractéristiques acoustiques du signal audio en vue de la tâche de classification à réaliser. Pendant longtemps, le signal audio est prétraité avec des indices paralinguistiques dans le cadre d'une approche experte. Nous choisissons une approche naïve pour le prétraitement des données qui ne fait pas appel à des connaissances paralinguistiques spécialisées afin de comparer avec l'approche experte. Ainsi le signal audio brut est transformé en spectrogramme temps-fréquence à l'aide d'une transformée de Fourier à court-terme. Exploiter un réseau neuronal pour une tâche de prédiction précise implique de devoir s'interroger sur plusieurs aspects. D'une part, il convient de choisir les meilleurs hyperparamètres possibles. D'autre part, il faut minimiser les biais présents dans la base de données (non discrimination) en ajoutant des données par exemple et prendre en compte les caractéristiques de la base de données choisie. Le but est d'optimiser le mieux possible l'algorithme de classification. Nous étudions ces aspects pour une architecture neuronale bout-en-bout qui associe des couches convolutives spécialisées dans le traitement de l'information visuelle, et des couches récurrentes spécialisées dans le traitement de l'information temporelle. Nous proposons un modèle d'apprentissage supervisé profond compétitif avec l'état de l'art sur la base de données IEMOCAP et cela justifie son utilisation pour le reste des expérimentations. Ce modèle de classification est constitué de quatre couches de réseaux de neurones à convolution et un réseau de neurones récurrent bidirectionnel à mémoire court-terme et long-terme (BLSTM). Notre modèle est évalué sur deux bases de données audios anglophones proposées par la communauté scientifique : IEMOCAP et MSP-IMPROV. Une première contribution est de montrer qu'avec un réseau neuronal profond, nous obtenons de hautes performances avec IEMOCAP et que les résultats sont prometteurs avec MSP-IMPROV. Une autre contribution de cette thèse est une étude comparative des valeurs de sortie des couches du module convolutif et du module récurrent selon le prétraitement de la voix opéré en amont : spectrogrammes (approche naïve) ou indices paralinguistiques (approche experte). À l'aide de la distance euclidienne, une mesure de proximité déterministe, nous analysons les données selon l'émotion qui leur est associée. Nous tentons de comprendre les caractéristiques de l'information émotionnelle extraite de manière autonome par le réseau. L'idée est de contribuer à une recherche centrée sur la compréhension des réseaux de neurones profonds utilisés en reconnaissance des émotions dans la voix et d'apporter plus de transparence et d'explicabilité à ces systèmes dont le mécanisme décisionnel est encore largement incompris
This thesis deals with the application of artificial intelligence to the automatic classification of audio sequences according to the emotional state of the customer during a commercial phone call. The goal is to improve on existing data preprocessing and machine learning models, and to suggest a model that is as efficient as possible on the reference IEMOCAP audio dataset. We draw from previous work on deep neural networks for automatic speech recognition, and extend it to the speech emotion recognition task. We are therefore interested in End-to-End neural architectures to perform the classification task including an autonomous extraction of acoustic features from the audio signal. Traditionally, the audio signal is preprocessed using paralinguistic features, as part of an expert approach. We choose a naive approach for data preprocessing that does not rely on specialized paralinguistic knowledge, and compare it with the expert approach. In this approach, the raw audio signal is transformed into a time-frequency spectrogram by using a short-term Fourier transform. In order to apply a neural network to a prediction task, a number of aspects need to be considered. On the one hand, the best possible hyperparameters must be identified. On the other hand, biases present in the database should be minimized (non-discrimination), for example by adding data and taking into account the characteristics of the chosen dataset. We study these aspects in order to develop an End-to-End neural architecture that combines convolutional layers specialized in the modeling of visual information with recurrent layers specialized in the modeling of temporal information. We propose a deep supervised learning model, competitive with the current state-of-the-art when trained on the IEMOCAP dataset, justifying its use for the rest of the experiments. This classification model consists of a four-layer convolutional neural networks and a bidirectional long short-term memory recurrent neural network (BLSTM). Our model is evaluated on two English audio databases proposed by the scientific community: IEMOCAP and MSP-IMPROV. A first contribution is to show that, with a deep neural network, we obtain high performances on IEMOCAP, and that the results are promising on MSP-IMPROV. Another contribution of this thesis is a comparative study of the output values ​​of the layers of the convolutional module and the recurrent module according to the data preprocessing method used: spectrograms (naive approach) or paralinguistic indices (expert approach). We analyze the data according to their emotion class using the Euclidean distance, a deterministic proximity measure. We try to understand the characteristics of the emotional information extracted autonomously by the network. The idea is to contribute to research focused on the understanding of deep neural networks used in speech emotion recognition and to bring more transparency and explainability to these systems, whose decision-making mechanism is still largely misunderstood
APA, Harvard, Vancouver, ISO, and other styles
13

Golouboff, Nathalie. "La reconnaissance des émotions faciales : développement chez l'enfant sain et épileptique." Paris 5, 2007. http://www.theses.fr/2007PA05H059.

Full text
Abstract:
L'objectif de ce travail consiste (1) à mettre au point un test de reconnaissance des expressions faciales pour enfants (le TREFE) afin d'évaluer leur capacité à reconnaître 5 émotions de base (la joie, la peur, la colère, le dégoût, la tristesse) et la neutralité, (2) à décrire les trajectoires du développement normal de la reconnaissance des émotions faciales chez 279 sujets sains âgés de 7 à 25 ans et (3) à évaluer l'impact d'une épilepsie partielle sur le développement de cette compétence chez 37 enfants et des adolescents épileptiques. Dans la population normale, les résultats révèlent que la capacité à reconnaître les émotions faciales est fonctionnelle à l'âge de 7-8 ans et qu'elle s'affine jusqu'à l'âge adulte. Chez les patients, les résultats montrent un impact de Fépilepsie et de sa topographie sur le développement de cette compétence dès l'enfance. Comme chez l'adulte, l'épilepsie temporale à début précoce est associée à des déficits de reconnaissance de la peur
The aim of this research is (1) to develop a new facial emotion recognition test for children (the TREFE) to assess their ability to recognize 5 basic emotions (happiness, fear, anger, disgust, sadness) against neutrality (no emotion), (2) to describe the normal developmental trajectories of facial emotion recognition in 279 healthy subjects aged from 7 to 25 and (3) to investigate the impact of epilepsy on the development of this competence in 37 children and adolescents with partial epilepsy. In the normal population, results reveal that the ability to recognize emotions in facial expressions is functional from pre-adolescence (7-8 years) and improves until adulthood (16-25 years). In patients, results show the impact of epilepsy and its topography on the development of emotion recognition from childhood. As in adults, early-onset temporal lobe epilepsy is associated with impairments in fear recognition
APA, Harvard, Vancouver, ISO, and other styles
14

Mariéthoz, Johnny. "Algorithmes d'apprentissage discriminants en vérification du locuteur." Lyon 2, 2006. http://theses.univ-lyon2.fr/documents/lyon2/2006/mariethoz_j.

Full text
Abstract:
This thesis addresses text-independent speaker verification from a machine learning point of view. We use the machine learning framework to better define the problem and to develop new unbiased performance measures and statistical tests to compare objectively new approaches. We propose a new interpretation of the state-of-the-art Gaussian Mixture Model based system and show that they are discriminant and equivalent to a mixture of linear classifiers. A general framework for score normalization is also given for both probability and non-probability based models. With this new framework we better show the hypotheses made for the well known Z- and T- score normalization techniques. Several uses of discriminant models are then proposed. In particular, we develop a new sequence kernel for Support Vector Machines that generalizes an other sequence kernel found in the literature. If the latter is limited to a polynomial form the former allows the use of infinite space kernels such as Radial Basis Functions. A variant of this kernel that finds the best match for each frame of the sequence to be compared, actually outperforms the state-of-the-art systems. As our new sequence kernel is computationally costly for long sequences, a clustering technique is proposed for reducing the complexity. We also address in this thesis some problems specific to speaker verification such as the fact that the classes are highly unbalanced. And the use of a specific intra- and inter-class distance distribution is proposed by modifying the kernel in order to assume a Gaussian noise distribution over negative examples. Even if this approach misses some theoretical justification, it gives very good empirical results and opens a new research direction
Dans cette thèse le problème de la vérification du locuteur indépendante du texte est abordée du point de vue de l'apprentissage statistique (machine learning). Les théories développées en apprentissage statistique permettent de mieux définir ce problème, de développer de nouvelles mesures de performance non-biaisées et de proposer de nouveaux tests statistiques afin de comparer objectivement les modèles proposés. Une nouvelle interprétation des modèles de l'état de l'art basée sur des mixtures de gaussiennes (GMM) montre que ces modèles sont en fait discriminants et équivalents à une mixture d'experts linéaires. Un cadre théorique général pour la normalisation des scores est aussi proposé pour des modèles probabilistes et non-probabilistes. Grâce à ce nouveau cadre théorique, les hypothèses faites lors de l'utilisation de la normalisation Z et T (T- and Z-norm) sont mises en évidence. Différents modèles discriminants sont proposés. On présente un nouveau noyau utilisé par des machines à vecteurs de support (SVM) qui permet de traîter des séquences. Ce noyau est en fait la généralisation d'un noyau déjà existant qui présente l'inconvénient d'être limité à une forme polynomiale. La nouvelle approche proposée permet la projection des données dans un espace de dimension infinie, comme c'est le cas, par exemple, avec l'utilisation d'un noyau gaussien. Une variante de ce noyau cherchant le meilleur vecteur acoustique (frame) dans la séquence à comparer, améliore les résultats actuellement connus. Comme cette approche est particulièrement coûteuse pour les séquences longues, un algorithme de regroupement (clustering) est utilisé pour en réduire la complexité. Finalement, cette thèse aborde aussi des problèmes spécifiques de la vé-ri-fi-ca-tion du locuteur, comme le fait que les nombres d'exemples positifs et négatifs sont très déséquilibrés et que la distribution des distances intra et inter classes est spécifique de ce type de problème. Ainsi, le noyau est modifié en ajoutant un bruit gaussien sur chaque exemple négatif. Même si cette approche manque de justification théorique pour l'instant, elle produit de très bons résultats empiriques et ouvre des perspectives intéressantes pour de futures recherches
APA, Harvard, Vancouver, ISO, and other styles
15

Mariéthoz, Johnny Paugam-Moisy Hélène. "Discriminant models for text-independent speaker verification." Lyon : Université Lumière Lyon 2, 2006. http://theses.univ-lyon2.fr/sdx/theses/lyon2/2006/mariethoz_j.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

Maassara, Reem. "La reconnaissance des expressions faciales des émotions: profil de développement et utilisation des catégories émotionnelles au cours de l’enfance." Thesis, Université d'Ottawa / University of Ottawa, 2016. http://hdl.handle.net/10393/34415.

Full text
Abstract:
Le but de cette thèse était d’étudier le développement de la catégorisation des expressions faciales émotionnelles chez les enfants francophones à l’aide de deux tâches de jugement: l’étiquetage verbal (étude 1) et le jugement à choix forcés (étude 2). Le modèle théorique ayant guidé les études était celui proposé par Widen et Russell (2003, 2010). Les résultats de la première étude ont montré une très forte correspondance entre la séquence d’utilisation des catégories émotionnelles et celle prédite par le modèle de Widen et Russell. De plus, les résultats ont généralement appuyé les prédictions du modèle en ce qui concerne les profils de développement se rapportant à l’exactitude des jugements et à la fréquence d’utilisation et l’extension des catégories émotionnelles. Enfin, la première étude a permis de recueillir des informations sur le lexique émotionnel des enfants francophones, ce qu’aucune étude antérieure n’avait fait à notre connaissance. La deuxième étude visait à vérifier si le modèle de Widen et Russell décrivait bien l’utilisation des catégories émotionnelles dans la tâche de jugement à choix forcés. Les résultats ont montré que la performance des participants était supérieure au hasard dès 3 ans et, que conformément aux prédictions, elle augmentait pour chacune des six expressions entre 3 et 8 ans. Comme le prévoyait le modèle, le nombre de catégories émotionnelles utilisées par les enfants a augmenté en fonction de l’âge. L’utilisation des catégories de joie, tristesse et colère a diminué en fonction de l’âge alors que l’utilisation des catégories de peur, surprise et tristesse a augmenté. Cependant, les prédictions du modèle en rapport avec l’extension des catégories émotionnelles n’ont été que partiellement appuyées, puisque l’extension des catégories avait tendance à diminuer entre 3 et 8 ans seulement dans le cas de la joie et de la colère. Enfin, les résultats de la deuxième étude n’ont pas appuyé la séquence d’utilisation des catégories émotionnelles prédite par le modèle.
APA, Harvard, Vancouver, ISO, and other styles
17

Merlin, Teva. "AMIRAL, une plateforme générique pour la reconnaissance automatique du locuteur - de l'authentification à l'indexation." Avignon, 2005. http://www.theses.fr/2004AVIG0136.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Abdat, Faiza. "Reconnaissance automatique des émotions par données multimodales : expressions faciales et des signaux physiologiques." Thesis, Metz, 2010. http://www.theses.fr/2010METZ035S/document.

Full text
Abstract:
Cette thèse présente une méthode générique de reconnaissance automatique des émotions à partir d’un système bimodal basé sur les expressions faciales et les signaux physiologiques. Cette approche de traitement des données conduit à une extraction d’information de meilleure qualité et plus fiable que celle obtenue à partir d’une seule modalité. L’algorithme de reconnaissance des expressions faciales qui est proposé, s’appuie sur la variation de distances des muscles faciaux par rapport à l’état neutre et sur une classification par les séparateurs à vastes marges (SVM). La reconnaissance des émotions à partir des signaux physiologiques est, quant à elle, basée sur la classification des paramètres statistiques par le même classifieur. Afin d’avoir un système de reconnaissance plus fiable, nous avons combiné les expressions faciales et les signaux physiologiques. La combinaison directe de telles informations n’est pas triviale étant donné les différences de caractéristiques (fréquence, amplitude de variation, dimensionnalité). Pour y remédier, nous avons fusionné les informations selon différents niveaux d’application. Au niveau de la fusion des caractéristiques, nous avons testé l’approche par l’information mutuelle pour la sélection des plus pertinentes et l’analyse en composantes principales pour la réduction de leur dimensionnalité. Au niveau de la fusion de décisions, nous avons implémenté une méthode basée sur le processus de vote et une autre basée sur les réseaux Bayésien dynamiques. Les meilleurs résultats ont été obtenus avec la fusion des caractéristiques en se basant sur l’Analyse en Composantes Principales. Ces méthodes ont été testées sur une base de données conçue dans notre laboratoire à partir de sujets sains et de l’inducteur par images IAPS. Une étape d’auto évaluation a été demandée à tous les sujets dans le but d’améliorer l’annotation des images d’induction utilisées. Les résultats ainsi obtenus mettent en lumière leurs bonnes performances et notamment la variabilité entre les individus et la variabilité de l’état émotionnel durant plusieurs jours
This thesis presents a generic method for automatic recognition of emotions from a bimodal system based on facial expressions and physiological signals. This data processing approach leads to better extraction of information and is more reliable than single modality. The proposed algorithm for facial expression recognition is based on the distance variation of facial muscles from the neutral state and on the classification by means of Support Vector Machines (SVM). And the emotion recognition from physiological signals is based on the classification of statistical parameters by the same classifier. In order to have a more reliable recognition system, we have combined the facial expressions and physiological signals. The direct combination of such information is not trivial giving the differences of characteristics (such as frequency, amplitude, variation, and dimensionality). To remedy this, we have merged the information at different levels of implementation. At feature-level fusion, we have tested the mutual information approach for selecting the most relevant and principal component analysis to reduce their dimensionality. For decision-level fusion we have implemented two methods; the first based on voting process and another based on dynamic Bayesian networks. The optimal results were obtained with the fusion of features based on Principal Component Analysis. These methods have been tested on a database developed in our laboratory from healthy subjects and inducing with IAPS pictures. A self-assessment step has been applied to all subjects in order to improve the annotation of images used for induction. The obtained results have shown good performance even in presence of variability among individuals and the emotional state variability for several days
APA, Harvard, Vancouver, ISO, and other styles
19

Abdat, Faiza. "Reconnaissance automatique des émotions par données multimodales : expressions faciales et des signaux physiologiques." Electronic Thesis or Diss., Metz, 2010. http://www.theses.fr/2010METZ035S.

Full text
Abstract:
Cette thèse présente une méthode générique de reconnaissance automatique des émotions à partir d’un système bimodal basé sur les expressions faciales et les signaux physiologiques. Cette approche de traitement des données conduit à une extraction d’information de meilleure qualité et plus fiable que celle obtenue à partir d’une seule modalité. L’algorithme de reconnaissance des expressions faciales qui est proposé, s’appuie sur la variation de distances des muscles faciaux par rapport à l’état neutre et sur une classification par les séparateurs à vastes marges (SVM). La reconnaissance des émotions à partir des signaux physiologiques est, quant à elle, basée sur la classification des paramètres statistiques par le même classifieur. Afin d’avoir un système de reconnaissance plus fiable, nous avons combiné les expressions faciales et les signaux physiologiques. La combinaison directe de telles informations n’est pas triviale étant donné les différences de caractéristiques (fréquence, amplitude de variation, dimensionnalité). Pour y remédier, nous avons fusionné les informations selon différents niveaux d’application. Au niveau de la fusion des caractéristiques, nous avons testé l’approche par l’information mutuelle pour la sélection des plus pertinentes et l’analyse en composantes principales pour la réduction de leur dimensionnalité. Au niveau de la fusion de décisions, nous avons implémenté une méthode basée sur le processus de vote et une autre basée sur les réseaux Bayésien dynamiques. Les meilleurs résultats ont été obtenus avec la fusion des caractéristiques en se basant sur l’Analyse en Composantes Principales. Ces méthodes ont été testées sur une base de données conçue dans notre laboratoire à partir de sujets sains et de l’inducteur par images IAPS. Une étape d’auto évaluation a été demandée à tous les sujets dans le but d’améliorer l’annotation des images d’induction utilisées. Les résultats ainsi obtenus mettent en lumière leurs bonnes performances et notamment la variabilité entre les individus et la variabilité de l’état émotionnel durant plusieurs jours
This thesis presents a generic method for automatic recognition of emotions from a bimodal system based on facial expressions and physiological signals. This data processing approach leads to better extraction of information and is more reliable than single modality. The proposed algorithm for facial expression recognition is based on the distance variation of facial muscles from the neutral state and on the classification by means of Support Vector Machines (SVM). And the emotion recognition from physiological signals is based on the classification of statistical parameters by the same classifier. In order to have a more reliable recognition system, we have combined the facial expressions and physiological signals. The direct combination of such information is not trivial giving the differences of characteristics (such as frequency, amplitude, variation, and dimensionality). To remedy this, we have merged the information at different levels of implementation. At feature-level fusion, we have tested the mutual information approach for selecting the most relevant and principal component analysis to reduce their dimensionality. For decision-level fusion we have implemented two methods; the first based on voting process and another based on dynamic Bayesian networks. The optimal results were obtained with the fusion of features based on Principal Component Analysis. These methods have been tested on a database developed in our laboratory from healthy subjects and inducing with IAPS pictures. A self-assessment step has been applied to all subjects in order to improve the annotation of images used for induction. The obtained results have shown good performance even in presence of variability among individuals and the emotional state variability for several days
APA, Harvard, Vancouver, ISO, and other styles
20

Sánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur." Paris, ENST, 2005. http://www.theses.fr/2005ENST0032.

Full text
Abstract:
Cette thèse est concernée avec la modélisation statistique du signal de parole appliqué à la vérification du locuteur (VL) en utilisant des réseaux bayésiens (RBs). L'idée principale de ce travail est d'employer les RBs comme un outil mathématique afin de combiner plusieurs sources d'information obtenues à partir du signal de parole en gardant ses relations. Elle combine de travail théorique et expérimental. Une différence fondamentale entre les systèmes de VL et les humains est la quantité et la qualité de l'information utilisée ainsi que la relation entre les sources d'information employées pour prendre des décisions. L'identité d'un locuteur est codée dans plusieurs sources d'information qui peuvent être modélisées par des RBs. La première partie de cette thèse passe en revue les modules principaux des systèmes de VL, les sources possibles d'information aussi bien que les concepts de base des modèles graphiques. La deuxième partie de cette thèse aborde le module de modélisation du système de VL proposé. On propose une nouvelle façon d approcher les problèmes liés aux systèmes de VL. Il est décrit comment apprendre les relations d'indépendance conditionnelle parmi les variables directement à partir des données. Enfin, nous proposons une technique pour adapter les RBs basée sur certaines caractéristiques mathématiques des relations d'indépendance conditionnelles. Cette adaptation est basée sur une mesure entre les distributions de probabilité conditionnelles entre des variables discrètes, et de la même façon, sur la matrice de régression pour des variables continues. A l'issue de nos recherches, l'intérêt d'employer les RBs dans les systèmes de VL est clairement montré
This thesis is concerned with the statistical modeling of speech signal applied to Speaker Verification (SV) using Bayesian Networks (BNs). The main idea of this work is to use BNs as a mathematical tool to model pertinent speech features keeping its relations. It combines theoretical and experimental work. The difference between systems and humans performance in SV is the quantity of information and the relationships between the sources of information used to make decisions. A single statistical framework that keeps the conditional dependence and independence relations between those variables is difficult to attain. Therefore, the use of BNs as a tool for modeling the available information and their independence and dependence relationships is proposed. The first part of this work reviews the main modules of a SV system, the possible sources of information as well as the basic concepts of graphical models. The second part deals with Modeling. A new approach to the problems associated with the SV systems is proposed. The problem of inference and learning (parameters and structure)in BNs are presented. In order to obtain an adapted structure the relations of conditional independence among the variables are learned directly from the data. These relations are then used in order to build an adapted BN. In particular, a new model adaptation technique for BN has been proposed. This adaptation is based on a measure between Conditional Probability Distributions for discrete variables and on Regression Matrix for continuous variables used to model the relationships. In a large database for the SV task, the results have confirmed the potential of use the BNs approach
APA, Harvard, Vancouver, ISO, and other styles
21

Clavel, Chloé. "Analyse et reconnaissance des manifestations acoustiques des émotions de type peur en situations anormales." Phd thesis, Télécom ParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00002533.

Full text
Abstract:
Cette thèse aborde le problème de la reconnaissance des émotions dans la parole. Nous avons choisi de centrer notre étude sur un type de manifestations émotionnelles jusqu'alors peu étudié dans le domaine du traitement de la parole: les émotions de type peur en situations anormales. Les situations anormales correspondent ici à des événements imprévus, constituant une menace pour la vie humaine. Cette étude est motivée par une application nouvelle dans le domaine de la reconnaissance d'émotions: la sécurité civile. Le point de départ de ce travail a consisté en la définition et en l'acquisition d'un matériel d'étude illustrant des émotions extrêmes de type peur, dans des contextes de menace. Le corpus SAFE (Situation Analysis in a Fictional and Emotional corpus) développé à cet effet utilise comme source le cinéma de fiction. Il consiste en 400 séquences audiovisuelles d'une durée totale de 7 heures. Une stratégie d'annotation adaptée à la tâche de surveillance et intégrant plusieurs niveaux de description (niveau contextuel et niveau émotionnel) a été mise en place. Le système de reconnaissance des émotions, développé sur ce corpus, traite un grand nombre de locuteurs inconnus, dans des environnements sonores et contextes variés. Il consiste en une classification peur/neutre. L'originalité de la méthode repose sur une modélisation dissociée des contenus voisé et non voisé du signal de parole, les deux contenus étant ensuite fusionnés à l'étape de décision du système de classification. Les résultats obtenus sont très encourageants compte tenu de la diversité des données et de la complexité du phénomène à reconnaître : le taux d'erreur avoisine les 30%.
APA, Harvard, Vancouver, ISO, and other styles
22

Suarez, Pardo Myrian Amanda. "Identification et attribution des expressions faciales et vocales émotionnelles chez l'enfant typique et avec autisme." Toulouse 2, 2009. http://www.theses.fr/2009TOU20004.

Full text
Abstract:
Cette étude vise à étudier l’attribution et l'expression émotionnelles dans une perspective développementale et comparative (normal-pathologique). Notre approche se situe dans le cadre de la pragmatique développementale qui rend compte de la façon dont les enfants acquièrent les usages sociaux de la communication et du langage. Des enfants français typiques et avec autisme de haut niveau et Syndrome d'Asperger, âgés entre 4 et 8 ans ont été testés à l'aide d'une tâche de dénomination d'émotions à partir de photos et d'histoires, d'une épreuve de narration de scènes à contenu émotionnel et d'un entretien sur les émotions (comprenant une tâche de production et d'évocation des émotions). Dans le cadre de l'étude transversale, les résultats des tâches d'attribution et de production d'expressions émotionnelles montrent que les enfants typiques ont de meilleures performances pour reconnaître la joie, la tristesse et la colère, comparativement à la peur et à la surprise (effet du type d'émotion). Ces résultats révèlent également que les enfants plus âgés ont des meilleures performances que les jeunes enfants (effet de l'âge). Pour ce qui concerne l'étude comparative normal/pathologique, nous avons mis en évidence des performances similaires entre les deux groupes comparés pour ce qui concerne le score total de la tâche d'attribution émotionnelle à partir des photos. Par contre, nous avons constaté des différences entre la population typique et atypique pour ce qui concerne l'attribution et l'expression émotionnelles observées à l'aide des autres tâches. Ainsi, les enfants avec autisme ont de moins bonnes performances par rapport aux enfants typiques, pour ce qui concerne la l'attribution émotionnelle à partir des histoires, l'évocation de situations émotionnelles et la production d'expressions faciales et vocales
Social cognition is defined as our ability to interpret others' behaviour in terms of mental states (thoughts, intentions, desires, and beliefs), to empathize with others' state of mind and to predict how others will think and act. This kind of capability is used, for example, to « read » and to understand the emotional expressions of other people. Within the framework of this research we are interested in children's abilities to express and to interpret the emotional manifestations of other people as a highly mediating factor for their successful social adjustment. This question was explored from both a developmental and comparative perspective. We studied the developmental trajectories of 90 typically developing children, divided into three age groups of 4, 6 and 8 years, and compared them with those of 12 high-functioning autistic children. These groups were assessed with a number of tasks: an affective judgment task from pictures and stories, a narration task using scenes of emotional content and an interview about emotions (composed by production and evocation tasks). Results of the developmental study show that, as typical children get older, they increasingly provide adequate target responses, confusion between emotions decreases and finally they produce more complex narratives and develop expressive capabilities. Furthermore, results of the comparative study show that the autistic population is also able to recognize emotional information from faces, but they show significantly worse performance on other emotional tasks than typical children do. These results are discussed in relation to former research in the domain of emotional, pragmatic and theory of mind
APA, Harvard, Vancouver, ISO, and other styles
23

Leconte, Francis. "Reconnaissance et stabilité d'une mémoire épisodique influencée par les émotions artificielles pour un robot autonome." Mémoire, Université de Sherbrooke, 2014. http://hdl.handle.net/11143/5953.

Full text
Abstract:
Les robots de service devront répondre aux besoins d'humains au quotidien. Nos milieux de vie diffèrent par leur configuration, les conditions environnementales, les objets qui s'y trouvent, les personnes présentes et les événements pouvant y survenir. Un grand défi de la robotique autonome est de permettre aux robots de s'adapter à n'importe quelle situation tout en étant efficace et sécuritaire dans l'exécution de tâches. À cette fin, une mémoire épisodique a le rôle d'emmagasiner et de classer les expériences d'un agent intelligent en lien avec les éléments du contexte spatio-temporel d'apprentissage. Ainsi, une mémoire épisodique s'avère un élément essentiel pour permettre au robot de mémoriser ses expériences dans le but de les réutiliser lors de situations similaires. Toutefois, pour qu'une mémoire épisodique puisse être utilisée par un robot autonome, elle doit pouvoir exploiter l'information provenant de capteurs asynchrones et bruités. De plus, elle doit pouvoir être influencée différemment selon l'importance des expériences vécues. Le but de ce projet de recherche est de concevoir et d'intégrer à un robot mobile une mémoire épisodique construite à partir d'un apprentissage non supervisé et qui favorise la mémorisation des expériences les plus pertinentes afin d'améliorer l'efficacité du robot dans l'exécution de sa tâche. À la base, l'approche repose sur des réseaux de neurones utilisant la Théorie de résonance adaptative (ART, pour Adaptive Resonance Theory). Deux réseaux ART sont placés en cascade afin de catégoriser, respectivement, les contextes spatiaux, appelés événements, et les séquences d'événements, appelées épisodes. Le modèle résultant, EM-ART (Episodic Memory-ART), utilise un module d'émotions artificielles afin d'influencer la dynamique d'apprentissage et d'utilisation des réseaux ART en favorisant la mémorisation et le rappel des expériences associées à de fortes intensités émotionnelles. Le rappel d'épisodes permet de prédire et d'anticiper les événements futurs, contribuant à améliorer l'adaptabilité du robot pour effectuer sa tâche. EM-ART est validé sur le robot IRL-1/TR dans un scénario de livraison d'objets. Les expérimentations réalisées en milieu réel permettent d'isoler les caractéristiques du modèle telles que la prédiction d'événements, la création d'épisodes et l'influence des émotions. Des simulations construites à partir de données réelles permettent aussi d'observer l'évolution de la structure du modèle sur une plus grande période de temps et dans des séquences différentes. Les résultats démontrent que le modèle EM-ART permet une récupération d'épisodes plus hâtive lorsque ceux-ci sont associés à une intensité émotionnelle élevée, permettant à IRL-1/TR d'utiliser la destination de sa dernière livraison pour accomplir la livraison en cours. Selon la séquence des expériences soumis au modèle, un plus grand nombre d'épisodes est créé si les premières expériences ne sont pas associées à des émotions élevées, puisqu'ils sont négligées en mémoire au détriment de la création de nouveaux épisodes plus distinctifs. Il en résulte une capacité faisant évoluer l'intelligence du robot à celle d'une entité capable d'apprendre de ses expériences évaluées selon sa propre perspective.
APA, Harvard, Vancouver, ISO, and other styles
24

Sánchez-Soto, Eduardo. "Réseaux bayésiens dynamiques pour la vérification du locuteur /." Paris : École nationale supérieure des télécommunications, 2005. http://catalogue.bnf.fr/ark:/12148/cb40208312k.

Full text
APA, Harvard, Vancouver, ISO, and other styles
25

Ringeval, Fabien. "Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2011. http://tel.archives-ouvertes.fr/tel-00825312.

Full text
Abstract:
La reconnaissance de l'état émotionnel d'un locuteur est une étape importante pour rendre la communication Homme-machine plus naturelle et conviviale. Nous étudions dans cette thèse la problématique du traitement automatique de la parole (TAP) orienté émotion sur des données actées et naturelles. L'étude des émotions spontanées a été effectuée en parallèle avec celles des troubles de la communication (TC), puisque ces troubles limitent les capacités d'interaction de l'enfant. Les techniques incluses dans les systèmes de TAP orienté émotion doivent reposer sur des paramètres robustes dans la description des corrélats de l'affect, mais aussi face aux contraintes liées au changement de locuteur et de contexte sémantique. Dans cet esprit, nos travaux ont exploité un ensemble de traitements automatiques pour effectuer la reconnaissance des émotions. Nous avons notamment identifié des points d'ancrage complémentaires de la parole (e.g., pseudo-phonèmes) pour extraire plusieurs types de paramètres (e.g., acoustique et prosodique) sur le signal. Des techniques de fusion ont aussi été employées pour estimer la con-tribution de ces approches dans la tâche de reconnaissance. De plus, un effort a été tout spécia-lement porté sur le développement de modèles non-convent-ionnels du rythme, puisque cette composante apparaît clairement comme étant sous modélisée dans les systèmes état-de-l'art. Les expériences effectuées dans cette thèse visent à démontrer la pertinence des points d'ancrage de la parole et des modèles du rythme pour identifier les paramètres corrélés aux émotions. L'étude des émotions prototypiques (i.e., actées) par les modèles non-conventionnels du rythme a, par exemple, permis de définir un continuum de valeurs représentant alors les classes d'émotions qui apparaissent selon la roue de Plutchik. Les analyses portant sur les TC ont été effectuées en étroite collaboration avec des équipes de cliniciens et de chercheurs en TAP orienté émotion. Ces travaux ont eu pour but d'employer des méthodes automatiques (i.e., identification des points d'ancrage de la parole et extraction de paramètres prosodiques) pour caractériser les particularités associées aux types de TC étu-diés, i.e., autisme, dysphasie et troubles envahissants du développement non-spécifiés (TED-NOS). Un groupe contrôle composé d'enfants à développement typique a aussi été étudié pour comparer les capacités prosodiques des sujets TC. Les résultats de cette étude sont prometteurs puisqu'ils ont montré que l'ensemble des sujets pathologiques pouvait être discriminé significa-tivement des typiques, tout comme les différents groupes de TC, selon deux types d'épreuves distinctes : (i) imitation de contours intonatifs (tâche contrainte) et (ii) production de parole affective spontanée (tâche non-contrainte). De plus, les résultats fournis par une analyse auto-matique des données ont permis de retrouver les caractéristiques cliniques des groupes de TC. Les techniques actuelles en TAP orienté émotion sont donc suffisamment matures pour s'affranchir des difficultés créées par l'étude de corpus contenant de la parole spontanée et/ou produite par des voix d'enfants. Par conséquent, la difficile mais au combien importante tâche " d'humanisation " des systèmes communicants peut être envisagée, puisque les machines peuvent avoir la capacité de percevoir de façon robuste l'affect dans des situations naturelles
APA, Harvard, Vancouver, ISO, and other styles
26

Hammal, Zakia. "Segmentation des traits du visage, analyse et reconnaissance d'expressions faciales par le modèle de croyance transférable." Université Joseph Fourier (Grenoble), 2006. http://www.theses.fr/2006GRE10059.

Full text
Abstract:
L'objectif de ce travail est l'analyse et la classification d'expressions faciales. Des expériences en psychologie ont permis de mettre en évidence le fait que l'être humain est capable de reconnaître les émotions sur un visage à partir de la visualisation de l'évolution temporelle de certains points caractéristiques de celui-ci. Nous avons donc tout d'abord proposé un système d'extraction automatique des contours des traits permanents du visage (yeux, sourcils et lèvres). Dans ce travail nous nous intéressons au problème de la segmentation des yeux et des sourcils. La segmentation des contours des lèvres est basée sur un travail précédent développé au sein du laboratoire. L'algorithme proposé pour l'extraction des contours des yeux et des sourcils est constitué de trois étapes : d'abord la définition de modèles paramétrique pour modéliser au mieux le contour de chaque trait ; ensuite, les modèles choisis sont initialisés sur les images à segmenter grâce à l'extraction d'un ensemble de points caractéristiques ; enfin, les modèles initiaux sont ajustés finement en tenant compte d'information de gradient de luminance. La segmentation des contours des yeux, des sourcils et des lèvres conduit à ce que nous appelons des squelettes d'expressions. Pour mesurer la déformation des traits caractéristiques, cinq distances caractéristiques sont définies sur ces squelettes basé sur l'état de ces distances un ensemble de règles logiques est défini pour chacune des expressions considérées : Sourire, Surprise, Dégo-ut, Corere, Peur, Tristesse, Neutre. Ces règles sont compatibles avec la norme MPEG-4 qui fournit une description des transformations subies par chacun des traits du visage lors de la production des six expressions faciales universelles. Cependant le comportement humain n'étant pas binaire, une expression pure est rarement produite. Pour pouvoir modéliser le doute entre plusieurs expressions et le cas des expressions inconnues, le Modèle de Croyance Transférable est utilisé comme processus de fusion pour la classification des expressions faciales. Le system de reconnaissance d'eveloppé tient compte de l'évolution au cours du temps des d'eformations des traits du visage. Dans la perspective d'un système audio-visuel de reconnaissance d'expressions émotionelles, une étude préliminaire sur des expressions vocales a aussi été menée
The aim of this work is the analysis and the classification of facial expressions. Experiments in psychology show that hum an is able to recognize the emotions based on the visualization of the temporal evolution of sorne characteristic fiducial points. Thus we firstly propose an automatic system for the extraction of the permanent facial features (eyes, eyebrows and lips). Ln this work we are interested in the problem of the segmentation of the eyes and the eyebrows. The segmentation of lips contours is based on a previous work developed in the laboratory. The proposed algorithm for eyes and eyebrows contours segmentation consists of three steps : firstly, the definition of parametric models to fit as accurate as possible the contour of each feature ; then, a whole set of characteristic points is detected to initialize the selected models in the face ; finally, the initial models are finally fitted by taking into account the luminance gradient information. The segmentation of the eyes, eyebrows and lips contours leads to what we cali skeletons of expressions. To measure the characteristic features deformation, five characteristic distances are defined on these skeletons. Based on the state of these distances a whole set of logical rules is defined for each one of the considered expression : Smile, Surprise, Disgust, Anger, Fear, Sadness and Neutral. These rules are compatible with the standard MPEG-4 which provides a description of the deformations undergone by each facial feature during the production of the six universal facial expressions. However the human behavior is not binary, a pure expression is rarely produced. To be able to model the doubt between several expressions and to model the unknown expressions, the Transferable Belief Model is used as a fusion process for the facial expressions classification. The classification system takes into account the evolution of the facial features deformation in the course of the time. Towards an audio-visual system for emotional expressions classification, a reliminary study on vocal expressions is also proposed
APA, Harvard, Vancouver, ISO, and other styles
27

Prégent, Alexandra. "Informatique affective : l'utilisation des systèmes de reconnaissance des émotions est-elle en cohérence avec la justice sociale ?" Master's thesis, Université Laval, 2021. http://hdl.handle.net/20.500.11794/70318.

Full text
Abstract:
Identifier correctement, indistinctement de la culture, de l’ethnicité, du contexte, du genre et de la classe sociale, les émotions d’autrui à partir d’une analyse de leurs expressions faciales, c’est ce qu’offrent, en principe, les systèmes de reconnaissance des émotions (SRÉ). En prétendant à un universalisme dans l’expression ainsi que dans la reconnaissance des émotions, nous tenterons de démontrer que les SRÉ présentent des risques non-négligeables à certains individus, en plus de viser, dans certains contextes, des groupes sociaux spécifiques. S’appuyant sur un vaste champ de connaissances multidisciplinaires inclut la philosophie, la psychologie, l’informatique et l’anthropologie ce qui projet de recherche vise à identifier les limites actuelles des SRÉ ainsi que les principaux risques que leur utilisation engendre, dans l’objectif de produire une analyse claire et rigoureuse de l’utilisation des SRÉ ainsi que de leur participation à une plus grande justice sociale. Mettant de l’avant les limites techniques, nous réfutons, d’une part, l’idée selon laquelle les SRÉ sont en mesure de prouver le lien de causalité entre des émotions spécifiques et des expressions faciales spécifiques. Nous appuyons notre argument par des preuves prouvant l’incapacité des SRÉ à distinguer les expressions faciales d’émotions des expressions faciales en tant que signaux de communication. D’autre part, en raison des limites contextuelles et culturelles des SRÉ actu els, nous réfutons l’idée selon laquelle les SRÉ sont en mesure de reconnaître, à performance égale, les émotions des individus, indistinctement de leur culture, ethnicité, genre et classe sociale. Notre analyse éthique démontre que les risques sont considérablement plus nombreux et plus importants que les bénéfices que l’on pourrait tirer d’une utilisation des SRÉ. Toutefois, nous avons séparé un type précis de SRÉ, dont l’utilisation se limite au domaine du care , et qui démontre un potentiel remarquable pour participer activement à la justice sociale, non seulement en se conformant aux exigences minimales, mais en répondant aussi au critère de bienfaisance. Si, actuellement, les SRÉ posent des risques importants, il est toutefois possible de considérer la possibilité que certains types spécifiques participent à la justice sociale et apportent une aide ainsi qu’un support émotionnel et psychologique à certains membres de la société.
Emotion recognition systems (ERS) offer the ability to identify the emotions of others, based on an analysis of their facial expressions and regardless of culture, ethnicity, context, gender or social class. By claiming universalism in the expression as we ll as in the recognition of emotions, we believe that ERS present significant risks of causing great harm to some individuals, in addition to targeting, in some contexts, specific social groups. Drawing on a wide range of multidisciplinary knowledge and anthropology incl uding philosophy, psychology, computer science this research project aims to identify the current limitations of ERS and the main risks that their use brings, with the goal of providing a clear and robust analysis of the use of ERS and t heir contribution to greater social justice. Pointing to technical limitations, we refute, on the one hand, the idea that ERS are able to prove the causal link between specific emotions and specific facial expressions. We support our argument with evidence of the inability of ERS to distinguish facial expressions of emotions from facial expressions as communication signals. On the other hand, due to the contextual and cultural limitations of current ERS, we refute the idea that ERS are able to recognise, with equal performance, the emotions of individuals, regardless of their culture, ethnicity, gender and social class. Our ethical analysis shows that the risks are considerably more numerous and important than the benefits that could be derived from using ER S. However, we have separated out a specific type of ERS, whose use is limited to the field of care, and which shows a remarkable potential to actively participate in social justice, not only by complying with the minimum requirements, but also by meeting the criterion of beneficence. While ERS currently pose significant risks, it is possible to consider the potential for specific types to participate in social justice and provide emotional and psychological support and assistance to certain members of society.
APA, Harvard, Vancouver, ISO, and other styles
28

Tayari, Meftah Imen. "Modélisation, détection et annotation des états émotionnels à l'aide d'un espace vectoriel multidimensionnel." Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00838803.

Full text
Abstract:
Notre travail s'inscrit dans le domaine de l'affective computing et plus précisément la modélisation, détection et annotation des émotions. L'objectif est d'étudier, d'identifier et de modéliser les émotions afin d'assurer l'échange entre applications multimodales. Notre contribution s'axe donc sur trois points. En premier lieu, nous présentons une nouvelle vision de la modélisation des états émotionnels basée sur un modèle générique pour la représentation et l'échange des émotions entre applications multimodales. Il s'agit d'un modèle de représentation hiérarchique composé de trois couches distinctes : la couche psychologique, la couche de calcul formel et la couche langage. Ce modèle permet la représentation d'une infinité d'émotions et la modélisation aussi bien des émotions de base comme la colère, la tristesse et la peur que les émotions complexes comme les émotions simulées et masquées. Le second point de notre contribution est axé sur une approche monomodale de reconnaissance des émotions fondée sur l'analyse des signaux physiologiques. L'algorithme de reconnaissance des émotions s'appuie à la fois sur l'application des techniques de traitement du signal, sur une classification par plus proche voisins et également sur notre modèle multidimensionnel de représentation des émotions. Notre troisième contribution porte sur une approche multimodale de reconnaissance des émotions. Cette approche de traitement des données conduit à une génération d'information de meilleure qualité et plus fiable que celle obtenue à partir d'une seule modalité. Les résultats expérimentaux montrent une amélioration significative des taux de reconnaissance des huit émotions par rapport aux résultats obtenus avec l'approche monomodale. Enfin nous avons intégré notre travail dans une application de détection de la dépression des personnes âgées dans un habitat intelligent. Nous avons utilisé les signaux physiologiques recueillis à partir de différents capteurs installés dans l'habitat pour estimer l'état affectif de la personne concernée.
APA, Harvard, Vancouver, ISO, and other styles
29

Kerkeni, Leila. "Analyse acoustique de la voix pour la détection des émotions du locuteur." Thesis, Le Mans, 2020. http://www.theses.fr/2020LEMA1003.

Full text
Abstract:
L'objectif de cette thèse est de proposer un système de reconnaissance automatique des émotions (RAE) par analyse de la voix pour une application dans un contexte pédagogique d'orchestration de classe. Ce système s'appuie sur l'extraction de nouvelles caractéristiques, par démodulation en amplitude et en fréquence, de la voix ; considérée comme un signal multi-composantes modulé en amplitude et en fréquence (AM-FM), non-stationnaire et issue d'un système non-linéaire. Cette démodulation est basée sur l’utilisation conjointe de la décomposition en modes empiriques (EMD) et de l’opérateur d’énergie de Teager-Kaiser (TKEO).Dans ce système, le modèle discret (ou catégoriel) a été retenu pour représenter les six émotions de base (la tristesse, la colère, la joie, le dégoût, la peur et la surprise) et l'émotion dite neutre. La reconnaissance automatique a été optimisée par la recherche de la meilleure combinaison de caractéristiques, la sélection des plus pertinentes et par comparaison de différentes approches de classification. Deux bases de données émotionnelles de référence, en allemand et en espagnol, ont servi à entrainer et évaluer ce système. Une nouvelle base de données en Français, plus appropriée pour le contexte pédagogique a été construite, testée et validée
The aim of this thesis is to propose a speech emotion recognition (SER) system for application in classroom. This system has been built up using novel features based on the amplitude and frequency (AM-FM) modulation model of speech signal. This model is based on the joint use of empirical mode decomposition (EMD) and the Teager-Kaiser energy operator (TKEO). In this system, the discrete (or categorical) emotion theory was chosen to represent the six basic emotions (sadness, anger, joy, disgust, fear and surprise) and neutral emotion.Automatic recognition has been optimized by finding the best combination of features, selecting the most relevant ones and comparing different classification approaches. Two reference speech emotional databases, in German and Spanish, were used to train and evaluate this system. A new database in French, more appropriate for the educational context was built, tested andvalidated
APA, Harvard, Vancouver, ISO, and other styles
30

Galindo, losada Julian. "Adaptation des interfaces utilisateurs aux émotions." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM021/document.

Full text
Abstract:
L'expérience utilisateur (UX) est aujourd’hui acceptée comme un facteur de qualité important pour le succès des systèmes informatiques ou des logiciels. Elle dépend de dimensions comme l'émotion, l'esthétique, le plaisir ou la confiance. Parmi ces dimensions, l'importance de la facilité d'utilisation et de l’esthétique est reconnue. Ces deux aspects doivent donc être considérés lors de la conception d’interfaces utilisateur.Cela soulève la question de comment les concepteurs peuvent vérifier UX à l’exécution et l’améliorer si nécessaire. Pour obtenir une bonne qualité d’interface utilisateur en tout contexte d’usage (c.-à-d. utilisateur, plate-forme et environnement), la plasticité propose d’adapter l’interface utilisateur au contexte tout en préservant l’utilisabilité. De manière similaire, notre objectif est de préserver ou d’améliorer UX à l’exécution, en proposant des adaptations des interfaces utilisateur aux émotions des utilisateurs. Les adaptations peuvent concerner l’esthétique ou l’utilisabilité.Ainsi la question de recherche abordée dans ce doctorat est comment conduire l’adaptation des interfaces utilisateur avec un modèle de l’utilisateur basé sur les émotions et les caractéristiques de l’utilisateur (âge et sexe).Notre approche vise à personnaliser les interfaces utilisateurs avec les émotions de l’utilisateur au moment de l’exécution. Une architecture, Perso2U, a été conçue pour adapter les ’interfaces en fonction de leurs émotions et de leurs âge et sexe. Le Perso2U comprend trois composantes principales : (1) un moteur d’inférence, (2) un moteur d’adaptation et (3) le système interactif. Premièrement, le moteur d’inférence reconnaît la situation de l’utilisateur et en particulier ses émotions (joie, colère, dégoût, tristesse, surprise, peur, mépris) qui sont dans le modèle d’émotion Ekman plus l’émotion neutre. Deuxièmement, après l’inférence sur les émotions, la structure d’interface la mieux adaptée est sélectionnée et l’ensemble des paramètres de l’interface utilisateur (audio, taille de la police, Widgets, disposition de l’interface utilisateur, etc.) est calculé en fonction de ces émotions détectées. Troisièmement, ce calcul d’une structure d’interface utilisateur et de paramètres appropriés permet à l’interface utilisateur d’exécuter des changements à l’exécution visant à fournir une meilleure interface utilisateur. Puisque la reconnaissance des émotions est exécutée cycliquement, alors il est possible d’adapter les interfaces utilisateur à l’exécution.Puisque cette approche repose sur des outils de reconnaissance des émotions, nous avons mené une expérience pour étudier la similitude de la détection des émotions des visages à partir d’ouitls existants afin de comprendre si cette détection est indépendante de l’outil de reconnaissance des émotions ou non. Les résultats ont confirmé que les émotions détectées par les outils fournissent des valeurs émotionnelles similaires.Comme l’UX dépend de facteurs de qualité de l’interaction utilisateur comme l’esthétique et la facilité d'utilisation, et de caractéristiques individuelles telles que l’âge et le sexe, nous avons effectué une deuxième analyse expérimentale. Elle tend à montrer que : (1) les facteurs de qualité de l’interface utilisateur (esthétique et/ou utilisabilité) influencent les émotions de l’utilisateur en fonction de l’âge et du sexe, (2) le niveau (élevé et/ou faible) des facteurs de qualité de l’interface utilisateur semblent avoir une incidence différente sur les émotions selon l’âge et le sexe. À partir de ces résultats, nous définissons des seuils en fonction de l’âge et du sexe qui permettent au moteur d’inférence de détecter les problèmes d’utilisabilité et/ou d’esthétique
User interfaces adaptation by using emotions.Perso2U, an approach to personalize user interfaces with user emotions.User experience (UX) is nowadays recognized as an important quality factor to make systems or software successful in terms of user take-up and frequency of usage. UX depends on dimensions like emotion, aesthetics or visual appearance, identification, stimulation, meaning/value or even fun, enjoyment, pleasure, or flow. Among these dimensions, the importance of usability and aesthetics is recognized. So, both of them need to be considered while designing user interfaces (UI).It raises the question how designers can check UX at runtime and improve it if necessary. To achieve a good UI quality in any context of use (i.e. user, platform and environment), plasticity proposes to adapt UI to the context while preserving user-centered properties. In a similar way, our goal is to preserve or improve UX at runtime, by proposing UI adaptations. Adaptations can concern aesthetics or usability. They can be triggered by the detection of specific emotion, that can express a problem with the UI.So the research question addressed in this PhD is how to drive UI adaptation with a model of the user based on emotions and user characteristics (age & gender) to check or improve UX if necessary.Our approach aims to personalize user interfaces with user emotions at run-time. An architecture, Perso2U, has been designed to adapt the UI according to emotions and user characteristics (age and gender). Perso2U includes three main components: (1) Inferring Engine, (2) Adaptation Engine and (3) Interactive System. First, the inferring engine recognizes the user’s situation and in particular him/her emotions (happiness, anger, disgust, sadness, surprise, fear, contempt) plus neutral which are into Ekman emotion model. Second, after emotion recognition, the best suitable UI structure is chosen and the set of UI parameters (audio, Font-size, Widgets, UI layout, etc.) is computed based on such detected emotions. Third, this computation of a suitable UI structure and parameters allows the UI to execute run-time changes aiming to provide a better UI. Since the emotion recognition is performed cyclically then it allows UI adaptation at run-time.To go further into the inferring engine examination, we run two experiments about the (1) genericity of the inferring engine and (2) UI influence on detected emotions regarding age and gender.Since this approach relies on emotion recognition tools, we run an experiment to study the similarity of detecting emotions from faces to understand whether this detection is independent from the emotion recognition tool or not. The results confirmed that the emotions detected by the tools provide similar emotion values with a high emotion detection similarity.As UX depends on user interaction quality factors like aesthetics and usability, and on individual characteristics such as age and gender, we run a second experimental analysis. It tends to show that: (1) UI quality factors (aesthetics and/or usability) influences user emotions differently based on age and gender, (2) the level (high and/or low) of UI quality factors seem to impact emotions differently based on age and gender. From these results, we define thresholds based on age and gender that allow the inferring engine to detect usability and/or aesthetics problems
APA, Harvard, Vancouver, ISO, and other styles
31

Peillon, Stéphane. "Indexation vocale à vocabulaire illimité à base de décodage phonétique : application à la détection de clés vocales dans un flux de paroles." Avignon, 2002. http://www.theses.fr/2002AVIG0128.

Full text
Abstract:
Le stockage de données multimédia est aujourd'hui confronté au manque d'outils efficaces d'extraction et de tri de documents. Dans le cadre particulier de données vocales, nous proposons une technique d'indexation permettant de retrouver des documents sonores à partir de leur seul contenu. La pose d'index appropriés sur le médium permet de réduire considérablement l'information nécessaire a posteriori pour la phase de recherche d'une clé. Nous comparons deux modes d'indexation à base d'index phonétiques: l'un repose sur la meilleure séquence possible de phonèmes, l'autre sur des échelles d'hypothèses phonétiques produites sur une segmentation automatique a priori du corpus. Ce deuxième mode, désigné "treillis synchrone de phonèmes", offre de meilleures performances avec un faible surcoût de calcul, et conduit à un apprentissage réduit des paramètres du moteur de recherche. La technique présentée permet en outre la détection de clés vocales aussi bien dans un corpus vocal que textuel
Multimedia data storage is currently confronted with a lack of effective document extraction and sorting tools. In the specific context of voice data, we suggest an indexing technique which will enable speech documents to be retrieved by content only. Positioning relevant indexes on the medium enables the amount of information needed later for the key search phase to be greatly reduced. We compare two phonetic index-based indexing methods: one is based on the best possible sequence of phonemes, the other on scales of phonetic hypotheses produced on an automatic a priori segmentation of the corpus. This second mode, called "phoneme synchronized lattice" offers better performance with low additional computation cost, and requires less training for the search engine parameters. In addition, the technique presented in this document enables the detection of voice keywords in both speech and text corpora
APA, Harvard, Vancouver, ISO, and other styles
32

Cherbonnier, Anthony. "La reconnaissance des émotions à partir d’émoticônes graphiques : des recherches expérimentales à l’étude des usages sur une webradio." Thesis, Rennes 2, 2021. http://www.theses.fr/2021REN20005.

Full text
Abstract:
Les émoticônes sont souvent utilisées dans les environnements numériques pour transmettre des émotions. Bien qu’une grande diversité d’émoticônes existe, on sait peu de choses sur la façon dont elles transmettent des émotions par rapport à d’autres modes d’expression, et peu d’études se sont intéressées à leur utilisation dans un contexte scolaire. Dans cette thèse, quatre études (N = 291) ont été réalisées pour concevoir de « nouvelles » émoticônes représentant de manière non ambigüe les six émotions de base, trois études (N = 957) ont cherché à comparer la qualité de reconnaissance des émotions à partir de ces « nouvelles » émoticônes par rapport à d’autres modes d’expression, et notamment les expressions faciales. Une dernière étude a examiné la façon dont ces émoticônes sont utilisées sur une webradio par des collégiens (N = 204). Les résultats ont montré que les « nouvelles » émoticônes véhiculent les émotions plus efficacement et plus intensément que les expressions faciales et les émoticônes de Facebook et iOS. Cette meilleure reconnaissance est principalement due aux émotions négatives de dégoût et de tristesse. L’implémentation de ces « nouvelles » émoticônes sur la Wikiradio© Saooti a permis d’étudier leurs usages en contexte scolaire. Les résultats ont montré que, indépendamment du genre des élèves, l’utilisation de l’émoticône véhiculant la joie a été privilégiée pour exprimer les émotions à l’égard des émissions réalisées par des pairs. Ces résultats suggèrent la nécessité de concevoir des émoticônes spécifiques pour transmettre de manière non ambigüe des émotions dans les environnements numériques et étudier leurs effets sur les comportements
Emoticons are often used in digital environments to convey emotions. Although a wide variety of emoticons exist, little is known about how they convey emotions compared to other modes of expression, and few studies have looked at their use in a school setting. In this thesis, four studies (N = 291) were carried out to design “new” emoticons to unambiguously represent the six basic emotions, three studies (N = 957) sought to compare the quality of recognition of emotions from these “new” emoticons in relation to other modes of expression, and particularly facial expressions. A final study examined the way in which these emoticons are used on a webradio by middle school students (N = 204). The results showed that the “new” emoticons convey emotions more effectively and more intensely than facial expressions and emoticons from Facebook and iOS. This improved recognition is mainly due to the negative emotions of disgust and sadness. By including these "new" emoticons on the Wikiradio© Saooti made it possible to study their uses in an academic setting. The results showed that, regardless of the gender of the middle school students, the use of the emoticon conveying happiness was the preferred way to express emotions toward programmes produced by peers. These results suggest there is a need to design specific emoticons to convey emotions unambiguously in digital environments and to study their effects on behaviour
APA, Harvard, Vancouver, ISO, and other styles
33

Yang, Wenlu. "Personalized physiological-based emotion recognition and implementation on hardware." Electronic Thesis or Diss., Sorbonne université, 2018. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2018SORUS064.pdf.

Full text
Abstract:
Cette thèse étudie la reconnaissance des émotions à partir de signaux physiologiques dans le contexte des jeux vidéo et la faisabilité de sa mise en œuvre sur un système embarqué. Les défis suivants sont abordés : la relation entre les états émotionnels et les réponses physiologiques dans le contexte du jeu, les variabilités individuelles des réponses psycho-physiologiques et les problèmes de mise en œuvre sur un système embarqué. Les contributions majeures de cette thèse sont les suivantes. Premièrement, nous construisons une base de données multimodale dans le cadre de l'Affective Gaming (DAG). Cette base de données contient plusieurs mesures concernant les modalités objectives telles que les signaux physiologiques de joueurs et des évaluations subjectives sur des phases de jeu. A l'aide de cette base, nous présentons une série d'analyses effectuées pour la détection des moments marquant émotionnellement et la classification des émotions à l'aide de diverses méthodes d'apprentissage automatique. Deuxièmement, nous étudions la variabilité individuelle de la réponse émotionnelle et proposons un modèle basé sur un groupe de joueurs déterminé par un clustering selon un ensemble de traits physiologiques pertinents. Nos travaux mettent en avant le fait que le modèle proposé, basé sur un tel groupe personnalisé, est plus performant qu'un modèle général ou qu'un modèle spécifique à un utilisateur. Troisièmement, nous appliquons la méthode proposée sur un système ARM A9 et montrons que la méthode proposée peut répondre à l'exigence de temps de calcul
This thesis investigates physiological-based emotion recognition in a digital game context and the feasibility of implementing the model on an embedded system. The following chanllenges are addressed: the relationship between emotional states and physiological responses in the game context, individual variabilities of the pschophysiological responses and issues of implementation on an embedded system. The major contributions of this thesis are : Firstly, we construct a multi-modal Database for Affective Gaming (DAG). This database contains multiple measurements concerning objective modalities: physiological signals (ECG, EDA, EMG, Respiration), screen recording, and player's face recording, as well as subjective assessments on both game event and match level. We presented statistics of the database and run a series of analysis on issues such as emotional moment detection and emotion classification, influencing factors of the overall game experience using various machine learning methods. Secondly, we investigate the individual variability in the collected data by creating an user-specific model and analyzing the optimal feature set for each individual. We proposed a personalized group-based model created the similar user groups by using the clustering techniques based on physiological traits deduced from optimal feature set. We showed that the proposed personalized group-based model performs better than the general model and user-specific model. Thirdly, we implemente the proposed method on an ARM A9 system and showed that the proposed method can meet the requirement of computation time
APA, Harvard, Vancouver, ISO, and other styles
34

Argaud, Soizic. "Reconnaissance et mimétisme des émotions exprimées sur le visage : vers une compréhension des mécanismes à travers le modèle parkinsonien." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1B023/document.

Full text
Abstract:
La maladie de Parkinson est une affection neurodégénérative principalement associée à la dégénérescence progressive des neurones dopaminergiques du mésencéphale provoquant un dysfonctionnement des noyaux gris centraux. En parallèle de symptômes moteurs bien connus, cette affection entraîne également l’émergence de déficits émotionnels impactant en outre l’expression et la reconnaissance des émotions. Ici, se pose la question d’un déficit de reconnaissance des émotions faciales chez les patients parkinsoniens lié au moins en partie aux troubles moteurs. En effet, selon les théories de simulation des émotions, copier les émotions de l’autre nous permettrait de mieux les reconnaître. Ce serait le rôle du mimétisme facial. Automatique et inconscient, ce phénomène est caractérisé par des réactions musculaires congruentes à l’émotion exprimée par autrui. Dans ce contexte, une perturbation des capacités motrices pourrait conduire à une altération des capacités de reconnaissance des émotions. Or, l’un des symptômes moteurs les plus fréquents dans la maladie de Parkinson, l’amimie faciale, consiste en une perte de la mobilité des muscles du visage. Ainsi, nous avons examiné l’efficience du mimétisme facial dans la maladie de Parkinson, son influence sur la qualité du processus de reconnaissance des émotions, ainsi que l’effet du traitement dopaminergique antiparkinsonien sur ces processus. Pour cela, nous avons développé un paradigme permettant l’évaluation simultanée des capacités de reconnaissance et de mimétisme (corrugator supercilii, zygomaticus major et orbicularis oculi) d’émotions exprimées sur des visages dynamiques (joie, colère, neutre). Cette expérience a été proposée à un groupe de patients parkinsoniens comparé à un groupe de sujets sains témoins. Nos résultats supportent l’hypothèse selon laquelle le déficit de reconnaissance des émotions chez le patient parkinsonien pourrait résulter d’un système « bruité » au sein duquel le mimétisme facial participerait. Cependant, l’altération du mimétisme facial dans la maladie de Parkinson et son influence sur la reconnaissance des émotions dépendraient des muscles impliqués dans l’expression à reconnaître. En effet, ce serait davantage le relâchement du corrugateur plutôt que les contractions du zygomatique ou de l’orbiculaire de l’œil qui nous aiderait à bien reconnaître les expressions de joie. D’un autre côté, rien ne nous permet ici de confirmer l’influence du mimétisme facial sur la reconnaissance des expressions de colère. Enfin, nous avons proposé cette expérience à des patients en condition de traitement habituel et après une interruption temporaire de traitement. Les résultats préliminaires de cette étude apportent des éléments en faveur d’un effet bénéfique du traitement dopaminergique tant sur la reconnaissance des émotions que sur les capacités de mimétisme. L’hypothèse d’un effet bénéfique dit « périphérique » sur la reconnaissance des émotions par restauration du mimétisme facial reste à tester à ce jour. Nous discutons l’ensemble de ces résultats selon les conceptions récentes sur le rôle des noyaux gris centraux et sous l’angle de l’hypothèse de feedback facial
Parkinson’s disease is a neurodegenerative condition primarily resulting from a dysfunction of the basal ganglia following a progressive loss of midbrain dopamine neurons. Alongside the well-known motor symptoms, PD patients also suffer from emotional disorders including difficulties to recognize and to produce facial emotions. Here, there is a question whether the emotion recognition impairments in Parkinson’s disease could be in part related to motor symptoms. Indeed, according to embodied simulation theory, understanding other people’s emotions would be fostered by facial mimicry. Automatic and non-conscious, facial mimicry is characterized by congruent valence-related facial responses to the emotion expressed by others. In this context, disturbed motor processing could lead to impairments in emotion recognition. Yet, one of the most distinctive clinical features in Parkinson’s disease is facial amimia, a reduction in facial expressiveness. Thus, we studied the ability to mimic facial expression in Parkinson’s disease, its effective influence on emotion recognition as well as the effect of dopamine replacement therapy both on emotion recognition and facial mimicry. For these purposes, we investigated electromyographic responses (corrugator supercilii, zygomaticus major and orbicularis oculi) to facial emotion among patients suffering from Parkinson’s disease and healthy participants in a facial emotion recognition paradigm (joy, anger, neutral). Our results showed that the facial emotion processing in Parkinson’s disease could be swung from a normal to a pathological, noisy, functioning because of a weaker signal-to-noise ratio. Besides, facial mimicry could have a beneficial effect on the recognition of emotion. Nevertheless, the negative impact of Parkinson’s disease on facial mimicry and its influence on emotion recognition would depend on the muscles involved in the production of the emotional expression to decode. Indeed, the corrugator relaxation would be a stronger predictor of the recognition of joy expressions than the zygomatic or orbicularis contractions. On the other hand, we cannot conclude here that the corrugator reactions foster the recognition of anger. Furthermore, we proposed this experiment to a group of patients under dopamine replacement therapy but also during a temporary withdrawal from treatment. The preliminary results are in favour of a beneficial effect of dopaminergic medication on both emotion recognition and facial mimicry. The potential positive “peripheral” impact of dopamine replacement therapy on emotion recognition through restoration of facial mimicry has still to be tested. We discussed these findings in the light of recent considerations about the role of basal ganglia-based circuits and embodied simulation theory ending with the results’ clinical significances
APA, Harvard, Vancouver, ISO, and other styles
35

Cohendet, Romain. "Prédiction computationnelle de la mémorabilité des images : vers une intégration des informations extrinsèques et émotionnelles." Thesis, Nantes, 2016. http://www.theses.fr/2016NANT4033/document.

Full text
Abstract:
La mémorabilité des images est un sujet de recherche récent en vision par ordinateur. Les premières tentatives ont reposé sur l’utilisation d’algorithmes d’apprentissage pour inférer le degré de mémorabilité d’une image d’un ensemble de caractéristiques de bas niveau. Dans cette thèse, nous revenons sur les fondements théoriques de la mémorabilité des images, en insistant sur les émotions véhiculées par les images, étroitement liées à leur mémorabilité. En considération de cet éclairage théorique, nous proposons d’inscrire la prédiction de la mémorabilité des images dans un cadre de travail plus large, qui embrasse les informations intrinsèques mais également extrinsèques de l’image, liées à leur contexte de présentation et aux observateurs. En conséquence, nous construisons notre propre base de données pour l’étude de la mémorabilité des images ; elle sera utile pour éprouver les modèles existants, entraînés sur l’unique vérité terrain disponible jusqu’alors. Nous introduisons ensuite l’apprentissage profond pour la prédiction de la mémorabilité des images : notre modèle obtient les meilleures performances de prédiction à ce jour. En vue d’amender ces prédictions, nous cherchons alors à modéliser les effets contextuels et individuels sur la mémorabilité des images. Dans une dernière partie, nous évaluons la performance de modèles computationnels d’attention visuelle, de plus en plus utilisés pour la prédiction de la mémorabilité, pour des images dont le degré de mémorabilité et l’information émotionnelle varient. Nous présentons finalement le film interactif « émotionnel », qui nous permet d’étudier les liens entre émotion et attention visuelle dans les vidéos
The study of image memorability in computer science is a recent topic. First attempts were based on learning algorithms, used to infer the extent to which a picture is memorable from a set of low-level visual features. In this dissertation, we first investigate theoretical foundations of image memorability; we especially focus on the emotions the images convey, closely related to their memorability. In this light, we propose to widen the scope of image memorability prediction, to incorporate not only intrinsic, but also extrinsic image information, related to their context of presentation and to the observers. Accordingly, we build a new database for the study of image memorability; this database will be useful to test the existing models, trained on the unique database available so far. We then introduce deep learning for image memorability prediction: our model obtains the best performance to date. To improve its prediction accuracy, we try to model contextual and individual influences on image memorability. In the final part, we test the performance of computational models of visual attention, that attract growing interest for memorability prediction, for images which vary according to their degree of memorability and the emotion they convey. Finally, we present the "emotional" interactive movie, which enable us to study the links between emotion and visual attention for videos
APA, Harvard, Vancouver, ISO, and other styles
36

Le, Tallec Marc. "Compréhension de parole et détection des émotions pour robot compagnon." Thesis, Tours, 2012. http://www.theses.fr/2012TOUR4044.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Ajili, Insaf. "Reconnaissance des gestes expressifs inspirée du modèle LMA pour une interaction naturelle homme-robot." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLE037/document.

Full text
Abstract:
Dans cette thèse, nous traitons le problème de la reconnaissance des gestes dans un contexte d'interaction homme-robot. De nouvelles contributions sont apportées à ce sujet. Notre système consiste à reconnaitre les gestes humains en se basant sur une méthode d'analyse de mouvement qui décrit le geste humain d'une manière précise. Dans le cadre de cette étude, un module de niveau supérieur est intégré afin de reconnaître les émotions de la personne à travers le mouvement de son corps. Trois approches sont réalisées : la première porte sur la reconnaissance des gestes dynamiques en appliquant le modèle de Markov caché (MMC) comme méthode de classification.Un descripteur de mouvement local est implémenté basé sur une méthode d'analyse de mouvement,nommée LMA (Laban Movement Analysis) qui permet de décrire le mouvement de la personne dans ses différents aspects. Notre système est invariant aux positions et orientations initiales des personnes.Un algorithme d'échantillonnage a été développé afin de réduire la taille de notre descripteur et aussi adapter les données aux modèles de Markov cachés. Une contribution est réalisée aux MMCs pour analyser le mouvement dans deux sens (son sens naturel et le sens inverse) et ainsi améliorer la classification des gestes similaires. Plusieurs expériences sont faites en utilisant des bases de données d'actions publiques, ainsi que notre base de données composée de gestes de contrôle. Dans la seconde approche, un système de reconnaissance des gestes expressifs est mis en place afin de reconnaitre les émotions des personnes à travers leurs gestes. Une deuxième contribution consiste en le choix d'un descripteur de mouvement global basé sur les caractéristiques locales proposées dans la première approche afin de décrire l'entièreté du geste. La composante Effort de LMA est quantifiée afin de décrire l'expressivité du geste avec ses 4 facteurs (espace, temps, poids et flux). La classification des gestes expressifs est réalisée avec 4 méthodes d'apprentissage automatique réputées (les forêts d'arbres décisionnels, le perceptron multicouches, les machines à vecteurs de support : un-contre-un et un-contre-tous). Une étude comparative est faite entre ces 4 méthodes afin de choisir la meilleure. L'approche est validée avec des bases publiques et notre propre base des gestes expressifs.La troisième approche consiste en une étude statistique basée sur la perception humaine afin d'évaluer le système de reconnaissance ainsi que le descripteur de mouvement proposé. Cela permet d'estimer la capacité de notre système à pouvoir classifier et analyser les émotions comme un humain. Dans cette partie deux tâches sont réalisées avec les deux classifieurs (la méthode d'apprentissage RDF quia donné les meilleurs résultats dans la deuxième approche et le classifieur humain) : la classification des émotions et l'étude de l'importance des caractéristiques de mouvement pour discriminer chaque émotion
In this thesis, we deal with the problem of gesture recognition in a human-robot interaction context. New contributions are being made on this subject. Our system consists in recognizing human gestures based on a motion analysis method that describes movement in a precise way.As part of this study, a higher level module is integrated to recognize the emotions of the person through the movement of her body. Three approaches are carried out: the first deals with the recognition of dynamic gestures by applying the hidden Markov model (HMM) as a classification method. A local motion descriptor is implemented based on a motion analysis method, called LMA(Laban Movement Analysis), which describes the movement of the person in its different aspects.Our system is invariant to the initial positions and orientations of people. A sampling algorithm has been developed in order to reduce the size of our descriptor and also adapt the data to hidden Markov models. A contribution is made to HMMs to analyze the movement in two directions (its natural and opposite directions) and thus improve the classification of similar gestures. Severalexperiments are done using public action databases, as well as our database composed of controlgestures. In the second approach, an expressive gestures recognition system is set up to recognizethe emotions of people through their gestures. A second contribution consists of the choice of a global motion descriptor based on the local characteristics proposed in the first approach to describethe entire gesture. The LMA Effort component is quantified to describe the expressiveness of the gesture with its four factors (space, time, weight and flow). The classification of expressive gesturesis carried out with four well-known machine learning methods (random decision forests, multilayerperceptron, support vector machines: one-against-one and one-against-all. A comparative study is made between these 4 methods in order to choose the best one. The approach is validated with public databases and our database of expressive gestures. The third approach is a statistical studybased on human perception to evaluate the recognition system as well as the proposed motiondescriptor. This allows us to estimate the ability of our system to classify and analyze emotionsas a human. In this part, two tasks are carried out with the two classifiers (the RDF learning method that gave the best results in the second approach and the human classifier): the classification of emotions and the study of the importance of our motion features to discriminate each emotion
APA, Harvard, Vancouver, ISO, and other styles
38

Allaert, Benjamin. "Analyse des expressions faciales dans un flux vidéo." Thesis, Lille 1, 2018. http://www.theses.fr/2018LIL1I021/document.

Full text
Abstract:
De nos jours, dans des domaines tels que la sécurité et la santé, une forte demande consiste à pouvoir analyser le comportement des personnes en s'appuyant notamment sur l'analyse faciale. Dans cette thèse, nous explorons de nouvelles approches à destination de systèmes d’acquisition peu contraints. Plus spécifiquement, nous nous intéressons à l'analyse des expressions faciales en présence de variation d'intensité et de variations de pose du visage. Notre première contribution s'intéresse à la caractérisation précise des variations d'intensité des expressions faciales. Nous proposons un descripteur innovant appelé LMP qui s'appuie sur les propriétés physiques déformables du visage afin de conserver uniquement les directions principales du mouvement facial induit par les expressions. La particularité principale de notre travail est de pouvoir caractériser à la fois les micro et les macro expressions, en utilisant le même système d'analyse. Notre deuxième contribution concerne la prise en compte des variations de pose. Souvent, une étape de normalisation est employée afin d'obtenir une invariance aux transformations géométriques. Cependant, ces méthodes sont utilisées sans connaître leur impact sur les expressions faciales. Pour cela, nous proposons un système d'acquisition innovant appelé SNaP-2DFe. Ce système permet de capturer simultanément un visage dans un plan fixe et dans un plan mobile. Grâce à cela, nous fournissons une connaissance du visage à reconstruire malgré les occultations induites par les rotations de la tête. Nous montrons que les récentes méthodes de normalisation ne sont pas parfaitement adaptées pour l'analyse des expressions faciales
Facial expression recognition has attracted great interest over the past decade in wide application areas, such as human behavior analysis, e-health and marketing. In this thesis we explore a new approach to step forward towards in-the-wild expression recognition. Special attention has been paid to encode respectively small/large facial expression amplitudes, and to analyze facial expressions in presence of varying head pose. The first challenge addressed concerns varying facial expression amplitudes. We propose an innovative motion descriptor called LMP. This descriptor takes into account mechanical facial skin deformation properties. When extracting motion information from the face, the unified approach deals with inconsistencies and noise, caused by face characteristics. The main originality of our approach is a unified approach for both micro and macro expression recognition, with the same facial recognition framework. The second challenge addressed concerns important head pose variations. In facial expression analysis, the face registration step must ensure that minimal deformation appears. Registration techniques must be used with care in presence of unconstrained head pose as facial texture transformations apply. Hence, it is valuable to estimate the impact of alignment-related induced noise on the global recognition performance. For this, we propose a new database, called SNaP-2DFe, allowing to study the impact of head pose and intra-facial occlusions on expression recognition approaches. We prove that the usage of face registration approach does not seem adequate for preserving the features encoding facial expression deformations
APA, Harvard, Vancouver, ISO, and other styles
39

Abbou, Samir Hakim. "Une application de la transformée en ondelettes à la reconnaissance des commandes vocales en milieu bruité et sa mise en oeuvre par processeur dédié au traitement du signal /." Montréal : École de technologie supérieure, 2006. http://wwwlib.umi.com/cr/etsmtl/fullcit?pMR11528.

Full text
Abstract:
Thèse (M. Ing.)--École de technologie supérieure, Montréal, 2006.
"Mémoire présenté à l'École de technologie supérieure comme exigence partielle à l'obtention de la maîtrise en génie électrique." Bibliogr.: f. [95]-98. Également disponible en version électronique.
APA, Harvard, Vancouver, ISO, and other styles
40

Abbou, Samir Hakim. "Une application de la transformée en ondelettes à la reconnaissance des commandes vocales en milieu bruité et sa mise en oeuvre par processeur dédié au traitement du signal." Mémoire, École de technologie supérieure, 2006. http://espace.etsmtl.ca/467/1/ABBOU_Samir_Hakim.pdf.

Full text
Abstract:
Dans ce mémoire, un système de reconnaissance des chiffres isolés est présenté. Ce système est indépendant du locuteur et il est basé sur une méthode de subdivision du chiffre avec recouvrement en un nombre fixe de segments. Les segments ont des tailles différentes d'un chiffre à l'autre. La décomposition en paquets d'ondelettes admissibles selon l'échelle de Mel y est utilisée pour l'extraction des paramètres. Le débruitage par une méthode basée sur les ondelettes est appliqué et donne une reconnaissance robuste des chiffres isolés en présence de bruit blanc gaussien (AWGN). Après avoir simulée, la méthode a été implémentée sur le processeur dédié au traitement du signal (DSP) TMS320C6711.
APA, Harvard, Vancouver, ISO, and other styles
41

Yang, Wenlu. "Personalized physiological-based emotion recognition and implementation on hardware." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS064.

Full text
Abstract:
Cette thèse étudie la reconnaissance des émotions à partir de signaux physiologiques dans le contexte des jeux vidéo et la faisabilité de sa mise en œuvre sur un système embarqué. Les défis suivants sont abordés : la relation entre les états émotionnels et les réponses physiologiques dans le contexte du jeu, les variabilités individuelles des réponses psycho-physiologiques et les problèmes de mise en œuvre sur un système embarqué. Les contributions majeures de cette thèse sont les suivantes. Premièrement, nous construisons une base de données multimodale dans le cadre de l'Affective Gaming (DAG). Cette base de données contient plusieurs mesures concernant les modalités objectives telles que les signaux physiologiques de joueurs et des évaluations subjectives sur des phases de jeu. A l'aide de cette base, nous présentons une série d'analyses effectuées pour la détection des moments marquant émotionnellement et la classification des émotions à l'aide de diverses méthodes d'apprentissage automatique. Deuxièmement, nous étudions la variabilité individuelle de la réponse émotionnelle et proposons un modèle basé sur un groupe de joueurs déterminé par un clustering selon un ensemble de traits physiologiques pertinents. Nos travaux mettent en avant le fait que le modèle proposé, basé sur un tel groupe personnalisé, est plus performant qu'un modèle général ou qu'un modèle spécifique à un utilisateur. Troisièmement, nous appliquons la méthode proposée sur un système ARM A9 et montrons que la méthode proposée peut répondre à l'exigence de temps de calcul
This thesis investigates physiological-based emotion recognition in a digital game context and the feasibility of implementing the model on an embedded system. The following chanllenges are addressed: the relationship between emotional states and physiological responses in the game context, individual variabilities of the pschophysiological responses and issues of implementation on an embedded system. The major contributions of this thesis are : Firstly, we construct a multi-modal Database for Affective Gaming (DAG). This database contains multiple measurements concerning objective modalities: physiological signals (ECG, EDA, EMG, Respiration), screen recording, and player's face recording, as well as subjective assessments on both game event and match level. We presented statistics of the database and run a series of analysis on issues such as emotional moment detection and emotion classification, influencing factors of the overall game experience using various machine learning methods. Secondly, we investigate the individual variability in the collected data by creating an user-specific model and analyzing the optimal feature set for each individual. We proposed a personalized group-based model created the similar user groups by using the clustering techniques based on physiological traits deduced from optimal feature set. We showed that the proposed personalized group-based model performs better than the general model and user-specific model. Thirdly, we implemente the proposed method on an ARM A9 system and showed that the proposed method can meet the requirement of computation time
APA, Harvard, Vancouver, ISO, and other styles
42

Rapp, Vincent. "Analyse du visage pour l'interprétation de l'état émotionnel." Paris 6, 2013. http://www.theses.fr/2013PA066345.

Full text
Abstract:
L'objectif de cette thèse est de développer des outils d'analyse d'images et de vidéos de visages afin d'estimer l'état émotionnel d'un sujet. Deux thèmes de recherche sont abordés : la détection de points caractéristiques du visage et l'analyse du visage pour l'estimation de l'état émotionnel. Nous avons tout d'abord proposé MuKAM (\textit{Multi-Kernel Appearance Model}), un algorithme de détection automatique de points clefs du visage (coins des yeux, bout du nez. . . ). Nous proposons un détecteur en deux étages. Le premier étage va rapidement localiser, pour chaque point, un ensemble de positions candidates. Une caractérisation du visage à différentes échelles est utilisée, combinées à l'aide de machines à vecteurs supports à noyaux multiples. Le second étage va ensuite attribuer une probabilité à chacun des candidats d'être le point recherché en s'appuyant sur une configuration caractérisation/classifieur plus discriminante. Pour éviter les détections aberrantes, et ainsi améliorer la robustesse du système, des contraintes entres les points sont ensuite introduites. Cette étape est réalisée par un processus d'alignement permettant d'estimer les paramètres d'un modèle déformable à partir des localisations des candidats et de leurs probabilités. Des évaluations rigoureuses sur de nombreuses bases de données, ainsi qu'une comparaison avec les méthodes de l'état de l'art, attestent de l'efficacité de notre approche. La deuxième partie de cette thèse est dédiée à l'analyse du visage pour l'interprétation de l'état émotionnel d'un humain. Pour cela, deux systèmes sont proposés. Un premier système détecte les micro-mouvements (\textit{Action Units}) du visage lorsque celui-ci produit une expression. Le visage est représenté par des descripteurs hétérogènes caractérisant sa texture et sa forme, combinées à l'aide de machines à vecteurs supports multi-noyaux. Le deuxième système proposé est dédié à l'interprétation de l'état émotionnel d'un sujet en interaction. Pour cela, une modélisation plus subjective et continue de l'émotion est utilisée (en terme d'activité, de valence, de spontanéité et de contrôle). Des descripteurs dynamiques extraits à partir de différentes informations (formes, apparence, audio) sont associés à des régressions par noyau afin d'obtenir plusieurs prédictions indépendantes. Ces dernières sont ensuite fusionnées pour donner une prédiction finale par dimension. Ces deux systèmes ont été évalués lors de campagnes d'évaluations internationales (FERA'11 et AVEC'12) organisées en marge de conférences majeures du domaine. Les premières places obtenues pour ces deux compétitions montrent les avancées applicatives de ces travaux en analyse de l'état émotionnel
This thesis addresses the problem of face analysis for human affect prediction from images or sequences. Two main topics are investigated : facial landmark localization and face analysis for affect prediction. We first propose MuKAM (\textit{Multi-Kernel Appearance Model}), an automatic facial salient points detector (e. G. , eye and mouth corners, nose and chin tips). The first part of this system is an independent facial features detector based on two stages. The first stage quickly locates, for each sought point, a set of candidate locations. To represent the face, we use multi-scale features combined using multiple kernel learning for Support Vector Machine. The second stage employs higher level features and a non-linear kernel to estimate the candidate likelihoods. Moreover, we improve system robustness by introducing constraints between points. To introduce these constraints, we propose an alignment process step relying on a deformable model fitting: according to probabilities obtained at the end of the second stage, we want to find the set of parameters that best fit the model on the face. Extensive experiments have been carried out on different databases, assessing the accuracy and the robustness of the proposed approach. The second part of the thesis is dedicated to face analysis for human affect prediction. To this end, we propose two systems. The first one aims at detecting facial micro-movements, named Action Units (AU), occurring during a facial expression. To represent the face, we use heterogeneous features, characterizing its appearance and its shape, combined using multiple kernel learning. The second system aims at predicting human affect during an interaction thought a subjective and continuous representation of emotion (in terms of valence, arousal, expectancy and power). Dynamical descriptors are extracted from different cues (shape, global and local appearance, audio), and are associated to kernel regressions to obtain several independent predictions. These predictions are then fused to obtain a final prediction per dimensions. Both systems have been evaluated during international challenges (FERA'11 and AVEC'12), held in conjunction with major conferences of the field. The first place obtained in each challenge show the progress achieved in human affect prediction
APA, Harvard, Vancouver, ISO, and other styles
43

Hamdi, Hamza. "Plate-forme multimodale pour la reconnaissance d'émotions via l'analyse de signaux physiologiques : Application à la simulation d'entretiens d'embauche." Phd thesis, Université d'Angers, 2012. http://tel.archives-ouvertes.fr/tel-00997249.

Full text
Abstract:
La reconnaissance des émotions est un aspect important de l'informatique affective dont l'un des objectifs est l'étude et le développement d'interactions comportementales et émotionnelles entre humains et agents conversationnels animés. Dans ce contexte, un point également important concerne les dispositifs d'acquisition et les outils de traitement des signaux, conduisant à une estimation de l'état émotionnel de l'utilisateur. Le travail présenté dans ce manuscrit repose sur le développement d'une plate-forme multimodale d'acquisition et de traitement de signaux physiologiques (PACE). Cette plate-forme peut être considérée comme un middleware modulaire et générique permettant de mesurer, en temps réel, l'état émotionnel de l'utilisateur via l'estimation d'un vecteur d'état. Elle s'intègre dans le cadre de la mise en place d'un simulateur innovant destiné à la simulation d'entretiens d'embauche (Projet PISE : Plate-forme Immersive de Simulation d'Entretien). Cet outil permettra aux personnes en phase d'insertion ou de réinsertion, une meilleure gestion de leurs compétences comportementales et émotionnelles. L'approche que nous avons développée se fonde sur les résultats expérimentaux obtenus et sur une méthodologie originale impliquant différents modèles mathématiques. Différents protocoles expérimentaux, basés sur deux techniques d'induction de stimuli (images IAPS et séquences vidéo de Schaeffer) ont été proposés. Ils permettent la détermination de la corrélation entre les états émotionnels et les signaux physiologiques (EEG, ECG, etc.) issus des capteurs proposés. Trois méthodes de classification (SVM, naïve bayésienne, régression logistique) ont été comparées sur plusieurs critères d'évaluation. Nous avons proposé, à partir des résultats obtenus, une méthodologie permettant l'extraction en temps réel des émotions via les modèles proposés. Une étude expérimentale a également été menée avec pour objectif de valider la plate-forme PACE via la reconnaissance d'états émotionnels lors de séquences vidéo développées à l'Université d'Angers. L'approche multimodale proposée a donné de meilleurs résultats que les approches uni-modales précédentes. Enfin, notre plate-forme a été intégrée au simulateur PISE, et évaluée de manière subjective et objective lors de simulations d'entretiens. Les résultats ont permis de valider partiellement le simulateur.
APA, Harvard, Vancouver, ISO, and other styles
44

Ramezanpanah, Zahra. "Bi-lateral interaction between a humanoid robot and a human in mixed reality." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASG039.

Full text
Abstract:
Cette thèse peut être divisée en deux parties: la reconnaissance des actions et la reconnaissance des émotions. Chaque partie se fait selon deux méthodes, la méthode classique de Machine Learning et le réseau profond. Dans la section Reconnaissance des actions, nous avons d'abord défini un descripteur local basé sur la LMA, pour décrire les mouvements. LMA est un algorithme pour décrire un mouvement en utilisant ses quatre composants: le corps, l'espace, la forme et l'effort. Le seul objectif de cette partie étant la reconnaissance des gestes, seuls les trois premiers facteurs ont été utilisés. L'algorithme DTW, est implémenté pour trouver les similitudes des courbes obtenues à partir des vecteurs descripteurs obtenus par la méthode LMA. Enfin SVM, l'algorithme est utilisé pour former et classer les données. Dans la deuxième partie de cette section, nous avons construit un nouveau descripteur basé sur les coordonnées géométriques de différentes parties du corps pour présenter un mouvement. Pour ce faire, en plus des distances entre le centre de la hanche et les autres articulations du corps et les changements des angles de quaternion dans le temps, nous définissons les triangles formés par les différentes parties du corps et calculons leur surface. Nous calculons également l'aire de la seule frontière 3D conforme autour de toutes les articulations du corps. À la fin, nous ajoutons la vitesse de l'articulation différente dans le descripteur proposé. Nous avons utilisé LSTM pour évaluer ce descripteur. Dans la deuxième partie de cette thèse, nous avons d'abord présenté un module de niveau supérieur pour identifier les sentiments intérieurs des êtres humains en observant leurs mouvements corporels. Afin de définir un descripteur robuste, deux méthodes sont mises en œuvre: La première méthode est la LMA, qui en ajoutant le facteur «Effort» est devenue un descripteur robuste, qui décrit un mouvement et l'état dans lequel il a été effectué. De plus, le second sur est basé sur un ensemble de caractéristiques spatio-temporelles. Dans la suite de cette section, un pipeline de reconnaissance des mouvements expressifs est proposé afin de reconnaître les émotions des personnes à travers leurs gestes par l'utilisation de méthodes d'apprentissage automatique. Une étude comparative est faite entre ces 2 méthodes afin de choisir la meilleure. La deuxième partie de cette partie consiste en une étude statistique basée sur la perception humaine afin d'évaluer le système de reconnaissance ainsi que le descripteur de mouvement proposé
This thesis can be divided into two parts: action recognition and emotion recognition. Each part is done in two method, classic method of Machine Learning and deep network. In the Action Recognition section, we first defined a local descriptor based on the LMA, to describe the movements. LMA is an algorithm to describe a motion by using its four components: Body, Space, Shape and Effort. Since the only goal in this part is gesture recognition, only the first three factors have been used. The DTW, algorithm is implemented to find the similarities of the curves obtained from the descriptor vectors obtained by the LMA method. Finally SVM, algorithm is used to train and classify the data. In the second part of this section, we constructed a new descriptor based on the geometric coordinates of different parts of the body to present a movement. To do this, in addition to the distances between hip centre and other joints of the body and the changes of the quaternion angles in time, we define the triangles formed by the different parts of the body and calculated their area. We also calculate the area of the single conforming 3-D boundary around all the joints of the body. At the end we add the velocity of different joint in the proposed descriptor. We used LSTM to evaluate this descriptor. In second section of this thesis, we first presented a higher-level module to identify the inner feelings of human beings by observing their body movements. In order to define a robust descriptor, two methods are carried out: The first method is the LMA, which by adding the "Effort" factor has become a robust descriptor, which describes a movement and the state in which it was performed. In addition, the second on is based on a set of spatio-temporal features. In the continuation of this section, a pipeline of recognition of expressive motions is proposed in order to recognize the emotions of people through their gestures by the use of machine learning methods. A comparative study is made between these 2 methods in order to choose the best one. The second part of this part consists of a statistical study based on human perception in order to evaluate the recognition system as well as the proposed motion descriptor
APA, Harvard, Vancouver, ISO, and other styles
45

Ouellet, Claudie. "Les émotions suscitées par les préférences politiques peuvent-elles être révélées par une tâche de bissection temporelle?" Doctoral thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/37055.

Full text
Abstract:
Cette étude traite des variations de la perception de la durée de présentation de visages (photos) de politiciens situés à la gauche ou à la droite de l’axe politique. Ces variations sont analysées en fonction des émotions exprimées par ces visages (joie, colère ou neutre) et ce, en fonction des allégeances politiques des participants. Dans l’ensemble, par rapport aux conditions avec visages neutres ou exprimant de la joie, les participants surestiment la durée des visages exprimant la colère. Cet effet dépend cependant de l’allégeance politique des participants. Les participants à la gauche politique sous-estiment la durée de présentation des visages politiques exprimant une émotion neutre, comparativement aux conditions où les visages expriment la joie ou la colère. Par ailleurs, les résultats montrent que les participants de droite surestiment la durée de présentation des visages de politiciens ayant une orientation à gauche par rapport à la durée de présentation des visages de politiciens ayant une orientation à droite ; une telle influence de l’orientation des politiciens présentés n’est pas observée avec les participants de gauche. Les résultats de la présente étude montrent que l’allégeance politique des participants module l’effet sur la perception temporelle causé par le type d’expressions émotionnelles de visages délimitant le temps.
APA, Harvard, Vancouver, ISO, and other styles
46

Khan, Rizwan Ahmed. "Détection des émotions à partir de vidéos dans un environnement non contrôlé." Thesis, Lyon 1, 2013. http://www.theses.fr/2013LYO10227/document.

Full text
Abstract:
Dans notre communication quotidienne avec les autres, nous avons autant de considération pour l’interlocuteur lui-même que pour l’information transmise. En permanence coexistent en effet deux modes de transmission : le verbal et le non-verbal. Sur ce dernier thème intervient principalement l’expression faciale avec laquelle l’interlocuteur peut révéler d’autres émotions et intentions. Habituellement, un processus de reconnaissance d’émotions faciales repose sur 3 étapes : le suivi du visage, l’extraction de caractéristiques puis la classification de l’expression faciale. Pour obtenir un processus robuste apte à fournir des résultats fiables et exploitables, il est primordial d’extraire des caractéristiques avec de forts pouvoirs discriminants (selon les zones du visage concernées). Les avancées récentes de l’état de l’art ont conduit aujourd’hui à diverses approches souvent bridées par des temps de traitement trop couteux compte-tenu de l’extraction de descripteurs sur le visage complet ou sur des heuristiques mathématiques et/ou géométriques.En fait, aucune réponse bio-inspirée n’exploite la perception humaine dans cette tâche qu’elle opère pourtant régulièrement. Au cours de ces travaux de thèse, la base de notre approche fut ainsi de singer le modèle visuel pour focaliser le calcul de nos descripteurs sur les seules régions du visage essentielles pour la reconnaissance d’émotions. Cette approche nous a permis de concevoir un processus plus naturel basé sur ces seules régions émergentes au regard de la perception humaine. Ce manuscrit présente les différentes méthodologies bio-inspirées mises en place pour aboutir à des résultats qui améliorent généralement l’état de l’art sur les bases de référence. Ensuite, compte-tenu du fait qu’elles se focalisent sur les seules parties émergentes du visage, elles améliorent les temps de calcul et la complexité des algorithmes mis en jeu conduisant à une utilisation possible pour des applications temps réel
Communication in any form i.e. verbal or non-verbal is vital to complete various daily routine tasks and plays a significant role inlife. Facial expression is the most effective form of non-verbal communication and it provides a clue about emotional state, mindset and intention. Generally automatic facial expression recognition framework consists of three step: face tracking, feature extraction and expression classification. In order to built robust facial expression recognition framework that is capable of producing reliable results, it is necessary to extract features (from the appropriate facial regions) that have strong discriminative abilities. Recently different methods for automatic facial expression recognition have been proposed, but invariably they all are computationally expensive and spend computational time on whole face image or divides the facial image based on some mathematical or geometrical heuristic for features extraction. None of them take inspiration from the human visual system in completing the same task. In this research thesis we took inspiration from the human visual system in order to find from where (facial region) to extract features. We argue that the task of expression analysis and recognition could be done in more conducive manner, if only some regions are selected for further processing (i.e.salient regions) as it happens in human visual system. In this research thesis we have proposed different frameworks for automatic recognition of expressions, all getting inspiration from the human vision. Every subsequently proposed addresses the shortcomings of the previously proposed framework. Our proposed frameworks in general, achieve results that exceeds state-of-the-artmethods for expression recognition. Secondly, they are computationally efficient and simple as they process only perceptually salient region(s) of face for feature extraction. By processing only perceptually salient region(s) of the face, reduction in feature vector dimensionality and reduction in computational time for feature extraction is achieved. Thus making them suitable for real-time applications
APA, Harvard, Vancouver, ISO, and other styles
47

Péron, Julie. "Rôle du noyau sous-thalamique et de ses connexions cortico-sous-corticales dans la reconnaissance des émotions communiquées par le visage et par la voix." Rennes 1, 2008. http://www.theses.fr/2008REN1B118.

Full text
Abstract:
L’objectif était d’étudier l’implication du NST dans la reconnaissance des émotions en utilisant le modèle de la stimulation cérébrale profonde (SCP) dans la maladie de Parkinson (MP). Nous avons tout d’abord comparé les capacités de reconnaissance des expressions faciales émotionnelles (EFE) de 24 patients MP avant et après la SCP du NST. Les patients étaient spécifiquement déficitaires pour reconnaître les EFE de peur et de tristesse en condition post-opératoire (étude 1). Nous avons ensuite observé que ces modifications émotionnelles étaient corrélées à des modifications du métabolisme glucidique cérébral (18FDG-TEP) dans l’amygdale et le cortex orbito-frontal (étude 2). Enfin, nous avons montré que les patients présentaient également un biais de traitement émotionnel pour la peur et la tristesse lorsque les émotions étaient véhiculées par la voix humaine (étude 3). Ces résultats supportent l’hypothèse selon laquelle le NST serait une structure clé dans le circuit limbique.
APA, Harvard, Vancouver, ISO, and other styles
48

Girard, Éric. "Le jugement des expressions faciales dynamiques : l'importance de l'intensité maximale et finale, et de la moyenne globale." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1999. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape10/PQDD_0021/NQ43074.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Yang, Yu-Fang. "Contribution des caractéristiques diagnostiques dans la reconnaissance des expressions faciales émotionnelles : une approche neurocognitive alliant oculométrie et électroencéphalographie." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS099/document.

Full text
Abstract:
La reconnaissance experte de l'expression faciale est cruciale pour l'interaction et la communication sociale. Le comportement, les potentiels évoqués (ERP), et les techniques d’oculométrie peuvent être utilisés pour étudier les mécanismes cérébraux qui participent au traitement visuel automatique. La reconnaissance d'expressions faciales implique non seulement l'extraction d'informations à partir de caractéristiques faciales diagnostiques, stratégie qualifiée de traitement local, mais aussi l'intégration d'informations globales impliquant des traitements configuraux. Des nombreuses recherches concernant le traitement des informations faciales émotionnelles il apparaît que l’interaction des traitements locaux et configuraux pour la reconnaissance des émotions est mal comprise. La complexité inhérente à l'intégration de l'information faciale est mise en lumière lorsque l'on compare la performance de sujets sains et d’individus atteints de schizophrénie, car ces derniers ont tendance à s’attarder sur quelques éléments locaux, parfois peu informatifs. Les différentes façons d'examiner les visages peuvent avoir un impact sur la capacité socio-cognitive de reconnaître les émotions. Pour ces raisons, cette thèse étudie le rôle des caractéristiques diagnostiques et configurales dans la reconnaissance de l'expression faciale. En plus des aspects comportementaux, nous avons donc examiné la dynamique spatiale et temporelle des fixations à l’aide de mesures oculométriques, ainsi que l’activité électrophysiologique précoce considérant plus particulièrement les composantes P100 et N170. Nous avons créé de nouveaux stimuli des esquisses par une transformation numérique de portraits photos en esquisses, pour des visages exprimant colère, tristesse, peur, joie ou neutralité, issus de la base Radboud Faces Database, en supprimant les informations de texture du visage et ne conservant que les caractéristiques diagnostiques (yeux et sourcils, nez, bouche). Ces esquisses altèrent le traitement configural en comparaison avec les visages photographiques, ce qui augmente le traitement des caractéristiques diagnostiques par traitement élémentaire, en contrepartie. La comparaison directe des mesures neurocognitives entre les esquisses et les visages photographiques exprimant des émotions de base n'a jamais été testée, à notre connaissance. Dans cette thèse, nous avons examiné (i) les fixations oculaires en fonction du type de stimulus, (ii) la réponse électrique aux manipulations expérimentales telles que l'inversion et la déconfiguration du visage. Concernant, les résultats comportementaux montrent que les esquisses de visage transmettent suffisamment d'information expressive (compte tenu de la présence des caractéristiques diagnostiques) pour la reconnaissance des émotions en comparaison des visages photographiques. Notons que, comme attendu, il y avait un net avantage de la reconnaissance des émotions pour les expressions heureuses par rapport aux autres émotions. En revanche, reconnaître des visages tristes et en colère était plus difficile. Ayant analysé séparément les fixations successives, les résultats indiquent que les participants ont adopté un traitement plus local des visages croqués et photographiés lors de la deuxième fixation. Néanmoins, l'extraction de l'information des yeux est nécessaire lorsque l'expression transmet des informations émotionnelles plus complexes et lorsque les stimuli sont simplifiés comme dans les esquisses. Les résultats de l’électroencéphalographie suggèrent également que les esquisses ont engendré plus de traitement basé sur les parties. Les éléments transmis par les traits diagnostiques pourraient avoir fait l'objet d'un traitement précoce, probablement dû à des informations de bas niveau durant la fenêtre temporelle de la P100, suivi d'un décodage ultérieur de la structure faciale dans la fenêtre temporelle de la N170
Proficient recognition of facial expression is crucial for social interaction. Behaviour, event-related potentials (ERPs), and eye-tracking techniques can be used to investigate the underlying brain mechanisms supporting this seemingly effortless processing of facial expression. Facial expression recognition involves not only the extraction of expressive information from diagnostic facial features, known as part-based processing, but also the integration of featural information, known as configural processing. Despite the critical role of diagnostic features in emotion recognition and extensive research in this area, it is still not known how the brain decodes configural information in terms of emotion recognition. The complexity of facial information integration becomes evident when comparing performance between healthy subjects and individuals with schizophrenia because those patients tend to process featural information on emotional faces. The different ways in examining faces possibly impact on social-cognitive ability in recognizing emotions. Therefore, this thesis investigates the role of diagnostic features and face configuration in the recognition of facial expression. In addition to behavior, we examined both the spatiotemporal dynamics of fixations using eye-tracking, and early neurocognitive sensitivity to face as indexed by the P100 and N170 ERP components. In order to address the questions, we built a new set of sketch face stimuli by transforming photographed faces from the Radboud Faces Database through the removal of facial texture and retaining only the diagnostic features (e.g., eyes, nose, mouth) with neutral and four facial expressions - anger, sadness, fear, happiness. Sketch faces supposedly impair configural processing in comparison with photographed faces, resulting in increased sensitivity to diagnostic features through part-based processing. The direct comparison of neurocognitive measures between sketch and photographed faces expressing basic emotions has never been tested. In this thesis, we examined (i) eye fixations as a function of stimulus type, and (ii) neuroelectric response to experimental manipulations such face inversion and deconfiguration. The use of these methods aimed to reveal which face processing drives emotion recognition and to establish neurocognitive markers of emotional sketch and photographed faces processing. Overall, the behavioral results showed that sketch faces convey sufficient expressive information (content of diagnostic features) as in photographed faces for emotion recognition. There was a clear emotion recognition advantage for happy expressions as compared to other emotions. In contrast, recognizing sad and angry faces was more difficult. Concomitantly, results of eye-tracking showed that participants employed more part-based processing on sketch and photographed faces during second fixation. The extracting information from the eyes is needed when the expression conveys more complex emotional information and when stimuli are impoverished (e.g., sketch). Using electroencephalographic (EEG), the P100 and N170 components are used to study the effect of stimulus type (sketch, photographed), orientation (inverted, upright), and deconfiguration, and possible interactions. Results also suggest that sketch faces evoked more part-based processing. The cues conveyed by diagnostic features might have been subjected to early processing, likely driven by low-level information during P100 time window, followed by a later decoding of facial structure and its emotional content in the N170 time window. In sum, this thesis helped elucidate elements of the debate about configural and part-based face processing for emotion recognition, and extend our current understanding of the role of diagnostic features and configural information during neurocognitive processing of facial expressions of emotion
APA, Harvard, Vancouver, ISO, and other styles
50

Milcent, Anne-Sophie. "Les agents virtuels expressifs et leur impact sur l'induction de l'empathie chez l'utilisateur : application au domaine de la formation médicale." Thesis, Paris, HESAM, 2020. http://www.theses.fr/2020HESAE014.

Full text
Abstract:
Les travaux de cette thèse de doctorat portent sur les agents virtuels expressifs et leur impact sur l'induction d'empathie chez l'utilisateur. L'évolution des techniques de l’informatique graphique permet aujourd’hui de créer des agents virtuels réalistes au niveau visuel et comportemental. L'expressivité des agents est un enjeu important pour les interactions homme-machine. Cependant, il est encore peu fréquent que les agents virtuels soient dotés d'expressions faciales, limitant alors leur possibilité d'induire de l'empathie chez l'utilisateur. Nos travaux font suite aux perspectives de recherche concernant la retranscription des émotions sur un agent virtuel, et contribuent à étendre les connaissances concernant les interactions avec les agents, notamment l'impact de leur expressivité sur la mise en place d'une situation empathique. Pour mener à bien ces travaux, nous avons conduit deux expérimentations. Notre première expérimentation porte sur la reconnaissance des émotions de base sur un agent virtuel conçu à partir de techniques de modélisation avancée. Cette étude a également permis d'évaluer la pertinence de facteurs d'expressivité humaine sur l'agent, notamment les rides d'expression et la variation de la taille pupillaire en fonction de l'état émotionnel, pour faciliter la perception des émotions de celui-ci. Notre seconde expérimentation porte sur l'impact de l'expressivité faciale de l'agent virtuel sur l'empathie de l'utilisateur. Dépendants du contexte, les résultats démontrent que la prise de perspective de l'utilisateur, composante cognitive de l'empathie, est plus importante lorsque l'agent virtuel réaliste possède des expressions faciales. Enfin, nous avons étudié l'impact de l'expressivité des agents sur l'engagement et la présence sociale de l'utilisateur. Cette étude ouvre des perspectives concernant une potentielle corrélation entre les notions d'empathie, de présence sociale et d'engagement
Pedagogical agents, non-player characters, virtual advisors or assistants, virtual agents are more and more present in our daily life. Some attract our attention, seem to show us interest, to be able to communicate and to express their emotional states. These agents have been the subject of numerous investigations in various fields of research such as computerscience, psychology or cognitive sciences. The work of this PhD thesis focuses on the expressive virtual agents and their impact on the user empathy induction. The evolution of computer graphics techniques now makes it possible to create virtual agents that are visually and behaviorally realistic. The expressiveness of agents is an important issue for human-computer interactions. However, it is still rare for virtual agents to be equipped with facial expressions, thus limiting their ability toinduce empathy in the user.Our work follows up on the perspectives opened by researchers in the field concerning the transcription of emotions on a virtual agent, and contributes to extend the knowledge concerning interactions with agents, in particular the impact of their expressiveness on the implementation of an empathetic situation. To carry out this work, we conducted two experiments. The first one deals with the recognition of basic emotions on a virtual agent designed using advanced modeling techniques. This study also allowed us to evaluate the relevance of human expressiveness factors on the agent, notably the presence of expression wrinkles and the variation of pupil size according to the emotional state, to facilitate the perception of the agent’s emotions. Our second experiment focuses on the impact of the virtual agent’s facial expressiveness on the user’s empathy. Depending on the context, the results show that user’s perspective taking, the cognitive component of empathy, is greater when the realistic virtual agent presents emotional facial expressions compared to an agent who has no facial expressions. Finally, we studied the impact of the agents’ expressiveness on the user’s engagementand social presence. This study opens perspectives on a potential correlation between the notions of empathy, social presence and engagement
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography